Автор Тема: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов) (Прочитано 1207 раз)

Свет_в_окошке · « : 24 Ноября 2014, 17:21:43 »

Господа, прошу помочь, т.к. в программировании сама - полный ноль! Требуется вывести из лога уникальные(не повторяющиеся) имена всех запрошенных ресурсов... Понимаю, что надо записывать всё в temp-файл, но КАК? Может, есть какие-нибудь наработки или ссылки, чтобы почитать?) То есть, допустим, из строки "127.0.0.1 - - [15/Sep/2014:15:32:23 +0600] "GET /denwer/ HTTP/1.1" 200 16324" мне нужно получить "/denwer/"... Заранее СПАСИБО каждому, кто поможет)))

Peter_I · « **Ответ #1 :** 24 Ноября 2014, 18:36:16 »

Для этого есть более чем достаточно утилит.
Эту задачу удобно решать, если запрос любого ресурса имеет один и тот же формат.
Искать по общему для всех сочетанию в той строке, в которой упоминается также и ресурс,
удобнее с помощью

Код: [Выделить]

grep "pattern" log-file > log_cЗатем надо удалить из него одинаковые строки, а перед этом отсортировать

Код: [Выделить]

sort log_c >log_c_s
uniq log_c_s log_c_s_u

Затем для вывода имён ресурсов удобно восползоваться программой cut, но надёжнее awk.
Предположим, что каждая строка в log_c_s_u состоит из частей, разделённых одиночными пробелами
и имя ресурса - в 3-м поле. Тогда их имена выведет команда

Код: [Выделить]

cut -d " " -f 3 log_c_s_u > log_c_s_u_rА если пробелы не одиночные, их можно сделать таковыми командой

Код: [Выделить]

tr -s " " <log_c_s_u >log_c_s_u1

ALiEN · « **Ответ #2 :** 24 Ноября 2014, 18:58:51 »

если в логе не встречается разных по формату записей, то

Код: [Выделить]

cat file | grep GET | cut -d' ' -f7 | uniq
cat file - читаем файл
grep GET - выбираем только строки с запросом "GET"
cut -d' ' -f7 - делим строку на поля, разделитель пробел, нам нужно седьмое поле
uniq - только уникальные имена

Свет_в_окошке · « **Ответ #3 :** 24 Ноября 2014, 19:05:20 »

Peter_I,большое спасибо за помощь!

Peter_I · « **Ответ #4 :** 24 Ноября 2014, 19:07:12 »

Ещё, если заранее известны имена всех ресурсов, то с помощью

Код: [Выделить]

rm -f resource_number
while resourse read
 do
grep -c $resource log-file >> resource_number
 done < resource_list

можно получить файл из строк, где каждая будет состоять из числа запросов каждого ресурса.
Если не 0, то он был запрошен.

Свет_в_окошке · « **Ответ #5 :** 24 Ноября 2014, 19:08:33 »

ALiEN175, спасибо большое!

Пользователь решил продолжить мысль 24 Ноября 2014, 19:08:49:

Peter_I, очень полезная информация, спасибо!

Peter_I · « **Ответ #6 :** 24 Ноября 2014, 19:25:22 »

Рад быть полезным, но 2-й вариант может оказаться нерациональным.

ArcFi · « **Ответ #7 :** 24 Ноября 2014, 20:17:29 »

Код: [Выделить]

awk '!seen[$7]++{print $7}'

Форум русскоязычного сообщества Ubuntu

Автор Тема: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов) (Прочитано 1207 раз)

Свет_в_окошке

Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

Peter_I

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

ALiEN

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

Свет_в_окошке

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

Peter_I

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

Свет_в_окошке

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

Peter_I

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)

ArcFi

Re: Скрипт на bash - разбор лога (получить уникальные имена запрошенных ресурсов)