Автор Тема: [bash]Регулярные выражения (Прочитано 1691 раз)

Fant_nk · « : 07 Июня 2010, 11:41:28 »

Задача: в документе (html) необходимо найти определенные гиперссылки и сохранить в отдельный файл.
Формат ссылки: http://example.com/download/anything.ext
Прочитал man sed, понял, что он только заменяет регулярные выражения. Гугл особых ответов мне не дал.
Что-нибудь можете посоветовать?

Сейчас копаю в сторону egrep:

Код: [Выделить]

egrep -o 'mp3' file.htm
>mp3
>mp3
...

sergeyvl12 · « **Ответ #1 :** 07 Июня 2010, 12:05:23 »

awk - простенький, но давольно мощный язык, perl наконец. Кстати может и обычный grep подойти:

Код: [Выделить]

cat input_file.html | grep --only-matching "regexp" > output_file

где-то так. Только регулярное выражение составь (man grep).

Если ссылки надо не просто сохранять в отдельный файл, а еще какие-то операции над ними проделывать, то лучше сразу перл.

Fant_nk · « **Ответ #2 :** 07 Июня 2010, 12:07:31 »

Надо выкачивать потом. Я бы сохранил все в файл, а потом из файла wget'ом брал бы...

Все, получилось! Все файлы для скачивания находятся в одном каталоге на сайте.

Код: [Выделить]

grep -o 'http://example.com/download.*ext' page.htmИли выводим в файл (sergeyvl12):

Код: [Выделить]

cat input_file.html | grep --only-matching "http://example.com/download.*ext" > output_file

Форум русскоязычного сообщества Ubuntu

Автор Тема: [bash]Регулярные выражения (Прочитано 1691 раз)

Fant_nk

[bash]Регулярные выражения

sergeyvl12

Re: [bash]Регулярные выражения

Fant_nk

Re: [bash]Регулярные выражения