Автор Тема: Shell парсинг html (Прочитано 5454 раз)

FiTS · « : 19 Октября 2010, 17:25:36 »

Дали задачку вывести нужный текст из html тегов стандартными утилитами. Подскажите чем лучше парсить html и чем его можно получить с сервера, кроме lynx. Похожей темы не нашёл.. Сильно не бить

Scorry · « **Ответ #1 :** 19 Октября 2010, 17:41:16 »

Цитата: FiTS от 19 Октября 2010, 17:25:36

чем его можно получить с сервера, кроме lynx.

wget, curl

dieselist · « **Ответ #2 :** 19 Октября 2010, 17:47:16 »

а чтоб парсить - coreutils, grep, sed, awk

FiTS · « **Ответ #3 :** 19 Октября 2010, 21:09:20 »

Спасибо. Хотелось бы всё же пример вывода строки между тегами хотя бы <a href...></a>
Буду очень признателен.

Пользователь решил продолжить мысль 19 Октября 2010, 21:20:12:

Дошло до самого

Для grep будет так: cat file | grep "<a.*</a>"
Интересно узнать как на sed и awk

smaharbA · « **Ответ #4 :** 19 Октября 2010, 21:21:18 »

Код: [Выделить]

lynx -dump https://forum.ubuntu.ru/index.php?topic=119230.0 | less

FiTS · « **Ответ #5 :** 19 Октября 2010, 22:49:00 »

Возник ещё такой вопрос. Как удалить все символы конца строки т.е. склеить все строки в файле? Заранее спасибо.

Пользователь решил продолжить мысль 19 Октября 2010, 23:05:37:

Или заменить его на пробел. Или лучше как заставить работать sed не построчно. Ато я этот html никогда не отпарсю.

dieselist · « **Ответ #6 :** 19 Октября 2010, 23:35:53 »

Скажи что конкретнее тебе надо?
В инете миллион мелких скриптов на том же sed, в том числе и для парсинга html.

Еще очень удобно выполнять команды sed-а непосредственно из vim.

FiTS · « **Ответ #7 :** 19 Октября 2010, 23:45:00 »

Надо выдернуть дату новости её название и текст без таблиц, списков и ссылок из блока:

(Нажмите, чтобы показать/скрыть)

Код: [Выделить]

<div id="news-8">
  <div>
    <b>17.09.2010</b>
    <br/>
    <span class="title">Информация о сдаче задолженностей</span>
    <br/>
  </div>
  <div>

Согласно решению деканата математического факультета   установлен следующий порядок пересдач задолженностей за весенний семестр 2010 учебного года:

<p>
<ul>
    <li>Пересдачи принимаются c 24 сентября по 25 октября включительно.</li>
    <li>За этот период может быть проведено не более двух пересдач по одному предмету.</li>
    <li>Результаты пересдач заносятся в ведомость, выдаваемую деканатом, индивидуальные направления на пересдачу выдаются в виде исключения.</li>
</ul>
</p>

<p>
    В связи с вышеизложенным, Всем лекторам, принимавшим зачеты и экзамены в 2-ом семестре, необходимо до 22 сентября сообщить методисту Л. И. Немовой  назначенные даты пересдач (последняя дата 25 октября).
</p>

</div>

Должно получиться что-то типа:

(Нажмите, чтобы показать/скрыть)

smaharbA · « **Ответ #8 :** 20 Октября 2010, 02:21:50 »

чем люнкс не устраивает ?

Код: [Выделить]

tidy -utf8 -ashtml -language ru -wrap 0 txt.html | sed 's/</\n\</g;s/>/>\n/g' | grep -v '<.*>\|^$'

FiTS · « **Ответ #9 :** 20 Октября 2010, 07:01:12 »

Цитата: smaharbA от 20 Октября 2010, 02:21:50

чем люнкс не устраивает ?

Спасибо за решение. Не знал про разделители. Люнкса как и тайди там нет, как и прав рута у меня.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Shell парсинг html (Прочитано 5454 раз)

FiTS

Shell парсинг html

Scorry

Re: Shell парсинг html

dieselist

Re: Shell парсинг html

FiTS

Re: Shell парсинг html

smaharbA

Re: Shell парсинг html

FiTS

Re: Shell парсинг html

dieselist

Re: Shell парсинг html

FiTS

Re: Shell парсинг html

smaharbA

Re: Shell парсинг html

FiTS

Re: Shell парсинг html