Автор Тема: Qt: вытащить текст из html страницы (Прочитано 5132 раз)

FluffyMan · « : 20 Мая 2012, 17:34:34 »

необходимо выдрать текст из html страницы. к примеру отсюда надо забрать "привет"

...много_тегов<div dir="ltr" class="t0">привет</div>много_тегов...
как средствами QRegExp сделать конструкцию типа "удалить все символы в строке, кроме тех, что находятся в блоке <div dir="ltr" class="t0"></div>", подскажите? или посоветуйте что почитать по регулярным выражениям. а то у М. Шлее примеров мало(

kosteek · « **Ответ #1 :** 20 Мая 2012, 18:14:35 »

Вам нужен хтмл парсер. Посмотрите тут пример, реализован с помощью libxml2.

hippi90 · « **Ответ #2 :** 20 Мая 2012, 18:16:58 »

HTML не парсится регулярными выражениями, для этого нужен специальный парсер.

FluffyMan · « **Ответ #3 :** 20 Мая 2012, 18:41:20 »

всем спасибо. я поступил иначе (что за привычка задавать вопросы, если сам до конца не обдумал все варианты).
я считал html текс в Qstring переменную. далее

Код: [Выделить]

...много_тегов<div dir="ltr" class="t0">привет</div>много_тегов...привел к виду

Код: [Выделить]

...много_тегов^привет</div>много_тегов...далее удалил все до "^" включительно. далее удалил все после первой встречной "<" включительно. в итоге получил то, что и требовалось. А именно "привет".

если в будущем буду иметь дело более серьезно с разборами xml, html, json, то буду смотреть в сторону нормальных парсеров. еще раз всем спасибо.

Кровавый · « **Ответ #4 :** 20 Мая 2012, 18:45:28 »

Цитата: FluffyMan от 20 Мая 2012, 18:41:20

всем спасибо. я поступил иначе (что за привычка задавать вопросы, если сам до конца не обдумал все варианты).
я считал html текс в Qstring переменную. далее
Код: [Выделить]
...много_тегов<div dir="ltr" class="t0">привет<>много_тегов...привел к виду
Код: [Выделить]
...много_тегов^привет<>много_тегов...далее удалил все до "^" включительно. далее удалил все после первой встречной "<". в итоге получил то, что и требовалось.

если в будущем буду иметь дело более серьезно с разборами xml, html, json, то буду смотреть в сторону парсеров. еще раз всем спасибо.

Имеем:

Код: [Выделить]

...много_тегов<div dir="ltr" class="t0">пр<b>и<b>вет<>много_тегов...Получаем:

Код: [Выделить]

прто есть, если в тексте попадается какой-нибудь тег, то он ломает весь алгоритм.

Мой вам совет: не изобретайте велосипеда (сам так делал...

). За вас его уже изобрели.

FluffyMan · « **Ответ #5 :** 20 Мая 2012, 18:54:09 »

Цитата: Кровавый от 20 Мая 2012, 18:45:28

Цитата: FluffyMan от 20 Мая 2012, 18:41:20
всем спасибо. я поступил иначе (что за привычка задавать вопросы, если сам до конца не обдумал все варианты).
я считал html текс в Qstring переменную. далее
Код: [Выделить]
...много_тегов<div dir="ltr" class="t0">привет<>много_тегов...привел к виду
Код: [Выделить]
...много_тегов^привет<>много_тегов...далее удалил все до "^" включительно. далее удалил все после первой встречной "<". в итоге получил то, что и требовалось.

если в будущем буду иметь дело более серьезно с разборами xml, html, json, то буду смотреть в сторону парсеров. еще раз всем спасибо.

Имеем:
Код: [Выделить]
...много_тегов<div dir="ltr" class="t0">пр<b>и<b>вет<>много_тегов...Получаем:
Код: [Выделить]
прто есть, если в тексте попадается какой-нибудь тег, то он ломает весь алгоритм.

Мой вам совет: не изобретайте велосипеда (сам так делал... ). За вас его уже изобрели.

в моем частном случае там нет никаких тегов 100%. это ответ гугла на запрос перевода слова) да я знаю, что давно все сделано за нас. просто в моем случае как-то проще сделать велосипед, чем читать описания на парсеры. это как из пушки по воробьям.

Кровавый · « **Ответ #6 :** 20 Мая 2012, 19:01:17 »

Цитата: FluffyMan от 20 Мая 2012, 18:54:09

в моем частном случае там нет никаких тегов 100%. это ответ гугла на запрос перевода слова) да я знаю, что давно все сделано за нас. просто в моем случае как-то проще сделать велосипед, чем читать описания на парсеры. это как из пушки по воробьям.

Тогда, понимаю, чем проще и быстрей, тем лучше.

FluffyMan · « **Ответ #7 :** 20 Мая 2012, 19:07:32 »

Цитата: Кровавый от 20 Мая 2012, 19:01:17

Цитата: FluffyMan от 20 Мая 2012, 18:54:09
в моем частном случае там нет никаких тегов 100%. это ответ гугла на запрос перевода слова) да я знаю, что давно все сделано за нас. просто в моем случае как-то проще сделать велосипед, чем читать описания на парсеры. это как из пушки по воробьям.

Тогда, понимаю, чем проще и быстрей, тем лучше.

да.

и все же Вы правы. Для уверенности (вдруг там все таки както окажутся исмволы "<" и ">", мало ли в переведенном тексте будут эти символы) я переделал так:

приводим к виду

Код: [Выделить]

..много_тегов~привет~много_тегов...и потом уже удаляем до "~" включительно и после "~" включительно (так как в тексте перевода врядли окажется тильда).

danya · « **Ответ #8 :** 23 Мая 2012, 01:42:08 »

как всё сложно
а нельзя смотреть на знак ">" если после него не встречается знак "<" копируем текст в буфер пока не появится "<" и не нужно изобретать велосипед или я чего то недопонял?

Yurror · « **Ответ #9 :** 23 Мая 2012, 08:22:17 »

danya,
ты только что изобрёл свой велосипед =)

danya · « **Ответ #10 :** 23 Мая 2012, 13:54:20 »

Цитата: Yurror от 23 Мая 2012, 08:22:17

danya,
ты только что изобрёл свой велосипед =)

возможно
но вот это

Цитировать

и потом уже удаляем до "~" включительно и после "~" включительно (так как в тексте перевода врядли окажется тильда).

явно костыль

goldskif · « **Ответ #11 :** 28 Мая 2012, 13:36:39 »

не знаю, што таке QRegExp, но на баше хтмл-теги выдираются просто ))

FluffyMan · « **Ответ #12 :** 28 Мая 2012, 18:25:04 »

Цитата: goldskif от 28 Мая 2012, 13:36:39

не знаю, што таке QRegExp, но на баше хтмл-теги выдираются просто ))

очень ценный комментарий))

Пользователь решил продолжить мысль 28 Мая 2012, 18:36:58:

Цитата: danya от 23 Мая 2012, 01:42:08

как всё сложно
а нельзя смотреть на знак ">" если после него не встречается знак "<" копируем текст в буфер пока не появится "<" и не нужно изобретать велосипед или я чего то недопонял?

не допоняли. таких скобок очень пного. и какая по счету мне нужна заранее неизвестно. (или известно, но я об этом не знаю)))

danya · « **Ответ #13 :** 29 Мая 2012, 00:53:48 »

какая разница есть они или нет
дело в том что мы смотрим на закрывающую скобку если после нее не идёт открывающая то этот текст мы и берём
можете выслать пример попробую накидать алгоритм

FluffyMan · « **Ответ #14 :** 29 Мая 2012, 09:36:36 »

Цитата: danya от 29 Мая 2012, 00:53:48

какая разница есть они или нет
дело в том что мы смотрим на закрывающую скобку если после нее не идёт открывающая то этот текст мы и берём
можете выслать пример попробую накидать алгоритм

Дело в том, что есть такие теги, у которых внутри тела ( после > и перед <) идет текст, мне не нужный. Например тег ссылка. Позже пример кину.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Qt: вытащить текст из html страницы (Прочитано 5132 раз)

FluffyMan

Qt: вытащить текст из html страницы

kosteek

Re: Qt: вытащить текст из html страницы

hippi90

Re: Qt: вытащить текст из html страницы

FluffyMan

Re: Qt: вытащить текст из html страницы

Кровавый

Re: Qt: вытащить текст из html страницы

FluffyMan

Re: Qt: вытащить текст из html страницы

Кровавый

Re: Qt: вытащить текст из html страницы

FluffyMan

Re: Qt: вытащить текст из html страницы

danya

Re: Qt: вытащить текст из html страницы

Yurror

Re: Qt: вытащить текст из html страницы

danya

Re: Qt: вытащить текст из html страницы

goldskif

Re: Qt: вытащить текст из html страницы

FluffyMan

Re: Qt: вытащить текст из html страницы

danya

Re: Qt: вытащить текст из html страницы

FluffyMan

Re: Qt: вытащить текст из html страницы