Автор Тема: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf [Решено] (Прочитано 1613 раз)

OlgaOlga · « : 20 Ноября 2019, 04:10:01 »

Пыталась этой командой, но выбирает все подряд файлы:
grep -l '.xml' *.html | while read f; do mv "$f" DIR; done
(Нужно убрать все html странички из папки, которые содержат .mp4, .mp3, .pdf, и прочую лабутень, не относящуюся к XML)

xub · « **Ответ #1 :** 20 Ноября 2019, 05:15:19 »

Я Вас приветствую, попробуйте вот так:

Код: [Выделить]

mkdir /tmp/extra;find . -regex '.*$.html\|.xml\|.htmls$.*' -exec cp {} /tmp/extra \;Это просто скопирует файлы, посмотрите в /tmp/extra те или не те, а может они Вам вообще даже и нужны…

Если всё нормально, тогда cp замените на mv
и ещё раз посмотрите, чтобы не удалилось (в данном случае переместилось) ничего лишнего…

2019 Nov 19; 09:15 PM

zg_nico · « **Ответ #2 :** 20 Ноября 2019, 06:48:05 »

Цитата: OlgaOlga от 20 Ноября 2019, 04:10:01

Нужно убрать все html странички из папки, которые содержат .mp4, .mp3, .pdf, и прочую лабутень, не относящуюся к XML

Сформулируйте пожалуйста внятно задачу. "Странички" - это, надо полагать, текстовые файлы с расширением .htm или .html? "Странички" не должны содержать указанные ключевые слова ГДЕ? В тексте самой "странички"? В имени файла, под которым сохранена "страничка"? Где именно? И причем здесь вообще XML? От всего перечисленного зависит какую утилиту и каким образом можно использовать. Если я правильно понимаю задачу - grep должно хватить. Но пока понятно только то, что ничего не понятно $:-\$

OlgaOlga · « **Ответ #3 :** 20 Ноября 2019, 06:54:54 »

Есть html файлы: веб-страницы, скачанные с сайта https://www.margaretthatcher.org/
Всего их 836 штук, +/-
Все они содержат выступления Маргарет Тэтчер в виде текста в формате XML.
Внутри некоторых страниц содержаться видео, аудио, документы.
Нужно выбрать только те страницы, которые содержат только текст (PURE XML, TEXT)--для того, чтобы их могла обработать программа RStudio и извлечь оттуда все реплики Маргарет Тэтчер (реплики других политиков не нужны).
Это необходимо для проведение сентимент-анализа (анализа тональностей).

Пользователь добавил сообщение 20 Ноября 2019, 08:12:44:

Сделала. Просто склеила в один большой txt файл и обработала в RStudio

zg_nico · « **Ответ #4 :** 21 Ноября 2019, 12:22:42 »

Цитата: OlgaOlga от 20 Ноября 2019, 06:54:54

веб-страницы, скачанные с сайта ... всего их 836 штук, +/-

OlgaOlga, сложный Вы, однако, человек. Парсерами самописными такие задачи решаются проще всего. Осознаем сперва что откуда выдирать (смотрим сайт, понимая что именно нам надо, и находим закономерности по вот такому

Цитата: Пример рассуждений

хочу цитату М.Тетчер, а она на всякой странице, где попадается, заключена в тег <div id='quote'></id>, следовательно мне надо обшарить все страницы этого диапазона и с каждой выдернуть данный тег, получив на выходе саму цитату, прямую ссылку на нее и *еще_какая-нибудь_псефдоважная_ерунда*

направлению рассуждений), после берем в руки хоть тот же python, и пишем парсер, а далее запускаем его и идем заниматься своими делами. К окончанию его работы будем иметь необходимую информацию и не будем иметь 836 +/- страниц непойми чего на диске, с которыми еще возиться постфактум (пример 1, пример 2, пример 3)...
Ладно. Решили и решили. Закрыто.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf [Решено] (Прочитано 1613 раз)

OlgaOlga

Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf [Решено]

xub

Re: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf

zg_nico

Re: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf

OlgaOlga

Re: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf

zg_nico

Re: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf