Форум русскоязычного сообщества Ubuntu


Увидели сообщение с непонятной ссылкой, спам, непристойность или оскорбление?
Воспользуйтесь ссылкой «Сообщить модератору» рядом с сообщением!

Автор Тема: Выбрать файлы .html в папке которые содержат (!) только XML (исключить .mp3, pdf [Решено]  (Прочитано 754 раз)

0 Пользователей и 1 Гость просматривают эту тему.

OlgaOlga

  • Автор темы
  • Гость
Пыталась этой командой, но выбирает все подряд файлы:
grep -l '.xml' *.html | while read f; do mv "$f" DIR; done
(Нужно убрать все html странички из папки, которые содержат .mp4, .mp3, .pdf, и прочую лабутень, не относящуюся к XML)
 :-[
« Последнее редактирование: 18 Марта 2020, 11:48:46 от zg_nico »

Оффлайн xub

  • Забанен
  • Активист
  • *
  • Сообщений: 283
  • If it ain't broke, don't fix it
    • Просмотр профиля
Я Вас приветствую, попробуйте вот так:
mkdir /tmp/extra;find . -regex '.*\(.html\|.xml\|.htmls\).*' -exec cp {} /tmp/extra  \;Это просто скопирует файлы, посмотрите в /tmp/extra те или не те, а может они Вам вообще даже и нужны…

Если всё нормально, тогда cp замените на mv
и ещё раз посмотрите, чтобы не удалилось (в данном случае переместилось) ничего лишнего…

2019 Nov 19; 09:15 PM
https://webhamster.ru/site/page/index/articles/projectcode/181 LoLo Switcher. Конфигурирование… Рекомендую!!! Кардинально может решить проблемы переключения раскладки…

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
Нужно убрать все html странички из папки, которые содержат .mp4, .mp3, .pdf, и прочую лабутень, не относящуюся к XML
Сформулируйте пожалуйста внятно задачу. "Странички" - это, надо полагать, текстовые файлы с расширением .htm или .html? "Странички" не должны содержать указанные ключевые слова ГДЕ? В тексте самой "странички"? В имени файла, под которым сохранена "страничка"? Где именно? И причем здесь вообще XML? От всего перечисленного зависит какую утилиту и каким образом можно использовать. Если я правильно понимаю задачу - grep должно хватить. Но пока понятно только то, что ничего не понятно  :-\
« Последнее редактирование: 20 Ноября 2019, 06:50:04 от zg_nico »
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

OlgaOlga

  • Автор темы
  • Гость
Есть html файлы:  веб-страницы, скачанные с сайта https://www.margaretthatcher.org/
Всего их 836 штук, +/-
Все они содержат выступления Маргарет Тэтчер в виде текста в формате XML.
Внутри некоторых страниц содержаться видео, аудио, документы.
Нужно выбрать только те страницы, которые содержат только текст (PURE XML, TEXT)--для того, чтобы их могла обработать программа RStudio и извлечь оттуда все реплики Маргарет Тэтчер (реплики других политиков не нужны).
Это необходимо для проведение сентимент-анализа (анализа тональностей).

Пользователь добавил сообщение 20 Ноября 2019, 08:12:44:
Сделала. Просто склеила в один большой txt файл и обработала в RStudio
« Последнее редактирование: 20 Ноября 2019, 08:12:44 от OlgaOlga »

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
веб-страницы, скачанные с сайта ... всего их 836 штук, +/-
OlgaOlga, сложный Вы, однако, человек. Парсерами самописными такие задачи решаются проще всего. Осознаем сперва что откуда выдирать (смотрим сайт, понимая что именно нам надо, и находим закономерности по вот такому
Цитата: Пример рассуждений
хочу цитату М.Тетчер, а она на всякой странице, где попадается, заключена в тег <div id='quote'></id>, следовательно мне надо обшарить все страницы этого диапазона и с каждой выдернуть данный тег, получив на выходе саму цитату, прямую ссылку на нее и *еще_какая-нибудь_псефдоважная_ерунда*
направлению рассуждений), после берем в руки хоть тот же python, и пишем парсер, а далее запускаем его и идем заниматься своими делами. К окончанию его работы будем иметь необходимую информацию и не будем иметь 836 +/- страниц непойми чего на диске, с которыми еще возиться постфактум (пример 1, пример 2, пример 3)...
Ладно. Решили и решили. Закрыто.
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

 

Страница сгенерирована за 0.026 секунд. Запросов: 23.