Форум русскоязычного сообщества Ubuntu


Получить помощь и пообщаться с другими пользователями Ubuntu можно
на irc канале #ubuntu-ru в сети Freenode
и в Jabber конференции ubuntu@conference.jabber.ru

Автор Тема: Поиск по doc файлам в Recoll  (Прочитано 6267 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн arslan

  • Автор темы
  • Активист
  • *
  • Сообщений: 389
    • Просмотр профиля
Поиск по doc файлам в Recoll
« : 12 Июля 2018, 22:33:33 »
Долго искал возможность полнотекстового поиска в Ubuntu, и вот наткнулся на Recoll. Все хорошо, только вот по файлам с расширением doc (созданным в LibreOffice) программа не ищет. Как сделать так, чтобы она вела поиск и по файлам с расширением doc?
Lenovo Ideapad S100 + Ubuntu 14.04
Lenovo Z570 - Ubuntu 18.04
Lenovo G50-30 Ubuntu 18.04

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #1 : 12 Июля 2018, 22:50:53 »
чтобы она вела поиск и по файлам с расширением doc
Чтобы она - не знаю. У себя ищу таким образом:sudo apt install catdoc    #надо всего один раз - это необходимая для такого поиска утилита
cd /путь/до/каталога\ с\ файлами
find ./ -name "*.doc" | while read i; do catdoc "$i" | grep -H --label="$i" -in "фраза поиска" -A 2 -B 2; done
Отклик терминала радует глаз (результаты поиска по слову "регистрации" для примера):
Цитировать
./протокол заседания от 07.03.14 (разбор ЛР).doc-214-котором стало известно из любого
./протокол заседания от 07.03.14 (разбор ЛР).doc-215-источника. Таким образом, данные листы
./протокол заседания от 07.03.14 (разбор ЛР).doc:216:регистрации были созданы с целью
./протокол заседания от 07.03.14 (разбор ЛР).doc-217-фиксации в системе ЕСМА факта
./протокол заседания от 07.03.14 (разбор ЛР).doc-218-обнаружения неисправного
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

Dzhoser

  • Гость
Re: Поиск по doc файлам в Recoll
« Ответ #2 : 12 Июля 2018, 22:52:18 »
Попробуйте переиндексировать базу Файл /Обновить индекс. Возможно этих файлов в ней еще нет. У себя попробовал все находится.

Оффлайн arslan

  • Автор темы
  • Активист
  • *
  • Сообщений: 389
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #3 : 12 Июля 2018, 23:14:30 »
Сработал метод с catdoc через терминал, но он неудобен, я хочу, чтоб был человеческий интерфейс. Использовал все подобные программы - catfish, searchmonkey, recoll - поиск именно по офисным файлам doc и docx не ведется. По любым другим текстовым файлам ищет (txt fb2 и даже pdf). Как быть, подскажите? Не хочется из-за этого переключаться ради поиска на винду каждый раз. Почему именно по файлам doc и docx поисковые программы не ведут поиск? По другим форумам гуглил, у все всё работает нормально (((
Lenovo Ideapad S100 + Ubuntu 14.04
Lenovo Z570 - Ubuntu 18.04
Lenovo G50-30 Ubuntu 18.04

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #4 : 13 Июля 2018, 19:26:00 »
Почему именно по файлам doc и docx поисковые программы не ведут поиск?
зависимости/рекомендации для Recoll все стоят? Может, недостает какого-то пакета? Команда apt show recollсреди прочего дает
Цитировать
Recommends: aspell, python, xdg-utils, xsltproc
Suggests: antiword, catdoc, ghostscript, libimage-exiftool-perl, poppler-utils, pstotext, python-chm, python-mutagen, unrtf, untex
Здесь Recommends = Рекомендуемые, Suggests = Предлагаемые. Попробуйте выполнить sudo apt install antiword catdoc ghostscript libimage-exiftool-perl poppler-utils pstotext python-chm python-mutagen unrtf untex aspell python xdg-utils xsltproc(полный набор: рекомендуемые + предлагаемые), или лучше (как подсказал форумчанин ARTGALGANO, за что ему огромное спасибо): apt -o apt::istall-recommends=1 -o apt::install-suggests=1 install recoll(автоустановка рекомендуемых и предлагаемых пакетов). Затем выполните Файл -> Обновить индекс, как рекомендовал ранее уважаемый Dzhoser.
« Последнее редактирование: 13 Июля 2018, 20:53:37 от zg_nico »
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

Оффлайн Пользователь

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 2698
  • Runtu XFCE 18.04 (64-bit)
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #5 : 13 Июля 2018, 19:32:47 »
DocFetcher попробуй.
Recoll не может находить текст в doc созданных LibreOffice.

Вот наши исследования по полнотекстовым поисковикам
http://forum.runtu.org/index.php/topic,1298.0.html

zg_nico, спасибо за программу catdoc, не пробовал её еще.

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #6 : 13 Июля 2018, 19:50:56 »
Пользователь, рад быть полезным ) Только с catdoc одно плохо: она docx не умеет (хотя, насколько я понимаю философию написания программ в данной ОС - это нормально, что программа умеет что-то одно, но идеально). Есть docx2txt, но с ней никак не удается мне вытащить имя файла, в котором находится текст, на стандартный вывод, приходится выполнять конвертирование в txt, и уже после этого вытаскивать имена файлов; как победить - пока не понял. По odt пользую odt2txt, по pdf, соответственно, pdftotext.
Было бы кошерно все эти плюшки в скрипт для того же nautilus засунуть, да только слабо себе пока представляю как этому скрипту GUI организовать: возможностей zenity для этого явно недостаточно (вывод надо организовывать в виде некоего списка, в котором обязательными полями стали бы имя файла и каталог, до кучи надо хоть сегмент найденного текста привести), а термнал пользователей пугает... Пока думаю, словом...
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

Оффлайн arslan

  • Автор темы
  • Активист
  • *
  • Сообщений: 389
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #7 : 14 Июля 2018, 15:26:36 »
sudo apt install antiword catdoc ghostscript libimage-exiftool-perl poppler-utils pstotext python-chm python-mutagen unrtf untex aspell python xdg-utils xsltproc

спасибо огромное, теперь recoll всё находит)
Lenovo Ideapad S100 + Ubuntu 14.04
Lenovo Z570 - Ubuntu 18.04
Lenovo G50-30 Ubuntu 18.04

Оффлайн Пользователь

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 2698
  • Runtu XFCE 18.04 (64-bit)
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #8 : 14 Июля 2018, 17:10:58 »
Нашел решение, еха!!!

https://www.lesbonscomptes.com/recoll/features.html#doctypes

На официальном сайте в справке сказано, что msword обрабатываются через antiword, а которые он не может обработать - обработает wvWare.

Полез в Synaptic искать wvWare, нашел его под именем wv.

Ну и установил. Теперь Recoll находит doc созданные в Libreoffice.

Оффлайн Пользователь

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 2698
  • Runtu XFCE 18.04 (64-bit)
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #9 : 15 Июля 2018, 02:53:59 »
Команда установки будет изменяться в зависимости от версии Ubuntu.
http://forum.runtu.org/index.php/topic,1298.0.html

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #10 : 15 Июля 2018, 07:30:41 »
Полез в Synaptic искать wvWare, нашел ... wv. Теперь Recoll находит doc созданные в Libreoffice.
(о_О) Да уж... С учетом того, что ни wvWare ни wv не фигурируют в выхлопе apt show recoll, - создается ощущение, что в этом Recoll есть некий эвристический алгоритм
(Нажмите, чтобы показать/скрыть)
А если серьезно - странно, что этот пакет напрямую в зависимостях/рекомендациях не указывают... Спасибо за информацию, Пользователь!
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

Оффлайн theurs

  • Активист
  • *
  • Сообщений: 470
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #11 : 15 Июля 2018, 17:34:07 »
(о_О) Да уж... С учетом того, что ни wvWare ни wv не фигурируют в выхлопе apt show recoll, - создается ощущение, что в этом Recoll есть некий эвристический алгоритм
Suggests: antiword, ghostscript, groff, libimage-exiftool-perl, libinotifytools0, poppler-utils, pstotext, python-chm, python-libxml2, python-libxslt1, python-lzma, python-mido, python-mutagen, python-rarfile, unrtf, untex, wv

Оффлайн zg_nico

  • Заслуженный пользователь
  • Почётный модератор
  • Старожил
  • *
  • Сообщений: 3513
  • Nil mortalibus arduum est
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #12 : 15 Июля 2018, 17:56:00 »
theurs, вот ни разу не выдумываю, что нет в выхлопе wv. Ubuntu 16.04. Ввожу:apt show recollОтклик:Package: recoll
Version: 1.21.5-1
...
Recommends: aspell, python, xdg-utils, xsltproc
Suggests: antiword, catdoc, ghostscript, libimage-exiftool-perl, poppler-utils, pstotext, python-chm, python-mutagen, unrtf, untex
Homepage: http://www.lesbonscomptes.com/recoll
Пруф:

Допускаю, что версии системы разные, - отсюда разные версии пакета, и по всей видимости поддержка работы с wv включена недавно. В сущности, для этого и вносилась правка, подсказанная ARTGALGANO в этом сообщении:
apt -o apt::istall-recommends=1 -o apt::install-suggests=1 install recoll
Thunderobot G150-D2: Intel SkyLake Core i7-6700HQ 2.60GHz, 8Gb DDR4 2133 MHz, Intel HD530, NVidia GeForce GTX 960M 2Gb.  Ubuntu 16.04 64x [Unity], KUbuntu 18.04 64x.

Оффлайн theurs

  • Активист
  • *
  • Сообщений: 470
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #13 : 16 Июля 2018, 02:28:28 »
У меня 18.04

Оффлайн Пользователь

  • Модератор форума
  • Старожил
  • *
  • Сообщений: 2698
  • Runtu XFCE 18.04 (64-bit)
    • Просмотр профиля
Re: Поиск по doc файлам в Recoll
« Ответ #14 : 16 Июля 2018, 16:38:33 »
А у меня 14.04

wv там ни в зависимостях, ни в рекомендуемых к Recoll не указан. Только официальный сайт помог вычислить.

 

Страница сгенерирована за 0.039 секунд. Запросов: 26.