Автор Тема: Переименование файлов книг на основе их ISBN номера (Прочитано 2215 раз)

Magi · « : 04 Сентября 2018, 23:10:40 »

Здравствуйте!

Есть сервис, по ISBN коду выдает инфу о книге, например:

http://www.lookupbyisbn.com/Search/Book/9781118688922/1

Есть вот такой кусок html-кода

Код: [Выделить]

                
<a href="/Lookup/Book/1118688929/978-1-118-68892-2/1" title="Details for Essential Guide to Blood Groups">Essential Guide to Blood Groups</a><br />
                <b>1118688929</b>,&nbsp;
                    <u>Geoff Daniels, Imelda Bromilow</u>
                    <span>,&nbsp;</span>
               <i>Wiley-Blackwell</i>,&nbsp;<i>2013-11-11</i><br />

Вот так можно получить название
wget -qO - http://www.lookupbyisbn.com/Search/Book/9781118688922/1 | grep -Po '(?<=title="Details for )[^"]+' | sed 's/\&[^\;]*./ /g'

Подскажите, как можно распарсить html, чтобы в итоге переменной можно было бы присвоить: Название автор год?
Essential Guide to Blood Groups Geoff Daniels, Imelda Bromilow 2013

zg_nico

Цитата: Magi от 04 Сентября 2018, 23:10:40

как можно распарсить html

Выбор именно bash чем продиктован в данном случае? Вот пример того, как парсер в общем случае делается на том же pyton. Поддерживается он в ubuntu по сути нативно.
В случае, если Вы по-прежнему хотите использовать bash, то следует применять не wget, а консольный браузер. Например, w3m по аналогии с примером, разобранным и описанным здесь, тогда несколько проще будет выдергивать информацию со страницы. ~~Ссылка, которую Вы привели, у меня не открывается~~. Из фрагмента кода могу навскидку сказать, что парсировать будет сложно. Только если выдергивать теги и , после чего первый считать за автора и издательство (опционально - обрезать по запятой), второй - за год выпуска (при условии соответствия формату "ГГГГ-ММ-ДД"). Это все хоть внутри ячейки таблицы сосредоточено, или еще в какой контейнер оформлено (div хотя бы), или просто сплошным текстом на странице не пойми где?

Magi

Bash я немного знаю, а python вообще нет. Спасибо за наводку с w3m!

zg_nico

Magi, ссылка открылась. Если зайти в инструменты разработчика в обозревателе, то можно ее пощупать перед построением парсера.

(Нажмите, чтобы показать/скрыть)

Для начала посмотрим на исходный код страницы. Видим, что элемент, который мы ищем, заключен в теги <li></li>. Получим коллекцию этих тегов:

Код: (javascript) [Выделить]

d=this.window.document
li_col=w.getElementsByTagName('li')

В коллекции более одного объекта. Перебором такого вот кода:

Код: (javascript) [Выделить]

li_col.item(4).innerHTMLполучаем что интересующий нас объект носит номер 4:

Цитировать

<a href=\"/Lookup/Book/1118688929/9781118688922/1\" title=\"Details for Essential Guide to Blood Groups\">Essential Guide to Blood Groups</a> 
1118688929, 
Geoff Daniels, Imelda Bromilow
, 
Wiley-Blackwell, 2013-11-11 
<ul id=\"pricesinlist\">
<li>
List price:$54.00
</li>
<li>
Best price:$36.00
</li>
<li>
Best new price:$36.00 
 + Free Shipping Eligible
</li>
</ul>

Тогда искомое Вами в общем случае:

Код: (javascript) [Выделить]

this.window.document.getElementsByTagName('li')[4].getElementsByTagName('a')[0].innerText

Цитировать

"Essential Guide to Blood Groups"

Код: (javascript) [Выделить]

this.window.document.getElementsByTagName('li')[4].getElementsByTagName('u')[0].innerText

Цитировать

"Geoff Daniels, Imelda Bromilow"

Код: (javascript) [Выделить]

this.window.document.getElementsByTagName('li')[4].getElementsByTagName('i')[1].innerText

Цитировать

"2013-11-11"

При условии сохранения верстки во всех случаях по обозначенному принципу указанные комбинации будут выводить всякий раз правильную информацию. Осталось разобраться как это применить в случае с bash...

Azure

Парсить html|xml с помощью bash не очень хорошая идея. Надо брать что-то с нативными библиотеками. Ну или брать что-то из html-xml-utils для этого.

zg_nico

Накидал тут, - интересно стало. Первым делом устанавливаем дополнение для работы с DOM (парсирование HTML и XML):

Код: [Выделить]

sudo apt install python-beautifulsoupДалее выполняем в терминале команду:

Цитировать

gedit $HOME/Парсер.py

В окне редактора вводим такой код:

Код: (python) [Выделить]

#!/usr/bin/env python
#coding=utf-8

# подключаемые библиотеки:
from urllib2 import urlopen     #работа с сетью
from bs4 import BeautifulSoup   #работа с DOM
import argparse                 #парсирование аргументов из командной строки 

# Простейший целевой парсер web-ресурса на языке Python
# Функционал: парсирует ответы ресурса www.lookupbyisbn.com,
# выдергивая Название книги, автора(ов) и год выпуска
# Дополнительно: понимает один URL в виде аргумента командной строки

#Сама функция парсирования:
def pars_by_url(url):
    response = urlopen(url)                 #выполняем запрос на сервер
    html = response.read()                  #читаем полученный ответ
    soup = BeautifulSoup(html,"lxml")       #по сути, интерпретируем ответ, формируя коллекцию DOM-элементов
    OurCell = soup.find_all('li')[4]        #находим все теги <li></li> и вытягиваем 4ый элемент полученной коллекции
    #текст гиперссылки (она там одна) в данной ячейке - это название книги
    Book_name = OurCell.find_all('a')[0]
    print "Название книги: ",Book_name.string
    #содержимое тега <u></u> в данной ячейке - это авторы
    Book_author = OurCell.find_all('u')[0]
    print "Автор книги: ",Book_author.string
    #содержимое второго по счету тега <i></i> - это год издания
    Book_year = OurCell.find_all('i')[1]
    print "Год издания:",Book_year.string
    #можно все это в одну строку через разделители пустить - так в том же bash удобнее пользовать будет
    #print "Название|Автор|Год издания"
    #print Book_name.string,"|",Book_author.string,"|",Book_year.string

#Сама программа (разбираем аргументы, и вызываем парсер):
def main():
    callWith=argparse.ArgumentParser()                              #контейнер для приема аргументов из командной строки
    callWith.add_argument('--url', help='URL парсируемой страницы') #единственный принимаемый аргумент - URL, куда осуществляется навигация
    args=callWith.parse_args()                                      #вытаскиваем аргумент из командной строки
    try:
        if (args.url == None):                                      #если аргуент не задан. В примере - навигация на строку по-умолчанию      
            pars_by_url("http://www.lookupbyisbn.com/Search/Book/9781118688922/1")
        else:                                                       #если аргумент задан. Воспринимаем его за URL и не проверяя, что не правильно, отсылаем в работу
            pars_by_url(args.url)
    except:
        print "Ошибка выполнения"

#вызов главной процедуры
if __name__ == '__main__':
    main()

Сохраняем и закрываем. Далее в том же терминале вводим:

Код: [Выделить]

python $HOME/Парсер.pyОтветом станет ожидаемое:

Цитировать

Название книги: Essential Guide to Blood Groups
Автор книги: Geoff Daniels, Imelda Bromilow
Год издания: 2013-11-11

Если тот же индекс передать в виде параметра командной строки, то сделать это можно, к примеру, так:

Код: [Выделить]

python $HOME/Парсер.py --url="http://www.lookupbyisbn.com/Search/Book/9781118688922/1"Ответ терминала не изменится. Теперь учитываем:
1. не программировал проверку данных. Совсем никакую. Задайте навигацию на произвольную страницу, где есть все три тега - интересную книгу получите на выходе ))
2. сайт, с которым работаем, достаточно тягомотен. У меня и в браузере-то открывается через раз. Словом, может потребоваться (и вероятно что потребуется) допиливание скрипта до вменяемого состояния в полевых условиях. Но из серии "на коленке для разового применения" - с пивом потянет ))
Примечание: Код писался и тестировался в kubuntu 18.04.1. В иных версиях синтаксис импорта библиотек отличается.

aSmile

Цитата: Magi от 04 Сентября 2018, 23:10:40

wget -qO - http://www.lookupbyisbn.com/Search/Book/9781118688922/1 | grep -Po '(?<=title="Details for )[^"]+' | sed 's/\&[^\;]*./ /g'

Есть знаменитый ответ по поводу парсинга html с помощью regex
https://stackoverflow.com/a/1732454/2814617

Magi

Спасибо! Попробую разобраться

Изначально задача стоит найти с помощью pdfgrep в pdf файлах ISBN номер,
Как-то так

Код: [Выделить]

pdfgrep -H -o -P --regexp="ISBN(-1(?:(0)|3))?:?\x20(\s)*[0-9]+[- ][0-9]+[- ][0-9]+[- ][0-9]*[- ]*[xX0-9]" --page-range=1-10 --max-count 10 *.pdf | sed -e 's/ISBN//g' -e 's/-10//g' -e 's/-
13//g' -e 's/::/:/g' | tr -d " "| uniq

"Пробить" его по какой-нибудь базе (есть разные API и базы), а затем на основе полученных данных переименовать файл в "Название Автор год_издания.pdf"
На github'е есть несколько проектов, способных это делать (наиболее работоспособным мне показался вот этот https://github.com/na--/ebook-tools ) Но и он не переименовывает все книги. С русскими особенно плохо.

Далее есть желание сделать каталогизацию книг по тематикам. В многих книгах есть некий идентификатор DNLM, который выглядит примерно так. Что это я не не понял, но в книгах и гугле встречается в связи с медико-биологической тематикой.
Например, вот так.
[DNLM: 1. Hypnosis. 2. Neurotic Disorders—therapy. 3.Dominance, Cerebral. WM 415 P437c 1994]

У меня книги разложены по каталогам с тематиками на русском. Было бы здорово раскладывать их на основе анализа тематики из книги и сопоставления с имеющимся списком. Но там все не точно. В частности книга с таким DNLM

Cameral Analysis - A Method of Treating the Psychoneuroses Using Hypnosis David L. Pedersen 1994

может относится к психиатрии.
Пока я сделал только поиск тематики по книгам.

Magi

Подскажите, как
С помощью pdfgrep получил вот такой список.

Имя файла:ISBN

354034425X.pdf:354034425X
354034425X.pdf:139783540344254
354040841X.pdf:354040841X
354040841X.pdf:139783540408413
4431012486.pdf:4431012486
450873656.pdf:9789244563472

Подскажите, как можно переименовать файлы на основе данных, полученных вышеописанным скриптом?

zg_nico

Цитата: victor00000 от 07 Сентября 2018, 17:24:33

zg_nico, где выделить всех? мышь труд?

Виктор, я Вам уже сто раз говорил: я Вас не понимаю. Потрудитесь излагать свои мысли яснее пожалуйста.

peregrine

zg_nico, перевожу на русский (victor00000 глухонемой, так что его тяжело понять) он возмущается что скрипт не гуевый для мышевозни. Но это оффтопик и немного флуд, так что первое устное для victor00000. За рецидив выпишу плюшек.

zg_nico

victor00000, простите. А по поводу мышки - не дозрел я еще до создания графических интерфейсов. Да и вряд ли дозрею - не программист я. Так, пытаюсь иногда что-то писать. Но получается в основном то, что принято называть в среде программистов быдлокодом

peregrine, спасибо за пояснение. И простите за этот инцидент. Глупо получилось. Глупо и грязно.

ALiEN

Код: (bash) [Выделить]

while read I ; do
NN=${I##*:}
RN=${I%%:*}
mv -v "$RN" "$NN" 
done < file_with_ISBN

Magi

Что-то все равно не так
w3m -dump http://www.lookupbyisbn.com/Search/Book/9781405135221/1/
Ок.
Скриптом - ошибка выполнения.

zg_nico

Цитата: Magi от 11 Сентября 2018, 16:33:36

Скриптом - ошибка выполнения

Вангую: в скрипте есть необработанное исключение, которое следует за рассматриваемой командой. ~~Срипт-то покажете, или нам всем "ванговать"?~~

Сообразил: Вы мой парсер использовать пытаетесь. Он находит название книги, но не находит больше ничего. А я ведь предупреждал:

Цитата: zg_nico от 05 Сентября 2018, 09:51:03

может потребоваться (и вероятно что потребуется) допиливание скрипта до вменяемого состояния в полевых условиях

Разница между страницами тыц и тыц, по-Вашему, не ощущается разве? Очевидно, что исходная версия от текущей отличается тем, что автор книги не указан. Иными словами, допустим вариант книги без указания автора, а это в скрипте не учтено. Чтобы учесть достаточно сделать как-то так. Вместо исходного фрагмента

Код: (python) [Выделить]

    #содержимое тега <u></u> в данной ячейке - это авторы
    Book_author = OurCell.find_all('u')[0]
    print "Автор книги: ",Book_author.string
    #содержимое второго по счету тега <i></i> - это год издания

внести проверку на ошибку хотя бы (обращаю Ваше внимание на то, что не применяется табуляция для организации отступов, - применяется по 4 подряд идущих пробела вместо табуляции; в синтаксисе python это имеет ключевое значение: интерпретатор по табуляциям понимает где заканчивается тот же самый try:, в остальном коде у меня фигурировала такая табуляция [4 пробела], поэтому и в этом "патче" следует брать именно её; если просто копировали предыдущий код - скопируйте и вставьте этот):

Код: (python) [Выделить]

    #содержимое тега <u></u> в данной ячейке - это авторы
    try:
        Book_author = OurCell.find_all('u')[0]
        print "Автор книги: ",Book_author.string
    except:
        print "Автор книги: [не указан]"
    #содержимое второго по счету тега <i></i> - это год издания

Тогда на выходе получаем вместо

Цитировать

Название книги: The Handbook of Clinical Linguistics
Ошибка выполнения

заветное

Цитировать

Название книги: The Handbook of Clinical Linguistics
Автор книги: [не указан]
Год издания: 2008-04-28

Пользователь добавил сообщение 11 Сентября 2018, 18:41:16:

(Нажмите, чтобы показать/скрыть)

Так сказать, beta

Код: (python) [Выделить]

#!/usr/bin/env python
#coding=utf-8

# подключаемые библиотеки:
from urllib2 import urlopen     #работа с сетью
from bs4 import BeautifulSoup   #работа с DOM
import argparse                 #парсирование аргументов из командной строки и работа с системой

# Простейший целевой парсер web-ресурса на языке Python
# Функционал: парсирует ответы ресурса www.lookupbyisbn.com,
# выдергивая Название книги, автора(ов) и год выпуска
# Дополнительно: понимает один URL в виде аргумента командной строки
# Зависимости: пакет python-beautifulsoup
# Работа проверялась под KUbuntu 18.04, Python 2.7.15rc1

#Сама функция парсирования:
def pars_by_url(url):
    response = urlopen(url)                 #выполняем запрос на сервер
    html = response.read()                  #читаем полученный ответ
    soup = BeautifulSoup(html,"lxml")       #по сути, интерпретируем ответ, формируя коллекцию DOM-элементов
    OurCell = soup.find_all('li')[4]        #находим все теги <li></li> и вытягиваем 4ый элемент полученной коллекции
    #текст гиперссылки (она там одна) в данной ячейке - это название книги
    Book_name = OurCell.find_all('a')[0]
    print "Название книги: ",Book_name.string
    #содержимое тега <u></u> в данной ячейке - это авторы
    try:
        Book_author = OurCell.find_all('u')[0]
        print "Автор книги: ",Book_author.string
    except:
        print "Автор книги: [не указан]"
    #содержимое второго по счету тега <i></i> - это год издания
    try:
        Book_year = OurCell.find_all('i')[1]
        print "Год издания:",Book_year.string
    except:
        print "Год издания: [не указан]"

#Сама программа (разбираем аргументы, и вызываем парсер):
def main():
    callWith=argparse.ArgumentParser()                              #контейнер для приема аргументов из командной строки
    callWith.add_argument('--url', help='URL парсируемой страницы') #единственный принимаемый аргумент - URL, куда осуществляется навигация
    args=callWith.parse_args()                                      #вытаскиваем аргумент из командной строки
    try:
        if (args.url == None):                                      #если аргуент не задан. В примере - навигация на строку по-умолчанию      
            pars_by_url("http://www.lookupbyisbn.com/Search/Book/9781405135221/1/")
        else:                                                       #если аргумент задан. Воспринимаем его за URL и отсылаем в работу
            pars_by_url(args.url)
    except:
        print "Ошибка выполнения"

#вызов главной процедуры
if __name__ == '__main__':
    main()

Форум русскоязычного сообщества Ubuntu

Автор Тема: Переименование файлов книг на основе их ISBN номера (Прочитано 2215 раз)

Magi

Переименование файлов книг на основе их ISBN номера

zg_nico

Re: Парсинг html

Magi

Re: Парсинг html

zg_nico

Re: Парсинг html

Azure

Re: Парсинг html

zg_nico

Re: Парсинг html

aSmile

Re: Парсинг html

Magi

Re: Парсинг html

Magi

Re: Переименование файлов книг на основе их ISBN номера

zg_nico

Re: Переименование файлов книг на основе их ISBN номера

peregrine

Re: Переименование файлов книг на основе их ISBN номера

zg_nico

Re: Переименование файлов книг на основе их ISBN номера

ALiEN

Re: Переименование файлов книг на основе их ISBN номера

Magi

Re: Переименование файлов книг на основе их ISBN номера

zg_nico

Re: Переименование файлов книг на основе их ISBN номера