Есть много несортированных книг в pdf(большинство) и djvu хочу сделать скрипт, который на основе их ISBN-номера (Международный стандартный книжный номер)
переименует их в файл вида "Название автор год_издания.pdf" и поделится с ним общественностью.
Нашел программу
http://pdfgrep.sourceforge.net/Она может найти ISBN в книгах
pdfgrep -H -С line --color none ISBN *.pdf
Выводит примерно следующее.
0123813662.pdf:ISBN: 978-0-12-415833-7 set
0123813662.pdf:ISBN: 978-0-12-381365-7 volume 1
0123813662.pdf:ISBN: 978-0-12-381366-4 volume 2
0123983894PainBrain.pdf:ISBN: 978-0-12-398389-3
0124114687_Neurosc.pdf:ISBN: 978-0-12-411468-5
0323057241_Dentistr.pdf:EDITION ISBN: 978-0-323-05724-0
0323057241_Dentistr.pdf:ISBN: 978-0-323-05724-0
0323079547_Spine.pdf: ISBN 978-0-323-07954-9 (hardcover: alk. paper)
0323079547_Spine.pdf: ISBN: 978-0-323-07954-9
0323085008_Care.pdf:ISBN: 978-0-323-08500-7
0323085008_Care.pdf: ISBN 978-0-323-08500-7 (pbk. : alk. paper)
0340815892_OSCEs.pdf:ISBN-10: 0 340 81589 2
0340815892_OSCEs.pdf:ISBN-13: 978 0 340 81589 2
0444538569_Histopath.pdf:ISBN: 978-0-444-53856-7
0lq65.Atlas.of.Postsurgical.Neuroradiology.Imaging.of.the.Brain.Spine.Head.and.N
0lq65.Atlas.of.Postsurgical.Neuroradiology.Imaging.of.the.Brain.Spine.Head.and.N
1047d.Novel.Immune.Potentiators.and.Delivery.Technologies.for.Next.Generation.Va
1047d.Novel.Immune.Potentiators.and.Delivery.Technologies.for.Next.Generation.Va
161779614X.pdf:ISBN 978-1-61779-614-2 e-ISBN
161779614X.pdf:978-1-61779-614-2 e-ISBN 978-1-61779-615-9
1617799459.pdf:ISBN 978-1-61779-945-7 ISBN
1617799459.pdf:ISBN 978-1-61779-946-4 (eBook)
Нужно из этого взять первую строку с найденным ISBN для каждого файла, из нее убрать все кроме самого номера
В номере не должно быть пробелов и тире и переименовать исходный файл в isbn.pdf
Нужно на основе этого переименовывать файлы из оригинального расширения в ISBN.pdf
Нашел скрипт на Java, который переименует файлы вида ISBN.pdf в "Название.pdf" с помощью доступа к isbndb.com
ISBNDB API KEY: 4LQGZXOY (ограничение в 500 запросов в день)
https://code.google.com/p/sangupta/wiki/ISBNИли есть вариант без API
http://openisbn.com/download/3319013653.html, где 3319013653 - ISBN
Подскажите, как это все совместить в один скрипт?
Сам я не программист.
PS. Нашел еще один скрипт на python
https://pypi.python.org/pypi/biblio.webquery/Который вроде бы болжен делать все вышеперечисленное, но почему-то не всегда находит ISBN.
pdfgrep в этом отношении надежнее.