Автор Тема: Как автоматически выковыривать все картинки из Open Office? А с ресайзом? (Прочитано 3398 раз)

bittajam · « : 21 Апреля 2010, 18:14:29 »

Здравствуйте, мои дорогие.
Вопрос странный, понимаю, но я действительного странного хочу.

Дело в том, что по работе мне присылают десятки вордовских документов (хорошо еще, если doc, хуже, когда docx!), а в этих самых документах может быть помимо текста до пятидесяти фотографий общим размером до 300 мб (они могут и больше, просто пока не попадалось).
Объяснять, что так делать не хорошо, ну или хотя бы, что файлы перед запихиванием в документ желательно пожать, а не просто устанавливать подходящий размер, оставляя файл простыней с разрешением две-тыщи-фиг-знает-сколько на тыщу-до-фига-фтп-канал-широкий, бесполезно. Уже три года пытаюсь донести эту несложную информацию, но нет.

Поэтому хочу я вот что.
Есть ли некий инструмент (кроме моих собственных рук), который может вытаскивать из вордовского файла все картинки, нумеровать их по порядку и складывать в определенную папочку. В идеале, конечно, чтобы он еще и ресайзил их, но это я уже, наверное, совсем размечталась, да?

Я-то, конечно, мечтаю о том, чтобы этому самому инструменту можно было просто показать папку с файлами, уйти пить кофе, а, вернувшись, обнаружить, что все картинки отресайзены и пронумерованы так, как они шли в тексте, и сложены в папки с названием, повторяющим название соответствующего документа, и вся эта радость на фтп залита в соответственную директорию, но я уже предвижу комментарии на этот счет, так что за губозакатывательной машинкой я уже ушла.
Но вот хотя бы кнопка "выковырять все картинки, пронумеровать и сложить в папку такую-то" в природе существует?

ArcFi · « **Ответ #1 :** 21 Апреля 2010, 18:20:41 »

Если перегнать в odt, то файл можно будет распаковать как архив, и емнип, в одном из каталогов будут все картинки.

Другое дело, что over_300_метров_doc может конвертироваться весьма долго и в процессе немало потреблять.

talifero · « **Ответ #2 :** 21 Апреля 2010, 18:24:30 »

Надо скрипт написать
1 doc to odt
2 ресайз
3 копи в нужную папку

2 и 3 частьи имеются могу поделится

gva230 · « **Ответ #3 :** 21 Апреля 2010, 18:24:54 »

Можно сохранить документ в виде HTML, что приведёт к созданию документа HTML с картинками в отдельных файлах, которые будут пронумерованы том в порядке, в котором встречаются в документе.

bittajam · « **Ответ #4 :** 21 Апреля 2010, 18:38:09 »

Цитата: ArcFi от 21 Апреля 2010, 18:20:41

Другое дело, что over_300_метров_doc может конвертироваться весьма долго и в процессе немало потреблять.

вот в этом вся проблема: такие файлы открывать-то тяжело (ОО иногда не выдерживает и падает, впрочем, даже если и не падает, то тормозит все зверски).
но в целом способ вполне жизнеспособный.
спасибо.

Цитата: talifero от 21 Апреля 2010, 18:24:30

Надо скрипт написать
doc to odt

да, после предложения ArcFi эта мысль родилась.
кабы я еще понимала что в скриптописании, но тут, думаю, гугл поможет.
но с учетом размера иных файлов, тут придется не кофе идти пить, а в спячку на неделю.... но все равно спасибо.

Цитата: gva230 от 21 Апреля 2010, 18:24:54

которые будут пронумерованы том в порядке, в котором встречаются в документе.

фигу. имя задается вида "имя файла как есть ._html_m7dd46d83.jpg" и вот это вот m7dd46d83 задается, похоже, рандомно, по крайней мере, никакого соответствия между именами файлов и первоначальным порядком мне усмотреть не удалось.
но все равно спасибо.

dimas000 · « **Ответ #5 :** 21 Апреля 2010, 19:05:27 »

Цитировать

фигу. имя задается вида "имя файла как есть ._html_m7dd46d83.jpg" и вот это вот m7dd46d83 задается, похоже, рандомно, по крайней мере, никакого соответствия между именами файлов и первоначальным порядком мне усмотреть не удалось.

а порядок критически важен? тем паче, что имея конструкцию вида "имя файла как есть ._html_m7dd46d83.jpg", оную можно запросто превратить в "имя файла как есть .jpg"
по части ресайза - простенький скрипт с участием imagemagick спасет.

bittajam · « **Ответ #6 :** 21 Апреля 2010, 19:12:40 »

Цитата: dimas000 от 21 Апреля 2010, 19:05:27

а порядок критически важен? тем паче, что имея конструкцию вида "имя файла как есть ._html_m7dd46d83.jpg", оную можно запросто превратить в "имя файла как есть .jpg"
по части ресайза - простенький скрипт с участием imagemagick спасет.

угу.
потому что мне эти документы надо на сайт вешать, соотвеццно, картинки нужны по порядку, а вручную переименовывать всю эту радость, сверяясь с оригиналом, я убьюсь...
документов-то этих невероятное количество.
по части ресайза, да, батчеров и скриптов на эту тему в сети очень много, тут все просто.
закавыка именно в автоматизированном процессе выкорячивания картинок из документов и правильном их наименовании (меня 01, 02, 03, 0n) устроит более чем.
пробовала найти какой-нибудь такой плагин для ОО, но пока безрезультатно, хотя мне кажется, что он должен быть: задача-то не такая уж редкая, думаю, не только мое начальство считает, что документы веб-редактору можно присылать как угодно, оно там само потом как-нибудь разберется.

gva230 · « **Ответ #7 :** 21 Апреля 2010, 19:34:47 »

Цитата: bittajam от 21 Апреля 2010, 19:12:40

Цитата: dimas000 от 21 Апреля 2010, 19:05:27
а порядок критически важен? тем паче, что имея конструкцию вида "имя файла как есть ._html_m7dd46d83.jpg", оную можно запросто превратить в "имя файла как есть .jpg"
по части ресайза - простенький скрипт с участием imagemagick спасет.
угу.
потому что мне эти документы надо на сайт вешать, соотвеццно, картинки нужны по порядку, а вручную переименовывать всю эту радость, сверяясь с оригиналом, я убьюсь...
документов-то этих невероятное количество.
по части ресайза, да, батчеров и скриптов на эту тему в сети очень много, тут все просто.
закавыка именно в автоматизированном процессе выкорячивания картинок из документов и правильном их наименовании (меня 01, 02, 03, 0n) устроит более чем.
пробовала найти какой-нибудь такой плагин для ОО, но пока безрезультатно, хотя мне кажется, что он должен быть: задача-то не такая уж редкая, думаю, не только мое начальство считает, что документы веб-редактору можно присылать как угодно, оно там само потом как-нибудь разберется.

В таком случае, как советовалось выше, нужно сохранять документы в odt, а сам odt распаковывать архиватором, поскольку это обычный zip. И там, в папке Pictures будут лежать все картинки, надеюсь в правильном прядке. :)

dimas000 · « **Ответ #8 :** 21 Апреля 2010, 19:40:53 »

как я понимаю, от "имя_файла_как_есть" толку мало, ибо это что-нибудь типа "какая-то херня.jpg", так?
интересно вот что: если при конвертации (в чтмл или еще во что) документ читается как надо (т.е. последовательно от начала к концу), то по идее картинки сохраняются одна за другой опять же последовательно. то есть их можно отсортировать по дате создания и... дальше, думаю, мысль ясна. если так и есть, то нам повезло. однако, фишка в том, что время создания файла исчисляется с точностью до секунды (если я не прав, буду рад), так что если за эту секунду было сохранено 20 штук картинок - тут уж черт голову сломит.
впрочем, придумал вариант гораздо лучше. расковыряв первый попавшийся odt выяснил я: его спокойно открывает xarchiver как архив, и его же не менее спокойно распаковывает krusader через меню "распаковать". еще осталость выяснить, как проделать сие из консоли, и будет вообще хорошо. но суть не в том. есть там файлик content.xml, собственно и отвечающий за все это безобразие. вид имеет вполне читабельный, т.е. найти искомое с помощью grep - не проблема. ну и за дело берется скрипт, который
1. ищет все тэги, ссылающиеся на картинки
2. выковыривает из них пути к этим самым картинкам (или имена хотя бы)
3. получив пути к нужным файлам, копирует их куда надо, по дороге пропустив через imagemagick и переозывалку
как я понял, картинки должны валяться в где-то-там/images/bitmaps , прикол в том, что ни одного документа с картинками под рукой нет. посему требуется какой-нибудь простенький файлик с тремя строчками текста и тремя картинками между ними - сможешь выложить какой-нибудь урезанный вариант?
ЗЫ. а почему docx плох? помнится, в винде оный я открывал как архив и в опере читал xml (пока не нашел нужного плугина к тоталцмд) - напрашивается аналогичный способ

Пользователь решил продолжить мысль 21 Апреля 2010, 19:49:11:

Цитировать

В таком случае, как советовалось выше, нужно сохранять документы в odt, а сам odt распаковывать архиватором, поскольку это обычный zip

действительно, обычный зип. за наводку спасибо! распаковывается, как выяснилось, не менее обычно:

Код: [Выделить]

unzip /path/doc.odt -d /path/dir/

ArcFi · « **Ответ #9 :** 21 Апреля 2010, 19:51:40 »

Возможно, для восстановления порядка следования изображений придётся пробежаться скриптом по отконвертированному файлу, будь то *.html или */content.xml (в случае odt), о чём выше написал dimas000.

Также стоит оценить влияние конвертирования на качество изображений.

gva230 · « **Ответ #10 :** 21 Апреля 2010, 20:06:17 »

Цитата: dimas000 от 21 Апреля 2010, 19:40:53

Цитировать
В таком случае, как советовалось выше, нужно сохранять документы в odt, а сам odt распаковывать архиватором, поскольку это обычный zip
действительно, обычный зип. за наводку спасибо! распаковывается, как выяснилось, не менее обычно:
Код: [Выделить]
unzip /path/doc.odt -d /path/dir/

Кстати, doсx - тоже обычный зип и в тотал командере без всяких плагинов по [Ctrl]+[Page Down] открывается. :)

dimas000 · « **Ответ #11 :** 21 Апреля 2010, 22:39:53 »

(Нажмите, чтобы показать/скрыть)

MA3X · « **Ответ #12 :** 22 Апреля 2010, 03:51:44 »

Хе. Основная подвижка есть!

Только что для пробы запихал в вордовский документ пару картинок.
А потом натравил на него foremost, поставленный из реп, просто

foremost -t jpg,png,gif -i Doc1.doc

- и получил в диру output вложенные картинки.
Естессно, малость измененные - у жпегов поменялся размер, а тифф ворд почему-то сохранил в себе как пнг. Но идея работает.
И метод извлечения (основное назначение foremost'a, в общем-то, спасение данных после креша ФС) кагбэ намекает, что мсворд - это и есть креш и погибель для данных...

Да, а утилита antiword позволяет выдрать из тех же .doc текст. Немного bash-магии, и получатся картинки и текст раздельно, по подкаталогам имени документа.

bittajam · « **Ответ #13 :** 22 Апреля 2010, 13:32:01 »

Цитата: MA3X от 22 Апреля 2010, 03:51:44

Хе. Основная подвижка есть!

браво!

порядок опять совершенно произвольный (равно как и совершенно необъяснимая логика наименования картинок), но с этим мне, похоже, придется смириться!
в любом случае, это куда быстрее и удобнее, чем открывать каждый файл и пересохранять, плодя ненужные копии и без того немаленьких файлов.

для писавших выше: пробовала полученные разным способом картинки упорядочивать и по дате, и по имени, логика порядка совершенно неясна, но что уж поделать.... возможно, картинки в документ изначально добавляются не в нужном порядке, а рандомно, может, еще что.

осталось только изучить основы скриптописания, чтобы пропустить через эту чудесную программку все файлы и все их отресайзить одним кликом, но это уже точно мои проблемы.

в любом случае, огромное спасибо всем откликнувшимся: для меня темка стала полезной и поучительной, за что вам всем объявляю благодарность с занесением

PS
тему закрывать не буду: вдруг будут еще какие интересные решения, мало ли!

xrayman · « **Ответ #14 :** 22 Апреля 2010, 14:23:20 »

В ООо есть такая вещь: Файл - Мастер - Конвертер документов. Он берет все документы из указанной папки, в частности *.doc и конвертит в *.odt. Потом из *.odt берется файл content.xml и из него вытягиваются строки типа:
<draw:image xlink:href="Pictures/100000000000024E00000230545073BB.jpg" xlink:type="simple"
и сохраняются картинки. Для автоматического ресайза хз, есть какие-то пакетные обработчики картинок, надо поискать.

Форум русскоязычного сообщества Ubuntu

Автор Тема: Как автоматически выковыривать все картинки из Open Office? А с ресайзом? (Прочитано 3398 раз)

bittajam

Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

ArcFi

Re: Как автоматически выковыривать все карт&#

talifero

Re: Как автоматически выковыривать все карт&#

gva230

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

bittajam

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

dimas000

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

bittajam

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

gva230

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

dimas000

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

ArcFi

Re: Как автоматически выковыривать все карт&#

gva230

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

dimas000

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

MA3X

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

bittajam

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?

xrayman

Re: Как автоматически выковыривать все картинки из Open Office? А с ресайзом?