преобразовать документ формата PDF в текстовый

Здесь будут размещаться ссылки и отзывы на интересные публикации по Linux

Модераторы: Olej, vikos

Правила форума
Запрещается помещать сообщения, не имеющие отношения к обсуждаемой статье. Все такие сообщения будут удаляться непосредствено после обнаружения.
Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

преобразовать документ формата PDF в текстовый

Непрочитанное сообщение Olej » 24 ноя 2016, 12:18

Как преобразовать документ формата PDF в текстовый файл в терминале Linux
Статья сама по себе - бездарная ... такое впечатление, что пишет это пЫанЭр 5-го класса от восторга того, что у него получилось:
Мама! Мама! Я уже научился пользоваться горшком, но не всегда ещё метко...
:oops:

Но!
1. Иногда такая возможность .pdf -> .txt - очень нужна.
2. Напоминанием про пакет poppler-utils в статье - очень полезно и уместно.

Только вместо того, чтобы описывать установку пакета в DEB пакетной системе и когда там нажать Enter :lol: , я задался другими деталями:

1. А как обстоит дело с этим пакетом/утилитой в RPM дистрибутивах?

Код: Выделить всё

[olej@dell 22]$ dnf list poppler-utils
Последняя проверка окончания срока действия метаданных: 0:00:08 назад, Thu Nov 24 11:06:55 2016.
Установленные пакеты
poppler-utils.x86_64                                           0.34.0-4.fc23                                            @updates-testing
Присутствует (в RPM).
У меня установлен (недавно возился с PDF приложениями).
У кого не установлено, можно легко установить.

2. Что там ещё за утилиты в пакете?

Код: Выделить всё

[olej@dell WM]$ which pdftotext
/usr/bin/pdftotext
[olej@dell WM]$ ls /usr/bin/pdf*
/usr/bin/pdf2dsc    /usr/bin/pdffonts   /usr/bin/pdfseparate  /usr/bin/pdftoppm   /usr/bin/pdfunite
/usr/bin/pdf2ps     /usr/bin/pdfimages  /usr/bin/pdftocairo   /usr/bin/pdftops
/usr/bin/pdfdetach  /usr/bin/pdfinfo    /usr/bin/pdftohtml    /usr/bin/pdftotext
3. Самое главное!: как это преобразование будет работать (и будет ли?) с русскоязычными PDF, с представлением UTF-8 в Linux?
Беру первый попавшийся русскоязычный PDF ... а попалась справочная страница Приватбанк как указывать свои реквизиты получателя для SWIFT переводов:
swift.png
Преобразуем:

Код: Выделить всё

[olej@dell 24]$ pdftotext SWIFT.rub.pdf SWIFT.rub.txt
И:

Код: Выделить всё

[olej@dell 24]$ head -n20 SWIFT.rub.txt 
Мои реквизиты

https://privat24.privatbank.ua/p24/news?hash...

Важно! Рекомендации по предоставлению правильных реквизитов для зачисления SWIFT-переводов.
Если Вам необходимо в срок получить SWIFT-перевод в иностранной валюте, просим обратить внимание на следующие требования:
1. Перевод может осуществляться по операциям неторгового характера и не распространяется на переводы, связанные с инвестиционной и
предпринимательской деятельностью. В связи с чем, для Вашего удобства, просим не указывать в назначении платежа ссылки на инвойсы/контракты.
2. Для оперативного зачисления перевода настоятельно рекомендуем согласовывать с отправителем валюту перевода - она должна совпадать с валютой
Вашей карты. В случае если Вы не имеете карты в той валюте, в которой желаете получить перевод, желательно, чтобы он был отправлен в долларах
США (USD) или евро (EUR).
Обратите внимание! Для зачисления перевода, по которому были неверно указаны реквизиты, может проводится рекламационная переписка между
банками, комиссия за которую будет изыматься из суммы перевода. В связи с чем просим обратить особое внимание на правильность предоставляемых
реквизитов для получения SWIFT-платежей. Убедитесь, что Вы верно сообщили получателю персональные данные! ПриватБанк рекомендует Вам
придерживаться следующих форм предоставления реквизитов для получения переводов в иностранной валюте на Ваш счет:
Таблица с реквизитами для карт, открытых в рублях (RUB):

Стр. 1 из 2

BENEFICIARY:

Ну, собственно, это по максимуму то, что можно надёргать из PDF в текстовый файл: сырая информация, которую потом можно использовать для какого-то редактирования...
Но выполняется успешно ... на 5! :lol:

Ответить

Вернуться в «Публикации, книги и обсуждения»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 10 гостей