gPDFText - извлечение текста из PDF.

Автор: admin.


gPDFText - извлечение текста из PDF  Весь материал, я начисто "слизал" с другого ресурса, мне сегодня лень что-либо делать и думать головой, поэтому, читайте наздоровье, чужие мысли - то же хорошие мысли, если правда, так же не являются чужими, хотя, какая разница.

  gPDFText - простой GTK+ редактор, позволяющий загружать текстовое содержимое PDF файлов (переформатируя абзацы в длинные строки), преобразовывая содержимое в простой текст. Приложение создано Нилом Вильямсом (Neil Williams). Многими приложениями для чтения PDF документов для отображения используется формат станиц A4 (или подобного размера). Когда документ открывается с масштабированием по экрану то на некоторых мониторах (устройствах чтения) текст получается слишком маленьким для чтения. Простой экспорт PDF документа в текст часто вызывает проблемы с переносом строк, а задание различных опций не оправданно усложняет автоматическое преобразование.

  gPDFText открыв PDF документ извлечёт из него текст, автоматически переформатирует абзацы в отдельные строки и поместит текст в обычный текстовой редактор (где к тексту можно применять любые преобразования). Приложение имеет встроенный текстовой редактор, с проверкой орфографии, что может оказаться полезным при необходимости в редактировании текста (включение/отключение проверки орфографии в меню или по нажатию F7).Полученный текст не содержит нежелательных переносов строк, размер текста можно масштабировать до нужного размера, что может оказаться более удобным. параметры переформатирования могут быть изменены в настройках приложения.

Рабочий интерфейс gPDFText

  gPDFText извлекаемому тексту применяет три типа изменений... Это слияние слов с переносом, поддержка длинных строк (удаление ненужных разрывов строк), удаление колонтитулов (заголовочные данные, авторство, номера страниц и.т.д...), которые пользователь может отключить. Поддержка длинных строк позволяет объединить отдельные строки в первоначальный абзац, для того что бы устройство чтения смогло правильно их отформатировать. Удаление колонтитулов поддерживается частичен, удаляются только простейшие колонтитулы с номерами страниц. Если страниц PDF-документа содержат название книги, оглавление, встроенную рекламу и пр... То их придётся удалить вручную.

  gPDFText не позволяет извлекать текст из файлов PDF, где текст размещён в таблицах или не в виде параграфов. Извлечённый и отредактированный текст может быть сохранён в .txt формате, или в новый файл PDF-файл на основе текста и с более подходящем размером страницы (A5 или B5), чтобы устройство чтения книг смогло отобразить страницу целиком и удобно масштабировало текст. Шрифт выбранный для редактора, также используется (того же размера) в создаваемом PDF. Любой текстовый файл также можно открыть и сохранить в PDF.  

Положительные характеристики gPDFText:

  • Легкое извлечение текста.


Отрицательные характеристики gPDFText:

  • Не работает с таблицами.


Устанавливается и удаляется программа из "центра приложений Ubuntu".

Параметры:

Язык интерфейса:  русский
Лицензия:  GNU GPL
Домашняя страница:  http://gpdftext.sourceforge.net/

Проверялось на «Ubuntu» 13.04 Unity (64-bit.). 

 

 

 

Программы для работы с PDF в Ubuntu

 

Copyright 2011-2016 gPDFText - извлечение текста из PDF. All Rights Reserved.
Joomla theme by hostgator coupons