OCRFeeder

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис
OCRFeeder
Логотип программы OCRFeeder
Скриншот программы OCRFeeder
Тип оптическое распознавание символов
Автор Joaquim Rocha
Написана на Python
Интерфейс GTK+, командная строка
Операционная система Linux и др. UNIX-подобные
Первый выпуск май 2009[1]
Последняя версия 0.8.1 (22 декабря 2014[2])
Лицензия GNU GPL

OCRFeeder — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm, Tesseract, GOCR[англ.] и Ocrad[англ.]. OCRFeeder является свободно распространяемой программой для операционной системы Linux.

Функции

  • Графические форматы ввода данных: PNG, JPEG, BMP, TIFF, GIF, Portable anymap (PNM, PGM, PBM, PPM) и другие. Импорт PDF-файлов.
  • Форматы вывода данных: текстовый файл, ODT, HTML, PDF.
  • Обработка изображений для улучшения качества распознавания — фильтры шумов, чёрного цвета и оттенков серого; и другие виды обработок, доступных для Unpaper[3].
  • Ручное выделение блоков на странице.
  • Проверка орфографии.
  • Получение изображений со сканера посредством программы SANE.
  • Распознавание нескольких изображений по порядку за один проход (пакетное распознавание).

Используемые компоненты

  • PIL — библиотека Python для работы с изображениями.
  • Unpaper — для обработки изображений.
  • ReportLab[4] — для импорта PDF-файлов.
  • PyGTK и Libgnome — для графического интерфейса.
  • PyeEnchant («привязка» Enchant[англ.] для Python) и PyGtkSpell («привязка» GtkSpell для Python) — для проверки орфографии.

Примечания

  1. Устаревший репозиторий OCRFeeder.. Дата обращения: 2 апреля 2012. Архивировано 15 апреля 2012 года.
  2. Репозиторий OCRFeeder.. Дата обращения: 2 апреля 2012. Архивировано 25 июля 2012 года.
  3. Домашняя страница Unpaper. Архивировано 19 января 2012 года.
  4. Домашняя страница ReportLab. (недоступная ссылка). Дата обращения: 2 апреля 2012. Архивировано 29 февраля 2012 года.

Литература

  • Журнал Linux Format № 11 (150) Ноябрь 2011 — Тимур Мубаракшин рассматривает приложения OCR для Linux: Сuneiform-Qt, GOCR, Tesseract, OCRFeeder, ABBYY FineReader и YAGF.

Ссылки