Microsoft Office Document Imaging

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис
см. также Microsoft Document Imaging Format

Microsoft Office Document Imaging (MODI) — компонент, входящий в состав пакета Microsoft Office и служащий для распознавания и редактирования документов, отсканированных в Microsoft Office Document Scanning.

Впервые появился в Microsoft Office XP и включался в последующие версии пакета, в том числе Office 2007. Не доступен, начиная с Office 2010. Для установки Document Imaging в Office 2010 Microsoft выпустила пакет SharePoint Designer 2007[1].

MODI может читать и писать небольшие изображения формата TIFF. Он также может сохранять распознанный текст в оригинальный TIFF-файл. По умолчанию движок OCR требует правильной ориентации страницы при распознавании. Если вызвать метод objectname.save(), он может записать исправленное положение страницы в исходный файл.

Имеет невысокую точность распознавания символов, кроме того, предъявляет высокие требования к качеству входных изображений.

Программирование

Через интерфейс COM MODI предоставляет интерфейс объектной модели типа документ или изображение. Важная особенность — возможность встраиваться в веб-интерфейс для распознавания изображений.

Объект MODI доступен из средств разработки через программный интерфейс модели COM. Элементы управления MODI доступны через средства разработки, которые поддерживают интерфейс ActiveX. Программный модуль, реализующий такую функциональность, называется Microsoft Office Document Imaging Viewer Control 11.0 или 12.0 (MDIVWCTL.DLL).

Пример использования на Visual Basic .NET:

Dim inputFile As String = "C:\test\multipage.tif"
Dim strRecText As String = ""
Dim Doc1 As MODI.Document

Doc1 = New MODI.Document
Doc1.Create(inputFile)
Doc1.OCR()  ' распознавание всех страниц, если файл многостраничный
Doc1.Save() ' сохранение переориентированное изображение в оригинальный файл и текст туда же, обратно во входной файл

For imageCounter As Integer = 0 To (Doc1.Images.Count - 1) ' срабатывает на кождой странице
    strRecText &= Doc1.Images(imageCounter).Layout.Text    ' помещение результатов работы в строку
Next

File.AppendAllText("C:\test\testmodi.txt", strRecText)     ' сохранение распознанного файла на диск

Doc1.Close() ' очистка
Doc1 = Nothing

Изменения с Office 2003 SP3

В Office 2003 Service Pack 3, Microsoft исключила ассоциации с файлами типа .TIFF с приложением Microsoft Office Document Imaging, как часть пакета исправления проблем безопасности. Также TIFF-файлы более не используют JPEG-сжатие[2]. Никаких объяснений на этот счёт дано не было.

В Office 2010 MODI полностью отвергнут. Это изменение также затронуло дерево установки, которое не показывает пункт MODI Help, OCR. Internet Fax feature в Office 2010 используют «Windows Fax»-драйвер принтера для генерации изображений формата TIF. MODI и все его компоненты убраны в версии офиса для 64-bit Office 2010[3].

Примечания

  1. SharePoint Designer 2007. Дата обращения: 7 августа 2014. Архивировано 10 августа 2014 года.
  2. You may experience issues when you run the Microsoft Office Document Imaging program after you install Office 2003 Service Pack 3. Дата обращения: 3 августа 2012. Архивировано 19 августа 2012 года.
  3. Changes in Word 2010 (for ITPros). Дата обращения: 29 октября 2017. Архивировано 26 августа 2016 года.

Ссылки