Технология работы систем EDMS второго поколения

Поиск информации в таких системах происходит с помощью механизмов полнотекстового
поиска (Full Text Retrieval). Принципиальным технологическим новшеством в системах EDMS
второго поколения явилось использование оптического распознавания символов (Optical
Character Recognition - OCR).
Оптическое распознавание символов - одна из основных компонент для большинства
современных систем управления документами, особенно тех из них, в которых большую роль
играет ввод текстов в систему. Хотя современные технологии OCR позволяют достаточно
надежно распознавать высококачественные бумажные документы, они не могут гарантировать
абсолютной надежности во всех случаях. Поэтому в процесс распознавания текста, как мы
видим из рис. 2, включен процесс ручной правки, в ходе которого исходный текст сверяется с
полученным ASCII-файлом. Вокруг проблемы доводки, исправления и повторного ввода текстов,
прошедших распознавание, выросла целая индустрия.
Несомненно, этот очень медленный и дорогостоящий процесс исправления текста является
серьезным "узким местом" в автоматизации управления электронными документами и приводит
к значительным скрытым расходам при использовании систем с четким поиском, особенно если
вы вводите старые, не слишком хорошего качества документы.
Среди других "узких мест" рассматриваемых систем EDMS можно назвать:

Механизм четкого поиска не позволит вам найти информацию, если были
допущены ошибки при распознавании текста или при написании запроса.
Из-за необходимости "очистки" текста стоимость обработки документов
достаточно велика - от $2 до $10 на страницу.
Индекс, создаваемый такими системами, обычно составляет от 100 до 400%
от объема исходного текста, что означает увеличение времени поиска и ресурсов
компьютера.

В начале 90-х годов появились технологические разработки, связанные с индексацией и поиском
документов и использующие результаты, полученные в области нейронных сетей и
искусственного интеллекта. Они позволили сформулировать принципиально новые концепции

построения систем управления неструктурированной информацией в электронном виде.
Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного
распознавания образов APRP(Adaptive Pattern Recognition Processing), которая была положена в
основу программного продукта - систему управления документами Excalibur EFS. Технология
APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок
распознавания текстов, но и предоставляет возможности автоматического индексирования и
поиска различных типов неструктурированной информации в электронной форме.
Компания Excalibur Technologies разработала библиотеки, реализующие нечеткий поиск
информации различной природы:

Библиотека TRS - Text Recognition Software - предназначена для индексации
и нечеткого поиска текстовой информации
Библиотека SRC - Signal/Sound Recognition Software - предназначена для
распознавания (индексации и нечеткого поиска) голосовой, звуковой и
сигнальной информации
Библиотека VRS - Visual Recognition Software - предназначена для
индексации и нечеткого поиска изображений (например, поиск по фотографиям,
отпечаткам пальцев и т.д.)

Технология адаптивного распознавания образов легла в основу коммерческого программного
продукта Excalibur EFS - системы управления электронными документами третьего поколения.
Технология работы с системой Excalibur EFS включает те же этапы (рис. 3), что и работа с
системами EDMS второго поколения. Однако, отсутствует самый дорогостоящий и трудоемкий
этап - исправление ошибок в тексте документа после распознавания.

Технология работы систем EDMS второго поколения

Содержание раздела