Типы пакетов OCR - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

Первые пакеты оптического распознавания символов имели четкое разделение по типу.

Пакеты OCR

Обучаемые Интеллектуальные

В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания.

В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное совпадение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система "знает".

Число известных системе шрифтов обычно невелико -- около десятка. Однако достоинство подобных систем в том, что они предоставляют пользователю возможность обучать их новым гарнитурам. Обучение -- довольно длительный процесс, а, кроме того, впоследствии при сравнении шрифтов возможна путаница, вызванная наличием у некоторых символов дополнительных графических элементов типа умляутов, трема и седилей.

В случае интеллектуальной системы -- более мощном методе преобразования считанного документа в текстовый файл -- программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения символа по контуру система выполняет ряд перекрестных проверок полученного текста.

Среди многих методов наиболее распространенными являются следующие два. Первый метод заключается в частотном анализе текста. Сравнивается частота появления символа в тексте с его частотой в языке оригинала. Второй метод позволяет обнаружить неправильное сочетание символов, исходя из правил орфографии. Очевидно, что для эффективной реализации этого необходимо настроить систему на конкретный язык, на котором написан документ.

Похожие статьи




Типы пакетов OCR - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

Предыдущая | Следующая