CuneiForm - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

CuneiForm (англ. Клинопись) -- свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

Позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

В 1993 году Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).

В 1996 году выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

* Адаптивное распознавание -- метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность безшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

В 1997 году в системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

В 1999 году разработан механизм воссоздания формы исходного документа "What you scan is what you get". Он позволяет придать документу его исходную форму, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т. д.

По информации с официального сайтаHttp://ru. wikipedia. org/wiki/CuneiForm - cite_note-2#cite_note-2, 12 декабря 2007 года компания Cognitive Technologies запустила программу "Распознавание должно быть на каждом компьютере". Первым шагом в рамках этой программы был выпуск freeware-версии OCR CuneiForm и открытие ее исходных кодов. Следующим шагом планируется запустить свободную онлайн-службу распознавания на сервере www. cuneiform. ru.

2 апреля 2008 года компания Cognitive Technologies объявила об открытии исходного кода программы. В настоящее время, разработчики выбрали для проекта лицензию BSD.

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 - Cuneiform-Qt, YAGF.

Особенности программы:

Современный и интуитивно-понятный интерфейс, встроенные помощники для сканирования и распознавания текста;

Встроенный текстовый редактор и система контроля правописания для работы с распознанным текстом;

Распознавание текста с сохранением исходного вида документа;

Распознавание таблиц со сложной структурой, многоколоночного текста;

Сохранение черно-белых и цветных иллюстраций в распознанном документе;

Поддерживаются все TWAIN-совместимые сканеры;

Использование современных разработок, таких как нейронные сети, адаптивное распознавание символов, когнитивный анализ и другие;

Распознавание печатных шрифтов из книг, журналов, газеты, текстов из пишущих машинок, распечаток из матричных и лазерных принтеров и т. п.;

Режимы автоматического, полуавтоматического и ручного разбиения на блоки для поиска в документе текстовых фрагментов, рисунков и таблиц;

Дополнительные возможности, повышающие удобство работы с программой.

Похожие статьи




CuneiForm - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

Предыдущая | Следующая