OCRopus, Аналитический обзор наиболее известных OCR - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

OCRopus -- OCR-система на базе не так давно открытого распознающего ядра -- tesseract; программный пакет для распознавания текста, развивающийся по принципам Open Source и распространяющееся под Apache License 2.0.

По задумке разработчиков, с помощью OCRopus станет возможным определять текстовое содержимое на цифровых изображениях и переводить его в обычный текстовый формат для дальнейшего редактирования. Помимо печатного текста, программа сможет распознавать и рукописные материалы. По состоянию на альфа-релиз, OCRopus использует язык моделирования кода из другого проекта, поддерживаемого Google OpenFST.

OCRopus в настоящее время доступна только для GNU/Linux, но существуют сборки и для Debian GNU/Hurd и Debian GNU/kFreeBSD.

Особенности программы:

OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате HOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки)

Аналитический обзор наиболее известных OCR

Похожие статьи




OCRopus, Аналитический обзор наиболее известных OCR - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

Предыдущая | Следующая