CuneiForm - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов
CuneiForm (англ. Клинопись) -- свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.
Позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.
В 1993 году Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).
В 1996 году выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.
* Адаптивное распознавание -- метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность безшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.
В 1997 году в системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.
В 1999 году разработан механизм воссоздания формы исходного документа "What you scan is what you get". Он позволяет придать документу его исходную форму, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т. д.
По информации с официального сайтаHttp://ru. wikipedia. org/wiki/CuneiForm - cite_note-2#cite_note-2, 12 декабря 2007 года компания Cognitive Technologies запустила программу "Распознавание должно быть на каждом компьютере". Первым шагом в рамках этой программы был выпуск freeware-версии OCR CuneiForm и открытие ее исходных кодов. Следующим шагом планируется запустить свободную онлайн-службу распознавания на сервере www. cuneiform. ru.
2 апреля 2008 года компания Cognitive Technologies объявила об открытии исходного кода программы. В настоящее время, разработчики выбрали для проекта лицензию BSD.
В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 - Cuneiform-Qt, YAGF.
Особенности программы:
Современный и интуитивно-понятный интерфейс, встроенные помощники для сканирования и распознавания текста;
Встроенный текстовый редактор и система контроля правописания для работы с распознанным текстом;
Распознавание текста с сохранением исходного вида документа;
Распознавание таблиц со сложной структурой, многоколоночного текста;
Сохранение черно-белых и цветных иллюстраций в распознанном документе;
Поддерживаются все TWAIN-совместимые сканеры;
Использование современных разработок, таких как нейронные сети, адаптивное распознавание символов, когнитивный анализ и другие;
Распознавание печатных шрифтов из книг, журналов, газеты, текстов из пишущих машинок, распечаток из матричных и лазерных принтеров и т. п.;
Режимы автоматического, полуавтоматического и ручного разбиения на блоки для поиска в документе текстовых фрагментов, рисунков и таблиц;
Дополнительные возможности, повышающие удобство работы с программой.
Похожие статьи
-
FineReader - это система оптического распознавания текстов (OCR), которая преобразует полученное с помощью сканера графическое изображение (картинку) в...
-
Первые пакеты оптического распознавания символов имели четкое разделение по типу. Пакеты OCR Обучаемые Интеллектуальные В последнее время наблюдается...
-
OmniPage Professional - это наиболее точный механизм конвертации документов и форм в приложения на PC включая документы формата PDF. Поддерживает более...
-
В настоящее время на рынке систем распознавания существует ряд разработок, ориентированных как на различные сферы деятельности пользователя, так и на...
-
OCRopus -- OCR-система на базе не так давно открытого распознающего ядра -- tesseract; программный пакет для распознавания текста, развивающийся по...
-
Попытки автоматического распознавания предпринимались, начиная с 30-х годов XX века, однако первый OCR-аппарат от американской компании Intelligent...
-
* Программы бесплатны для некоммерческого использования Системы Факторы Лицензия ОС Размер Форматы Распоз-ие таблиц Простота интерфейса Дополнительные...
-
Сканеры с интерфейсом SCSI требуют установки в компьютер дополнительной платы SCSI-адаптера, которая поставляется в комплекте со сканером. Преимуществом...
-
Разрешающая способность определяется плотностью расположения распознаваемых точек и выражается в точках на дюйм (dpi - dot per inch). Сканеры имеют два...
-
В зависимости от способа перемещения фоточувствительного элемента сканера и носителя изображения относительно друг друга сканеры подразделяются на две...
-
Сканер (Scanner) - устройство ввода в ЭВМ информации в виде текстов, рисунков, слайдов, фотографий на плоских носителях, а также изображения объемных...
-
В процессе своего развития человеческое общество прошло этапы проникновения в тайны материи, научилось управлять различными видами энергии и, наконец,...
-
В современных сканерах применяют фотодатчики двух типов: фотоэлектронные умножители - ФЭУ (РМТ - Photomulti Plier Tube) или приборы с зарядовой связью -...
-
Для литья на подложку обычно используют материалы с невысокой температурой переработки, такие как полипропилен, АБС-пластики и смеси на их основе....
-
Для стадии дробления известняка важнейшими является свойство дробимость и водопоглощения. Дробимость характеризует относительную сопротивляемость породы...
-
Анализ конструкции (объекта дипломного проектирования) на предмет снижения ее массы, применения новых материалов, совершенствования конструктивных...
-
Виды известняка по происхождению - Разработка технологии получения строительного материала
Чистые известняки - белого или светло-серого цвета, примеси органических веществ окрашивают карбонат кальция в черный и темно-серый цвета, а окислы...
-
Характеристика сырья - Разработка технологии получения строительного материала
Известняк, или как его еще называют ракушечник, представляет собой осадочную горную породу либо органического, либо хемогенного происхождения. В основе...
-
Материалы для верха обуви Для наружных деталей верха обуви обычно используют натуральную кожу, искусственные, синтетические и текстильные материалы. Все...
-
Материалы, применяемые при сварке - Технология и техника сварки
Электроды: ввиду большого разнообразия применяемых покрытий делятся на типы не по составу покрытий, а по назначению электродов и механическим свойствам...
-
Технологическая схема зависит от вида и характера, вида и качества исходных материалов, от уровня развития техники (рис.1.). Рисунок 1- Технологическая...
-
Подготовка материалов к плавке., Технология плавки. - Конструкция и принцип работы елктропечи
Все присадки в дуговые печи необходимо прокаливать для удаления следов масла и влаги. Это предотвращает насыщение стали водородом. Ферросплавы...
-
Сварочную проволоку выбирают в соответствии с химическим составом основного металла. Химический состав основного металла и металла шва должны быть...
-
Выбор материала изделия. Обоснование катетов сварных швов Материал изделия для изготовления сварной конструкции, необходимо выбирать в зависимости от...
-
Основные положения к выбору способа литья - Технология конструкционных материалов
При выборе способа литья для получения заготовки в первую очередь должен быть рассмотрен вопрос экономии металла. Металлоемкость можно снизить...
-
Введение, Характеристика готового продукта - Разработка технологии получения строительного материала
В данной курсовой работе "разработка технологии получения строительного материала" мы будем рассматривать следующие решения задач, для достижения цели:...
-
Технологичность конструкций литых деталей - Технология конструкционных материалов
Конструкция литой детали должна обеспечивать высокий уровень механических и эксплуатационных характеристик при заданной массе, конфигурации, точности...
-
Для изготовления рельсов можно применять конструкционные улучшаемые стали. Учитывая, что по техническим требованиям требуются высокие характеристики,...
-
Материалы, используемые в качестве оснований для печатных плат, в том числе и для печатных плат тактового генератора анализатора частотного спектрв...
-
Актуальными в настоящее время являются вопросы повышения надежности и долговечности машин, приборов, установок, повышение их качества и эффективности...
-
Выбор транспортных средств для заготовок и деталей производим исходя из габаритных размеров деталей, а так же планировкой рабочих мест, расположения...
-
Выбор материала и технология производства заготовок деталей и инструментов
ВЫБОР МАТЕРИАЛА И ТЕХНОЛОГИЯ ПРОИЗВОДСТВА ЗАГОТОВОК ДЕТАЛЕЙ И ИНСТРУМЕНТОВ Цель работы - провести анализ условий работы заданного изделия, выбор...
-
Электромагнитное излучение оказывает отрицательное влияние на организм человека, а также препятствует эффективной работе радиотехнического оборудования....
-
Заключение, Список используемых источников - Разработка технологии получения строительного материала
В данной курсовой работе я выполнила все поставленные задачи: 1. Дала характеристику готовому продукту 2. Дала характеристику сырью 3. Разработала...
-
Повышение эффективности технологических процессов и производств будет осуществляться путем роста единичных мощностей устанавливаемого оборудования,...
-
В данном разделе мы рассчитаем потребное количество сырья, вспомогательным материалов и тары в 1 смену для выпуска готовой продукции в установленном...
-
Материалы, применяемые при ремонте козлового крана Все материалы, применяемые для ремонта металлоконструкций, по своим механическим и качественным...
-
Материалы для пайки. - Технологии изготовления кремниевых полупроводниковых приборов
Припой. Припои для пайки, заполняющие зазор в расплавленном состоянии между соединяемыми заготовками, должны отвечать следующим требованиям: 1)...
-
Иллюстративные материалы, Пример формулы изобретения - Основы патентоведения
Материалами, иллюстрирующими изобретение, могут быть чертежи, схемы, рисунки, фотографии, графики, акты испытаний. Каждый из этих материалов должен...
-
Запись струйным способом, Пробивка приводочных отверстий - Технология компьютер-печатная форма
На выставке DRUPA 95 впервые были предложены устройства "Компьютер - печатная форма", базирующиеся на струйном методе. В соответствии с данным способом...
CuneiForm - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов