Типы пакетов OCR - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов
Первые пакеты оптического распознавания символов имели четкое разделение по типу.
Пакеты OCR
Обучаемые Интеллектуальные
В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания.
В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное совпадение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система "знает".
Число известных системе шрифтов обычно невелико -- около десятка. Однако достоинство подобных систем в том, что они предоставляют пользователю возможность обучать их новым гарнитурам. Обучение -- довольно длительный процесс, а, кроме того, впоследствии при сравнении шрифтов возможна путаница, вызванная наличием у некоторых символов дополнительных графических элементов типа умляутов, трема и седилей.
В случае интеллектуальной системы -- более мощном методе преобразования считанного документа в текстовый файл -- программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения символа по контуру система выполняет ряд перекрестных проверок полученного текста.
Среди многих методов наиболее распространенными являются следующие два. Первый метод заключается в частотном анализе текста. Сравнивается частота появления символа в тексте с его частотой в языке оригинала. Второй метод позволяет обнаружить неправильное сочетание символов, исходя из правил орфографии. Очевидно, что для эффективной реализации этого необходимо настроить систему на конкретный язык, на котором написан документ.
Похожие статьи
-
CuneiForm (англ. Клинопись) -- свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies....
-
FineReader - это система оптического распознавания текстов (OCR), которая преобразует полученное с помощью сканера графическое изображение (картинку) в...
-
В настоящее время на рынке систем распознавания существует ряд разработок, ориентированных как на различные сферы деятельности пользователя, так и на...
-
Попытки автоматического распознавания предпринимались, начиная с 30-х годов XX века, однако первый OCR-аппарат от американской компании Intelligent...
-
OCRopus -- OCR-система на базе не так давно открытого распознающего ядра -- tesseract; программный пакет для распознавания текста, развивающийся по...
-
OmniPage Professional - это наиболее точный механизм конвертации документов и форм в приложения на PC включая документы формата PDF. Поддерживает более...
-
* Программы бесплатны для некоммерческого использования Системы Факторы Лицензия ОС Размер Форматы Распоз-ие таблиц Простота интерфейса Дополнительные...
-
Сканер (Scanner) - устройство ввода в ЭВМ информации в виде текстов, рисунков, слайдов, фотографий на плоских носителях, а также изображения объемных...
-
Разрешающая способность определяется плотностью расположения распознаваемых точек и выражается в точках на дюйм (dpi - dot per inch). Сканеры имеют два...
-
Сканеры с интерфейсом SCSI требуют установки в компьютер дополнительной платы SCSI-адаптера, которая поставляется в комплекте со сканером. Преимуществом...
-
В зависимости от способа перемещения фоточувствительного элемента сканера и носителя изображения относительно друг друга сканеры подразделяются на две...
-
В процессе своего развития человеческое общество прошло этапы проникновения в тайны материи, научилось управлять различными видами энергии и, наконец,...
-
В современных сканерах применяют фотодатчики двух типов: фотоэлектронные умножители - ФЭУ (РМТ - Photomulti Plier Tube) или приборы с зарядовой связью -...
-
Для литья на подложку обычно используют материалы с невысокой температурой переработки, такие как полипропилен, АБС-пластики и смеси на их основе....
-
Виды известняка по происхождению - Разработка технологии получения строительного материала
Чистые известняки - белого или светло-серого цвета, примеси органических веществ окрашивают карбонат кальция в черный и темно-серый цвета, а окислы...
-
Введение, Характеристика готового продукта - Разработка технологии получения строительного материала
В данной курсовой работе "разработка технологии получения строительного материала" мы будем рассматривать следующие решения задач, для достижения цели:...
-
Подготовка материалов к плавке., Технология плавки. - Конструкция и принцип работы елктропечи
Все присадки в дуговые печи необходимо прокаливать для удаления следов масла и влаги. Это предотвращает насыщение стали водородом. Ферросплавы...
-
Повышение эффективности технологических процессов и производств будет осуществляться путем роста единичных мощностей устанавливаемого оборудования,...
-
Технологическая схема зависит от вида и характера, вида и качества исходных материалов, от уровня развития техники (рис.1.). Рисунок 1- Технологическая...
-
Технологичность конструкций литых деталей - Технология конструкционных материалов
Конструкция литой детали должна обеспечивать высокий уровень механических и эксплуатационных характеристик при заданной массе, конфигурации, точности...
-
В данном разделе мы рассчитаем потребное количество сырья, вспомогательным материалов и тары в 1 смену для выпуска готовой продукции в установленном...
-
Выбор материала изделия. Обоснование катетов сварных швов Материал изделия для изготовления сварной конструкции, необходимо выбирать в зависимости от...
-
Анализ конструкции (объекта дипломного проектирования) на предмет снижения ее массы, применения новых материалов, совершенствования конструктивных...
-
Материалы, применяемые при ремонте козлового крана Все материалы, применяемые для ремонта металлоконструкций, по своим механическим и качественным...
-
Материалы, применяемые при сварке - Технология и техника сварки
Электроды: ввиду большого разнообразия применяемых покрытий делятся на типы не по составу покрытий, а по назначению электродов и механическим свойствам...
-
Для стадии дробления известняка важнейшими является свойство дробимость и водопоглощения. Дробимость характеризует относительную сопротивляемость породы...
-
Выбор материала и технология производства заготовок деталей и инструментов
ВЫБОР МАТЕРИАЛА И ТЕХНОЛОГИЯ ПРОИЗВОДСТВА ЗАГОТОВОК ДЕТАЛЕЙ И ИНСТРУМЕНТОВ Цель работы - провести анализ условий работы заданного изделия, выбор...
-
Материалы для верха обуви Для наружных деталей верха обуви обычно используют натуральную кожу, искусственные, синтетические и текстильные материалы. Все...
-
Для повседневного платья на первом плане функциональные и эргономические требования, такие как воздухопроницаемость, гигроскопичность, и несминаемость, а...
-
Электромагнитное излучение оказывает отрицательное влияние на организм человека, а также препятствует эффективной работе радиотехнического оборудования....
-
Основные положения к выбору способа литья - Технология конструкционных материалов
При выборе способа литья для получения заготовки в первую очередь должен быть рассмотрен вопрос экономии металла. Металлоемкость можно снизить...
-
Технология ремонта деталей машин и оборудования - Эксплуатация и ремонт горных машин и комплексов
Известно, что изношенные поверхности деталей могут быть восстановлены, как правило, несколькими способами. Для обеспечения наилучших экономических...
-
Подготовка моркови к переработке - Технология производства, хранения и переработки моркови
Морковь поступает на завод в ящиках, бункерах, мешках или навалом. Здесь важна тщательная мойка моркови, так как вместе с ней может в большом количестве...
-
Волочение металла - Технология обработки металлов давлением
Волочение металла -- это протягивание изделия круглого или фасонного профиля через отверстие волочильного очка (волоку), площадь выходного сечения...
-
Литье тонкостенных изделий - Общие аспекты и технология производства пластических масс
Одним из наиболее эффективных методов снижения себестоимости изделия является уменьшение толщины стенки изделия, позволяющее уменьшить расход материала и...
-
Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
-
Мясо рыбы содержит белки, жиры, углеводы, минеральные вещества, витамины, воду и другие соединения. Белки - важнейшая составная часть мяса рыбы. Общее...
-
КОНТРОЛЬ КАЧЕСТВА ДЕТСКОЙ ОБУВИ - Технология производства детской обуви
Сложность комплекса требований, предъявляемых к обуви различного назначения, большой ассортимент материалов, а также разнообразие и сложность воздействия...
-
Выше отмечалось, что класс нераспыляемых газопоглотителей отличается большим разнообразием. В связи с этим представляется целесообразным провести их...
-
Обувь для детей подбирается в соответствии с размерами, определяемыми по длине стопы: расстояние между наиболее выступающей точкой пятки и концом самого...
Типы пакетов OCR - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов