История развития OCR-систем - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов
Попытки автоматического распознавания предпринимались, начиная с 30-х годов XX века, однако первый OCR-аппарат от американской компании Intelligent Machines Research Corporation появился только в 1952 году. Естественно, ни о каком искусственном интеллекте речь тогда не шла. Первые OCR-аппараты не имели ничего общего даже с компьютерной техникой. В них свет, отраженный от подсвеченного участка оригинала, проходил через сложную систему зеркал, причем некоторые из них были расположены на вращающихся дисках. В результате из общего потока поочередно выделялись узкие световые пучки, соответствующие небольшим участкам оригинала -- аналогам пикселей электронного изображения. Эти "квазипиксели" поступали на вход фотоэлектронного умножителя -- оптико-электронного преобразователя с большим коэффициентом усиления. Полученные сигналы обрабатывались электронной схемой. В ходе обработки устанавливалось, является подсвеченная точка оригинала белой или черной. На основе полученной информации OCR-аппарат воспроизводил образ подсвеченного знака.
Возможности этих машин были ограничены рядом условий. Для сколько-нибудь уверенного распознавания требовались исключительно хорошее качество, высокая контрастность и отсутствие каких-либо повреждений оригиналов. Кроме того, распознавать можно было далеко не все надписи, а только набранные определенными шрифтами. Именно с этой целью в 60-х годах были разработаны и стандартизованы специальные шрифты -- OCR-A (в США) и OCR-B (в Европе).
В 70-х годах компания Kurzweil Computer Products предприняла качественно новый шаг в развитии OCR, создав систему, способную учиться распознавать шрифты. Результаты обучения, продолжавшегося обычно несколько часов, записывались на диск, и система приобретала способность распознавать тексты, набранные выученным шрифтом. В то же время в отечественном Научно-исследовательском центре электронной и вычислительной техники (НИЦЭВТ CCCР) группой под руководством Александра Шамиса велись исследования по распознаванию "рукопечатных" (сделанных от руки печатными буквами) надписей. Впоследствии результаты деятельности группы неоднократно находили воплощение в программном коде.
В 1986 году компания Calera Recognition Systems разработала систему, позволяющую работать с неизвестными ей шрифтами без предварительного многочасового обучения. Это была первая OCR-система, обладавшая искусственным интеллектом. Вместо применявшейся ранее методики посимвольного сравнения с шаблонами она действовала по методу обобщения, ныне более известному как принцип нейронной сети. Разработчики предоставили в распоряжение программы свыше 10 тыс. образцов начертания каждой буквы; обобщая их, система получала представление об основных закономерностях начертания знака, что и позволяло обходиться без длительного обучения. Впрочем, некоторое обучение требуется и современным OCR-программам. Например, иногда приходится проводить "ликбез" при распознавании редких и декоративных шрифтов.
В конце прошлого века на практике был реализован новый подход к OCR с использованием нечеткой логики. Программа выдвигала не одну, а несколько гипотез относительно каждого символа, причем каждой из них присваивала рейтинг, отражающий степень уверенности в данной гипотезе. При обработке списков гипотез во внимание принимались различные обстоятельства, например наличие или отсутствие получающегося слова в словаре, при этом соответственно менялся рейтинг каждой гипотезы. В конечном счете, списки поступали в распоряжение так называемого эксперта -- алгоритма выбора, за которым и оставалось решающее слово. Как правило, в таких системах правильным считается символ, чья гипотеза набрала максимальный суммарный рейтинг.
Следует отметить, что современные OCR-системы решают намного более сложные задачи, нежели их предшественницы. Простым распознаванием текста теперь никого не удивишь. Потребности пользователей возросли, и подлежащий распознаванию документ часто выглядит намного сложнее, чем белая страница с черным текстом -- иллюстрации, таблицы, колонтитулы, фоновые изображения и прочие элементы усложняют ее структуру. Для того чтобы корректно воспроизводить в электронном виде такие документы, все современные OCR-программы начинают распознавание именно с анализа структуры. Как правило, при этом выделяют несколько иерархически организованных логических уровней. Объект наивысшего уровня только один -- собственно страница, на следующей ступени иерархии располагаются таблица и текстовый блок, затем ячейка таблицы, абзац или картинка, за ними следует строка, потом слово или картинка внутри строки и, наконец, нижний уровень -- символ.
Любой высокоуровневый объект может быть представлен как набор объектов более низкого уровня: буквы образуют слова, слова -- строки и т. д. Поэтому анализ всегда начинается в направлении сверху вниз. Программа делит страницу на объекты, их, в свою очередь, на объекты низших уровней и т. д., вплоть до символов. Когда символы выделены и распознаны, начинается обратный процесс -- сборка объектов высших уровней, которая завершается формированием целой страницы. Такая процедура называется многоуровневым анализом документа, или MDA (Мultilevel document Analysis).
Таким образом, задача распознавания отдельного символа, над которой работали последние полвека множество специалистов, хотя и не имеет идеального решения, но близка к нему, а потому несколько отошла на задний план, став лишь одной из множества ступеней логической лестницы, ведущей пользователя от бумажной страницы к ее электронной копии.
К наиболее важным аспектам работы систем распознавания пользователи относят следующие:
Точность распознавания -- 95%;
Точность сохранения оформления в документах для текстовых процессоров (в форматах MS Word, MS Excel, Word Pro, Word Perfect) -- 89%;
Точность сохранения оформления для последующей электронной публикации (в форматах PDF, HTML) -- 87%;
Работа с таблицами и многоколоночными текстами -- 87%;
Простота использования -- 85%;
Надежность работы -- 82%;
Удобный поиск ошибок и сверка с оригиналом -- 80%;
Работа с цветом (сохранение цветных картинок, цвета шрифта и фона) -- 63%;
Прямой экспорт в другие приложения -- 61%;
Скорость -- 55%;
Многоязычное распознавание -- 25%.
Экспорт в Web-форматы сочли необходимым параметром 87% пользователей. Таким образом, возможность выкладывания результатов распознавания в Интернет становится даже более приоритетной, чем такие важные требования к OCR и вообще к программным продуктам, как удобство и простота интерфейса и надежность работы. Похоже, что сетевой фактор становится все более актуальным даже в областях, непосредственно с Интернетом не связанных. В данном случае привязанность OCR к Сети во многом можно объяснить появлением в Интернете многочисленных библиотек самой разной тематической направленности, содержащих электронные копии документов и изданий.
Похожие статьи
-
Первые пакеты оптического распознавания символов имели четкое разделение по типу. Пакеты OCR Обучаемые Интеллектуальные В последнее время наблюдается...
-
CuneiForm (англ. Клинопись) -- свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies....
-
В настоящее время на рынке систем распознавания существует ряд разработок, ориентированных как на различные сферы деятельности пользователя, так и на...
-
FineReader - это система оптического распознавания текстов (OCR), которая преобразует полученное с помощью сканера графическое изображение (картинку) в...
-
* Программы бесплатны для некоммерческого использования Системы Факторы Лицензия ОС Размер Форматы Распоз-ие таблиц Простота интерфейса Дополнительные...
-
OmniPage Professional - это наиболее точный механизм конвертации документов и форм в приложения на PC включая документы формата PDF. Поддерживает более...
-
Сканер (Scanner) - устройство ввода в ЭВМ информации в виде текстов, рисунков, слайдов, фотографий на плоских носителях, а также изображения объемных...
-
Разрешающая способность определяется плотностью расположения распознаваемых точек и выражается в точках на дюйм (dpi - dot per inch). Сканеры имеют два...
-
В зависимости от способа перемещения фоточувствительного элемента сканера и носителя изображения относительно друг друга сканеры подразделяются на две...
-
В современных сканерах применяют фотодатчики двух типов: фотоэлектронные умножители - ФЭУ (РМТ - Photomulti Plier Tube) или приборы с зарядовой связью -...
-
Сканеры с интерфейсом SCSI требуют установки в компьютер дополнительной платы SCSI-адаптера, которая поставляется в комплекте со сканером. Преимуществом...
-
OCRopus -- OCR-система на базе не так давно открытого распознающего ядра -- tesseract; программный пакет для распознавания текста, развивающийся по...
-
В процессе своего развития человеческое общество прошло этапы проникновения в тайны материи, научилось управлять различными видами энергии и, наконец,...
-
Статусы секретарей - История развития секретарского дела
Говоря о статусе статус-секретарей, нельзя не вспомнить о статус-секретарях, обер-секретарях и государственных секретарях. Конечно же, это был высший...
-
Для изготовления рельсов можно применять конструкционные улучшаемые стали. Учитывая, что по техническим требованиям требуются высокие характеристики,...
-
История развития электропривода - Электрооборудование механизма подъема мостового крана
Появление ЭП обусловлено трудами многих отечественных и зарубежных ученых-электротехников. В этом блистательном ряду имена таких крупных ученых как...
-
Заключение, Список используемых источников - Разработка технологии получения строительного материала
В данной курсовой работе я выполнила все поставленные задачи: 1. Дала характеристику готовому продукту 2. Дала характеристику сырью 3. Разработала...
-
История развития ОАО "Малмыжский завод по ремонту дизельных двигателей" В 1931 году на берегу реки Шошма г. Малмыжа, на юге Кировской области, были...
-
Под объемом технического обслуживания понимаются работы, которые подлежат выполнению для поддержания или восстановления технического состояния...
-
Устройство ректификационных тарелок. - Технология переработки нефти
В тарельчатых колоннах 1 для повышения площади соприкосновения потоков пара и флегмы применяют большое число (30-40) тарелок специальной конструкции....
-
По микробиологическим показателям коровье масло должно соответствовать требованиям указанным в таблице 6. Таблица 6 Микробиологические показатели...
-
Контроль материалов, Контроль качества на участке - Производство щебня
На ранних стадиях производства материала должен проводиться анализ гранулометрического состава, содержания влаги и пределов по Аттербергу на каждые 1000...
-
Одним из основных направлений деятельности руководителей и специалистов должно быть исключение травматизма, а также снижение заболеваемости среди рабочих...
-
Характеристика сырья и потребности в материалах - Производство щебня
Исходным сырьем для переработки являются плотные горные породы месторождения железистых кварцитов, не допускается засоренность руды посторонними...
-
Наладку систем автоматизации начинают до полного завершение всех монтажных работ на объекте. При этом необходимо убедиться в том, что отдельные приборы...
-
Этапы развития секретарской службы при Петре 1. - История развития секретарского дела
Многовековой опыт российской государственности сформировал аппарат гражданских чиновников, в котором секретарям отводилась далеко не последнее место....
-
При написании данной обзорной главы выпускной квалификационной работы использовались такие источники информации, как "Хронология важнейших событий в...
-
Удельный расход - расход сырья или материалов на единицу продукции. Технологические потери - потери при производстве товаров, работ и услуг,...
-
Актуальными в настоящее время являются вопросы повышения надежности и долговечности машин, приборов, установок, повышение их качества и эффективности...
-
Сварочную проволоку выбирают в соответствии с химическим составом основного металла. Химический состав основного металла и металла шва должны быть...
-
Письмовники - сборники образцов документов - История развития секретарского дела
Подводя итог, стоит отметить, что должность секретаря в царской России на всех уровнях классной и должностной иерархии ценилась достаточно высоко и была...
-
Влияние дендизма на развитие сорочки - История мужской сорочки
Развившийся в начале 19 века в Англии, а затем распространившийся на всю Европу стиль денди - скромного, но элегантно одетого мужчины, образцом которого...
-
Выбор материала изделия. Обоснование катетов сварных швов Материал изделия для изготовления сварной конструкции, необходимо выбирать в зависимости от...
-
Сварочные электроды Металлические электроды для сварки представляют собой пруток из специальной проволоки, называемой стержнем электрода (в подавляющем...
-
Электромагнитное излучение оказывает отрицательное влияние на организм человека, а также препятствует эффективной работе радиотехнического оборудования....
-
Запуск системы производства поролона производится по команде оператора после того, как им были введены параметры протекания процесса. Перед запуском...
-
Статистические пакеты - Анализ медико-биологических данных помощью Microsoft Excel и СПП STADIA 6.2
Стандартные статистические методы включены в состав популярных электронных таблиц, таких как Excel, Lotus 1-2-3, Quattro Pro, а также в математические...
-
Законы распределения случайной величины - Оптимизация стратегии технического обслуживания и ремонта
Результаты оценки вида закона распределения времени безотказной работы, полученные при использовании статистических данных о надежности приборов контроля...
-
К изделиям, изготовленным с применением клеевых материалов, должна быть приложена памятка по уходу за изделием. В памятке указывают условные обозначения...
-
Общие тенденции развития производства. - Абразивы
Основные источники загрязнения атмосферного воздуха территории нашей страны -- машины и установки, использующие серосодержащие угли, нефть, газ....
История развития OCR-систем - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов