Сравнительный анализ программ для распознавания текста - Обзор проблематики и теоретических основ электронного документооборота
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в текстовый. Безусловно, лидер программ в распознавании текста является ABBYY FineReader, но, чтобы удостовериться в этом, проведем сравнительный анализ еще нескольких программ для распознавания текста из графического файла. В результате мы сможем, во-первых, оценить рынок доступных ПО для распознавания текста, во-вторых, указать сильные и слабые стороны каждого из них.
ABBYY FineReader 12 - это профессиональное программное обеспечение, с помощью которого можно распознавать текст из графического файла и переводить его в различные редактируемые форматы. Программа точно определяет текст и структурно его переводит в нужный формат. Она позволяет не перепечатывать текст в ручную, а это, в свою очередь, сокращает затраты на обработку. Данное ПО используется в фирмах и организациях, которые постоянно работают с бумажной документацией. ABBYY FineReader конвертирует файлы из форматов PDF, TIFF, JPEG в форматы PDF, DOC, XLSX, TXT и другие. [7]
Рис.5 Начальное окно программы ABBYY FineReader 12
Далее проведем анализ на выявление слов с ошибками и качество обрабатываемого документа на примере 10 исполнительных листов:
Таблица 1 Данные, полученные при обработке документов программой ABBYY FineReader 12
№ |
Количество слов |
Слов с ошибками (нет слов) |
Без ошибок |
Качество обработки % |
1 |
111 |
11 |
100 |
90,09 |
2 |
124 |
10 |
114 |
91,94 |
3 |
273 |
3 |
270 |
98,90 |
4 |
151 |
13 |
138 |
91,39 |
5 |
144 |
16 |
128 |
88,89 |
6 |
178 |
9 |
169 |
94,94 |
7 |
199 |
2 |
197 |
98,99 |
8 |
201 |
3 |
198 |
98,51 |
9 |
121 |
25 |
96 |
79,34 |
10 |
126 |
25 |
101 |
80,16 |
Среднее значение |
162,8 |
11,7 |
151,1 |
91,32 |
MIN |
111 |
2 |
96 |
79,34 |
MAX |
273 |
25 |
270 |
98,99 |
Рис.6 Соотношение слов без ошибок к общему количеству слов (обработано ABBYY FineReader 12)
Как видим из показанной выше диаграммы, программа ABBYY FineReader 12 очень качественно обрабатывает документы, переводя их из графического формата в текстовый формат. В среднем, количество распознанных слов составляет 91,3 %. Данное программное обеспечение показало себя, как качественный продукт. Также стоит отметить, что ключевые поля, по которым в дальнейшем будут выгружаться данные из документа, были распознаны хорошо и без ошибок, а значит, основную задачу оптимизации и автоматизации возможно реализовать.
Плюсы: высокое качество распознавания текстов, широкий выбор входных и выходных форматов документов, простой и понятный пользовательский интерфейс
Минусы: данное ПО платное, не имеется открытого доступа к исходным кодам программы (используя их, можно было бы запускать программу с помощью написанного кода на С#)
FREE ONLINE OCR SERVICE - это бесплатный он-лайн сервис для распознавания текста из различных форматов. Его легко и просто использовать любому пользователю, т. к. нет необходимости загружать и устанавливать программу на компьютер. Данный продукт поддерживает множество языков для распознавания (в том числе и русский).
Форматы выходных файлов в FREE ONLINE OCR SERVICE:
Рис. 7 Поддерживаемые форматы в FREE ONLINE OCR SERVICE
Имеется возможность перевести текст в один из трех форматов: Microsoft Word, Microsoft Excel и Text Plain. В основном, для быстрого распознавания текста этих форматов достаточно. Так как имеется необходимый в данной дипломной работе формат. txt, то сравним качество обработанного документа и вероятность некорректного перевода текста.
Таблица 2. Данные, полученные при обработке документов программой FREE ONLINE OCR SERVICE
№ |
Количество слов |
Слов с ошибками (нет слов) |
Без ошибок |
Качество обработки % |
1 |
111 |
14 |
97 |
87,39 |
2 |
124 |
61 |
63 |
50,81 |
3 |
273 |
120 |
153 |
56,04 |
4 |
151 |
20 |
131 |
86,75 |
5 |
144 |
22 |
122 |
84,72 |
6 |
178 |
156 |
22 |
12,36 |
7 |
199 |
5 |
194 |
97,49 |
8 |
201 |
12 |
189 |
94,03 |
9 |
121 |
73 |
48 |
39,67 |
10 |
126 |
43 |
83 |
65,87 |
Среднее значение |
162,8 |
52,6 |
110,2 |
67,51 |
MIN |
111 |
5 |
22 |
12,36 |
MAX |
273 |
156 |
194 |
97,49 |
Рис.8 Соотношение слов без ошибок к общему количеству слов (обработано FREE ONLINE OCR SERVICE)
Исходя из полученных результатов, можно сделать вывод, что данный сервис имеет высокий уровень распознавания текста. В среднем, количество распознанных слов составляет 67,5 %. Данный сервис является хорошим способом быстро распознать графический файл и перевести его в текстовый формат, но для оптимизации реального бизнес-процесса данный продукт не подходит из-за узкого спектра функциональных возможностей.
Плюсы: простота в использовании, быстрый доступ с любого устройства с выходом в интернет, множество языков для распознавания.
Минусы: в отличие от загруженных программ для оптического распознавания текста, данный продукт не имеет таких широких функциональных возможностей.
CuneiForm - это программа, используемая для распознавания текста документов и дальнейшего перевода в редактируемый вид. Данный продукт бесплатный и доступный любому пользователю. В результате работы программы можно получить файл в нужном формате с отредактированным текстом.
Форматы выходных файлов в CuneiForm:
Рис.9 Поддерживаемые форматы в CuneiForm
Исходя из увиденного выше, делаем вывод, что данное ПО не поддерживает одни из основных форматов файлов, как Microsoft Word (расширение. doc) и Acrobat Reader DC (расширение. pdf). Следовательно, данный продукт будет проигрывать по широте использования тому же ABBYY FineReader 12. Но в этой дипломной работе как раз необходим текст исполнительного листа в формате. txt, поэтому сравним качество обработанного документа и вероятность некорректного перевода текста.
Таблица 3. Данные, полученные при обработке документов программой OCR CuneiForm
№ |
Количество слов |
Слов с ошибками (нет слов) |
Без ошибок |
Качество обработки % |
1 |
111 |
18 |
93 |
83,78 |
2 |
124 |
120 |
4 |
3,23 |
3 |
273 |
273 |
0 |
0,00 |
4 |
151 |
147 |
4 |
2,65 |
5 |
144 |
141 |
3 |
2,08 |
6 |
178 |
175 |
3 |
1,69 |
7 |
199 |
166 |
33 |
16,58 |
8 |
201 |
175 |
26 |
12,94 |
9 |
121 |
119 |
2 |
1,65 |
10 |
126 |
122 |
4 |
3,17 |
Среднее значение |
162,8 |
145,6 |
17,2 |
12,78 |
MIN |
111 |
18 |
0 |
0,00 |
MAX |
273 |
273 |
93 |
83,78 |
OCR CuneiForm является низкокачественным программным продуктов для распознавания оптического текста. Основную часть слов переводит в непонятный набор символов или вообще не распознает. В среднем, количество распознанных слов составляет 12,8 %. Это очень низкое качество.
Плюсы: данная программа бесплатная, русифицированная, имеется доступ к исходным кодам программы (используя их, можно запускать программу для анализа графического документа с помощью написанного кода на С#)
Минусы: низкое качество распознавания
Выводы после проведенного анализа:
Анализ проводился без корректировки активных полей для распознавания, т. е. программы переводили текст только в тех местах графического файла, где они его определили. Суть распознавания без корректировки в том, что мы не тратим время на выбор того или иного поля, соответственно, не затрачиваем время на обработку. В таком виде анализа возможны потери качества, но так как основная цель дипломной работы - оптимизировать бизнес-процесс, значит, будем полагаться на корректную обработку документа программой для оптического распознавания текста.
Ниже представлена диаграмма, сравнивающая количество обработанных слов различными программами:
Рис.10 Соотношение слов без ошибок к общему количеству слов для разных программ по распознаванию текста
Рис.11 Качество обработки документов (количество обработанных слов, выраженное в процентах, %)
Исходя из результатов анализа, можно сделать вывод, что программа ABBYY FineReader является наилучшим продуктом для оптического распознавания графического файла. Данная программа имеет широкий спектр возможностей и множество плюсов. Сервис FREE ONLINE OCR SERVICE также неплох для быстрого распознавания текста на картинке, но не подходит для автоматизации бизнес-процесса из-за минимального функционала. Программное обеспечение OCR CuneiForm оказалось низкокачественным продуктом и не будет использовано в качестве программы, используемой в данной дипломной работе.
Также были проанализированы программы для распознавания текстов, такие как TopOCRDemo и Capture Text, но ни одна из них в нашем случае не показала достойных результатов в качественном переводе текста из графического формата в текстовый. В данной дипломной работе будет использована программа ABBYY FineReader 12.
Похожие статьи
-
Заключение - Обзор проблематики и теоретических основ электронного документооборота
В современном динамично развивающемся мире рынок электронного документооборота не только занял прочную позицию, но и растет с каждым годом, потому что...
-
Описание модулей системы Первый модуль - это перевод документов из формата pdf в формат txt. Как было представлено ранее, самым качественным ПО для...
-
На основе описания методов можно с уверенностью сказать, что данная система может успешно справляться с автоматизацией анализа документации. При этом...
-
Описание классов и методов - Обзор проблематики и теоретических основ электронного документооборота
В данной работе реализован один публичный класс Form1, в котором и происходит основной функционал программы, посредством выполнения методов по кнопкам....
-
Прежде всего, для расчета эффективности данного проекта необходимо понять, как данная система будет экономить деньги владельцу и сможет ли программа...
-
Определение документооборота Для начала разберемся, что же означает термин "система электронного документооборота", что включается это понятие и в чем...
-
В данной дипломной работе для автоматизации процесса документооборота в банке использовалось такое программное обеспечение, как Microsoft Visual Studio...
-
В данном разделе рассмотрим те виды документов, которые обрабатываются сотрудником в департаменте по работе с просроченной задолженностью в банке, а...
-
На примере департамента в банке рассмотрим объект автоматизации. В нашем случае - это бизнес-процесс, который выполняется сотрудником банка,...
-
Введение - Обзор проблематики и теоретических основ электронного документооборота
Областью изучения данной работы являются системы электронного документооборота. Применение этих исследований является значимым на сегодняшний день и...
-
Постановка задачи Основная задача автоматизации документооборота в работе состоит в оптимизации бизнес-процесса на уровне обработки документов...
-
Актуальность автоматизации - Обзор проблематики и теоретических основ электронного документооборота
Во-первых, на данный момент в динамично развивающемся мире системы электронного документооборота заняли прочное место на рынке IT-услуг. По актуальным...
-
Инструментарий технологии программирования - программные продукты поддержки (обеспечения) технологии программирования. В рамках этого направления...
-
Обзор протокола Multi-Touch технологий передачи данных TUIO [7] - основной кроссплатформенный протокол с открытым исходным кодом Multi-Touch передачи...
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
Для перехода к описанию выбора средств разработки, необходимо выделить этапы работы программы. Алгоритм работы программы представлен ниже: Пользователь...
-
Введение - Программа анализа матриц типа "функции-данные" и интерпретации деревьев бизнес-процессов
В настоящее время трудно представить организацию, не использующую в своей деятельности информационные системы, начиная от простых электронных таблиц и...
-
Форматы файлов для хранения растровых графических изображений - Обзор графических редакторов
Как правило, файлы для хранения растровых графических изображений логически состоят из двух частей: заголовка и области данных. В заголовке указаны...
-
Теоретические предпосылки исследования Системы поддержки принятия решений Системы поддержки принятия решений (СППР), представляют собой приложения узкого...
-
Языки программирования для Интернета - Теоретические основы информационных технологий
С активным развитием глобальной сети было создано немало популярных языков программирования, адаптированных специально для Интернета. Все они отличаются...
-
Классификация систем электронного документооборота International Data Corporation (далее IDC) является аналитической фирмой, которая специализируется на...
-
Требования к системе электронного документооборота Выбор системы для внедрения и определение состава модулей, из которых она состоит, обусловлен...
-
Обзор модулей системы - Моделирование и анализ процессов внутреннего документооборота предприятия
Структурно модули системы представляют собой наборы компонент различных типов. Компоненты имеют характерный интерфейс и наборы данных, определяемые их...
-
Программный продукт "1С: Документооборот 8", является преемником программного продукта "1С: Архив 3", который уже более 10 лет применяется в сотнях...
-
Данная компания является ведущем производителем оборудования и выпуска квалифицированных специалистов в мире. Это одна из самых оцененных компаний в...
-
Общее описание системы Система Directum является корпоративной системой электронного документооборота, которая упрощает работу с большим потоком...
-
Eudora . Eudora -- одна из наиболее распространенных и зависимых от Internet программ. Она может работать с подключением через сеть или удаленный доступ...
-
В ходе сравнения систем электронного документооборота была составлена таблица преимуществ функциональных возможностей рассмотренных ранее систем: Таблица...
-
Электронный документооборот внедрение экспресс Вводная информация для внедрения системы электронного документооборота Выпускная квалификационная работа...
-
Документ - определенным образом упорядоченная информация. Автоматизация -- одно из направлений научно-технического прогресса, использующее...
-
Дополнительные офисные программы - Интегрированные пакеты для офисов
Дополнительные офисные программы. Помимо пакета программ Microsoft Office пользователи в своей работе задействуют и другие программы, в том числе...
-
Основным объектом предметной области является локальная вычислительная сеть (ЛВС). Основными свойствами являются: - Быстродействие; - Масштабируемость; -...
-
При проектировании упражнения встал вопрос о его реализации. Было необходимо найти такой метод, который не только соответствовал основным требованиям...
-
Постановка задачи Имеющаяся база данных SQL имеет недостаточное количество полей и таблиц, не имеет упорядоченной структуры пользователей для работы с...
-
Определение методов реинжиниринга информационных систем Основные задачи, которые стоят перед проектировщиком, занимающимся реинжинирингом информационных...
-
Заключение - Технологии больших данных: анализ и выбор решения для реализации проекта
На практике при реализации проектов возникает потребность в инструментах обработки больших данных от особенностей бизнеса, которые после накопления...
-
В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее...
-
Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru Для создания полезного обучающего корпуса требуется постоянное...
-
Выходные данные для работы программы представляют собой матрицу типа "функции-данные", где связь бизнес-функций и элементов данных описывается большим...
-
Широкое распространение в операционной системе Windows имеет множество стандартных программ обеспечивающих работу устройств компьютера и служащих для...
Сравнительный анализ программ для распознавания текста - Обзор проблематики и теоретических основ электронного документооборота