Разработка упражнения. Метод "расстояние Левенштейна или Дамерау - Левенштейна" как основа для упражнения - Компьютерная лингвистика в образовательной среде
При проектировании упражнения встал вопрос о его реализации. Было необходимо найти такой метод, который не только соответствовал основным требованиям составления упражнений на заучивание терминологии, но и мог быть использован в коде на языке программирования Python.
Проанализировав работы в сфере обработки естественного языка, был выбран метод "расстояние Левенштейна" (также редакционное расстояние или дистанция редактирования), впервые он был упомянут в 1965 г. советским математиком В. И. Левенштейном. В. И. Левенштейн. "Двоичные коды с исправлением выпадений, вставок и замещений символов" 1965г.
Расстояние Левенштейна находит применение:
- - при исправлении ошибок в слове при вводе текста, в процессе автоматического распознавания письменного текста или речи; - в ходе сравнения текстовых файлов (за единицу в подобном анализе берется строка); - в биоинформатике (сравнение хромосом, генов и белков).
Данное понятие основано на определении "редакционное предписание". Редакционное предписание - последовательность действий, необходимых для получения из первой строки второй кратчайшим способом. Набор действий, допустимый при изменении элементов, имеет следующие обозначения: D (delete) - удаление символа; I (insert) - добавление символа; R (replace) - замена символа; M (match) - совпадение символа. В. М. Черненький, Ю. Е. Гапанюк "Методика идентификации пассажира по установочным данным" 2012г.
Пример редакционного предписания (Таблица 1):
(Таблица 1)
Действие |
I |
M |
I |
M |
M |
R |
D |
Исходное слово |
М |
Г |
Л |
А | |||
Результат |
С |
М |
У |
Г |
Л |
Ы |
Й |
Сумма всех действий кроме M и будет расстоянием Левенштейна. В данном примере дистанция редактирования равна 4.
Существует масса способов, при которых можно преобразовать одно слово в другое. Если выбран метод "расстояние Левенштейна", необходимо свести действия к минимуму.
В тех случаях, когда поиск того или иного слова производится в тексте, набранном с клавиатуры, вместо расстояния Левенштейна используется усовершенствованное Расстояние Дамерау - Левенштейна.Damrau F. A. "Technique for Computer Detection and Correction of SpellingErrors" 1964.171P.
В своих исследованиях Ф. Дамерау показал, что наиболее часто совершаемая ошибка - транспозиция T(transposition) - перестановка двух соседних символов. При расстоянии Левенштейна количество действий при транспозиции будет равно 2, тогда как при корректировке Дамерау данное действие принимается за единичное расстояние.
Пример (Таблица 2):
(Таблица 2)
Действие (расстояние Дамерау - Левенштейна) |
I |
T |
M |
M |
R |
D | |
Действие(расстояние Левенштейна) |
I |
R |
R |
M |
M |
R |
D |
Исходное слово |
С |
М |
У |
Г |
Л |
Ы |
Й |
Результат |
С |
У |
М |
Г |
Л |
Ы |
Й |
Основные недостатки данного метода в отношении слов и текстовых полей заключаются в следующем:
- 1) достаточно большие расстояния при изменении положения слова (частей слов) в тексте; 2) небольшое расстояние между совершенно разными короткими словами и значительная разница между достаточно длинными, но похожими словами.
Несмотря на представленные недочеты, в качестве упражнения данный алгоритм вполне соответствует нашим требованиям. Дистанция позволит отследить соответствие вставленного в текст термина с его оригиналом и вывести количество ошибок, допущенных при вводе (на сколько символов одно слово отличается от другого).
В настоящее время существует достаточно большое количество примеров реализации данного метода на языке программирования Python. Многие из них требуют подгрузки дополнительных библиотек. Чтобы избежать лишней перегрузки программы, предпочтение было отдано достаточно простому решению: [Приложение 2].
Адаптировав его под полученные данные, становится возможным создание полей ввода для занесения пользователем печатных слов, а на выходе - получение количества ошибок, что и будет дистанцией редактирования.
Выводы по второй главе:
В данной главе отражены основные этапы проектирования и создания упражнения для заучивания политических терминов:
- 1) Формирование списка основных политических терминов, разделение их на 4 категории: "Вертикаль власти", "Выборы", "Полномочия власти, "Образ власти". 2) Поиск и разметка слов в статьях корпуса политических статей. Сортировка их в соответствии с группой. 3) Выбор тематики упражнения был сделан в пользу вида "Вставить пропущенное слово", была разработана основная концепция задания. 4) Осуществление проектирования упражнения с использованием метода "Расстояние Левенштейна или дистанция редактирования". В данной части исследования были рассмотрены основные положения данного метода. Среди уже существующих вариантов реализации, был выбран наиболее емкий и соответствующий тематике упражнения вариант.
Похожие статьи
-
Проектирование и разработка сайта Средства разработки Язык гипертекстовой разметки HTML В Интернете сосредотачивается и передается достаточно большое...
-
Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе После создания корпуса статей...
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
Корпусная лингвистика и ее применение в области преподавания иностранного языка "Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся...
-
Заключение - Компьютерная лингвистика в образовательной среде
Целью написания данной выпускной квалификационной работы являлось создание и введение в эксплуатацию упражнения, основанного на размеченном корпусе...
-
Структура сайта - Компьютерная лингвистика в образовательной среде
Структура сайта разработана в соответствии с основными требованиями к веб-приложению. (Рис.3) Содержит в себе 3 основные страницы (одна из которых...
-
Для третьего способа мне понадобился способ под названием "Стемминг". Данное понятие очень популярно во всемирной паутине, так как оно применяется в...
-
Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru Для создания полезного обучающего корпуса требуется постоянное...
-
Шаблоны сайта Bootstrap3 Веб-дизайн является одним из основных элементов в процессе создания сайта. Именно от него зависит, насколько удобно и комфортно...
-
Каскадные таблицы стилей CSS - Компьютерная лингвистика в образовательной среде
Язык CSS отвечает за стиль в том или ином документе. Он используется для того, чтобы придать страницам на HTML -- фундаментальном языке WWW --...
-
Язык разметки XML - Компьютерная лингвистика в образовательной среде
XML - это расширяемый язык разметки (ExtensibleMarkupLanguage). Был разработан в соответствии с основными требованиями сервера WWW. Является достаточно...
-
Для того, чтобы на сервере можно было запустить файлы с расширением. py, необходимо выполнить несколько операций: 1) Для работы с виртуальным окружением...
-
Введение - Компьютерная лингвистика в образовательной среде
Современная система образования все чаще приветствует внедрение информационных технологий, особенно это касается сферы преподавания языка - постоянно...
-
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
-
В рамках данной работы по разработке схемотехнического метода повышения сбоеустойивости ПЛИС поставлены следующие задачи: 1. Создание сбоеустойчивой...
-
Разработка сайта, Среда разработки web-сайта - Разработка сайта для компании
Среда разработки web-сайта При разработке web-сайта используются: - HTML - язык разметки web-страниц; - CSS - формальный язык описания внешнего...
-
Обоснование выбранного метода При дизайне системы согласно требованиям или при оптимизации существующей необходимо ввести модель, позволяющую не только...
-
Используемые на магистральных линиях (прежде всего в пригородной зоне) системы высокочастотного уплотнения типа KAMA и К-60 требуют больших затрат на...
-
Создание веб-сервера - Компьютерная лингвистика в образовательной среде
Завершающий шаг в создании и введении в эксплуатацию сайта - выбор и настройка веб-сервера, принимающего HTTP-запросы от клиентов (веб-браузеров), и...
-
Описание классов и методов - Обзор проблематики и теоретических основ электронного документооборота
В данной работе реализован один публичный класс Form1, в котором и происходит основной функционал программы, посредством выполнения методов по кнопкам....
-
Технические требования Техническое задание данной работы требует разработать программу для визуального редактирования HTML-кода. Программа должна быть...
-
Предлагаемая библиотека хранит все данные в отдельных таблицах, таким образом он не обязан использовать ту же СУБД, что и основное приложение. В качестве...
-
В среде электронного ресурса ИИС "MD_SLAGMELT" (Рис. 6) для доступа к компоненту "моделирование" необходима учетная запись (пара логин/пароль) (Рис.7)....
-
- Не требует прокладки новых линий связи. - Непрерывность. После включения питания компьютеры остаются постоянно подключенными к сети, электронная почта...
-
Предложенный подход к решению задач исследования Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к...
-
Разработка приложения для базы данных - Разработка Windows-приложений в среде Borland Delphi
Цель Работы: Получить навыки создания приложения для базы данных. Пояснения к работе Для работы с базами в Delphi есть несколько наборов компонент,...
-
Компонент TPanel является несущей конструкцией для размещения на ней других элементов управления, являясь в этом случае родителем для размещенных на ней...
-
Реальный проект состоит из многих (часто десятков) форм (окон), каждое из которых активируется в виде реакции на некоторое событие (нажатие кнопки...
-
Поскольку клиентская часть представляет собой приложение на базе операционной системы Android, то для ее разработки был выбран рекомендуемый...
-
Теоретические предпосылки исследования Системы поддержки принятия решений Системы поддержки принятия решений (СППР), представляют собой приложения узкого...
-
Прогнозируемая оценка проекта после реализации единой шины данных как прослойки между всеми компонентами ИТ-ландшафта компании выполняется по методу...
-
Понятие KPI "Ключевые показатели эффективности (англ. Key Performance Indicators, KPI) -- показатели деятельности подразделения (предприятия), которые...
-
Шестой метод - построение суффиксных деревьев. Среди большого количества методов анализа текста метод аннотированного суффиксного дерева выделяется тем,...
-
Расчет амортизационных отчислений - Разработка сайта для компании
Амортизация - это процесс постепенного перенесения стоимости объектов (средств труда) на себестоимость производимой продукции. Амортизационные отчисления...
-
Теоретическая основа линейного программирования, Симплекс метод - Линейное программирование
Симплекс метод Симплекс метод - метод линейного программирования, который реализует рациональный перебор базисных допустимых решений, в виде конечного...
-
Разработка базы данных мониторинга окружающей среды
ВВЕДЕНИЕ Информация о состоянии окружающей природной среды, об изменениях этого состояния давно используется человеком для планирования своей...
-
Разработка интерфейса, Разработка запросов - Высокоуровневые методы информатики и программирования
Программа, будет начинать работу с вывода главной формы, на которой будет располагаться самое главное меню, т. е. другими словами "панель навигации"....
-
Использование программы StudyProgram для усвоения учебного материала по кодированию информации методом четности и методом Хэмминга Программа StudyProgram...
-
Введение - Разработка программы для реализации редактора временных графов синхронизации
Математическое моделирование дискретно-событийных динамических систем является относительно молодым направлением науки теории управления. Разработка...
-
Для того чтобы оценить экономическую выгоду от внедрения АИС необходимо вычислить трудозатраты компании направленные непосредственно на реализацию...
Разработка упражнения. Метод "расстояние Левенштейна или Дамерау - Левенштейна" как основа для упражнения - Компьютерная лингвистика в образовательной среде