Обработка и разметка полученной коллекции текстов. Грамматический парсер MYSTEM (библиотека "pymystem3" для языка программирования Python) - Компьютерная лингвистика в образовательной среде

При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования необходимо обработать полученный материал и перевести его в удобочитаемый формат для дальнейшей работы с ним. Именно поэтому в программе, позволяющей извлекать и сохранять статьи, создается функция:

Save_articles (db, filename) - она служит для записи и сохранения полученных статей в файл с расширением ".xml". Использование модуля etree делает возможным разделение текста на части и составление некой иерархии.

Article = etree. SubElement (root, "atricle") - основной элемент (корень), содержащий в себе несколько дочерних элементов:

Таким образом, на выходе мы получаем текст, разбитый на части: заголовок, дата, автор и непосредственно сама статья. Пример полученной разметки. Данная обработка текста позволяет обособить разные элементы статьи, а также создает теги, по которым можно легко обращаться к тем или иным частям. Следующий шаг в разметке полученных статей - морфологическая разметка полученных текстов.

Морфологическая разметка осуществляется при помощи бесплатного синтаксического анализатора MYSTEM (парсер или "синтаксический анализатор" -- компьютерная программа, которая принимает данные (как правило, предложения) на естественном языке в качестве входных данных и генерирует структуру вывода, подходящую для анализа)ElaKumar. "ArtificialIntelligence". 2008г. С.316.

Данная программа, написанная И. В. Сегаловичем и В. А. Титовым (программисты компании "Яндекс"), существует в свободном доступе. MYSTEM создана в среде Linux, но имеется возможность работы и в среде MicrosoftWindows (хоть и с некоторыми проблемами относительно кодировки командной строки).

Основу данной программы составляет алгоритм "Грамматического словаря русского языка" А. А. Зализняка. Для обработки текста, на входе требуется файл в формате HTML, XML или TXT (кодировка Windows), на выходе получаем файл с необходимым вариантом разбора:

{словоформа1, [грамматические признаки, лексема1]...}.Д. В. Сичинава "К задаче создания корпусов русского языка" 2002г.

Словоформы, отсутствующие в словаре, указываются со знаком "?" или приводится гипотеза (пример: мурелки{мурелка?}).Статья на сайте Yandex. ru"MYSTEM" https://tech. yandex. ru/mystem/

В данном исследовании используется внешняя библиотека для Python"pymystem3", предоставляющая весь функционал программы. Это позволяет избежать подключение внешних приложений и значительно ускоряет работу с текстами.

При импортировании модуля "Mystem" появляется возможность разметить полученную коллекцию текстов. Первый шаг: определение леммы каждого слова. Такой подход позволяет настроить поиск слов по начальной форме, так, при дальнейшем поиске по статьям, будет учитываться не только словоформа. Второй шаг: полный грамматический разбор слова.

Данные разборы также записываются в. xml файл, являются дочерними от главного элемента <article> и имеют свои собственные теги <lemmas> и <analyze>..

Импорт модуля "json" позволяет перевести полученную библиотеку данных под тегом <analyze> в читаемый формат.

Хотя подобный разбор несовершенен и требует ручной обработки, на этапе применения корпуса в качестве базы для упражнения, ошибки никак не скажутся и не помешают адекватной работе программы.

Выводы по первой главе

Анализ теоретической составляющей данной главы позволяет сделать следующие выводы:

-Корпусная лингвистика набирает популярность и все чаще используется не только в исследовательской сфере, но и в области преподавания языка. - Материалы для занятий, основанные на корпусных данных, отражающие всю глубину языка, позволяют разбирать не только простые случаи употребления слов, но и реальные языковые средства. - Корпусный подход является оптимальным для наглядного отражения таких аспектов языка, как географический, исторический, социальный; он передает основные изменения в языковой системе.

Что касается практической части:

- В данной главе описывается процесс написания программы, которая позволяет создавать автоматически пополняющийся и само-обрабатывающийся корпус политических статей интернет-источника Lenta. ru. 1) Первая часть программы нацелена на сохранение и дополнение коллекции текстов; 2) Вторая часть включает: структурирование текста, разделение его на части, а также морфологическую разметку полученного корпуса.

Похожие статьи

Методология создания и разметки корпуса текстов, Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru - Компьютерная лингвистика в образовательной среде

Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru Для создания полезного обучающего корпуса требуется постоянное...
Корпусная лингвистика. Разработка корпуса политических статей, Корпусная лингвистика и ее применение в области преподавания иностранного языка - Компьютерная лингвистика в образовательной среде

Корпусная лингвистика и ее применение в области преподавания иностранного языка "Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся...
Создание и ввод в эксплуатацию сайта, как платформы для веб-приложения, Проектирование и разработка сайта, Средства разработки, Язык гипертекстовой разметки HTML - Компьютерная лингвистика в образовательной среде

Проектирование и разработка сайта Средства разработки Язык гипертекстовой разметки HTML В Интернете сосредотачивается и передается достаточно большое...
Проектирование и разработка упражнения для изучения политических терминов, Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе - Компьютерная лингвистика в образовательной среде

Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе После создания корпуса статей...
Адаптация сервера под файлы с расширением. py (программы на языке Python) - Компьютерная лингвистика в образовательной среде

Для того, чтобы на сервере можно было запустить файлы с расширением. py, необходимо выполнить несколько операций: 1) Для работы с виртуальным окружением...
Введение - Компьютерная лингвистика в образовательной среде

Современная система образования все чаще приветствует внедрение информационных технологий, особенно это касается сферы преподавания языка - постоянно...
Язык разметки XML - Компьютерная лингвистика в образовательной среде

XML - это расширяемый язык разметки (ExtensibleMarkupLanguage). Был разработан в соответствии с основными требованиями сервера WWW. Является достаточно...
Разработка упражнения. Метод "расстояние Левенштейна или Дамерау - Левенштейна" как основа для упражнения - Компьютерная лингвистика в образовательной среде

При проектировании упражнения встал вопрос о его реализации. Было необходимо найти такой метод, который не только соответствовал основным требованиям...
Заключение - Компьютерная лингвистика в образовательной среде

Целью написания данной выпускной квалификационной работы являлось создание и введение в эксплуатацию упражнения, основанного на размеченном корпусе...
1.3 Языки программирования и программные платформы для создания программных агентов - Средства для создания программных агентов

Для программирования агентов могут применяться: универсальные языки (Java, C++ , Visual Basic и др.), языки представления знаний (SL, KIF), языки...
Сравнительный анализ программ для распознавания текста - Обзор проблематики и теоретических основ электронного документооборота

В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
Структура сайта - Компьютерная лингвистика в образовательной среде

Структура сайта разработана в соответствии с основными требованиями к веб-приложению. (Рис.3) Содержит в себе 3 основные страницы (одна из которых...
Конструкторский раздел, Обоснование выбора языка и среды программирования - Выбор оптимального маршрута для строительства дороги

Обоснование выбора языка и среды программирования Для реализации данного курсового проекта был выбран язык программирования Visual C#. Язык основан на...
Веб-дизайн, создание интерфейса, Шаблоны сайта Bootstrap3, Адаптация страниц под все виды мониторов (включая мобильную версию) и браузеры - Компьютерная лингвистика в образовательной среде

Шаблоны сайта Bootstrap3 Веб-дизайн является одним из основных элементов в процессе создания сайта. Именно от него зависит, насколько удобно и комфортно...
Создание веб-сервера - Компьютерная лингвистика в образовательной среде

Завершающий шаг в создании и введении в эксплуатацию сайта - выбор и настройка веб-сервера, принимающего HTTP-запросы от клиентов (веб-браузеров), и...
Каскадные таблицы стилей CSS - Компьютерная лингвистика в образовательной среде

Язык CSS отвечает за стиль в том или ином документе. Он используется для того, чтобы придать страницам на HTML -- фундаментальном языке WWW --...
Языки программирования для Интернета - Теоретические основы информационных технологий

С активным развитием глобальной сети было создано немало популярных языков программирования, адаптированных специально для Интернета. Все они отличаются...
Языки и методы параллельного программирования - Администрирование параллельных процессов

Применение параллельных архитектур повышает производительность при решении задач, явно сводимых к обработке векторов. Автоматическое распараллеливание...
Разработка сайта, Среда разработки web-сайта - Разработка сайта для компании

Среда разработки web-сайта При разработке web-сайта используются: - HTML - язык разметки web-страниц; - CSS - формальный язык описания внешнего...
Выбор средств разработки - Разработка автоматизированной информационной системы для устранения различий в структурах баз данных разработчиков, при работе над общим проектом с использованием системы контроля версий

Для написания АИС использовались следующие языки программирования, программные средства и библиотеки: - Язык программирования PHP 5.4; -...
Метод аннотированного суффиксного дерева - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики

Шестой метод - построение суффиксных деревьев. Среди большого количества методов анализа текста метод аннотированного суффиксного дерева выделяется тем,...
Платформа GATE для обработки естественного языка, Лингвистический процессор GATE - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

Лингвистический процессор GATE GATE представляет собой инфраструктуру для разработки и развертывания компонентов программного обеспечения, которые...
Разработка блок-схемы алгоритма, Выбор языка программирования, достоинства и недостатки - Построение декодера Рида - Маллера

Алгоритм работы декодера кода Рида - Маллера будем разрабатывать на основе уже приведенных выше уравнений. Алгоритм приведен на рисунке 12. В начале...
Инструментарий технологии программирования, Средства для создания приложений, Локальные средства разработки программ - Теоретические основы информационных технологий

Инструментарий технологии программирования - программные продукты поддержки (обеспечения) технологии программирования. В рамках этого направления...
Программирование параллельного порта - Разработка программно-аппаратного комплекса для мониторинга рентгеновского симулятора SLS-9

Программирование подключенной к параллельному порту аппаратуры заключается в установке определенных битов в регистрах данных и управления и чтении...
Редактор создания структур баз данных "WWW SQL Designer" - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

"WWWSQLDesigner" позиционируется как абсолютно бесплатный, доступный для пользователей, универсальный веб-редактор, значительно упрощающий процесс...
Выбор среды программирования - Автоматизированное рабочее место медицинского работника дошкольного учреждения

Операционная система На сегодняшний момент операционная система Windows фирмы Microsoft во всех ее проявлениях, бесспорно, считается самой...
Конфигурация устройств ввода-вывода Турбо Паскаля - Программирование в среде Turbo Pascal

Результаты работы программы и исходные данные могут быть записаны в файлы на диске, с помощью специальных процедур работы с файлами прямо из программы. В...
Введение, Правила и порядок выполнения курсовой работы - Программирование в среде Turbo Pascal

Настоящие методические указания предназначены для выполнения курсовой работы "Расчеты на ЭВМ характеристик выходных сигналов электрических цепей" по...
Языки программирования баз данных - Теоретические основы информационных технологий

Эта группа языков отличается от алгоритмических языков, прежде всего решаемыми задачами. База данных - это файл (или группа файлов), представляющий собой...
Введение, Исследовательская часть, Целесообразность выбора языка программирования - Кодирование информации

В нашей курсовой работе была поставлена задача создания обучающей программы по информатике, с помощью которой студенты смогут проверить свои знания в...
Лабораторная работа № 6. Программирование шаблона классов - Технология разработки программного обеспечения систем управления

Цель Работы - изучить приемы создания и использования шаблонов классов. - Теоретические сведения Достаточно часто встречаются классы, объекты которых...
Сравнение аналогов - Разработка программы для реализации редактора временных графов синхронизации

Поскольку конечной целью работы был редактор сетей Петри, интегрированный с внешней библиотекой алгебраических вычислений, было рациональным рассмотреть...
Понятие и структура ПО, Общесистемное ПО - Автоматизированные системы обработки экономической информации

ПО развивается исходя из требований других подсистем. ПО при обработке данных является связующим звеном между комплексом технических средств и другими...
Текстовый редактор Microsoft Word 2003 - Технология обработки текстовой информации

Текстовый редактор Microsoft Word на сегодняшний день является одной из лучших профессиональных программ для обработки текста. Он также представляет...
Алгол - алгоритмический язык

Алгол (Algol, ALGOrithmic Language -- алгоритмический язык), язык программирования высокого уровня. Существуют три последовательно сменявших друг друга...
Заключение - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики

В данной работе проводится сравнение эффективности 6 методов поиска по однословному запросу. В качестве запроса выступает слов из стоп-листа - списка...
Работа с прикладным программным обеспечением - Теоретико-прикладные аспекты использования средств информационно-коммуникационных технологий в дошкольных учреждениях

1. Изучение теоретических аспектов использования: MS Word, MS Excel, MS Access, Paint и Photoshop... (ППО) Часть 1 : Руководство по выполнению...
Текстовый редактор LEXICON Текстовый редактор ЛЕКСИКОН предназначен для обработки нес ложных документов с текстом на русском и английском языках. ЛЕК СИКОН обеспечивает: &;gt; просмотр и корректировку текста; &;gt; автоматическое форматирование абзацев текста; &;gt; автоматическое разбиение текста на страницы; &;gt; перенос фрагментов текста из одного места в другое; &;gt; создание оглавления разделов документа; &;gt; использование подчеркивания, курсива и полужирного шрифта для выделения частей текста; &;gt; одновременное редактирование нескольких документов. - Программное обеспечение персональных компьютеров

Для вызова ЛЕКСИКОНа следует набрать LEXICON или LEXICON имя редактируемого - файла Если в команде вызова ЛЕКСИКОНа указано имя файла, которого нет на...
ОПЕРАТОР ВВОДА ДЛЯ ЧТЕНИЯ ФАЙЛА, ОПЕРАТОР ВЫВОДА - Язык программирования Паскаль

Оператор ввода для чтения файла обладает всеми свойствамии обычного оператора READ. Вкачестве параметров могут быть переменные; каждая переменная поучает...

Обработка и разметка полученной коллекции текстов. Грамматический парсер MYSTEM (библиотека "pymystem3" для языка программирования Python) - Компьютерная лингвистика в образовательной среде

Предыдущая | Следующая