Обработка и разметка полученной коллекции текстов. Грамматический парсер MYSTEM (библиотека "pymystem3" для языка программирования Python) - Компьютерная лингвистика в образовательной среде

При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования необходимо обработать полученный материал и перевести его в удобочитаемый формат для дальнейшей работы с ним. Именно поэтому в программе, позволяющей извлекать и сохранять статьи, создается функция:

Save_articles (db, filename) - она служит для записи и сохранения полученных статей в файл с расширением ".xml". Использование модуля etree делает возможным разделение текста на части и составление некой иерархии.

Article = etree. SubElement (root, "atricle") - основной элемент (корень), содержащий в себе несколько дочерних элементов:

Таким образом, на выходе мы получаем текст, разбитый на части: заголовок, дата, автор и непосредственно сама статья. Пример полученной разметки. Данная обработка текста позволяет обособить разные элементы статьи, а также создает теги, по которым можно легко обращаться к тем или иным частям. Следующий шаг в разметке полученных статей - морфологическая разметка полученных текстов.

Морфологическая разметка осуществляется при помощи бесплатного синтаксического анализатора MYSTEM (парсер или "синтаксический анализатор" -- компьютерная программа, которая принимает данные (как правило, предложения) на естественном языке в качестве входных данных и генерирует структуру вывода, подходящую для анализа)ElaKumar. "ArtificialIntelligence". 2008г. С.316.

Данная программа, написанная И. В. Сегаловичем и В. А. Титовым (программисты компании "Яндекс"), существует в свободном доступе. MYSTEM создана в среде Linux, но имеется возможность работы и в среде MicrosoftWindows (хоть и с некоторыми проблемами относительно кодировки командной строки).

Основу данной программы составляет алгоритм "Грамматического словаря русского языка" А. А. Зализняка. Для обработки текста, на входе требуется файл в формате HTML, XML или TXT (кодировка Windows), на выходе получаем файл с необходимым вариантом разбора:

{словоформа1, [грамматические признаки, лексема1]...}.Д. В. Сичинава "К задаче создания корпусов русского языка" 2002г.

Словоформы, отсутствующие в словаре, указываются со знаком "?" или приводится гипотеза (пример: мурелки{мурелка?}).Статья на сайте Yandex. ru"MYSTEM" https://tech. yandex. ru/mystem/

В данном исследовании используется внешняя библиотека для Python"pymystem3", предоставляющая весь функционал программы. Это позволяет избежать подключение внешних приложений и значительно ускоряет работу с текстами.

При импортировании модуля "Mystem" появляется возможность разметить полученную коллекцию текстов. Первый шаг: определение леммы каждого слова. Такой подход позволяет настроить поиск слов по начальной форме, так, при дальнейшем поиске по статьям, будет учитываться не только словоформа. Второй шаг: полный грамматический разбор слова.

Данные разборы также записываются в. xml файл, являются дочерними от главного элемента <article> и имеют свои собственные теги <lemmas> и <analyze>..

Импорт модуля "json" позволяет перевести полученную библиотеку данных под тегом <analyze> в читаемый формат.

Хотя подобный разбор несовершенен и требует ручной обработки, на этапе применения корпуса в качестве базы для упражнения, ошибки никак не скажутся и не помешают адекватной работе программы.

Выводы по первой главе

Анализ теоретической составляющей данной главы позволяет сделать следующие выводы:

    -Корпусная лингвистика набирает популярность и все чаще используется не только в исследовательской сфере, но и в области преподавания языка. - Материалы для занятий, основанные на корпусных данных, отражающие всю глубину языка, позволяют разбирать не только простые случаи употребления слов, но и реальные языковые средства. - Корпусный подход является оптимальным для наглядного отражения таких аспектов языка, как географический, исторический, социальный; он передает основные изменения в языковой системе.

Что касается практической части:

    - В данной главе описывается процесс написания программы, которая позволяет создавать автоматически пополняющийся и само-обрабатывающийся корпус политических статей интернет-источника Lenta. ru. 1) Первая часть программы нацелена на сохранение и дополнение коллекции текстов; 2) Вторая часть включает: структурирование текста, разделение его на части, а также морфологическую разметку полученного корпуса.

Похожие статьи




Обработка и разметка полученной коллекции текстов. Грамматический парсер MYSTEM (библиотека "pymystem3" для языка программирования Python) - Компьютерная лингвистика в образовательной среде

Предыдущая | Следующая