Методология создания и разметки корпуса текстов, Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru - Компьютерная лингвистика в образовательной среде
Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru
Для создания полезного обучающего корпуса требуется постоянное пополнение коллекции текстов. Именно поэтому в ходе исследования было принято решение о написании программы, которая будет автоматически подгружать сразу несколько статей с заданного сайта, а также мгновенно обрабатывать и размечать их.
Из множества доступных интернет-изданий, в ходе анализа текстовой информации, структуры и формата страницы веб-сайта, выбор пал на одно из ведущих российских периодических интернет-изданий -"Lenta. ru", основанное при содействии Фонда эффективной политики
Антоном Борисовичем Носиком (1999г). Наличие мобильной версии с минимальной разметкой и постоянное обновление новостной ленты значительно упрощают создание корпуса и позволяют достаточно быстро наполнить его текстами различной тематики. В данном исследовании были использованны рубрики, посвященные российской и мировой политики.
Программа написана на высокоуровневом языке программирования - Python. Он позволяет подгружать достаточно большое количество различных библиотек, значительно расширяющих функционал создаваемой программы.
Так, при написании кода, извлекающего тексты с сайта, были использованны библиотеки [Приложение1]:
- 1) Lxml. html- позволяет обрабатывать файлы html формата, а так же записывать текстовую информацию в подходящий для обработки формат (расширение файла xml); 2) Requests - отвечает за запрос на сайте Lenta. ru для извлечения статей и необходимой метаразметки: заголовок, дата, автор статьи (при отсутствии автора, срабатывает подстановка универсального имени author='lenta. ru') и др.; 3) Os. path - требуется для создания или подгруздки и дальнейшей записи уже созданного ранее файла.
Основные функции, используемые в коде:
- - Get_page(url) - функция запроса страницы в Интернете. Сайт Lenta. ru не позволяет делать запрос, используя встроенный "User-Agent". Как только запускается код, он посылает веб-серверу информацию о себе. Это текстовая строка - часть HTTP запроса, начинается с User-agent: или User-Agent:, и обычно содержит такую информацию, как версию и название приложения (частью которого является код), операционную систему компьютера и язык. Именно поэтому в программе приходится прописывать нового "User-Agent": 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'. (http://www. useragentstring. com) Данная строка принимается сайтом и позволяет коду, находящемуся в локальном доступе, обращаться и извлекать данные со страницы. - Update(filename) - служит для обновления статей. Используя функции извлечения элементов по классу, представленных библиотекой lxml. html, мы можем позволить себе извлечь только те элементы, которые необходимы для создания корпуса: - title - заголовок статьи, - date - дата создания статьи, - author - автор стати, - body - сама статья.
Также, данная функция записывает полную ссылку <url> на данную статью, позволяющую присваивать каждому тексту особый идентифицирующий его "код". Именно хранение его в памяти дает возможность пропускать и не обрабатывать заново уже существующие тексты, что значительно сокращает время работы программы.
Стоит отметить, что информация извлекается только из заданных рубрик 'russia/politic/' и 'world/politic/'.
- Load_articles (filename) - данная функция использует основные инструменты модуля "os. path".
Os. path. isfile (path) - позволяет узнать существует ли данный файл.
Если файл отсутствует - функция вернет пустую базу статей. Если файл есть - он будет загружен.
Похожие статьи
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
Проектирование и разработка сайта Средства разработки Язык гипертекстовой разметки HTML В Интернете сосредотачивается и передается достаточно большое...
-
Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе После создания корпуса статей...
-
Корпусная лингвистика и ее применение в области преподавания иностранного языка "Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся...
-
Создание веб-сервера - Компьютерная лингвистика в образовательной среде
Завершающий шаг в создании и введении в эксплуатацию сайта - выбор и настройка веб-сервера, принимающего HTTP-запросы от клиентов (веб-браузеров), и...
-
Для того, чтобы на сервере можно было запустить файлы с расширением. py, необходимо выполнить несколько операций: 1) Для работы с виртуальным окружением...
-
Заключение - Компьютерная лингвистика в образовательной среде
Целью написания данной выпускной квалификационной работы являлось создание и введение в эксплуатацию упражнения, основанного на размеченном корпусе...
-
Введение - Компьютерная лингвистика в образовательной среде
Современная система образования все чаще приветствует внедрение информационных технологий, особенно это касается сферы преподавания языка - постоянно...
-
Разработка сайта, Среда разработки web-сайта - Разработка сайта для компании
Среда разработки web-сайта При разработке web-сайта используются: - HTML - язык разметки web-страниц; - CSS - формальный язык описания внешнего...
-
Adobe Dreamweaver Adobe Dreamweaver - это HTML-редактор от компании Adobe, который на сегодняшний день очень известный. Первая его версия была выпущена в...
-
Шаблоны сайта Bootstrap3 Веб-дизайн является одним из основных элементов в процессе создания сайта. Именно от него зависит, насколько удобно и комфортно...
-
Структура сайта - Компьютерная лингвистика в образовательной среде
Структура сайта разработана в соответствии с основными требованиями к веб-приложению. (Рис.3) Содержит в себе 3 основные страницы (одна из которых...
-
Язык разметки XML - Компьютерная лингвистика в образовательной среде
XML - это расширяемый язык разметки (ExtensibleMarkupLanguage). Был разработан в соответствии с основными требованиями сервера WWW. Является достаточно...
-
"WWWSQLDesigner" позиционируется как абсолютно бесплатный, доступный для пользователей, универсальный веб-редактор, значительно упрощающий процесс...
-
При проектировании упражнения встал вопрос о его реализации. Было необходимо найти такой метод, который не только соответствовал основным требованиям...
-
Второй этап истории развития БД. - Технология создания и управления баз данных
Второй этап - эпоха персональных компьютеров Персональные компьютеры стремительно ворвались в нашу жизнь и буквально перевернули наше представление о...
-
Программные средства создания растровых изображений Среди программ, предназначенных для создания компьютерной двумерной живописи, самыми популярными...
-
В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее...
-
В данном реферате рассматриваются основные принципы создания и форматирования документов с помощью одного из самых распространенных текстовых редакторов...
-
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
-
В связи с увеличением числа сотрудников, работающих в компании, а также с расширением рабочего проекта, возникла проблема, связанная с версионностью...
-
Основные компоненты - История создания и развития автоматизированных информационных систем
Основными компонентами информационной технологии, используемой в экспертной системе, являются (рис. 3.2.2): интерфейс пользователя, база знаний,...
-
Для написания АИС использовались следующие языки программирования, программные средства и библиотеки: - Язык программирования PHP 5.4; -...
-
Для программирования агентов могут применяться: универсальные языки (Java, C++ , Visual Basic и др.), языки представления знаний (SL, KIF), языки...
-
Особенности ПО ПК (базовое ПО) - Автоматизированные системы обработки экономической информации
ПО разрабатывается исходя из класса машин. Особенности ПО для ПК: имеет более простые характеристики; доступность ППО для пользователей; коммуникация ПК...
-
Разработка клиент-серверной части проекта, то есть связь между клиентским приложением и базой данных, реализуется при помощи специальной библиотеки MySQL...
-
Введение - Программные и аналитические решения финансовых и экономических задач
Табличные процессоры - одно из важнейших средств для решения задач широкого назначения. Табличные процессоры в силу своей наполненности включены в пакет...
-
Каскадные таблицы стилей CSS - Компьютерная лингвистика в образовательной среде
Язык CSS отвечает за стиль в том или ином документе. Он используется для того, чтобы придать страницам на HTML -- фундаментальном языке WWW --...
-
Возрастающая сложность современных автоматизированных систем управления и повышение требовательности к ним обуславливает применение эффективных...
-
Назначение системы Сайт "вопрос-ответ" предназначен для поиска ответов на интересующие пользователей вопросы, с рейтингом пользователей, возможностью...
-
Классификация АИС по функциональному признаку Функциональный признак определяет назначение подсистемы, а также ее основные цели, задачи и функции....
-
Средства передачи информации - История создания и развития автоматизированных информационных систем
Информация может передаваться: 1. На самом предприятии между различными его подразделениями сейчас используются локальные вычислительные сети (в одном...
-
Классификация массивов - История создания и развития автоматизированных информационных систем
Организационная подборка сведений о каком-либо объекте или процессе либо о ряде однородных объектов или процессов называется массивом информации. 1. По...
-
Информационное обеспечение - совокупность единой системы классификации и кодирования информации, унифицированных систем документации, схем информационных...
-
При создании или при классификации информационных систем неизбежно возникают проблемы, связанные с формальным - математическим и алгоритмическим...
-
Структурная схема терминов Структуру АИС составляет совокупность отдельных ее частей, называемых подсистемами. АС состоит из двух подсистем:...
-
Сервисы сайта - Создание сайта
Сервисы сайта направлены на облегчение использования сервисов компании. Так, например, онлайн-консультация позволяет пользователю быстро получить ответ...
-
Функции человека в ИС - История создания и развития автоматизированных информационных систем
Любая информационная система подразумевает участие в ее работе людей. Среди персонала, имеющего отношение к информационным системам, выделяют такие...
-
1. НА 7 ПК ИСПОЛЬЗУЕТСЯ microsoft Windows xp sp2. 2. на 1 используется Altlinux 5 3. Программы офисного назначения: A) Microsoft Office Excel 2003 B)...
-
Гражданский кодекс Российской Федерации в части четвертой регулирует вопросы охраны результатов интеллектуальной деятельности и средств индивидуализации....
Методология создания и разметки корпуса текстов, Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru - Компьютерная лингвистика в образовательной среде