Методология создания и разметки корпуса текстов, Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru - Компьютерная лингвистика в образовательной среде

Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru

Для создания полезного обучающего корпуса требуется постоянное пополнение коллекции текстов. Именно поэтому в ходе исследования было принято решение о написании программы, которая будет автоматически подгружать сразу несколько статей с заданного сайта, а также мгновенно обрабатывать и размечать их.

Из множества доступных интернет-изданий, в ходе анализа текстовой информации, структуры и формата страницы веб-сайта, выбор пал на одно из ведущих российских периодических интернет-изданий -"Lenta. ru", основанное при содействии Фонда эффективной политики

Антоном Борисовичем Носиком (1999г). Наличие мобильной версии с минимальной разметкой и постоянное обновление новостной ленты значительно упрощают создание корпуса и позволяют достаточно быстро наполнить его текстами различной тематики. В данном исследовании были использованны рубрики, посвященные российской и мировой политики.

Программа написана на высокоуровневом языке программирования - Python. Он позволяет подгружать достаточно большое количество различных библиотек, значительно расширяющих функционал создаваемой программы.

Так, при написании кода, извлекающего тексты с сайта, были использованны библиотеки [Приложение1]:

Lxml. html

Requests

Os. path

Основные функции, используемые в коде:

Get_page(url)

Update(filename)

Также, данная функция записывает полную ссылку <url> на данную статью, позволяющую присваивать каждому тексту особый идентифицирующий его "код". Именно хранение его в памяти дает возможность пропускать и не обрабатывать заново уже существующие тексты, что значительно сокращает время работы программы.

Стоит отметить, что информация извлекается только из заданных рубрик 'russia/politic/' и 'world/politic/'.

- Load_articles (filename) - данная функция использует основные инструменты модуля "os. path".

Os. path. isfile (path) - позволяет узнать существует ли данный файл.

Если файл отсутствует - функция вернет пустую базу статей. Если файл есть - он будет загружен.

Похожие статьи

Обработка и разметка полученной коллекции текстов. Грамматический парсер MYSTEM (библиотека "pymystem3" для языка программирования Python) - Компьютерная лингвистика в образовательной среде

При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
Создание и ввод в эксплуатацию сайта, как платформы для веб-приложения, Проектирование и разработка сайта, Средства разработки, Язык гипертекстовой разметки HTML - Компьютерная лингвистика в образовательной среде

Проектирование и разработка сайта Средства разработки Язык гипертекстовой разметки HTML В Интернете сосредотачивается и передается достаточно большое...
Проектирование и разработка упражнения для изучения политических терминов, Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе - Компьютерная лингвистика в образовательной среде

Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе После создания корпуса статей...
Корпусная лингвистика. Разработка корпуса политических статей, Корпусная лингвистика и ее применение в области преподавания иностранного языка - Компьютерная лингвистика в образовательной среде

Корпусная лингвистика и ее применение в области преподавания иностранного языка "Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся...
Создание веб-сервера - Компьютерная лингвистика в образовательной среде

Завершающий шаг в создании и введении в эксплуатацию сайта - выбор и настройка веб-сервера, принимающего HTTP-запросы от клиентов (веб-браузеров), и...
Адаптация сервера под файлы с расширением. py (программы на языке Python) - Компьютерная лингвистика в образовательной среде

Для того, чтобы на сервере можно было запустить файлы с расширением. py, необходимо выполнить несколько операций: 1) Для работы с виртуальным окружением...
Заключение - Компьютерная лингвистика в образовательной среде

Целью написания данной выпускной квалификационной работы являлось создание и введение в эксплуатацию упражнения, основанного на размеченном корпусе...
Введение - Компьютерная лингвистика в образовательной среде

Современная система образования все чаще приветствует внедрение информационных технологий, особенно это касается сферы преподавания языка - постоянно...
Разработка сайта, Среда разработки web-сайта - Разработка сайта для компании

Среда разработки web-сайта При разработке web-сайта используются: - HTML - язык разметки web-страниц; - CSS - формальный язык описания внешнего...
Существующее программное обеспечение для создания сайта, Adobe Dreamweaver - Разработка интернет-магазина компьютерной техники

Adobe Dreamweaver Adobe Dreamweaver - это HTML-редактор от компании Adobe, который на сегодняшний день очень известный. Первая его версия была выпущена в...
Веб-дизайн, создание интерфейса, Шаблоны сайта Bootstrap3, Адаптация страниц под все виды мониторов (включая мобильную версию) и браузеры - Компьютерная лингвистика в образовательной среде

Шаблоны сайта Bootstrap3 Веб-дизайн является одним из основных элементов в процессе создания сайта. Именно от него зависит, насколько удобно и комфортно...
Структура сайта - Компьютерная лингвистика в образовательной среде

Структура сайта разработана в соответствии с основными требованиями к веб-приложению. (Рис.3) Содержит в себе 3 основные страницы (одна из которых...
Язык разметки XML - Компьютерная лингвистика в образовательной среде

XML - это расширяемый язык разметки (ExtensibleMarkupLanguage). Был разработан в соответствии с основными требованиями сервера WWW. Является достаточно...
Редактор создания структур баз данных "WWW SQL Designer" - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

"WWWSQLDesigner" позиционируется как абсолютно бесплатный, доступный для пользователей, универсальный веб-редактор, значительно упрощающий процесс...
Разработка упражнения. Метод "расстояние Левенштейна или Дамерау - Левенштейна" как основа для упражнения - Компьютерная лингвистика в образовательной среде

При проектировании упражнения встал вопрос о его реализации. Было необходимо найти такой метод, который не только соответствовал основным требованиям...
Второй этап истории развития БД. - Технология создания и управления баз данных

Второй этап - эпоха персональных компьютеров Персональные компьютеры стремительно ворвались в нашу жизнь и буквально перевернули наше представление о...
Программное обеспечение для работы с графикой, Программные средства создания растровых изображений - Компьютерная графика

Программные средства создания растровых изображений Среди программ, предназначенных для создания компьютерной двумерной живописи, самыми популярными...
Разработка программы извлечения ключевых предложений из текста, Алгоритм извлечения КП - Роль ключевых предложений в построении текста

В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее...
Введение, Создание и сохранение документов, Ввод и редактирование текста - Текстовый редактор MS Word: основные приемы создания и форматирования документа

В данном реферате рассматриваются основные принципы создания и форматирования документов с помощью одного из самых распространенных текстовых редакторов...
Сравнительный анализ программ для распознавания текста - Обзор проблематики и теоретических основ электронного документооборота

В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
Введение - Разработка автоматизированной информационной системы для устранения различий в структурах баз данных разработчиков, при работе над общим проектом с использованием системы контроля версий

В связи с увеличением числа сотрудников, работающих в компании, а также с расширением рабочего проекта, возникла проблема, связанная с версионностью...
Основные компоненты - История создания и развития автоматизированных информационных систем

Основными компонентами информационной технологии, используемой в экспертной системе, являются (рис. 3.2.2): интерфейс пользователя, база знаний,...
Выбор средств разработки - Разработка автоматизированной информационной системы для устранения различий в структурах баз данных разработчиков, при работе над общим проектом с использованием системы контроля версий

Для написания АИС использовались следующие языки программирования, программные средства и библиотеки: - Язык программирования PHP 5.4; -...
1.3 Языки программирования и программные платформы для создания программных агентов - Средства для создания программных агентов

Для программирования агентов могут применяться: универсальные языки (Java, C++ , Visual Basic и др.), языки представления знаний (SL, KIF), языки...
Особенности ПО ПК (базовое ПО) - Автоматизированные системы обработки экономической информации

ПО разрабатывается исходя из класса машин. Особенности ПО для ПК: имеет более простые характеристики; доступность ППО для пользователей; коммуникация ПК...
Разработка клиент-серверной части - Разработка и тестирование автоматизированной системы контроля успеваемости студентов

Разработка клиент-серверной части проекта, то есть связь между клиентским приложением и базой данных, реализуется при помощи специальной библиотеки MySQL...
Введение - Программные и аналитические решения финансовых и экономических задач

Табличные процессоры - одно из важнейших средств для решения задач широкого назначения. Табличные процессоры в силу своей наполненности включены в пакет...
Каскадные таблицы стилей CSS - Компьютерная лингвистика в образовательной среде

Язык CSS отвечает за стиль в том или ином документе. Он используется для того, чтобы придать страницам на HTML -- фундаментальном языке WWW --...
Основы методологии проектирования АС на основе CASE-технологий (Computer Aided Software Engineering) - История создания и развития автоматизированных информационных систем

Возрастающая сложность современных автоматизированных систем управления и повышение требовательности к ним обуславливает применение эффективных...
Назначение и цели создания системы, Назначение системы, Цели создания системы - Реинжиниринг сайта структурного подразделения образовательного учреждения на примере кафедры системного анализа НИЯУ МИФИ

Назначение системы Сайт "вопрос-ответ" предназначен для поиска ответов на интересующие пользователей вопросы, с рейтингом пользователей, возможностью...
Классификация функциональной части АИС - История создания и развития автоматизированных информационных систем

Классификация АИС по функциональному признаку Функциональный признак определяет назначение подсистемы, а также ее основные цели, задачи и функции....
Средства передачи информации - История создания и развития автоматизированных информационных систем

Информация может передаваться: 1. На самом предприятии между различными его подразделениями сейчас используются локальные вычислительные сети (в одном...
Классификация массивов - История создания и развития автоматизированных информационных систем

Организационная подборка сведений о каком-либо объекте или процессе либо о ряде однородных объектов или процессов называется массивом информации. 1. По...
Информационное обеспечение (ИО) АИС, Понятие и структура ИО - История создания и развития автоматизированных информационных систем

Информационное обеспечение - совокупность единой системы классификации и кодирования информации, унифицированных систем документации, схем информационных...
Понятие структурированности задач - История создания и развития автоматизированных информационных систем

При создании или при классификации информационных систем неизбежно возникают проблемы, связанные с формальным - математическим и алгоритмическим...
Структура и классификация автоматизированных информационных систем - История создания и развития автоматизированных информационных систем

Структурная схема терминов Структуру АИС составляет совокупность отдельных ее частей, называемых подсистемами. АС состоит из двух подсистем:...
Сервисы сайта - Создание сайта

Сервисы сайта направлены на облегчение использования сервисов компании. Так, например, онлайн-консультация позволяет пользователю быстро получить ответ...
Функции человека в ИС - История создания и развития автоматизированных информационных систем

Любая информационная система подразумевает участие в ее работе людей. Среди персонала, имеющего отношение к информационным системам, выделяют такие...
Программное обеспечение, Данная программа предназначена для более быстрого поиска почтового индекса адресата - Программное обеспечение вычислительной техники и автоматизированных систем

1. НА 7 ПК ИСПОЛЬЗУЕТСЯ microsoft Windows xp sp2. 2. на 1 используется Altlinux 5 3. Программы офисного назначения: A) Microsoft Office Excel 2003 B)...
Гражданский Кодекс Российской Федерации - Разработка алгоритма генерации для создания базы данных искусственных биометрических образов

Гражданский кодекс Российской Федерации в части четвертой регулирует вопросы охраны результатов интеллектуальной деятельности и средств индивидуализации....

Методология создания и разметки корпуса текстов, Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru - Компьютерная лингвистика в образовательной среде

Предыдущая | Следующая