Заключение - Роль ключевых предложений в построении текста
Данная исследовательская работа посвящена вопросу использования ключевых предложений в решении проблемы автоматического реферирования текста.
Первая глава носит теоретический характер. В ней раскрывается понятие ключевых предложений текста, описываются их характерные признаки и роль в построении текста. Отдельный раздел первой главы посвящен исследованию проблемы автоматического реферирования текста, в частности методов экстрагирующего реферирования. В заключительном разделе описываются отношения между ключевыми предложениями и предложениями, извлекаемыми системами автоматического реферирования текста.
Во второй главе исследования детально описывается процесс разработки программы извлечения КП текста, включая алгоритм извлечения, обоснование выбранных параметров и оценку качества работы системы.
Итак, текст - один из сложнейших объектов лингвистического исследования, в построении которого участвует особая синтаксическая единица - сложное синтаксическое целое. В состав сложного синтаксического целого среди прочих элементов входят ключевые предложения текста, которые обеспечивают цельность и связность на смысловом и структурном уровнях текста, устанавливая межфразовые связи между собой и с контекстом.
Ключевые предложения отражают главную мысль текста, развивают его сюжет и раскрывают смысл названия. Ключевыми чаще всего являются такие предложения, понимание которых возможно без обращения к соседним высказываниям. Следующие же предложения находятся с ними в подчинительных отношениях, схожих с отношениями между частями сложноподчиненного предложения. Кроме того, в ключевых предложениях обычно отсутствуют грамматически ясно выраженные средства связи между предложениями, и не содержится показателей зависимости предложения от контекста.
Ключевые предложения вступают друг с другом в парадигматические отношения, обеспечивающие глобальную связность текста. В основе локальной связности текста лежат синтагматические отношения между ключевым предложением и распространяющим его контекстом.
Парадигматические и синтагматические отношения ключевых предложений реализуются в тексте с помощью разнообразных лексико-грамматических, синтаксических, графических и других типов языковых средств, формирующих цепные, параллельные и присоединительные межфразовые связи.
Поиск ключевых предложений начинается с рассмотрения абзацного членения текста и семантических связей между предложениями, однако окончательный выбор происходит на основании анализа лексико-грамматических и синтаксических связей внутри текста.
Одним из самых сложных, но вместе с тем основополагающих методов обработки текстовой информации является реферирование.
Оно представляет собой процесс создания краткого изложения содержания документа, которое используется для первоначального ознакомления с ним и определению целесообразности обращения к исходному документу.
Существует достаточно много различных оснований для классификации рефератов, которые определяют выбор методов реферирования: количество документов, цель реферирования, язык исходного документа, способ представления извлеченной информации и др.
Учитывая цель настоящего исследования, в центре внимания оказались методы автоматического реферирования, использующиеся в рамках извлекающего подхода к монографическому реферированию.
После теоретического изучения основных алгоритмов с помощью трех программ автоматического реферирования (TextAnalyst v2.01 (demo), VisualWorld (beta), "Автоматическая суммаризация текста" (demo)) был проанализирован набор текстов.
Сопоставление автоматически сгенерированных рефератов с результатами ручной обработки текстов показало, что совпадения среди извлеченных предложений довольно редки, так как автоматически извлеченные предложения стремятся отразить фактографическую информацию, содержащуюся в исходных текстах, в то время как КП лишь маркируют переход к новой мысли/подтеме и устанавливают логические связи между компонентами текста. Последнее объясняет легкость восприятия рефератов, состоящих из КП, которые чаще всего не содержат неразрешенной анафоры и отражают логику развития текста, в отличие от рефератов, составленных из автоматически извлеченных наиболее информативных предложений текста.
Таким образом, КП способствуют созданию скорее индикативного реферата текста, в то время как рассмотренные системы автоматического реферирования ориентированы на создание информативного реферата.
В качестве основы разработанной в данном исследовании программы извлечения ключевых предложений текста был взят общестатистический метод, предполагающий оценку предложений по ряду критериев и выбор предложений, набравших большее количество баллов.
В качестве критериев были выбраны такие формальные лингвистические характеристики, как позиция предложения в тексте (первое или последнее предложение абзаца), его длина (<3 или >30), наличие маркеров присоединительной связи, анафорических замен, местоимений 3 лица в начале предложения и слов, которые с высокой вероятностью указывают на введение новой подтемы текста. Программа также принимала во внимание непрямой порядок слов в предложении и отсутствие в нем слов самостоятельных частей речи и пропуск подлежащего.
Таким образом, программа работает по следующему алгоритму:
Разбить текст на абзацы;
Извлечь первое и последнее предложения каждого абзаца;
Оценить соответствие предложений заданным критериям;
Для каждого абзаца выбрать предложение набравшее наибольшее количество баллов при условии, что это число превышает заданное минимальное значение;
Собрать реферат, располагая выбранные предложения в порядке их появления в тексте.
Непосредственно анализ результатов работы разработанной программы автоматического извлечения ключевых предложений текста позволил сформулировать следующие выводы.
Во-первых, эффективность реализованной программы практически совпадает с эффективностью извлечения первого предложения каждого абзаца. При этом большая часть ошибок допускается в случаях, когда абзац не содержит КП или КП занимает позицию, отличную от первого или последнего предложения абзаца. В первом случае повысить точность определения наличия КП в абзаце может учет семантики текста и его элементов. Для решения второй обозначенной проблемы нужно рассматривать все предложения абзаца, а не только первое и последнее.
Во-вторых, если сравнивать между собой результаты автоматического извлечения КП из текстов публицистического и научно-популярного стиля, то можно заметить, что тексты второй группы классифицированы на 18% точнее (точность определения КП в публицистических текстах ? 73.3%, а в научно-популярных ? 91.3%). Причиной получения подобных результатов является тот факт, что научные тексты лучше структурированы и в них более ярко маркируется логика повествования. Подобная разница в точности определения КП позволяет утверждать, что автоматическая обработка публицистических текстов является более сложной задачей, чем обработка более формальных стилей и требует разработки специальных методов, учитывающих их стилевые особенности.
Также с помощью качественного анализа допущенных системой ошибок были выявлены их основные источники: субъективность абзацного членения текста, отказ от анализа всех предложений текста, неполнота составленных списков возможных анафорических замен и их компенсаторов, а также маркеров присоединительной связи и сигнальных основ. Кроме того, значительным недостатком системы оказалось использование только собственно языковых характеристик предложений без анализа общего значения текста и его компонентов.
Отдельно нужно обратить внимание на качество решения таких вспомогательных задач, как деление текста на предложения и морфологический анализ слов. Ошибки, допущенные на этих этапах, также отрицательно влияли на работу системы.
Таким образом, для представленной реализации программы извлечения КП текста справедливы следующие утверждения:
Одних формальных лингвистических признаков не всегда достаточно для эффективного распознавания КП в тексте. Часто оказывается необходимо принимать во внимание семантику текста и его составных элементов, позволяющую определять место введения его новой темы или подтемы.
Точность распознавания КП зависит от жанрово-стилистических особенностей текста.
Качество работы инструментов, выполняющих базовые операции по обработке текста, играют важную роль в создании более сложных систем и оказывают заметное влияние на их эффективность.
Полученные результаты могут послужить основанием для постановки новых исследовательских задач. Например, целью нового исследования может стать доработка и коррекция собственно языковых критериев для оценки предложений, претендующих на роль ключевых в публицистических текстах. В таком случае следующим логическим шагом будет поиск оптимальной комбинации оценки формальных параметров с методами семантического анализа текста. Кроме того, полученные знания о ключевых предложениях можно использовать в качестве основы для разработки системы автоматического реферирования неструктурированных текстов.
Похожие статьи
-
Введение - Роль ключевых предложений в построении текста
Постоянное увеличение объемов существующей в мире информации является вполне естественным процессом. В его основе лежат как стремительно развивающийся...
-
Оценка качества работы системы - Роль ключевых предложений в построении текста
Для того чтобы оценить качество работы системы, с ее помощью были составлены рефераты 40 текстов. Среди них было 20 текстов публицистического стиля...
-
В настоящее время активно ведется разработка программного обеспечения, реферирующего текст. Учитывая определение понятия КП текста, можно предположить,...
-
В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее...
-
Роль ключевых предложений в построении текста В первую очередь введем несколько базовых понятий рассматриваемой предметной области: текст, сложное...
-
Понятие автоматического реферирования текста - Роль ключевых предложений в построении текста
Реферирование является одним из основных способов анализа текстовой информации. Его конечным продуктом является реферат - "краткое изложение содержания...
-
Пользовательский интерфейс - Роль ключевых предложений в построении текста
Пользовательский интерфейс системы разработан с помощью специализированной библиотеки tkinter. Основными критериями при его разработке стали простота и...
-
Результаты, Заключение - Автоматическое построение профилей нормального поведения веб-приложений
В результате данной работы: - сформулированы основные понятия; - описан предлагаемый метод обнаружения уязвимостей и обоснована идея использования...
-
Заключение - Разработка ключевых показателей эффективности для ИТ-отдела организации
Сегодня предприниматели понимают, что стратегическое планирование и разработка тактических методов достижения цели - это основа, как конкретным...
-
Понятие KPI "Ключевые показатели эффективности (англ. Key Performance Indicators, KPI) -- показатели деятельности подразделения (предприятия), которые...
-
Заключение - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики
В данной работе проводится сравнение эффективности 6 методов поиска по однословному запросу. В качестве запроса выступает слов из стоп-листа - списка...
-
Заключение - Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании
В рамках проведенного исследования была проделана работа по разработке системы интеллектуального анализа данных для поддержки маркетинга производственной...
-
Заключение - Обзор проблематики и теоретических основ электронного документооборота
В современном динамично развивающемся мире рынок электронного документооборота не только занял прочную позицию, но и растет с каждым годом, потому что...
-
Заключение - Построение декодера Рида - Маллера
В этом курсовом проекте мы досконально изучили код Рида - Маллера, ознакомились с историей его открытия Ридом и Маллером, а так же краткой историей всего...
-
Заключение - Программа построения равновесных стратегий для игры
В настоящие время популярность игры Omaha растет. Постепенно появляется все больше регулярных турниров по этой игре на сайте Pokerstars. net. При этом...
-
Описание деятельности ИТ-отдела компании в рамках разработки ключевых показателей эффективности является одной из важнейших частей процесса. Однако...
-
Слайдеры в презентации, Текст в презентации - Построение модели сердца
В AnyLogic существует элемент управления, позволяющий пользователю графически выбирать число из заданного диапазона значений путем перетаскивания...
-
Концептуализации - Экспертные системы, методика построения
На данном этапе проводится содержательный анализ проблемной области, выявляются используемые понятия и их взаимосвязи, определяются методы решения задач....
-
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
-
Для третьего способа мне понадобился способ под названием "Стемминг". Данное понятие очень популярно во всемирной паутине, так как оно применяется в...
-
В результате проведенной работы были спроектированы и реализованы модули редактора и вебсайта. Были решены поставленные в работе задачи в полном объеме....
-
Количество рабочих станций, всего 20 Количество ПК, работающих в сети 21 Характеристики компьютеров От amd phenom 1055t и выше Операционная система...
-
Заключение - Технологии больших данных: анализ и выбор решения для реализации проекта
На практике при реализации проектов возникает потребность в инструментах обработки больших данных от особенностей бизнеса, которые после накопления...
-
На сегодняшний день доступно достаточно много различных теоретических источников о разработке KPI, однако сложно признать какой-либо метод универсальным...
-
Обзор калькуляторов для покера - Программа построения равновесных стратегий для игры
Как правило под покерным калькулятором подразумевают программу которая позволяет рассчитать математическое ожидание действия в заданной ситуации....
-
Правила ввода текста - Основы работы с системой MathCAD 2000 PRO
1. Введите знак двойной кавычки " на английском регистре - появится прямоугольник с курсором ввода. 2. С помощью раскрывающегося списка выбора шрифта на...
-
Секция мета-информации содержит набор основных и вспомогательных данных профиля нормального поведения. Основными полями являются: - WAProfile_URL -...
-
Необходимо дополнительно рассмотреть вопрос о сравнении наборов HTTP-параметров. Параметры могут быть переданы в веб-приложение методами GET и POST [22,...
-
Я, ФИО, прошел производственную практику на предприятии АСУнефть. Углубил и получил навыки по профессии. Научился разбирать, ремонтировать, проводить...
-
При разработке практически всех инструментальных средств за основу принимается методология автоматизации проектирования на базе использования прототипов....
-
Сеансовый уровень, Представительный уровень - Принципы построения открытых графических систем
Сеансовый уровень (Session layer) обеспечивает управление диалогом: фиксирует, какая из сторон является активной в настоящий момент, предоставляет...
-
MATLAB - высокоуровневая система программирования, позволяющая резко сократить затраты труда при проверке алгоритмов и проведении прикидочных расчетов....
-
Заключение - Система управления базами данных
В современном мире роль баз данных достаточна высока. Многие предприятия, фирмы используют такой метод хранения информации в компьютере, будь то данные о...
-
Введение - Разработка ключевых показателей эффективности для ИТ-отдела организации
Появление новых неблагоприятных условий на рынке (кризис, санкции) заставляет руководителей по-новому взглянуть на управление предприятием. Руководство...
-
Заключение - Кодирование информации
В ходе курсовой работы была разработана обучающая программа по информатике, с помощью которой студенты смогут проверить свои знания в таких разделах...
-
Заключение - Искусственный интеллект
Искусственный интеллект тесно связан с теоретической информатикой, откуда он заимствовал многие модели и методы, например, использование логических...
-
Шестой метод - построение суффиксных деревьев. Среди большого количества методов анализа текста метод аннотированного суффиксного дерева выделяется тем,...
-
Заключение - Применение информационно-коммуникационных технологий в интернет-среде
Интернет и различные информационные технологии уже давно вошли в жизнь практически каждого человека. Сегодня невозможно представить жизнь общества без...
-
Заключение - Информационные технологии в управлении персоналом на примере компании ООО "Аксис ПРО"
В результате проделанной работы была достигнута цель исследования - повышение качества функционирования компании путем использования информационной...
-
В данном параграфе составим перечень основных сотрудников организации в фактическом состоянии "Как есть" (табл. 3.1.). Таблица 3.1. Основные функции...
Заключение - Роль ключевых предложений в построении текста