Заключение - Роль ключевых предложений в построении текста

Данная исследовательская работа посвящена вопросу использования ключевых предложений в решении проблемы автоматического реферирования текста.

Первая глава носит теоретический характер. В ней раскрывается понятие ключевых предложений текста, описываются их характерные признаки и роль в построении текста. Отдельный раздел первой главы посвящен исследованию проблемы автоматического реферирования текста, в частности методов экстрагирующего реферирования. В заключительном разделе описываются отношения между ключевыми предложениями и предложениями, извлекаемыми системами автоматического реферирования текста.

Во второй главе исследования детально описывается процесс разработки программы извлечения КП текста, включая алгоритм извлечения, обоснование выбранных параметров и оценку качества работы системы.

Итак, текст - один из сложнейших объектов лингвистического исследования, в построении которого участвует особая синтаксическая единица - сложное синтаксическое целое. В состав сложного синтаксического целого среди прочих элементов входят ключевые предложения текста, которые обеспечивают цельность и связность на смысловом и структурном уровнях текста, устанавливая межфразовые связи между собой и с контекстом.

Ключевые предложения отражают главную мысль текста, развивают его сюжет и раскрывают смысл названия. Ключевыми чаще всего являются такие предложения, понимание которых возможно без обращения к соседним высказываниям. Следующие же предложения находятся с ними в подчинительных отношениях, схожих с отношениями между частями сложноподчиненного предложения. Кроме того, в ключевых предложениях обычно отсутствуют грамматически ясно выраженные средства связи между предложениями, и не содержится показателей зависимости предложения от контекста.

Ключевые предложения вступают друг с другом в парадигматические отношения, обеспечивающие глобальную связность текста. В основе локальной связности текста лежат синтагматические отношения между ключевым предложением и распространяющим его контекстом.

Парадигматические и синтагматические отношения ключевых предложений реализуются в тексте с помощью разнообразных лексико-грамматических, синтаксических, графических и других типов языковых средств, формирующих цепные, параллельные и присоединительные межфразовые связи.

Поиск ключевых предложений начинается с рассмотрения абзацного членения текста и семантических связей между предложениями, однако окончательный выбор происходит на основании анализа лексико-грамматических и синтаксических связей внутри текста.

Одним из самых сложных, но вместе с тем основополагающих методов обработки текстовой информации является реферирование.

Оно представляет собой процесс создания краткого изложения содержания документа, которое используется для первоначального ознакомления с ним и определению целесообразности обращения к исходному документу.

Существует достаточно много различных оснований для классификации рефератов, которые определяют выбор методов реферирования: количество документов, цель реферирования, язык исходного документа, способ представления извлеченной информации и др.

Учитывая цель настоящего исследования, в центре внимания оказались методы автоматического реферирования, использующиеся в рамках извлекающего подхода к монографическому реферированию.

После теоретического изучения основных алгоритмов с помощью трех программ автоматического реферирования (TextAnalyst v2.01 (demo), VisualWorld (beta), "Автоматическая суммаризация текста" (demo)) был проанализирован набор текстов.

Сопоставление автоматически сгенерированных рефератов с результатами ручной обработки текстов показало, что совпадения среди извлеченных предложений довольно редки, так как автоматически извлеченные предложения стремятся отразить фактографическую информацию, содержащуюся в исходных текстах, в то время как КП лишь маркируют переход к новой мысли/подтеме и устанавливают логические связи между компонентами текста. Последнее объясняет легкость восприятия рефератов, состоящих из КП, которые чаще всего не содержат неразрешенной анафоры и отражают логику развития текста, в отличие от рефератов, составленных из автоматически извлеченных наиболее информативных предложений текста.

Таким образом, КП способствуют созданию скорее индикативного реферата текста, в то время как рассмотренные системы автоматического реферирования ориентированы на создание информативного реферата.

В качестве основы разработанной в данном исследовании программы извлечения ключевых предложений текста был взят общестатистический метод, предполагающий оценку предложений по ряду критериев и выбор предложений, набравших большее количество баллов.

В качестве критериев были выбраны такие формальные лингвистические характеристики, как позиция предложения в тексте (первое или последнее предложение абзаца), его длина (<3 или >30), наличие маркеров присоединительной связи, анафорических замен, местоимений 3 лица в начале предложения и слов, которые с высокой вероятностью указывают на введение новой подтемы текста. Программа также принимала во внимание непрямой порядок слов в предложении и отсутствие в нем слов самостоятельных частей речи и пропуск подлежащего.

Таким образом, программа работает по следующему алгоритму:

Разбить текст на абзацы;

Извлечь первое и последнее предложения каждого абзаца;

Оценить соответствие предложений заданным критериям;

Для каждого абзаца выбрать предложение набравшее наибольшее количество баллов при условии, что это число превышает заданное минимальное значение;

Собрать реферат, располагая выбранные предложения в порядке их появления в тексте.

Непосредственно анализ результатов работы разработанной программы автоматического извлечения ключевых предложений текста позволил сформулировать следующие выводы.

Во-первых, эффективность реализованной программы практически совпадает с эффективностью извлечения первого предложения каждого абзаца. При этом большая часть ошибок допускается в случаях, когда абзац не содержит КП или КП занимает позицию, отличную от первого или последнего предложения абзаца. В первом случае повысить точность определения наличия КП в абзаце может учет семантики текста и его элементов. Для решения второй обозначенной проблемы нужно рассматривать все предложения абзаца, а не только первое и последнее.

Во-вторых, если сравнивать между собой результаты автоматического извлечения КП из текстов публицистического и научно-популярного стиля, то можно заметить, что тексты второй группы классифицированы на 18% точнее (точность определения КП в публицистических текстах ? 73.3%, а в научно-популярных ? 91.3%). Причиной получения подобных результатов является тот факт, что научные тексты лучше структурированы и в них более ярко маркируется логика повествования. Подобная разница в точности определения КП позволяет утверждать, что автоматическая обработка публицистических текстов является более сложной задачей, чем обработка более формальных стилей и требует разработки специальных методов, учитывающих их стилевые особенности.

Также с помощью качественного анализа допущенных системой ошибок были выявлены их основные источники: субъективность абзацного членения текста, отказ от анализа всех предложений текста, неполнота составленных списков возможных анафорических замен и их компенсаторов, а также маркеров присоединительной связи и сигнальных основ. Кроме того, значительным недостатком системы оказалось использование только собственно языковых характеристик предложений без анализа общего значения текста и его компонентов.

Отдельно нужно обратить внимание на качество решения таких вспомогательных задач, как деление текста на предложения и морфологический анализ слов. Ошибки, допущенные на этих этапах, также отрицательно влияли на работу системы.

Таким образом, для представленной реализации программы извлечения КП текста справедливы следующие утверждения:

Одних формальных лингвистических признаков не всегда достаточно для эффективного распознавания КП в тексте. Часто оказывается необходимо принимать во внимание семантику текста и его составных элементов, позволяющую определять место введения его новой темы или подтемы.

Точность распознавания КП зависит от жанрово-стилистических особенностей текста.

Качество работы инструментов, выполняющих базовые операции по обработке текста, играют важную роль в создании более сложных систем и оказывают заметное влияние на их эффективность.

Полученные результаты могут послужить основанием для постановки новых исследовательских задач. Например, целью нового исследования может стать доработка и коррекция собственно языковых критериев для оценки предложений, претендующих на роль ключевых в публицистических текстах. В таком случае следующим логическим шагом будет поиск оптимальной комбинации оценки формальных параметров с методами семантического анализа текста. Кроме того, полученные знания о ключевых предложениях можно использовать в качестве основы для разработки системы автоматического реферирования неструктурированных текстов.

Похожие статьи




Заключение - Роль ключевых предложений в построении текста

Предыдущая | Следующая