Взаимосвязь между КП и автоматически сгенерированным рефератом - Роль ключевых предложений в построении текста
В настоящее время активно ведется разработка программного обеспечения, реферирующего текст. Учитывая определение понятия КП текста, можно предположить, что они так или иначе попадают в автоматически сгенерированный реферат.
Для проверки данной гипотезы было проведено исследование, сопоставлявшее наборы КП, извлеченные из текста вручную и с помощью трех систем автоматического реферирования: TextAnalyst v2.01 (demo), VisualWorld (beta) и проект "Автоматическая суммаризация текста", размещенный на странице http://g-calendar. appspot. com/analyze (demo). Выбор систем мотивировался тремя параметрами: экстрагирующий подход, поддержка русского языка и доступность.
Материалом для анализа послужили 20 статей из общественно-политического еженедельника "Литературная газета" (см. Приложение 2).
При анализе текстов использовались настройки по умолчанию.
В частности, программа TextAnalyst v2.01 извлекала предложения с весом не менее 90 единиц. При этом она не смогла сгенерировать рефераты для четырех текстов, и в десяти случаях пришлось снизить весовой порог для извлекаемых предложений (2 раза до 80, 4 раза до 70, 1 раз до 60, 2 раза до 50 и 1 раз до 20), чтобы получить результат. Вероятно, такие трудности связаны со сравнительно небольшим объемом исходных текстов (в среднем 284 слова).
Система VisualWorld самостоятельно определяет уровень сжатия текста, исходя из трех режимов: краткого, среднего и полного. При анализе текстов средний режим сжатия устанавливался только при отсутствии извлеченных предложений в кратком режиме. В среднем система извлекала около 30% предложений из каждого текста (минимум 6%, максимум 70%).
Особенностью программы является порядок следования предложений в реферате. Они располагаются не в хронологической последовательности, а в порядке уменьшения веса.
Следует отметить, что в процессе анализа текстов был выявлен недостаток предобработки исходного текста, а именно его деления на предложения. В нескольких случаях происходил разрыв предложения или выпадение из него первой буквы.
Система "Автоматическая суммаризация текста" по умолчанию извлекала по три наиболее информативных предложения из каждого текста. Этот показатель не менялся, так как разница объемов исходных текстов незначительна. Характерной чертой алгоритма, лежащего в основе программы стала заметная опора на имена собственные, что в некоторых случаях ухудшало качество готовых рефератов.
Сравнительный анализ полученных рефератов (количество совпадений автоматически извлеченных предложений с КП, извлеченными вручную; содержательность) позволил сделать несколько выводов.
Во-первых, совпадения автоматически извлеченных предложений с КП текста оказались довольно редки. С одной стороны, программа извлекает из текста далеко не все КП. С другой стороны, КП обычно составляют небольшую часть всех извлеченных предложений.
Во-вторых, автоматически сгенерированные рефераты стремятся отразить фактологическую информацию, содержащуюся в исходных текстах. Поэтому в них часто не попадают предложения, констатирующие тему/подтему текста.
Например, для статьи "Мир глазами ребенка" программа "Автоматическая суммаризация текста" составила следующий реферат:
"Из небольших зарисовок, как бы отрывочных эпизодов, всплывающих в памяти из далекого детства, возникает образ по-настоящему счастливой семьи, в которой довелось появиться на свет автору этих воспоминаний, двум ее сестрам и брату. С его наивным непониманием многого из того, что происходит вокруг, с его упрощенными суждениями о том, что правильно и что неправильно, и с немного странным и смешным "детским" языком. Легкость и безмятежность, с какими дети относятся ко всему, что происходит вокруг (война, голод, болезни, смерть), помогают им легче переносить невзгоды, иногда даже не замечая тягот, от которых взрослые тяжело страдают".
Однако в выработанном нами понимании ключевыми в этом тексте являются другие предложения:
С годами все больше утверждаюсь в мысли, что единственной настоящей жизненной опорой является крепкая, хорошая семья.
Именно такое ощущение чистоты и теплоты возникает при чтении книги воспоминаний Нины Шнирман "Счастливая девочка".
Нине Шнирман удалось главное - рассказать о детских годах не с позиций умудренного опытом человека, а позволить читателю самому увидеть мир глазами совсем юного человека.
"Счастливую девочку" хочется читать и перечитывать, и единственная претензия к автору состоит в том, что слишком мало написано, ведь очень хочется узнать - а что же было дальше?
Кроме того, существует ряд факторов, значительно усложняющих восприятие готового реферата (например, наличие неразрешенных анафорических выражений в извлеченных предложениях, возможность нарушения логики изложения информации, потеря информации за счет отражения не всех подтем текста).
Ключевые предложения, извлеченные вручную, напротив, маркируют переход к новой мысли/подтеме, устанавливают логические связи между компонентами текста и, как правило, содержат мало фактографической информации.
Формально они обеспечивают глобальную связность текста, поэтому в большинстве случаев лишены таких недостатков, как неразрешенная анафора или нарушение логики при взаимодействии с остальными ключевыми предложениями.
Таким образом, ключевые предложения способствуют созданию скорее индикативного реферата текста, в то время как рассмотренные системы автоматического реферирования ориентированы на создание информативного реферата.
Похожие статьи
-
Заключение - Роль ключевых предложений в построении текста
Данная исследовательская работа посвящена вопросу использования ключевых предложений в решении проблемы автоматического реферирования текста. Первая...
-
Введение - Роль ключевых предложений в построении текста
Постоянное увеличение объемов существующей в мире информации является вполне естественным процессом. В его основе лежат как стремительно развивающийся...
-
Оценка качества работы системы - Роль ключевых предложений в построении текста
Для того чтобы оценить качество работы системы, с ее помощью были составлены рефераты 40 текстов. Среди них было 20 текстов публицистического стиля...
-
В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее...
-
Понятие автоматического реферирования текста - Роль ключевых предложений в построении текста
Реферирование является одним из основных способов анализа текстовой информации. Его конечным продуктом является реферат - "краткое изложение содержания...
-
Роль ключевых предложений в построении текста В первую очередь введем несколько базовых понятий рассматриваемой предметной области: текст, сложное...
-
Пользовательский интерфейс - Роль ключевых предложений в построении текста
Пользовательский интерфейс системы разработан с помощью специализированной библиотеки tkinter. Основными критериями при его разработке стали простота и...
-
Понятие KPI "Ключевые показатели эффективности (англ. Key Performance Indicators, KPI) -- показатели деятельности подразделения (предприятия), которые...
-
Тема: "Основные устройства ЭВМ, их функции и взаимосвязь в процессе работы. Магистрально - модульный принцип построения ПЭВМ" Цель урока: Объяснить...
-
Концептуализации - Экспертные системы, методика построения
На данном этапе проводится содержательный анализ проблемной области, выявляются используемые понятия и их взаимосвязи, определяются методы решения задач....
-
Описание деятельности ИТ-отдела компании в рамках разработки ключевых показателей эффективности является одной из важнейших частей процесса. Однако...
-
Слайдеры в презентации, Текст в презентации - Построение модели сердца
В AnyLogic существует элемент управления, позволяющий пользователю графически выбирать число из заданного диапазона значений путем перетаскивания...
-
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
-
Результаты, Заключение - Автоматическое построение профилей нормального поведения веб-приложений
В результате данной работы: - сформулированы основные понятия; - описан предлагаемый метод обнаружения уязвимостей и обоснована идея использования...
-
Технология открытых систем Основные требования, предъявляемые к информационной инфраструктуре, состоят в обеспечении необходимой функциональности,...
-
Сеансовый уровень, Представительный уровень - Принципы построения открытых графических систем
Сеансовый уровень (Session layer) обеспечивает управление диалогом: фиксирует, какая из сторон является активной в настоящий момент, предоставляет...
-
Введение, Роль и значение информационных революций. - Проблемы компьютеризации общества
Трудно назвать другую сферу человеческой деятельности, которая развивалась бы столь стремительно и порождала бы такое разнообразие проблем и мнений, как...
-
Введение - Разработка ключевых показателей эффективности для ИТ-отдела организации
Появление новых неблагоприятных условий на рынке (кризис, санкции) заставляет руководителей по-новому взглянуть на управление предприятием. Руководство...
-
В зависимости от целей исследования уже на этапе очищения базы от нерелевантных сообщений исследователь может провести процедуру тегирования...
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
Практически все тепличные хозяйства строятся по единой схеме: теплоизолированное помещение, в котором к нужным значениям с помощью системы обогрева,...
-
Основные принципы построения САПР - Состав систем автоматизированного проектирования
Разработка САПР представляет собой крупную научно-техническую проблему, а ее внедрение требует значительных капиталовложений. Накопленный опыт позволяет...
-
Перечень предложений по совершенствованию процедур документооборота в подразделениях производственного предприятия с учетом перспектив внедрения системы,...
-
Различные возможности и границы применения вычислительной техники для автоматизации проектирования определяются уровнем формализации научно-технических...
-
Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru Для создания полезного обучающего корпуса требуется постоянное...
-
Заключение - Разработка ключевых показателей эффективности для ИТ-отдела организации
Сегодня предприниматели понимают, что стратегическое планирование и разработка тактических методов достижения цели - это основа, как конкретным...
-
Обзор калькуляторов для покера - Программа построения равновесных стратегий для игры
Как правило под покерным калькулятором подразумевают программу которая позволяет рассчитать математическое ожидание действия в заданной ситуации....
-
При разработке практически всех инструментальных средств за основу принимается методология автоматизации проектирования на базе использования прототипов....
-
Шестой метод - построение суффиксных деревьев. Среди большого количества методов анализа текста метод аннотированного суффиксного дерева выделяется тем,...
-
Необходимость защиты информации от внутренних угроз была очевидна на всех этапах развития средств информационной безопасности. Однако первоначально...
-
Настройка и администрирование СУБД - Банки и базы данных. Системы управления базами данных
Для успешного функционирования разработанной ИС недостаточно выбора СУБД и сервера БД. В процессе эксплуатации всегда на разных этапах приходится...
-
История развития компьютерных технологий в России Компьютеры проникли во все сферы деятельности человека, начиная с начального образования и заканчивая...
-
Базовые понятия информации - Компьютерные и сетевые технологии
Информация компьютер математический сеть Мы начинаем первое знакомство с величайшим достижением нашей цивилизации, стоящем в одном ряду с изобретением...
-
Заключение - Обзор проблематики и теоретических основ электронного документооборота
В современном динамично развивающемся мире рынок электронного документооборота не только занял прочную позицию, но и растет с каждым годом, потому что...
-
Описание классов и методов - Обзор проблематики и теоретических основ электронного документооборота
В данной работе реализован один публичный класс Form1, в котором и происходит основной функционал программы, посредством выполнения методов по кнопкам....
-
Введение, Ядро Parasolid - Ядро Parasolid
ANSYS -- универсальная программная система конечно-элементного (МКЭ) анализа, существующая и развивающаяся на протяжении последних 30 лет, является...
-
Защита информации от разрушения - Инженерно-техническая защита объектов
Одной из задач обеспечения безопасности для всех случаев пользования ПЭВМ является защита информации от разрушения, которое может произойти при...
-
После того, как был реализован процесс карьерного планирования в информационной системе, можно сделать выводы о том, что внедрение информационной системы...
-
В данном параграфе составим перечень основных сотрудников организации в фактическом состоянии "Как есть" (табл. 3.1.). Таблица 3.1. Основные функции...
-
Построение ER диаграмм - Модернизация структуры базы данных на основе анализа требований предприятия
При построении моделей информационных систем важнейшей методикой является ER-моделирование или построение диаграмм сущность-связь. Сущность представляет...
Взаимосвязь между КП и автоматически сгенерированным рефератом - Роль ключевых предложений в построении текста