Взаимосвязь между КП и автоматически сгенерированным рефератом - Роль ключевых предложений в построении текста

В настоящее время активно ведется разработка программного обеспечения, реферирующего текст. Учитывая определение понятия КП текста, можно предположить, что они так или иначе попадают в автоматически сгенерированный реферат.

Для проверки данной гипотезы было проведено исследование, сопоставлявшее наборы КП, извлеченные из текста вручную и с помощью трех систем автоматического реферирования: TextAnalyst v2.01 (demo), VisualWorld (beta) и проект "Автоматическая суммаризация текста", размещенный на странице http://g-calendar. appspot. com/analyze (demo). Выбор систем мотивировался тремя параметрами: экстрагирующий подход, поддержка русского языка и доступность.

Материалом для анализа послужили 20 статей из общественно-политического еженедельника "Литературная газета" (см. Приложение 2).

При анализе текстов использовались настройки по умолчанию.

В частности, программа TextAnalyst v2.01 извлекала предложения с весом не менее 90 единиц. При этом она не смогла сгенерировать рефераты для четырех текстов, и в десяти случаях пришлось снизить весовой порог для извлекаемых предложений (2 раза до 80, 4 раза до 70, 1 раз до 60, 2 раза до 50 и 1 раз до 20), чтобы получить результат. Вероятно, такие трудности связаны со сравнительно небольшим объемом исходных текстов (в среднем 284 слова).

Система VisualWorld самостоятельно определяет уровень сжатия текста, исходя из трех режимов: краткого, среднего и полного. При анализе текстов средний режим сжатия устанавливался только при отсутствии извлеченных предложений в кратком режиме. В среднем система извлекала около 30% предложений из каждого текста (минимум 6%, максимум 70%).

Особенностью программы является порядок следования предложений в реферате. Они располагаются не в хронологической последовательности, а в порядке уменьшения веса.

Следует отметить, что в процессе анализа текстов был выявлен недостаток предобработки исходного текста, а именно его деления на предложения. В нескольких случаях происходил разрыв предложения или выпадение из него первой буквы.

Система "Автоматическая суммаризация текста" по умолчанию извлекала по три наиболее информативных предложения из каждого текста. Этот показатель не менялся, так как разница объемов исходных текстов незначительна. Характерной чертой алгоритма, лежащего в основе программы стала заметная опора на имена собственные, что в некоторых случаях ухудшало качество готовых рефератов.

Сравнительный анализ полученных рефератов (количество совпадений автоматически извлеченных предложений с КП, извлеченными вручную; содержательность) позволил сделать несколько выводов.

Во-первых, совпадения автоматически извлеченных предложений с КП текста оказались довольно редки. С одной стороны, программа извлекает из текста далеко не все КП. С другой стороны, КП обычно составляют небольшую часть всех извлеченных предложений.

Во-вторых, автоматически сгенерированные рефераты стремятся отразить фактологическую информацию, содержащуюся в исходных текстах. Поэтому в них часто не попадают предложения, констатирующие тему/подтему текста.

Например, для статьи "Мир глазами ребенка" программа "Автоматическая суммаризация текста" составила следующий реферат:

"Из небольших зарисовок, как бы отрывочных эпизодов, всплывающих в памяти из далекого детства, возникает образ по-настоящему счастливой семьи, в которой довелось появиться на свет автору этих воспоминаний, двум ее сестрам и брату. С его наивным непониманием многого из того, что происходит вокруг, с его упрощенными суждениями о том, что правильно и что неправильно, и с немного странным и смешным "детским" языком. Легкость и безмятежность, с какими дети относятся ко всему, что происходит вокруг (война, голод, болезни, смерть), помогают им легче переносить невзгоды, иногда даже не замечая тягот, от которых взрослые тяжело страдают".

Однако в выработанном нами понимании ключевыми в этом тексте являются другие предложения:

С годами все больше утверждаюсь в мысли, что единственной настоящей жизненной опорой является крепкая, хорошая семья.

Именно такое ощущение чистоты и теплоты возникает при чтении книги воспоминаний Нины Шнирман "Счастливая девочка".

Нине Шнирман удалось главное - рассказать о детских годах не с позиций умудренного опытом человека, а позволить читателю самому увидеть мир глазами совсем юного человека.

"Счастливую девочку" хочется читать и перечитывать, и единственная претензия к автору состоит в том, что слишком мало написано, ведь очень хочется узнать - а что же было дальше?

Кроме того, существует ряд факторов, значительно усложняющих восприятие готового реферата (например, наличие неразрешенных анафорических выражений в извлеченных предложениях, возможность нарушения логики изложения информации, потеря информации за счет отражения не всех подтем текста).

Ключевые предложения, извлеченные вручную, напротив, маркируют переход к новой мысли/подтеме, устанавливают логические связи между компонентами текста и, как правило, содержат мало фактографической информации.

Формально они обеспечивают глобальную связность текста, поэтому в большинстве случаев лишены таких недостатков, как неразрешенная анафора или нарушение логики при взаимодействии с остальными ключевыми предложениями.

Таким образом, ключевые предложения способствуют созданию скорее индикативного реферата текста, в то время как рассмотренные системы автоматического реферирования ориентированы на создание информативного реферата.

Похожие статьи




Взаимосвязь между КП и автоматически сгенерированным рефератом - Роль ключевых предложений в построении текста

Предыдущая | Следующая