Понятие автоматического реферирования текста - Роль ключевых предложений в построении текста

Реферирование является одним из основных способов анализа текстовой информации. Его конечным продуктом является реферат - "краткое изложение содержания документа или его части, включающее основные фактические сведения и выводы, необходимые для первоначального ознакомления с документом и определения целесообразности обращения к нему" ("Как составить реферат?"). Из определения следуют два основных требования к реферату: сжатие исходной информации (объем реферата должен составлять 5-30% от исходного документа (Башмаков А. И., Башмаков И. А., 2005: 79)) и отражение основных положений исходного документа.

Работа с рефератами существенно упрощает и ускоряет процесс обработки больших объемов текстовой информации за счет опущения несущественных деталей. Реферат позволяет создать представление о тексте, установить его основное идеи и положения, а также принять решение о том, содержит ли первоисточник релевантную поставленной цели информацию. Таким образом, основное назначение реферата - помощь в оперативном поиске и отборе наиболее полезной и ценной информации.

Исходя из содержания реферата, традиционно выделяются три их типа: индикативный, информативный и критический. Индикативные рефераты (рефераты-резюме, расширенные аннотации) позволяют читателю определить общую направленность текста, увидеть список, раскрываемых в первоисточнике тем. Информативные рефераты содержат конспективное изложение фактов из первоисточника. Они извлекают наибольшее количество информации, позволяя читателю ознакомиться с проблематикой и могут даже заменять собой первоисточник. Критические же рефераты - это рефераты, которые составлены на основе информации из текста, но содержат также и дополнительную информацию, включающую комментарии, оценки и ссылки автора реферата.

Другим основанием для классификации является количество реферируемых текстов. Основой для реферата может служить не только один документ (монографический реферат), но и набор документов схожей тематики (сводный реферат).

Еще один аспект - язык оригинального текста. Свою специфику имеют рефераты, составленные на основе мультиязычных текстов.

Кроме того, можно выделить два подхода, на которых основывается реферирование: общий и специфический. В первом случае реферат отражает все основные положения текста. При специфическом подходе при создании реферата учитывается тип документа (стиль, тематика). Также возможно составление реферата с учетом запроса пользователя.

В обобщенном виде процесс реферирования сводится к следующему алгоритму:

Анализ источника (определение тематической направленности, осмысление документа в целом);

Выделение наиболее информативных фрагментов (ключевых слов, словосочетаний, предложений, фрагментов текста);

Формирование выводов (объединение выделенных компонентов в единый текст).

На практике составление реферата является трудоемким процессом, требующим значительного количества времени. Поэтому в последние годы активно ведется разработка методов и программ автоматического реферирования текста.

В обзорных работах по теме автореферирования (Осминин, 2012; Nenkova, McKeown, 2011; Lloret; Steinberger, Jeћek, 2009) выделяются два глобальных подхода к данной проблеме: экстрагирующий/извлекающий (sentence extraction), работающий на основе извлечения ключевых фрагментов информации, и генерирующий (summary generation, abstraction), создающий на основе анализа полученной информации новый связный текст.

Иногда также выделяют уровни реферирования: поверхностный, сущностный и дискурсивный (Lloret: 3-5). На поверхностном уровне реферирование подразумевает работу с частотностью слов, их позицией в тексте, появлением слов в заголовках, сигнальными словами/фразами (например, "в этой статье", "в заключение"). На сущностном уровне происходит моделирование текстовых сущностей и их отношений. При этом учитываются пересечения внутри словаря, степень похожести слов/предложений/абзацев, дистанция между текстовыми единицами, совместные вхождения, логические и синтаксические отношения между текстовыми единицами. На дискурсивном уровне моделируется глобальная структура текста с учетом формата документа, логики развития темы и риторической структуры текста.

Принимая во внимание цель данной работы, интересовать нас будет экстрагирующий подход к монографическому реферированию. Этот подход самый первый и самый разработанный. Его совершенствованию сегодня уделяется значительное внимание исследователей.

Основная задача при генерации экстрагирующих рефератов - определение наиболее информативных элементов (фрагментов/фраз/предложений) исходного документа.

Среди явных достоинств данного подхода можно назвать относительную простоту реализации и независимость от языка текста-оригинала.

Значительным недостатком такого подхода является отсутствие связности между предложениями. Кроме того, достаточно велика вероятность потери некоторых важных для понимания логических связей и появления в тексте реферата неразрешенной анафоры.

Итак, назовем несколько самых распространенных подходов к монографическому автореферированию на основе экстракции.

Большую группу образуют статистические методы, основанные на частотности слов и работающие без учета значений слов и их комбинаций. К этой группе относятся: выявление наиболее частотных слов (Luhn, 1958), TF*IDF (TermFrequency*InverseDocumentFrequency) (Nenkova, McKeown: 124-125), подходы логарифмического отношения правдоподобия (Log-likelihood ratio approaches) (Nenkova, McKeown: 125-127), общестатистический метод (general statistic method (GSM)), метод нечеткой логики (fuzzy logic method) (Suanmali, Salim, Binwahlan, 2009), построение графов (Steinberger, Jeћek: 1005; Nenkova, McKeown: 128-131), метод построения лексических цепочек (Lexical chains) (Steinberger, Jeћek: 1004), методы моделирования риторической структуры текста (Тревгода, 2009; Steinberger, Jeћek: 1005).

На сегодняшний день уже выявлено довольно большое количество различных индикаторов важности предложений и исследования в этой области продолжаются. Так как очевидно, что ни один из них не является универсальным, актуальной становится проблема их комбинирования. Эту задачу решают методы машинного обучения, анализирующие пары документ/реферат.

Например, эксперимент, проведенный Дж. Купиком, Дж. Педерсеном и Ф. Ченом на коллекции технических статей и их рефератов (188 пар) с использованием Байесовского классификатора, показал, что наиболее эффективной оказалась комбинация позиции предложения, сигнальных фраз и длины предложения. (Kupiec, Pedersen, Chen, 1995)

Еще один вариант - использование скрытой марковской модели (Hidden Markov Model). В основе этого метода лежит предположение о том, что вероятность попадания предложения в реферат зависит от статуса предыдущего предложения (включено ли оно в реферат). (Nenkova, McKeown: 132-133)

Следует заметить, что основной проблемой реализации автоматического реферирования с помощью машинного обучения является необходимость наличия готовых рефератов, составленных человеком. В первую очередь, это очень трудоемкий и времязатратный процесс. Кроме того, во многих работах замечается, что рефераты, составленные вручную довольно индивидуальны и разные люди, могут по-разному осмыслить и зареферировать один и тот же текст.

Похожие статьи




Понятие автоматического реферирования текста - Роль ключевых предложений в построении текста

Предыдущая | Следующая