Понятие автоматического реферирования текста - Роль ключевых предложений в построении текста
Реферирование является одним из основных способов анализа текстовой информации. Его конечным продуктом является реферат - "краткое изложение содержания документа или его части, включающее основные фактические сведения и выводы, необходимые для первоначального ознакомления с документом и определения целесообразности обращения к нему" ("Как составить реферат?"). Из определения следуют два основных требования к реферату: сжатие исходной информации (объем реферата должен составлять 5-30% от исходного документа (Башмаков А. И., Башмаков И. А., 2005: 79)) и отражение основных положений исходного документа.
Работа с рефератами существенно упрощает и ускоряет процесс обработки больших объемов текстовой информации за счет опущения несущественных деталей. Реферат позволяет создать представление о тексте, установить его основное идеи и положения, а также принять решение о том, содержит ли первоисточник релевантную поставленной цели информацию. Таким образом, основное назначение реферата - помощь в оперативном поиске и отборе наиболее полезной и ценной информации.
Исходя из содержания реферата, традиционно выделяются три их типа: индикативный, информативный и критический. Индикативные рефераты (рефераты-резюме, расширенные аннотации) позволяют читателю определить общую направленность текста, увидеть список, раскрываемых в первоисточнике тем. Информативные рефераты содержат конспективное изложение фактов из первоисточника. Они извлекают наибольшее количество информации, позволяя читателю ознакомиться с проблематикой и могут даже заменять собой первоисточник. Критические же рефераты - это рефераты, которые составлены на основе информации из текста, но содержат также и дополнительную информацию, включающую комментарии, оценки и ссылки автора реферата.
Другим основанием для классификации является количество реферируемых текстов. Основой для реферата может служить не только один документ (монографический реферат), но и набор документов схожей тематики (сводный реферат).
Еще один аспект - язык оригинального текста. Свою специфику имеют рефераты, составленные на основе мультиязычных текстов.
Кроме того, можно выделить два подхода, на которых основывается реферирование: общий и специфический. В первом случае реферат отражает все основные положения текста. При специфическом подходе при создании реферата учитывается тип документа (стиль, тематика). Также возможно составление реферата с учетом запроса пользователя.
В обобщенном виде процесс реферирования сводится к следующему алгоритму:
Анализ источника (определение тематической направленности, осмысление документа в целом);
Выделение наиболее информативных фрагментов (ключевых слов, словосочетаний, предложений, фрагментов текста);
Формирование выводов (объединение выделенных компонентов в единый текст).
На практике составление реферата является трудоемким процессом, требующим значительного количества времени. Поэтому в последние годы активно ведется разработка методов и программ автоматического реферирования текста.
В обзорных работах по теме автореферирования (Осминин, 2012; Nenkova, McKeown, 2011; Lloret; Steinberger, Jeћek, 2009) выделяются два глобальных подхода к данной проблеме: экстрагирующий/извлекающий (sentence extraction), работающий на основе извлечения ключевых фрагментов информации, и генерирующий (summary generation, abstraction), создающий на основе анализа полученной информации новый связный текст.
Иногда также выделяют уровни реферирования: поверхностный, сущностный и дискурсивный (Lloret: 3-5). На поверхностном уровне реферирование подразумевает работу с частотностью слов, их позицией в тексте, появлением слов в заголовках, сигнальными словами/фразами (например, "в этой статье", "в заключение"). На сущностном уровне происходит моделирование текстовых сущностей и их отношений. При этом учитываются пересечения внутри словаря, степень похожести слов/предложений/абзацев, дистанция между текстовыми единицами, совместные вхождения, логические и синтаксические отношения между текстовыми единицами. На дискурсивном уровне моделируется глобальная структура текста с учетом формата документа, логики развития темы и риторической структуры текста.
Принимая во внимание цель данной работы, интересовать нас будет экстрагирующий подход к монографическому реферированию. Этот подход самый первый и самый разработанный. Его совершенствованию сегодня уделяется значительное внимание исследователей.
Основная задача при генерации экстрагирующих рефератов - определение наиболее информативных элементов (фрагментов/фраз/предложений) исходного документа.
Среди явных достоинств данного подхода можно назвать относительную простоту реализации и независимость от языка текста-оригинала.
Значительным недостатком такого подхода является отсутствие связности между предложениями. Кроме того, достаточно велика вероятность потери некоторых важных для понимания логических связей и появления в тексте реферата неразрешенной анафоры.
Итак, назовем несколько самых распространенных подходов к монографическому автореферированию на основе экстракции.
Большую группу образуют статистические методы, основанные на частотности слов и работающие без учета значений слов и их комбинаций. К этой группе относятся: выявление наиболее частотных слов (Luhn, 1958), TF*IDF (TermFrequency*InverseDocumentFrequency) (Nenkova, McKeown: 124-125), подходы логарифмического отношения правдоподобия (Log-likelihood ratio approaches) (Nenkova, McKeown: 125-127), общестатистический метод (general statistic method (GSM)), метод нечеткой логики (fuzzy logic method) (Suanmali, Salim, Binwahlan, 2009), построение графов (Steinberger, Jeћek: 1005; Nenkova, McKeown: 128-131), метод построения лексических цепочек (Lexical chains) (Steinberger, Jeћek: 1004), методы моделирования риторической структуры текста (Тревгода, 2009; Steinberger, Jeћek: 1005).
На сегодняшний день уже выявлено довольно большое количество различных индикаторов важности предложений и исследования в этой области продолжаются. Так как очевидно, что ни один из них не является универсальным, актуальной становится проблема их комбинирования. Эту задачу решают методы машинного обучения, анализирующие пары документ/реферат.
Например, эксперимент, проведенный Дж. Купиком, Дж. Педерсеном и Ф. Ченом на коллекции технических статей и их рефератов (188 пар) с использованием Байесовского классификатора, показал, что наиболее эффективной оказалась комбинация позиции предложения, сигнальных фраз и длины предложения. (Kupiec, Pedersen, Chen, 1995)
Еще один вариант - использование скрытой марковской модели (Hidden Markov Model). В основе этого метода лежит предположение о том, что вероятность попадания предложения в реферат зависит от статуса предыдущего предложения (включено ли оно в реферат). (Nenkova, McKeown: 132-133)
Следует заметить, что основной проблемой реализации автоматического реферирования с помощью машинного обучения является необходимость наличия готовых рефератов, составленных человеком. В первую очередь, это очень трудоемкий и времязатратный процесс. Кроме того, во многих работах замечается, что рефераты, составленные вручную довольно индивидуальны и разные люди, могут по-разному осмыслить и зареферировать один и тот же текст.
Похожие статьи
-
Введение - Роль ключевых предложений в построении текста
Постоянное увеличение объемов существующей в мире информации является вполне естественным процессом. В его основе лежат как стремительно развивающийся...
-
В настоящее время активно ведется разработка программного обеспечения, реферирующего текст. Учитывая определение понятия КП текста, можно предположить,...
-
Роль ключевых предложений в построении текста В первую очередь введем несколько базовых понятий рассматриваемой предметной области: текст, сложное...
-
Заключение - Роль ключевых предложений в построении текста
Данная исследовательская работа посвящена вопросу использования ключевых предложений в решении проблемы автоматического реферирования текста. Первая...
-
Оценка качества работы системы - Роль ключевых предложений в построении текста
Для того чтобы оценить качество работы системы, с ее помощью были составлены рефераты 40 текстов. Среди них было 20 текстов публицистического стиля...
-
В данном разделе выпускной квалификационной работы описывается процесс разработки программы извлечения КП текста, а также производится оценка качества ее...
-
Пользовательский интерфейс - Роль ключевых предложений в построении текста
Пользовательский интерфейс системы разработан с помощью специализированной библиотеки tkinter. Основными критериями при его разработке стали простота и...
-
1. Провести обзор методов автоматического построения профиля нормального поведения веб-приложения. 2. Сформулировать требования к методу, провести...
-
Результаты, Заключение - Автоматическое построение профилей нормального поведения веб-приложений
В результате данной работы: - сформулированы основные понятия; - описан предлагаемый метод обнаружения уязвимостей и обоснована идея использования...
-
Исходя из контекста решаемой задачи, для сравнительного анализа рассмотренных математических моделей обнаружения аномалий можно выбрать следующие...
-
В данной части работы, рассмотрим необходимое программное обеспечение для распознавания и перевода вышеприведенных документов из графического формата в...
-
Понятие KPI "Ключевые показатели эффективности (англ. Key Performance Indicators, KPI) -- показатели деятельности подразделения (предприятия), которые...
-
Понятие информационной технологии - Информационные технологии в деятельности органов внутренних дел
Процессы преобразования информации связаны с информационными технологиями. Технология в переводе с греческого - искусство, умение, а это не что иное как...
-
Принцип построения помехоустойчивых кодов - Кодек каскадного кода Хэмминга
Помехоустойчивое кодирование представляет собой процесс преобразования передаваемых информационных символов по определенному алгоритму, и в результате...
-
Шестой метод - построение суффиксных деревьев. Среди большого количества методов анализа текста метод аннотированного суффиксного дерева выделяется тем,...
-
Для третьего способа мне понадобился способ под названием "Стемминг". Данное понятие очень популярно во всемирной паутине, так как оно применяется в...
-
В данном параграфе составим перечень основных сотрудников организации в фактическом состоянии "Как есть" (табл. 3.1.). Таблица 3.1. Основные функции...
-
Каждая диаграмма состояний в UML описывает все возможные состояния одного экземпляра определенного класса и возможные последовательности его переходов из...
-
Для вызова ЛЕКСИКОНа следует набрать LEXICON или LEXICON имя редактируемого - файла Если в команде вызова ЛЕКСИКОНа указано имя файла, которого нет на...
-
Описание деятельности ИТ-отдела компании в рамках разработки ключевых показателей эффективности является одной из важнейших частей процесса. Однако...
-
Описанный метод, по сути, анализирует поведение веб-приложения на предмет совершения недопустимых относительно профиля нормального поведения операций....
-
Описание метода - Автоматическое построение профилей нормального поведения веб-приложений
В основе метода лежит идея анализа связей между наборами параметров, поступающих в веб-приложение через HTTP-запросы, и операциями над объектами...
-
В данном разделе описывается предлагаемый метод обнаружения уязвимостей веб-приложений на основе контроля поведения веб-приложения. Применение метода Как...
-
Работа с текстовыми документами с помощью Word, Excel и др. В настоящее время практически все офисы оснащены средствами вычислительной техники,...
-
Проблема работы - Автоматическое построение профилей нормального поведения веб-приложений
В настоящий момент продолжается бурный рост количества компьютерных информационных систем в мире. Все большее количество важных данных и операций в...
-
Слайдеры в презентации, Текст в презентации - Построение модели сердца
В AnyLogic существует элемент управления, позволяющий пользователю графически выбирать число из заданного диапазона значений путем перетаскивания...
-
В данном разделе описывается разработанный модуль обнаружения уязвимостей. Сначала формулируются требования к модулю. Далее описывается структура профиля...
-
Правило копирования формул Рабочая книга Команды для работы с данными (ввод, редактирование, форматирование) Любая обработка информации начинается с ее...
-
Нейросетевой метод - Автоматическое построение профилей нормального поведения веб-приложений
Нейросетевой метод обнаружения аномалий рассматривается на примере экспериментальной системы обнаружения аномалий NNID (Neural Network Intrusion...
-
В основе метода EWMA лежит экспоненциальное сглаживание первого порядка [20, 21]: (5.2.1) Где 0<л?1 - константа сглаживания. В роли начального...
-
В данном разделе приводятся описания четырех математических методов обнаружения аномалий. Далее проводится сравнительный анализ и выбирается один метод....
-
Необходимо дополнительно рассмотреть вопрос о сравнении наборов HTTP-параметров. Параметры могут быть переданы в веб-приложение методами GET и POST [22,...
-
Обзор классического подхода Приведем теорему для формирования линейного закона управления с обратной связью в пространстве состояний [3]: Дан объект,...
-
Заключение - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики
В данной работе проводится сравнение эффективности 6 методов поиска по однословному запросу. В качестве запроса выступает слов из стоп-листа - списка...
-
Поиск и замена текста При работе с длинными документами иногда приходится вносить в них повторяющиеся изменения. ПрограммаWriterимеет специальные...
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
База данных представляет собой информационную модель того объекта (организации или предприятия), информация о котором требуется пользователю для...
-
Построение выборки и сбор данных - Распространение новостной информации
Выборка состоит из корпуса текстов, размещенных в социальной сети Twitter с апреля по май 2014 года, относительно исследуемых информационных поводов....
-
Основные понятия баз данных. Цели использования баз данных - Разработка базы данных
В широком смысле слова база данных (БД) - это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области. Для удобной...
-
Базовые понятия информации - Компьютерные и сетевые технологии
Информация компьютер математический сеть Мы начинаем первое знакомство с величайшим достижением нашей цивилизации, стоящем в одном ряду с изобретением...
Понятие автоматического реферирования текста - Роль ключевых предложений в построении текста