Язык для описания лексико-семантических шаблонов JAPE - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

JAPE позволяет анализировать текст на основе регулярных выражений. Грамматика этого языка состоит из фаз, которые сдержат в себе набор шаблонов и/или правил. Правило всегда состоит из левой и правой частей. Левая часть содержит идентификатор, позволяющий определить шаблон, а правая - действия, которые необходимо выполнить для обнаружения этого шаблона.

Например, на рисунке 1.2 представлен пример шаблона, определяющего спортивные категории.

лексико-семантический шаблон для определения категорий спорта,описанный на языке jape

Рисунок 1.2. Лексико-семантический шаблон для определения категорий спорта, описанный на языке JAPE

Первой строкой описывается название фазы, оно должно быть уникальным. "Input" определяет, на какого типа аннотации будет направлено описываемое правило. По умолчанию устанавливается "Token" (буква), "Lookup" (область текста) или "SpaceToken" (лексема пробела). "Options" определяет, метод соответствия правилу с помощью элемента "control". Так же в этой строке может быть указан способ запуска: в режиме отладки или нет (по умолчанию стоит "debug = false", что значит, что запуск правила производится не в режиме отладчика). Далее, в четвертой строке определено название правила, а в пятой - приоритет его выполнения. Последовательность выполнения правил определяется проставленными приоритетами.

После идентифицирующих строк, описывается сам шаблон: седьмая и восьмая строки описывают правило "найти все аннотации, соответствующие шаблону Lookup. majortype == "Sports" и присвой им имя label. Символ "-->" является границей, после которой описывается правая часть правила. Строка 10 посылает команду для JAPETransducer о переименовании label (определенной на строке 8) в "Sport". А правило, по которому она была определена, именуется "SportsCategory".

Это лишь небольшой и самый простой пример, который может быть использован для анализа текста, однако JAPE предоставляет более широкие возможности, такие как, идентификация фраз (части текста, а не только одного слова), слов в контексте (разных форм слова) и другие. Таким образом, необходимо найти более понятную для неподготовленного пользователя форму представления шаблонов, которая бы позволила снизить порог вхождения, для более быстрого начала работы с многофункциональной платформой GATE.

Похожие статьи




Язык для описания лексико-семантических шаблонов JAPE - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

Предыдущая | Следующая