Простой поиск по совпадению, Лемматизация - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики

Первый способ нахождения обесцененной лексики в текстах является самым простым. Данный способ - это простой поиск по совпадению, то есть мы берем слово из статьи сравниваем его со словом из стоп-листа и если они полностью одинаковы, то запоминаем данное слово. Этот способ является как самым легким, так и самым неполным, так как многие слова используется, к примеру, во множественном числе и следовательно имеют отличное окончание от окончания в стоп-листе и данный метод не отмечает это слово.

Лемматизация

Второй способ - это лемматизация. Лемматизация - процесс приведения слова к его нормальной (словарной) форме. Так, например, нормальной форма слова "столами" является слово "стол" (то есть, форма единственного числа, именительного падежа). На языке программирования с помощью, которого я реализовываю свою работу, Python 3.4.3 создана специальная библиотека, которая приводит слова к их нормальной форме[4].

Поиск ненормативной лексики осуществляется следующим образом:

    - Каждая статья разбивается на слова - Каждое слово приводится к нормальной форме - Поиск по совпадению нормальных форм в стоп-листе

То есть сначала происходит лемматизация всей статьи. Так как стоп-лист содержит слава в своей нормальной форме его лемматизировать не требуется. После приведения слов из статьи к их нормальной форме происходит опять поиск по совпадению. Данный метод намного более полный, нежели метод "простого" поиска по совпадению.

Похожие статьи




Простой поиск по совпадению, Лемматизация - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики

Предыдущая | Следующая