Простой поиск по совпадению, Лемматизация - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики
Первый способ нахождения обесцененной лексики в текстах является самым простым. Данный способ - это простой поиск по совпадению, то есть мы берем слово из статьи сравниваем его со словом из стоп-листа и если они полностью одинаковы, то запоминаем данное слово. Этот способ является как самым легким, так и самым неполным, так как многие слова используется, к примеру, во множественном числе и следовательно имеют отличное окончание от окончания в стоп-листе и данный метод не отмечает это слово.
Лемматизация
Второй способ - это лемматизация. Лемматизация - процесс приведения слова к его нормальной (словарной) форме. Так, например, нормальной форма слова "столами" является слово "стол" (то есть, форма единственного числа, именительного падежа). На языке программирования с помощью, которого я реализовываю свою работу, Python 3.4.3 создана специальная библиотека, которая приводит слова к их нормальной форме[4].
Поиск ненормативной лексики осуществляется следующим образом:
- - Каждая статья разбивается на слова - Каждое слово приводится к нормальной форме - Поиск по совпадению нормальных форм в стоп-листе
То есть сначала происходит лемматизация всей статьи. Так как стоп-лист содержит слава в своей нормальной форме его лемматизировать не требуется. После приведения слов из статьи к их нормальной форме происходит опять поиск по совпадению. Данный метод намного более полный, нежели метод "простого" поиска по совпадению.
Похожие статьи
-
Шестой метод - построение суффиксных деревьев. Среди большого количества методов анализа текста метод аннотированного суффиксного дерева выделяется тем,...
-
Для третьего способа мне понадобился способ под названием "Стемминг". Данное понятие очень популярно во всемирной паутине, так как оно применяется в...
-
Пятый способ - мера Жаккара. Мера Жаккара -- бинарная мера сходства, предложенная Полем Жаккаром в 1901 году : Где -- общее количество чего-либо в первой...
-
Заключение - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики
В данной работе проводится сравнение эффективности 6 методов поиска по однословному запросу. В качестве запроса выступает слов из стоп-листа - списка...
-
Информационные ресурсы сети Интернет - Поиск информации в сети Интернет
Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех...
-
Вариант №1 1. Выбрать и обосновать наиболее эффективный метод решения задачи. 2. Разработать алгоритм и программу для решения задачи в общем виде. 3....
-
Вычислить максимум функции F(x)=-L(x1)x2+3.1L(x2)x+5 на отрезке [a;b] с точностью е. L(x1), L(x2) - значения интерполяционного многочлена, построенного...
-
Для того, чтобы разработать оптимальный метод интеграции сторонних систем в существующую ИТ-инфраструктуру систем компании, требуется точно поставить...
-
Пусть в сборку входит n монтажников, Тогда - множество монтажников, участвующих в одном этапе - рабочие, участвующие в выполнении одной операций -...
-
Поиск и замена текста При работе с длинными документами иногда приходится вносить в них повторяющиеся изменения. ПрограммаWriterимеет специальные...
-
Описание классов и методов - Обзор проблематики и теоретических основ электронного документооборота
В данной работе реализован один публичный класс Form1, в котором и происходит основной функционал программы, посредством выполнения методов по кнопкам....
-
Постановка задачи, выбор предметной области Предметная область: "Автомобиль". Создание автомобиля будет состоять из трех этапов: выбор кузова, выбор...
-
Разработка логической модели АИС - Проектирование автоматизированной информационной системы
Логическая модель данных является начальным прототипом будущей базы данных. Логическая модель строится в терминах информационных единиц, но без привязки...
-
ПОСТАНОВКА ЗАДАЧИ - Структуры и алгоритмы обработки данных
Хранящуюся в файле базу данных загрузить в оперативную память компьютера и построить индексный массив, упорядочивающий данные По дням рождения и ФИО ,...
-
ТИПЫ ДАННЫХ, ПРОСТЫЕ ТИПЫ - Типы данных в программе Турбо Паскаль
Любые данные, т. е. константы, переменные, значения функций или выражения, в Турбо Паскале характеризуются своими типами. Тип определяет множество...
-
1. НА 7 ПК ИСПОЛЬЗУЕТСЯ microsoft Windows xp sp2. 2. на 1 используется Altlinux 5 3. Программы офисного назначения: A) Microsoft Office Excel 2003 B)...
-
Необходимо дополнительно рассмотреть вопрос о сравнении наборов HTTP-параметров. Параметры могут быть переданы в веб-приложение методами GET и POST [22,...
-
://www. yandex. ru/ - Поиск информации в сети Интернет
Яндекс -- российская система поиска в Сети. Сайт компании, Yandex. ru, был открыт 23 сентября 1997 года. Головной офис компании находится в Москве. У...
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
Если в результате поиска на схеме по данным из таблицы будет найдено несколько экземпляров оборудования (т. е. с одинаковой маркировкой или...
-
Физическая модель базы данных определяет способ размещения данных в среде хранения и способ доступа к этим данным, которые поддерживаются на физическом...
-
В Internet есть компьютеры которые позволяют вашему компьютеру действовать как терминал. Этот процесс называется удаленным входом (Telnetting). Tермин...
-
Поиск информации В проектах этого типа учащиеся должны использовать различные источники информации (электронные или бумажные) для решения задач. Такой...
-
Каждая СУБД имеет особенности в представлении структуры таблиц, связей, определении типов данных и т. д. которую необходимо учитывать при проектировании....
-
Проектирование модели данных - Создание аналога системной утилиты "Диспетчер задач"
При проектировании модели данных разработаем диаграмму вариантов использования, диаграмму деятельности. Диаграмма вариантов использования представляет...
-
Постановка задачи Основной целью дипломной работы является создание комплексной системы информационной безопасности предприятия на примере информационной...
-
В данном параграфе составим перечень основных сотрудников организации в фактическом состоянии "Как есть" (табл. 3.1.). Таблица 3.1. Основные функции...
-
Язык описания нейронных сетей предназначен для хранения сетей на диске. Следует отметить, что в отличии от таких компонентов, как предобработчик входных...
-
Актуальность Сегодня всемирная популярность социальных информационных сетей продолжает набирать обороты, все большее пользователей не может отказать себе...
-
Построение аналитической модели АОУ затруднено из-за отсутствия или недостатка априорной информации об объекте управления, а также из-за ограниченности и...
-
Как уже отмечалось в разделе "Различимость входных данных" числовые сигналы рекомендуется масштабировать и сдвигать так, чтобы весь диапазон значений...
-
Постановка задачи Необходимо разработать программу для поиска автобусных маршрутов. В качестве среды разработки должна использоваться Delphi 7. В...
-
ИЕРАРХИЧЕСКАЯ МОДЕЛЬ ДАННЫХ ИМД основана на понятии деревьев, состоящих из вершин и ребер. Вершине дерева ставится в соответствие совокупности атрибутов...
-
В данной главе приводится описание различных криптографических алгоритмов для безопасной передачи данных в приложении. RSA Для того, чтобы избежать...
-
Поисковые системы - Глобальная вычислительная сеть Internet
Основная задача Internet -- предоставление необходимой ин-формации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта...
-
Поисковые каталоги, Поисковые индексы - Поиск информации в сети Интернет
Поисковые каталоги служат для тематического поиска. Информация на этих серверах структурирована по темам и подтемам. Имея намерение осветить какую-то...
-
Поиск информации, Средства поиска файлов. - Поиск информации в сети Интернет
Средства поиска файлов. Поиск файла вручную в сложной структуре каталогов ftp-сервера может занять достаточно много времени. Для упрощения и ускорения...
-
Введение - Поиск информации в сети Интернет
Сеть Интернет похожа на огромную мировую библиотеку, имеющую только одно, но существенное отличие: для поиска книги в библиотеке есть каталог, в крайнем...
-
Даталогічна модель бази даних "відділ кадрів" - База даних "Відділ кадрів"
Етап даталогічного проектування з використанням СУБД ACCESS-2007 складається в завданні таблиць і наборів стовпців для кожної таблиці. Кожній таблиці і...
-
Вступ - Проектування нових моделей одягу
Проектування нових моделей одягу - це комплексне рішення художніх, технічних, технологічних, ергономічних, економічних та інших завдань у процесі...
Простой поиск по совпадению, Лемматизация - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики