Теоретико-множественная мера Жаккара - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики

Пятый способ - мера Жаккара.

Мера Жаккара -- бинарная мера сходства, предложенная Полем Жаккаром в 1901 году :

Где -- общее количество чего-либо в первой составляющей, -- общее количество чего-либо в первой составляющей, -- общее количество чего-либо для первой и второй составляющей, то есть их пересечение. Это первый известный коэффициент сходства. Коэффициент Жаккара в различных модификациях и записях активно используется в экологии, геоботанике, молекулярной биологии, биоинформатике, геномике, протеиномике, информатике и др. направлениях[2].

Для того, чтобы применить данную меру сходства к моей задаче мне понадобились n-граммы. В моем случае, это последовательное разделение слова на несколько частей состоящих из N букв. Это применяется как к словам из статьи, так и к словам из стоп-листа. Далее считается вероятность по формуле

Где А - множество частей слова из статьи, B - множество частей слова из стоп-листа. Этот способ также как и предыдущий может допускать ошибки, но так как важна полнота результата этот способ очень актуален для данной работы. Также стоить отметить, что этот способ намного быстрее, чем предыдущий.

Похожие статьи




Теоретико-множественная мера Жаккара - Сравнение моделей представления слов в задаче очистки текста от обесцененной лексики

Предыдущая | Следующая