Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

Проблема автоматического определения количества кластеров в задаче кластеризации контекстов

Капитанов Андрей Иванович  (Ассистент, Национальный исследовательский университет «МИЭТ»)

Трояновский Владимир Михайлович  (Д.т.н., профессор, Национальный исследовательский университет «МИЭТ»)

При решении задачи кластеризации контекстов возникает проблема автоматического определения количества кластеров. Кластеризация контекстов позволяет эффективно разрешать проблему омонимии, что в свою очередь приводит к повышению качества ряда задач компьютерной лингвистики. На примере задачи классификации текстовых документов мы попытаемся вычислить необходимое количество кластеров для повышения доли распознанных документов. В ходе работы на основе плотностного алгоритма DBSCAN нам удалось вычислить количество кластеров, далее на основе агломеративной иерархической кластеризации разбить омонимичные контексты на кластеры и снять омонимию. После этого мы проверили качество классификации на основе алгоритма наивного байесовского классификатора и убедились в увеличении доли верно распознанных документов.

Ключевые слова:иерархическая кластеризация, кластерный анализ, классификация, полисемия, DBSCAN.

 

Читать полный текст статьи …



Ссылка для цитирования:
Капитанов А. И., Трояновский В. М. Проблема автоматического определения количества кластеров в задаче кластеризации контекстов // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2020. -№06. -С. 100-104 DOI 10.37882/2223-2966.2020.06.19
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"