Комбінований ієрархічний підхід кластеризації документів
Анотації
Запропоновано інтегрований ієрархічний підхід до класифікації тексту, заснований на дендрограмі та k-середніх кластеризаціях. Цей підхід дозволяє нам подати інтегрований новий метод ієрархічної кластеризації, який може класифікувати дані без попереднього задавання кількості класів, що дозволяє структуровано зберігати документи на комп'ютері. Цей підхід засновано на двох методах, які відносяться до області text і data mining. Першим етапом є попереднє оброблення документів, внаслідок чого скорочується час і якісно обчислюється результат. Другим етапом є використання векторної моделі, яка дозволяє чітко визначити значущість слів у документі. Використано ієрархічну кластеризацію, в яку входять два методи дендрограма і k-середніх. Метод дендрограми дозволяє заздалегідь визначити кількість кластерів (тек), метод k-середніх відносить документи до певних кластерів. Завершальним етапом є використання методу дендрограми для створення ієрархічної послідовності документів усередині кожного кластера (теки). Представлен интегрированный иерархический подход классификации текста, основанный на дендрограмме и k-средних кластеризации. Этот подход позволяет нам представить интегрированный новый метод иерархической кластеризации, который может классифицировать данные без предварительного задания количества классов, что позволяет структурировано хранить документы на компьютере. Данный подход основан на двух методах, которые относятся к области text и data mining. Первым этапом является предварительная обработка документов в результате чего, сокращается время и качественно вычисляется результат. Вторым этапом является использование векторной модели, которая позволяет четко определить значимость слов в документе. Использована иерархическая кластеризация, в которую входят два метода: дендрограмма и k-средних. Метод дендрограммы позволяет предварительно определить количество кластеров (папок), метод k-средних относит документы к определенным кластерам. Завершающим этапом является применение метода дендрограммы для создания иерархической последовательности документов внутри каждого кластера (папки) In this article we present integrated hieratical approach of text classification, based on dendrogramme and k-means clusterizations on computer. This approach allows us to present the computer-integrated new method of hierarchical clusterization, which can classify the amounts of classes given without a preliminary task, which allows keep structure documents on a computer. This approach is based on two methods related to the area text and data mining. The first stage is preprocessing of documents, as a result, time is reduced and a accurate result is calculated. The second stage is the use of vectorial model which allows expressly to define meaningfulness of words in a document. Then we use a hierarchical clusterization. It includes dendrogramms and k-means. Dendrogram method allows preliminary to define the amount of clusters (folders), the method of k-means attributes documents to certain clusters. The finishing stage is application of method of dendrogramms for creation of hierarchical sequence of documents into every cluster (folders).
URI:
http://visnyk.vntu.edu.ua/index.php/visnyk/article/view/696
http://ir.lib.vntu.edu.ua/handle/123456789/5928