작성일
2019.10.15
수정일
2019.10.15
작성자
최용석
조회수
507

Jung, M.J., Shin, S.M. and Choi, Y.S.(2019). Creation and clustering of proximity data for text data, The Korean Journal of Applied Statistics, 32(3), 451-462.(2019.06)

Jung, M.J., Shin, S.M. and Choi, Y.S(2019). Creation and clustering of proximity data for text data analysis, The Korean Journal of Applied Statistics, 32(3), 451-462.

 

Abstract
Document-term frequency matrix is a type of data used in text mining. This matrix is often based on various
documents provided by the x-x-x-objects to be analyzed. When analyzing x-x-x-objects using this matrix, researchers
generally select only terms that are common in documents belonging to one x-x-x-object as keywords. Keywords
are used to analyze the x-x-x-object. However, this method misses the unique information of the individual
document as well as causes a problem of removing potential keywords that occur frequently in a speci c
document. In this study, we de ne data that can overcome this problem as proximity data. We introduce
twelve methods that generate proximity data and cluster the x-x-x-objects through two clustering methods of
multidimensional scaling and k-means cluster analysis. Finally, we choose the best method to be optimized
for clustering the x-x-x-object.


Keywords: text mining, proximity data, TF-IDF, multidimensional scaling, cluster analysis

 

요 약
문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는
문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로
등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어
를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문
서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를
근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장
최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용
한다.
주요용어: 텍스트 마이닝, 근접성 데이터, TF-IDF, 다차원척도법, 군집분석

첨부파일