
Jung, M.J., Shin, S.M. and Choi, Y.S.(2019). Creation and clustering of proximity data for text data, The Korean Journal of Applied Statistics, 32(3), 451-462.(2019.06)

Jung, M.J., Shin, S.M. and Choi, Y.S(2019). Creation and clustering of proximity data for text data analysis, The Korean Journal of Applied Statistics, 32(3), 451-462.


Document-term frequency matrix is a type of data used in text mining. This matrix is often based on various
documents provided by the x-x-x-objects to be analyzed. When analyzing x-x-x-objects using this matrix, researchers
generally select only terms that are common in documents belonging to one x-x-x-object as keywords. Keywords
are used to analyze the x-x-x-object. However, this method misses the unique information of the individual
document as well as causes a problem of removing potential keywords that occur frequently in a speci c
document. In this study, we de ne data that can overcome this problem as proximity data. We introduce
twelve methods that generate proximity data and cluster the x-x-x-objects through two clustering methods of
multidimensional scaling and k-means cluster analysis. Finally, we choose the best method to be optimized
for clustering the x-x-x-object.

Keywords: text mining, proximity data, TF-IDF, multidimensional scaling, cluster analysis


요 약
문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는
문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로
등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어
를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문
서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를
근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장
최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용
주요용어: 텍스트 마이닝, 근접성 데이터, TF-IDF, 다차원척도법, 군집분석
