작성일
2019.02.21
수정일
2019.10.16
작성자
최용석
조회수
683

Jeong, H.Y. Shin, S.M. and Choi, Y.S.(2019). Comparison of Term Weighting Schemes for Document Classifcation, The Korean Journal of Applied Statistics, 32(2), 265-276(2019.04)

Ho Young Jeong, Sang Min Shin, and Yong-Seok Choi(2019). Comparison of Term Weighting Schemes for Document Classification, The Korean Journal of Applied Statistics, 32(2), 265-276(2019.04)

 

문서 분류를 위한 용어 가중치 기법 비교

 

Abstract

The document-term frequency matrix is a general data of x-objects in text mining. In this study, we introduce
a traditional term weighting scheme TF-IDF which is applied in the document-term frequency matrix and
used for text classi cations. In addition, we introduce and compare TF-IDF-ICSDF and TF-IGM schemes
which are well known recently. This study also provides a method to extract keyword enhancing the quality
of text classi cations. Based on the keywords extracted, we applied support vector machine for the text
classi cation. In this study, to compare the performance term weighting schemes, we used some performance
metrics such as precision, recall, and F1-score. Therefore, we know that TF-IGM scheme provided high
performance metrics and was optimal for text classi cation.

 

Keywords: Term weighting, Document classi cation, Text mining, TF-IDF, Keyword extraction.

 

요 약
문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연
구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최
근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분
석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서
가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의
성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두
높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

 

 

주요용어: 용어 가중치, 문서 분류, 텍스트 마이닝, TF-IDF, 핵심어 추출

첨부파일