작성일
2020.09.09
수정일
2020.11.19
작성자
최용석
조회수
483

Lee, B.H. Lee, S.J. and Choi, Y.S.(2020). Document classification using a deep neural network in text mining, The Korean Journal of Applied Statistics, 33(5), 1-11(2020.10)

Lee, B.H.  Lee, S.J. and  Choi, Y.S.(2020). Document classification using a deep neural network in text mining,

 

Abstract
The document-term frequency matrix is a term extracted from the documetns in which the group informa-
tion exists in text mining. In this study, we generated the document-term frequency matrix for document
classification according to research eld. We applied the traditional term weighting function TF-IDF to the
generated document-term frequency matrix. In addition, we applied TF-IGM which is well known recently.
We also generated a document-keyword weighted matrix by extracting keywords to improve document clas-
si cation accuracy. Based on the keywords matrix extracted, we classify the documents using deep neural
network. In order to nd the optimal model in the deep neural network, the accuracy of document classi-
fication was veri ed by changing the number of hidden layers and hidden nodes. As a result, model with
eight hidden layers showed the highest accuracy and all TF-IGM document classification accuracy according
to parameter changes was higher than TF-IDF. In addition, it was con rmed that the deep neural network
showed better accuracy than the SVM. Therefore, we propose a method to apply TF-IDF and deep neural
network in document classification.


Keywords: document classification, deep neural network, term weighting, text mining, keyword extraction

 

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류

 

이보희, 이수진, 최용석

신라대학교 광고홍보학과, 부산대학교 통계학과

 

요약

 

문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF 함수를 적용하였다. 추가로 최근 잘 알려진 용어 가중치 함수 TF-IGM를 적용였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 SVM과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

 

주요용어: 문서 분류, 심층 신경망, 용어 가중치, 텍스트 마이닝, 핵심어 추출

 

 

This work was supported by the Phase Four of the Brain Korea 21 Project in 2020

 

 

첨부파일