작성일
2023.08.24
수정일
2023.08.24
작성자
최용석
조회수
61

(2023.10) R, SAS, SPSS 함께하는 범주형 자료의 시각화 - 대응분석 -

                                머리말

                     One picture is worth ten thousand words.

                           Fred R.(8, December 1921)

    

   대응분석(correspondence analysis)은 범주형 자료(categorical data)에서 분할표로 구성 가능한 자료의 행(row)과 열(column)을 저차원 공간상의 점들로 동시에 나타내어 그들의 관계를 탐구하려는 탐색적 자료분석 기법이다.

  1930년대 히르슈벨트(Hirshfeld)에 의해서 개발되어 1960년대 벤제크리(Benz?cri)에 의해서 더욱 발전된 대응분석은 범주형 자료분석에서 시각화 기법으로 아주 뛰어 나다. 저자도 국내에서 처음으로 1993대응분석>(고려대학교 통계연구소 통계분석 강의총서 17)2001대응분석의 이해와 응용>을 집필하였다, 그 이후 본인의 졸작에 이를 요약하거나 R의 패키지 ca를 활용하기도 하여 분할표 자료의 시각화 기법으로 대응분석을 소개하였다.

  이번 신작 < R, SAS, SPSS 함께하는 범주형 자료의 시각화 ? 대응분석 - >에서는 그동안 대응분석에 관한 저서에서 미처 수용하지 못했거나 새로운 관점에서 그 간 연구한 결과를 포함하였다. R은 버전 4.1을 바탕으로 패키지 ca(버전 0.71.1)와 지도학생들과 개발한 다시점 자료(longitudinal data)의 시각화를 위한 패키지 vlda(visualization of multidimensional longitudinal data, 버전 1.1.5)를 활용하였고 SASPROC CORRESP(버전 9.2)SPSSIBM SPSS Statistics 27을 활용하였다. 특히, R 버전이 4.2 이상에서 한글이 포함된 자료인 경우 함수 read.table()에서 인코딩 옵션 fileEncoding = "euc-kr"을 반드시 사용해야 한다.  

  이 책의 구성은 다음과 같은 데 패키지 활용은 R을 기본으로 설명하고 SASSPSS 실습을 각 장의 마지막 2개 절로 각각 제공하고 있다. 1장에서 대응분석의 엿보기를 통해 비대칭 분할표, 텍스트 마이닝, 다시점 자료를 위한 다양한 대응분석을 이해하고자 한다. R의 대응분석을 위한 패키지 ca의 적용을 소개하고 SAS/PROC CORRESPSPSS의 메뉴 분석(A) 차원 축소(D)에서 대응일치분석(C) 최적화 척도법(O)에서 제공하는 대응분석을 실습에서 소개하고 있다. 2장은 범주형 자료 중 이원분할표의 행과 열 범주 간의 대응관계를 시각적으로 보여주는 단순(simple) 대응분석에 대해 소개한다. 더불어 비대칭 분할표의 대칭부분과 반대칭 부분의 수정 단순 대응분석을 제공한다. 3장에서는 삼원 이상의 다원 분할표 내지는 범주변수가 3개 이상인 범주형 자료에 대해 다중(multiple) 대응분석을 고려할 수 있다. 자료의 형태는 분할표, 분류변수가 포함된 자료, 표시행렬과 버트표를 고려할 수 있다. 4장은 텍스트 마이닝에서 텍스트 자료의 처리와 TF-IDF 가중 함수를 활용한 정형화를 통해 얻어진 문서-핵심어 행렬에 의한 이원분할표의 단순 대응분석을 문서와 단어의 연관성을 시각적인 해석을 통해 제공한다. 5장에서는 새로운 정보를 가진 범주를 이미 어떤 분할표 자료의 대응분석에 추가하여 기존의 범주들과 대응관계를 살피는 일은 매우 중요하다. 이를 추가범주라 하는 데 이를 위한 단순과 다중 대응분석 알고리즘을 소개한다. 6장은 범주들의 대응관계를 2차원 대응분석 그림만으로는 충분히 나타낼 수 없는 경우 그림상의 좌표점에 대한 부가적인 정보통계량을 설명한다. 7장에서는 각 개체가 여러 시간에 따라 관찰된 반응을 반복측정(repeated measurement)한 다시점 자료의 시각화를 위해 개발된 R의 패키지 vlda를 활용한다. 이는 긴 형태와 넓은 형태의 다시점 자료를 모두 분석 할 수 있으며 추가 개체와 변수도 다루고 있다.

  R, SASSPSS는 국내에서 통계적 분석 도구로 가장 잘 알려진 패키지이다. 특히 R은 인기 있는 오픈 소스(http:/www.r-project.org)의 소프트웨어다. 각 장에서 사용되는 [R-코드], [SAS-코드], [SPSS-메뉴] 그리고 [자료 목록]을 부록에 수록해 두며 이는 저자의 홈페이지(http://yschoi.pusan.ac.kr) 메뉴 ResearchesBooks에서 받아 갈 수 있다.

  끝으로 이 책은 분할표를 포함하여 다양한 형태의 범주형 자료를 이해하고 이에 대한 시각화를 위한 R, SASSPSS를 활용한 대응분석을 소개하는 책을 출간하게 되어 매우 기쁘고 행복하게 생각합니다. 그리고 통계학 특히, 범주형 자료분석에서 최근 관심과 활용도가 높아지고 있는 시각화 기법과 관련된 이 책을 출간 해주신 경문사 여러분께 고마움을 전합니다.

20236

부산대학교 통계학과 연구실 208

 

 

최용석

첨부파일
첨부파일이(가) 없습니다.