작성일
2020.11.12
수정일
2020.11.12
작성자
최용석
조회수
225

최요셉(2014). Standardizing Unstructured Big Data and Visual Interpretation using MapReduce and Correspondence Analysis

The Korean Journal of Applied Statistics (2014) 27(2), 169{183

 

 

Abstract

Massive and various types of data recorded everywhere are called big data. Therefore, it is important to
analyze big data and to nd valuable information. Besides, to standardize unstructured big data is important
for the application of statistical methods. In this paper, we will show how to standardize unstructured big
data using MapReduce which is a distribution processing system. We also apply simple correspondence
analysis and multiple correspondence analysis to find the relationship and characteristic of direct relationship
words for Samsung Electronics and The Korea Economic Daily newspaper as well as Apple Inc.
Keywords: Big data, unstructured data, MapReduce, correspondence analysis, direct relationship words,
The Korea Economic Daily.

 

오늘날, 다양한 분야에서 다양한 형태의 빅 데이터들이 축적되고 있다. 이에, 빅 데이터를 분석하고 그 속에서 가치
있는 정보를 찾아내는 것은 매우 중요해지고 있다. 또한, 비정형 빅 데이터를 정형화하여 통계적 기법을 적용할 수
있게 하는 것은 매우 중요해지고 있다. 본 연구에서는 분산처리 시스템인 맵리듀스를 활용하여 비정형 빅 데이터를
정형화하고, 통계적 분석 기법인 단순 대응분석과 다중 대응분석을 적용하여, 한국 경제 신문의 지면에 실린 기사를
이용해 삼성전자와 애플을 언급하고 있는 단어들의 관계와 특성을 각각 파악하였다.


주요용어: 빅 데이터, 비정형 데이터, 맵리듀스, 대응분석, 직접관계 단어, 한국 경제 신문.

첨부파일