2018년 3월 10일 토요일

빅데이터와 통계학

통계학은 데이터에 관한 학문으로 데이터 수집, 요약, 분석, 정보의 표현 단계로 나뉜다. 연구문제(통계적 가설)을 판단할 적절한 표본 데이터를 수집하여 표본 데이터를 연구목적에 맞게 요약, 분석하는 과정을 거쳐 연구문제의 진위 판단하게 된다.

통계학은 수집된 데이터를 (그래프나 요약된 값, 이를 통계량이라 함)요약, 정리하여 얻은 정보를 제시하는 "기술통계학" (descriptive), 연구문제를 가설 혹은 모형화 하여 표본 데이터로부터 계산된 통계량을 이용하여 연구가설의 진위를 검증하는 "추론통계학" (inferential)으로 나뉜다. 기술통계학은 "국가"(state - Statistics 어원)가 생기면서 시작되었고 추론 통계학은 사회현상, 자연현상을 설명하기 위한 방법론으로 개발되었다. 수학과 물리학은 y=f(x) input에 의해 output이 오차없이 결정되는 함수 f를 찾는 것이라면 통계학은 y=f(x)+e, 오차항 e는 패턴이 없는 백색잡음, 함수는 선형인 경우 y(output)을 결정하는 input(X)을 탐색하거나 결정하게 된다.

컴퓨터, 통계 소프트웨어의 발전은 통계 계산을 용이하게 하여 다양한 통계 요약 값은 물론 연구문제의 진위를 판단하는 결과 값(통계량, 추정값)과 판단 근거(이를 검정통계량, 유의확률) 값들을 통계 이론과 방법론에 대한 이해 없이 사용자가 쉽게 얻을 수 있게 하였다. 이로 인하여 통계학 이론은 통계학자가 활용은 필드(경제, 경영, 공학, ...) 전문가들이 담당할 수 있게 되었다. (1) 연구문제에 적합한 데이터 수집을 어떻게 할 것인가? 표본론, 실험설계 여전히 통계전공자의 역할이었다. - 데이터 마이닝(mining)까지도  분석에 적절한 데이터 형태, 전처리된 데이터로 만드는 데이터 마트(mart)를 포함하고 있다 (2)요약, 분석(방법론)은 통계 소프트웨어가 담당했다. Minitab(경영과학), eView(경제학), SPSS(사회과학), 막강 통계패키지 SAS, 그리고 10년 전부터 오픈소스 앞세워 발전한 R (3) 정보의 표현 및 활용은 통계 결과 값의 의미를 알고 있는 통계전공자와 필드를 알고 있는 전문가의 협업 분야이다. 여전히 통계학을 전공자의 몫은 데이터 수집, 결과 값 해석 및 활용에 노하우가 있다.

빅데이터 시대가 오면서 데이터 수집도 컴퓨터가 한다. 3V(Velocity 속력-빠른 수집, Volumn 대용량, Variety 다양한 포멧) 대변되는 빅데이터는 연구목적에 맞는 데이터 수집이 아니라 실시간으로 대용량 데이터가 쌓인다. "Garbage in, Garbage out" (수집 데이터가 쓰레기면 분석 결과 정보도 쓰레기다) 과거에는 이랬지만, 빅데이터 시대에는  "Gabage in, Value out"이다. 쓰레기에서 정보를 만들어 내는 작업은 더 이상 통계 방법론만으로는 불가능하다. 게다가 컴퓨팅이  스스로 학습하는 머신 러닝은 통계학 분야가 아니다. 또한 데이터로부터 얻은 정보를 표현하고 활용하는데 필요한 통계적 직감도 요즈음은 컴퓨팅이 대신한다.

이처럼 최근 통계학은 방법론을 통계 소프트웨어에 심고 소프트웨어가 쏟아낸 결과 값(정보)을 활용하는 데이터 공학이었다. 빅데이터 분석 툴(도구)은 통계학의 전과정을 자동으로 실현한다. 빅데이터 시대에 통계학은 알파고가 되어 있다. 지금의 통계학 개념(전공)으로는 알파고를 당할 수 없다. 빅데이터 시대의 통계학은 통계학은 데이터 과학(생각하는 이세돌)이어야 한다. 과학은 보편적 진리나 법칙의 발견을 목적으로 하는 체계적 지식. 그 대상 영역에 따라 `자연 과학'과 `사회 과학'으로 분류하며, 또 거기에 `수학', `논리학'을 포함시킨 `형식 과학'과 `철학'을 포함시킨 `인문 과학'을 아울러 이르는 말이기도 함. 좁은 뜻으로는 `자연 과학'만을 이르는 말임(구글 사전적 정의) 데이터의 구조, 데이터의 context(데이터의 데이터) 개념, 그리고 데이터의 정확성(veracity : 이를 포함하여 빅데이터 4V라고 정의함)을 판단할 수 있는 통찰이 통계학에는 필요하다. 통계학은 다시 응용수학으로 회귀해야 하지 않을까?