2018년 3월 28일 수요일

빅데이터 언어(R, Python, Hadoop)


R, Python 및 Hadoop을 배우는 21 가지 이유 (위의 원문을 번역 정리한 내용임)
당신이 빅 데이터 전문가, 데이터 과학자를 꿈꾸면 R, Python, Hadoop 알아야 한다.
WHY R?
  1. 데이터 과학자는 코딩 능력,  통계학 전공 지식이 필요하며 통계학자가 통계 프로그래밍 언어 중 표준인 R을 쉽게 배울 수 있다.
  2. R은 오픈 소스이며 무료로 사용할 수 있다. SAS, Matlab과 달리 자유롭게 R을 설치, 사용, 업데이트, 복제, 수정, 재배포 및 재판매 할 수 있고 통계 프로그래밍 언어에 유용한 쉬운 업그레이드도 가능하다. 
  3. R은 플랫폼 간 호환이 가능합니다. R은 Windows, Mac OS X 및 Linux에서 실행할 수 있다. 또한 Microsoft Excel, Microsoft Access, MySQL, SQLite, Oracle 및 기타 프로그램에서 데이터를 가져올 수 있다.
  4. R은 강력한 스크립(프로그래밍)팅 언어로 크고 복잡한 데이터 세트를 처리 할 수 있으며, 대용량, 자원 집약적  시뮬레이션이 가능하고 고성능 컴퓨터 클러스터로 사용할 수 있습니다. 
  5. R은 사용자가 급속히 증가하고 매우 유연하고 발전했다. 새로운 통계 방법론의 함수, 패키지가 빠르게 업로드 된다. 
  6. R은 분석 결과(그래프 포함)를 워드 프로세싱 문서에 삽입 가능하다. 연구 논문의 그래프도 R 이 출판 가능 수준의 품질을 제공한다. 
  7. R은 정기적으로 토론 포럼, 온라인 글로벌 커뮤니티 - 거대하고 활발한 커뮤니티 및 리소스 뱅크 를 보유하고 있다. 현재 2,000 개의 통계분석을 위한 무료 라이브러리가 제공되고 있다. 

WHY Python?
R보다 배우기 쉽고 웹 및 게임 개발자들 사이에서 선호되는 고급 프로그래밍 언어이다.
  1. Python은 배우기 쉽다. Python 프로그램은 코드 가독성 높고, 간단한 구문 및 구현 용이성, 사용자 친화적이다. 
  2. Python은 짧은 코드로 디버그하기 쉽다.  
  3. Python은 널리 사용되고 있다. Python은 Google의 검색 엔진, YouTube, DropBox, Reddit, Quora, Disqus 및 FriendFeed를 지원한다. 
  4. Python도 R과 같은 객체 지향 언어입니다. Python 기초를 이해하면 새로운 언어의 구문을 배우기 만하면되므로 다른 객체 지향 언어로 마이그레이션이 가능하다. 
  5. Python은 오픈 소스이고 단순성은 매력적이다. 
  6. Python은 고성능 언어로 비즈니스에 필수적인 고속 응용 프로그램을 구축하기 위한 언어로 오랫동안 사용되고 있다.
  7. Python은 Rasberry Pi(영국 개발 초소형 PC)에서 사용가능하다.

WHY Hadoop? 
  1. Hadoop은 R 및 Python과 마찬가지로 오픈 소스이다. 
  2. Hadoop은 방대한 양의 데이터를 쉽게 저장하고 처리 할 수 있어 고객의 시대에 필요한 유연한 미래의 데이터 플랫폼의 초석으로 강력하다.
  3. Hadoop은 다양한 기능을 제공 : 데이터웨어 하우징, 예측 분석, 데이터 검색 및 ETL(추출-변환-부하)에도 사용된다. 
  4. Hadoop은 다양한 역할 : Hadoop Architects, Hadoop 개발자, 데이터 과학자 또는 관리자로 일할 수 있다. 
  5. Hadoop은 Big Data 시장에서 가장 많이 찾는 기술 중 하나이며, 인증 된 Hadoop 개발자의 연봉은 매우 높다. 
  6. 하둡은 미래 지향적 도구, 건강한 미래를 가지고 있다.  
  7. Hadoop 사용은 다국적 기업에서 증가 : 델, 아마존 웹 서비스, IBM, 야후, 마이크로 소프트, 구글, 이베이, 오라클과 같은 상위 기업들은 Hadoop 언어에 의존하고 있다. 

2018년 3월 10일 토요일

빅데이터와 통계학

통계학은 데이터에 관한 학문으로 데이터 수집, 요약, 분석, 정보의 표현 단계로 나뉜다. 연구문제(통계적 가설)을 판단할 적절한 표본 데이터를 수집하여 표본 데이터를 연구목적에 맞게 요약, 분석하는 과정을 거쳐 연구문제의 진위 판단하게 된다.

통계학은 수집된 데이터를 (그래프나 요약된 값, 이를 통계량이라 함)요약, 정리하여 얻은 정보를 제시하는 "기술통계학" (descriptive), 연구문제를 가설 혹은 모형화 하여 표본 데이터로부터 계산된 통계량을 이용하여 연구가설의 진위를 검증하는 "추론통계학" (inferential)으로 나뉜다. 기술통계학은 "국가"(state - Statistics 어원)가 생기면서 시작되었고 추론 통계학은 사회현상, 자연현상을 설명하기 위한 방법론으로 개발되었다. 수학과 물리학은 y=f(x) input에 의해 output이 오차없이 결정되는 함수 f를 찾는 것이라면 통계학은 y=f(x)+e, 오차항 e는 패턴이 없는 백색잡음, 함수는 선형인 경우 y(output)을 결정하는 input(X)을 탐색하거나 결정하게 된다.

컴퓨터, 통계 소프트웨어의 발전은 통계 계산을 용이하게 하여 다양한 통계 요약 값은 물론 연구문제의 진위를 판단하는 결과 값(통계량, 추정값)과 판단 근거(이를 검정통계량, 유의확률) 값들을 통계 이론과 방법론에 대한 이해 없이 사용자가 쉽게 얻을 수 있게 하였다. 이로 인하여 통계학 이론은 통계학자가 활용은 필드(경제, 경영, 공학, ...) 전문가들이 담당할 수 있게 되었다. (1) 연구문제에 적합한 데이터 수집을 어떻게 할 것인가? 표본론, 실험설계 여전히 통계전공자의 역할이었다. - 데이터 마이닝(mining)까지도  분석에 적절한 데이터 형태, 전처리된 데이터로 만드는 데이터 마트(mart)를 포함하고 있다 (2)요약, 분석(방법론)은 통계 소프트웨어가 담당했다. Minitab(경영과학), eView(경제학), SPSS(사회과학), 막강 통계패키지 SAS, 그리고 10년 전부터 오픈소스 앞세워 발전한 R (3) 정보의 표현 및 활용은 통계 결과 값의 의미를 알고 있는 통계전공자와 필드를 알고 있는 전문가의 협업 분야이다. 여전히 통계학을 전공자의 몫은 데이터 수집, 결과 값 해석 및 활용에 노하우가 있다.

빅데이터 시대가 오면서 데이터 수집도 컴퓨터가 한다. 3V(Velocity 속력-빠른 수집, Volumn 대용량, Variety 다양한 포멧) 대변되는 빅데이터는 연구목적에 맞는 데이터 수집이 아니라 실시간으로 대용량 데이터가 쌓인다. "Garbage in, Garbage out" (수집 데이터가 쓰레기면 분석 결과 정보도 쓰레기다) 과거에는 이랬지만, 빅데이터 시대에는  "Gabage in, Value out"이다. 쓰레기에서 정보를 만들어 내는 작업은 더 이상 통계 방법론만으로는 불가능하다. 게다가 컴퓨팅이  스스로 학습하는 머신 러닝은 통계학 분야가 아니다. 또한 데이터로부터 얻은 정보를 표현하고 활용하는데 필요한 통계적 직감도 요즈음은 컴퓨팅이 대신한다.

이처럼 최근 통계학은 방법론을 통계 소프트웨어에 심고 소프트웨어가 쏟아낸 결과 값(정보)을 활용하는 데이터 공학이었다. 빅데이터 분석 툴(도구)은 통계학의 전과정을 자동으로 실현한다. 빅데이터 시대에 통계학은 알파고가 되어 있다. 지금의 통계학 개념(전공)으로는 알파고를 당할 수 없다. 빅데이터 시대의 통계학은 통계학은 데이터 과학(생각하는 이세돌)이어야 한다. 과학은 보편적 진리나 법칙의 발견을 목적으로 하는 체계적 지식. 그 대상 영역에 따라 `자연 과학'과 `사회 과학'으로 분류하며, 또 거기에 `수학', `논리학'을 포함시킨 `형식 과학'과 `철학'을 포함시킨 `인문 과학'을 아울러 이르는 말이기도 함. 좁은 뜻으로는 `자연 과학'만을 이르는 말임(구글 사전적 정의) 데이터의 구조, 데이터의 context(데이터의 데이터) 개념, 그리고 데이터의 정확성(veracity : 이를 포함하여 빅데이터 4V라고 정의함)을 판단할 수 있는 통찰이 통계학에는 필요하다. 통계학은 다시 응용수학으로 회귀해야 하지 않을까?

2018년 3월 3일 토요일

현재, 미래 통계 관련 정보 제공을 위한 구글 블로그 시작하며

1995년 한남대학교 통계학과에 재임하면서 틈틈히 만들었던 강의노트를 1999년부터 온라인으로(http://wolfpack.hnu.ac.kr) 제공하기 시작하였다. 그 때의 모토는 "모든 사람이 통계를 사랑하는 그날까지"
부족한 내용이었지만 많은 분들이 사랑해 주셔서 지금까지 열심히 운영하고 있습니다. 아쉬움이 있다면 제공되는 내용이 강의노트 중심이어서 새로운 방법론에 대한 정보 제공, 통계 발전 방향에 대한 의견을 개진할 수 없는 한계가 있었습니다. 하여, 통계 관련 개인 블로그를 시작하려 합니다. "모든 사람이 통계로 인하여 행복해지기를 원하며" ...