구분 |
탐색적 데이터 분석(EDA) |
확증적 데이터 분석(CDA) |
목적 |
새로운 가설 생성 및 통찰을 얻어 방향성 설정 |
가설 검정의 유효성 검정 행동에 대한 평가로 채택 여부 결정 |
과정 |
데이터 수집-시각화/탐색-패턴 도출-인사이트 발견 |
가설 설정-데이터 수집-통계 분석-가설 검정 |
사용 통계 |
기술 통계 |
추론 통계 |
사례 |
지역별/시기별 배달음식 주문 데이터의 탐색 시각화 |
CCTV 설치 수와 범죄 발생 빈도 가설 검증 |
분석 모델 선정 기준
분석 목적 |
학습 기법 |
분석 작업 유형 |
예측 |
지도학습 |
회귀분석, 시계열분석, 분류 등 |
서술(설명) |
비지도학습 |
연관규칙, 연속규칙, 군집화, 차원축소 등 |
분석 모델 적용 알고리즘
분류 |
설명 |
비지도학습 |
차원축소 |
PCA, LDA, ICA, SVD, MDS |
계층적 군집 |
단일/최단/최장/평균/완전/와드연결법 |
비계층적 군집 |
K-means, K-Medoids, SOM |
지도학습 |
회귀분석 |
선형회귀, 의사결정트리(회귀트리), 신경망 모델 |
분류분석 |
로지스틱회귀분석, KNN, SVM, 의사결정트리(분류트리), 신경망 모델 |
편향(Bias): 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
분산(Variance): 트레이닝셋에 내재된 작은 변동 때문에 발생하는 오차
데이터 분석 모델 종류
- 통계 기반 분석 모델 : 기술 통계, 상관분석, 회귀분석, 분산분석, 주성분분석, 판별분석, 시계열분석
- 데이터 마이닝 기반 분석 모델 : 회귀분석, 의사결정나무, 시계열분석, 인공신경망, 군집화 모델, 연관규칙 모델
- 기계학습 기반 분석 모델 : 회귀분석, 인공신경망, 의사결정나무, 서포트벡터머신, 랜덤포레스트, 감성분석, 비지도학습, 강화학습
- 비정형 데이터 : 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석
통계 분석 방법
독립변수 형태 |
종속변수 형태 |
요약방법 |
자료정리 |
그래프 |
대표적 분석방법 |
범주형 자료/질적 |
범주형 자료 |
도표그래프 |
도수분포표 분할표 |
막대도표 원도표 |
교차분석 (카이제곱검정) |
수치형 자료 |
도표+수치 |
그룹별평균 |
그룹별 막대도표 그룹별 상자도표 |
T-검정, 분산분석 |
수치형 자료/양적 |
범주형 자료 |
그래프 |
도수분포표 |
꺽은선그래프 |
로지스틱회귀분석 |
수치형 자료 |
수치그래프 |
산술평균 중앙값 조화평균 |
히스토그램 상자도표 산점도 |
상관분석, 회귀분석 등 |
상관관계 분석
: 두 변수 간의 선형적 관계(비례식이 성립되는 관계) 분석하는 기법, 변수들 간의 선형성 강도에 대한 통계적 분석
/ 피어슨 상관계수
회귀분석
: 하나 혹은 그 이상의 원인(독립변수)이 결과(종속변수)에 미치는 영향을 추정하여 식으로 표현할 수 있는 통계 기법
/ 최소 제곱법, 최소 제곱 추정량, 결정계수
- 단순회귀분석, 다중회귀분석
- 일반회귀분석, 더미변수를 이용한 회귀분석
- 선형회귀분석, 비선형회귀분석
분산분석
: 집단이 3개 이상이면서 독립변인에 의한 종속뱐인의 평균치 간 차이를 검정하는 통계 분석 기법
- One-Way ANOVA
- Repeated Measures ANOVA
- Two-Way ANOVA
- Two-Way Repeated Measures ANOVA
주성분 분석
: 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법
* 주성분: 희생되는 정보가 가장 적고, 전체 변수의 변동성을 대부부 설명할 수 있는 적은 수의 변수 집합
시계열 분석
: 불규칙성을 가지는 시계열 데이터에 특정한 기법이나 모델을 적용하여 규칙적 패턴을 적용하거나, 혹은 예측할 수 있도록 하는 것을 의미
* 정상성: 시계열 데이터의 통계 모델 -> 데이터가 정상성을 갖는다는 가정하에 사용
- 약정상: 두 시점을 비교했을 때 정상적인 것
- 강정상: 모든 시점에서 정상적인 것(시간 차이에만 의존하는 것)
구분 |
상세 기법 |
예측 |
예측 목적 단순방법 |
평활법(Smoothing Method) |
분해법(Decomposition Method) |
예측 목적 모델기반방법 |
자기회귀모델(Auto Regressive, AR) |
이동평균모델(Moving Average, MR) |
자기회귀누적이동평균모델(ARIMA) |
제어 |
시스템 이해와 제어 |
스펙트럼분석(Spectral Analysis) |
개입분석(INtervention Analysis) |
전이함수모델(Transfer Function Model) |
확률표본추출
- 단순확률표본추출: 통계조사에서 가장 기본이 되는 표본추출법이며, 모집단을 구성하는 요소 하나하나가 뽑힐 확률이 동일한 상황(무작위: Random)에서 뽑는 방법
- 계통표본추출: 집단의 추출틀에서 k번째 간격마다 하나씩 표본으로 추출하는 방법
- 층화확률표본추출: 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할, 각 층별로 단순확률표본추출법을 적용시켜 표본을 추출하는 방법(계층 내 : 동질성, 계층 간 : 이질성)
- 집락표본추출법(군집표본추출법): 서로 인접한 기본 단위들로 구성된 집락(군집)을 만들고, 추출된 집락 내의 일부 또는 전체를 조사하여 표본을 추출하는 방법(집락 내 : 이질적, 집락 간 : 동질성)
비확률표본추출
- 편의표본추출: 응답자를 선정하는 데 있어서 조사원 개인의 자의적인 판단에 따라 간편한 방법으로 표본을 추출하는 방법
- 판단표본추출(유의추출법, 판단표집): 조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 여겨지는 표본을 주관적으로 선정하는 방법
- 할당표본추출: 조사 목적과 밀접하게 관련되어 있는 조사 대상자의 연령이나 성별과 같은 변수값에 따라 모집단을 부분 집단으로 구분하고, 모집단의 부분 집단별 구성 비율과 표본의 부분 집단별 구성 비율이 유사하도록 표본을 선정하는 방법
탐색적 데이터 분석의 4가지 주제
- 저항성(Resistance)의 강조
- 잔차(Residual)의 해석
- 데이터의 재표현(Re-Expression): 데이터의 해석과 분석을 단순화하기 위해 원 변수를 재표현하는 방법
- 데이터의 현시성(Graphic Representation): 데이터를 그래프로 시각화함으로써 데이터 안에 숨겨진 정보를 효율적으로 파악하는 과정
중심경향치
: 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값
- 평균 - 산술평균, 절사평균, 가중평균
- 중앙값(Median)
- 최빈값(Mode)
산포도(Dispersion)
* 변동계수: 단위가 다른 두 집단을 비교하여 상대적 변동(분산)을 비교하기 위한 개념
- 범위(Range)
- 사분위수 범위(Interquartile Range, IQR)
- 편차(Deviation)
- 분산(Variance)
- 표준편차(Standard deviation)
- 변동계수(Coefficient of Variation)
비대칭도
: 자료 분포의 형태를 설명해주는 통계량을 왜도와 첨도(Kurtosis)라고 하며, 두 통계량은 정규분포와 비교해서 설명 가능
* 왜도(Skewness): 자료 분포의 모양이 좌, 우 어느 쪽으로 얼마만큼 기울어져 있는가의 비대칭성 정도를 나타내는 통계량
* 첨도(Kurtosis): 자료의 분포가 중심에서 어느 정도 몰려 있는가를 측정할 때 사용하는 통계량
시각적 데이터 탐색
시간 시각화 |
분포 시각화 |
관계 시각화 |
비교 시각화 |
공간 시각화 |
막대 그래프 누적 막대 그래프 점 그래프 |
파이차트 도우넛차트 트리맵 누적 연속 그래프 줄기 잎 그림 상자그림 |
스캐터플롯(산점도) 버블차트 히스토그램 |
히트맵 체르노프페이스 스타차트 평행 좌표 그래프 다차원척도법 |
지도 매핑 |
도수분포표(Frequency table) = 단일 변수
: 데이터 각 값의 출현 도수를 세거나 몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 개수를 세어서 정리한 표
* 도수: 각 계급(구간)에 속하는 자료의 개수
다변량 데이터 탐색
- 상관관계 분석: 두 변수 간의 선형적 관계(비례식이 성립되는 관계) 분석하는 기법, 변수들 간의 선형성 강도에 대한 통계적 분석 / 피어슨 상관계수, 스피어만, 켄달
- 공분산: 두 변수 X, Y가 서로 어떤 패턴(pattern)을 보여주는가를 나타내는 지표이며, 서로 다른 변수들 사이에 얼마나 의존하는지를 수치적으로 표현 (두 변수는 질적변수가 아닌, 크기가 측정되는 양적변수)
- 교차표 분석
- 다차원척도법
- 주성분분석
- 요인분석
- 산점도 행렬(시각화 기반 다변량 데이터 탐색)
[오늘의 실습 모음]
statistics_실습(1)~실습(4)
https://github.com/thumb-chuu/BigData-Internship_statistics
GitHub - thumb-chuu/BigData-Internship_statistics
Contribute to thumb-chuu/BigData-Internship_statistics development by creating an account on GitHub.
github.com