파생변수

: 기존 변수에 특정 조건 혹은 함수 등을 활용하여 새로운 변수를 만들거나 기존 변수들을 조합하여 새롭게 만들어진 변수

  • 데이터 분석을 위해 새로운 변수를 조합해서 사용
  • 변수 생성에 따라 주관적 의사가 반영 될 수 있음
  • 파생변수 생성 시 논리적 타당성 확인 필요
  • 기존 변수의 연산, 조합, 분해, 함수, 조건문 등을 이용하여 새로운 변수 생성
  • 데이터 분석 모델에서 유의미한 특성으로 활용 가능

* 요약변수: 데이터를 분석에 맞게 종합(aggregate)한 변수, 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음

 

변수 변환(Variable Transformation)

: 변수의 유형에 따라 분석 방법이 달라지기 때문에 분석을 위해 불필요한 변수를 제거하고, 변수를 변환하며, 분석에 용이하게 변수를 가공하는 작업

* 왜도(Skewness): 자료 분포의 모양이 좌, 우 어느 쪽으로 얼마만큼 기울어져 있는가의 비대칭성(Asymmetry) 정도를 나타내는 통계량

* 첨도(Kurtosis): 자료의 분포가 중심에서 어느 정도 몰려 있는가를 측정할 때 사용하는 통계량

 

변수 변환 기법

  • 정규 변환(Normal Transformation): 로그 변환, 제곱근 변환/세제곱근 변환, 제곱 변환/세제곱 변환, 박스-콕스 변환
  • 정규성의 검정: 데이터의 분포와 정규성 검정, Q-Q plot, 정규점수그림 또는 정규확률그림
  • 스케일링을 이용한 변환: 최소-최대 정규화, 최대 절대값 정규화

 

불균형 데이터

: 각 변수가 가진 데이터에서 각 집단에 속하는 데이터의 수가 동일하지 않은 상태

: 많은 비율을 가진 집단의 정확도(Accuracy)가 높아지므로 모형의 성능 판별이 어려움 발생

: 적은 비율을 가진 집단의 재현(Recall)은 작아지는 현상이 발생

 

오버 샘플링(업 샘플링) 기법

: 오버 샘플링(Over Sampling), 랜덤 오버 샘플링(Random Over Sampling)=리 샘플링(Re-sampling), 스모트(Synthetic Minority Oversampling Technique, SMOTE), 보더라인 스모트(Borderline-SMOTE), 아다신(Adaptive Synthetic Sampling Approach for Imbalanced Learning, ADASYN)

 

언더 샘플링(Under Sampling)

: 언더 샘플링(Under Sampling), 랜덤 언더 샘플링(Random Under sampling), 토멕링크(Tomek Links), CNN(Condensed Nearest Neighbor), OSS(One-side Selection)

 

차원 축소

: 분석 효율성(분석 과정의 비용 최적화) 효과성(결과의 정확성)을 위해서는 비즈니스의 의미와 특성을 보존하면서 변수를 줄이는 과정

유형 -> 특성 추출, 특성 선택

 

차원 축소 기법

: 주성분 분석, 요인분석, 특이값 분해, 다차원 척도법, 판별 분석, t-SNE

 

 

<오늘의 실습 모음>

실습(5)~실습(8)

https://github.com/thumb-chuu/BigData-Internship

 

GitHub - thumb-chuu/BigData-Internship

Contribute to thumb-chuu/BigData-Internship development by creating an account on GitHub.

github.com

+ Recent posts