[7/5] 데이터 전처리 이해(2)

chuchuu 2022. 7. 5. 16:43

2022. 7. 5. 16:43

파생변수

: 기존 변수에 특정 조건 혹은 함수 등을 활용하여 새로운 변수를 만들거나 기존 변수들을 조합하여 새롭게 만들어진 변수

데이터 분석을 위해 새로운 변수를 조합해서 사용
변수 생성에 따라 주관적 의사가 반영 될 수 있음
파생변수 생성 시 논리적 타당성 확인 필요
기존 변수의 연산, 조합, 분해, 함수, 조건문 등을 이용하여 새로운 변수 생성
데이터 분석 모델에서 유의미한 특성으로 활용 가능

* 요약변수: 데이터를 분석에 맞게 종합(aggregate)한 변수, 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음

변수 변환(Variable Transformation)

: 변수의 유형에 따라 분석 방법이 달라지기 때문에 분석을 위해 불필요한 변수를 제거하고, 변수를 변환하며, 분석에 용이하게 변수를 가공하는 작업

* 왜도(Skewness): 자료 분포의 모양이 좌, 우 어느 쪽으로 얼마만큼 기울어져 있는가의 비대칭성(Asymmetry) 정도를 나타내는 통계량

* 첨도(Kurtosis): 자료의 분포가 중심에서 어느 정도 몰려 있는가를 측정할 때 사용하는 통계량

변수 변환 기법

정규 변환(Normal Transformation): 로그 변환, 제곱근 변환/세제곱근 변환, 제곱 변환/세제곱 변환, 박스-콕스 변환
정규성의 검정: 데이터의 분포와 정규성 검정, Q-Q plot, 정규점수그림 또는 정규확률그림
스케일링을 이용한 변환: 최소-최대 정규화, 최대 절대값 정규화

불균형 데이터

: 각 변수가 가진 데이터에서 각 집단에 속하는 데이터의 수가 동일하지 않은 상태

: 많은 비율을 가진 집단의 정확도(Accuracy)가 높아지므로 모형의 성능 판별이 어려움 발생

: 적은 비율을 가진 집단의 재현(Recall)은 작아지는 현상이 발생

오버 샘플링(업 샘플링) 기법

: 오버 샘플링(Over Sampling), 랜덤 오버 샘플링(Random Over Sampling)=리 샘플링(Re-sampling), 스모트(Synthetic Minority Oversampling Technique, SMOTE), 보더라인 스모트(Borderline-SMOTE), 아다신(Adaptive Synthetic Sampling Approach for Imbalanced Learning, ADASYN)

언더 샘플링(Under Sampling)

: 언더 샘플링(Under Sampling), 랜덤 언더 샘플링(Random Under sampling), 토멕링크(Tomek Links), CNN(Condensed Nearest Neighbor), OSS(One-side Selection)

차원 축소

: 분석 효율성(분석 과정의 비용 최적화) 효과성(결과의 정확성)을 위해서는 비즈니스의 의미와 특성을 보존하면서 변수를 줄이는 과정

유형 -> 특성 추출, 특성 선택

차원 축소 기법

: 주성분 분석, 요인분석, 특이값 분해, 다차원 척도법, 판별 분석, t-SNE

<오늘의 실습 모음>

실습(5)~실습(8)

https://github.com/thumb-chuu/BigData-Internship

GitHub - thumb-chuu/BigData-Internship

Contribute to thumb-chuu/BigData-Internship development by creating an account on GitHub.

github.com

'공공빅데이터 청년인턴십 > Python' 카테고리의 다른 글

[7/4] 데이터 전처리 이해 (0)	2022.07.04
[6/24] Python 응용 문법(2) (0)	2022.06.24
[6/23] Python 개발환경 구축 및 기본과 응용 문법(1) (0)	2022.06.23

코린이

[7/5] 데이터 전처리 이해(2)

'공공빅데이터 청년인턴십 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바