파생변수
: 기존 변수에 특정 조건 혹은 함수 등을 활용하여 새로운 변수를 만들거나 기존 변수들을 조합하여 새롭게 만들어진 변수
- 데이터 분석을 위해 새로운 변수를 조합해서 사용
- 변수 생성에 따라 주관적 의사가 반영 될 수 있음
- 파생변수 생성 시 논리적 타당성 확인 필요
- 기존 변수의 연산, 조합, 분해, 함수, 조건문 등을 이용하여 새로운 변수 생성
- 데이터 분석 모델에서 유의미한 특성으로 활용 가능
* 요약변수: 데이터를 분석에 맞게 종합(aggregate)한 변수, 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음
변수 변환(Variable Transformation)
: 변수의 유형에 따라 분석 방법이 달라지기 때문에 분석을 위해 불필요한 변수를 제거하고, 변수를 변환하며, 분석에 용이하게 변수를 가공하는 작업
* 왜도(Skewness): 자료 분포의 모양이 좌, 우 어느 쪽으로 얼마만큼 기울어져 있는가의 비대칭성(Asymmetry) 정도를 나타내는 통계량
* 첨도(Kurtosis): 자료의 분포가 중심에서 어느 정도 몰려 있는가를 측정할 때 사용하는 통계량
변수 변환 기법
- 정규 변환(Normal Transformation): 로그 변환, 제곱근 변환/세제곱근 변환, 제곱 변환/세제곱 변환, 박스-콕스 변환
- 정규성의 검정: 데이터의 분포와 정규성 검정, Q-Q plot, 정규점수그림 또는 정규확률그림
- 스케일링을 이용한 변환: 최소-최대 정규화, 최대 절대값 정규화
불균형 데이터
: 각 변수가 가진 데이터에서 각 집단에 속하는 데이터의 수가 동일하지 않은 상태
: 많은 비율을 가진 집단의 정확도(Accuracy)가 높아지므로 모형의 성능 판별이 어려움 발생
: 적은 비율을 가진 집단의 재현(Recall)은 작아지는 현상이 발생
오버 샘플링(업 샘플링) 기법
: 오버 샘플링(Over Sampling), 랜덤 오버 샘플링(Random Over Sampling)=리 샘플링(Re-sampling), 스모트(Synthetic Minority Oversampling Technique, SMOTE), 보더라인 스모트(Borderline-SMOTE), 아다신(Adaptive Synthetic Sampling Approach for Imbalanced Learning, ADASYN)
언더 샘플링(Under Sampling)
: 언더 샘플링(Under Sampling), 랜덤 언더 샘플링(Random Under sampling), 토멕링크(Tomek Links), CNN(Condensed Nearest Neighbor), OSS(One-side Selection)
차원 축소
: 분석 효율성(분석 과정의 비용 최적화) 효과성(결과의 정확성)을 위해서는 비즈니스의 의미와 특성을 보존하면서 변수를 줄이는 과정
유형 -> 특성 추출, 특성 선택
차원 축소 기법
: 주성분 분석, 요인분석, 특이값 분해, 다차원 척도법, 판별 분석, t-SNE
<오늘의 실습 모음>
실습(5)~실습(8)
https://github.com/thumb-chuu/BigData-Internship
GitHub - thumb-chuu/BigData-Internship
Contribute to thumb-chuu/BigData-Internship development by creating an account on GitHub.
github.com
'공공빅데이터 청년인턴십 > Python' 카테고리의 다른 글
[7/4] 데이터 전처리 이해 (0) | 2022.07.04 |
---|---|
[6/24] Python 응용 문법(2) (0) | 2022.06.24 |
[6/23] Python 개발환경 구축 및 기본과 응용 문법(1) (0) | 2022.06.23 |