자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
2과목인 빅데이터 분석 기획을 정리한 내용
데이터 전처리의 중요성
- 분석 결과에 직접적인 영향을 주고 있어서 전처리는 반복적으로 수행해야 함
- 데이터 전처리는 데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서
데이터 정제
결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
- 데이터 오류 원인 분석
- 결측값
- 필수적인 데이터가 입력되지 않고 누락된 값
- 중심 경향값을 넣거나 분포기반 처리
- 노이즈
- 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
- 일정 간격으로 이동하면서 주변보다 높거나 낮으면 평균값으로 대체하거나 일정 범위 중간값 대체
- 이상값
- 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
- 하한보다 낮으면 하한값 대체, 상한보다 높으면 상한 값 대체
- 결측값
- 데이터 정제 대상 선정
- 모든 데이터를 대상으로 정제 활동을 하는 것이 기본
- 특별히 데이터 품질 저하의 위협이 있는 데이터에 대해 정제 활동을 수행
- 품질 저하의 노출도 : 외부데이터 > 내부데이터, 비정형, 반정형 데이터 > 정형 데이터
- 데이터 정제 방법 결정
- 삭제
- 오류 데이터에 대해 전체 또는 부분 삭제
- 무작위적인 삭제는 데이터 활용의 문제를 일으킬 수 있음
- 대체
- 오류 데이터를 평균값, 최빈수, 중앙값으로 대체
- 오류 데이터가 수집된 다른 데이터와 관계가 있는 경우 유용할 수 있으나 그렇지 않은 경우 데이터 활용 시 왜곡 발생
- 예측값 삽입
- 회귀식 등을 이용한 예측값을 생성하여 삽입
- 예측값을 적용하기 위해서는 정상 데이터 구간에 대해서도 회귀식이 잘 성립되어야 함
- 삭제
- 데이터 일관성 유지를 위한 정제 기법
- 변환
- 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업
- 코드 변환, 형식 변환
- 파싱
- 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
- 주민 등록 번호를 생년월일, 성별로 분할
- 보강
- 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업
- 주민 등록 번호를 통해 성별을 추출한 후 추가 정보 반영
- 변환
※ 기출문제
데이터의 정제 과정 : 수집, 저장, 변환, 품질확인, 관리의 과정을 거치며 변환은 데이터 유형의 변화 및 분석 가능한 형태로 가공을 의미한다. (답 : 3)
어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않은 다른 변수와 아무런 연관이 없는 경우, 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능하다. (답 : 2)
데이터 세분화
데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스
- 계층적 방법 : 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
- 응집분석법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해 가는 기법
- 분할분석법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해 가는 기법
- 비계층적 방법 : 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법 (인공신경망 모델, K-평균 군집)
- 인공신경망 모델 : 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델
- K-평균 군집 : K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심 좌표를 업데이트하는 방식으로 군집화하는 방식
데이터 결측값 처리 및 종류
입력이 누락된 값으로 NA, 999999, Null 등으로 표현
- 완전 무작위 결측 : 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
- 무작위 결측 : 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
- 비 무작위 결측 : 누락된 값이 다른 변수와 연관 있는 경우
데이터 결측값 처리 절차
- 결측값 식별 : 원본데이터에서 다양한 형태로 결측 정보가 표현되어 있으므로 현황 파악을 해야 함
- 결측값 부호화 : 파악된 정보를 바탕으로 컴퓨터가 처리 가능한 형태로 부호화
- 결측값 대체 : 결측값을 자료형에 맞춰 대체 알고리즘을 통해 결측값을 처리
※ 기출문제
어떤 변수상에 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우, 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본표출을 통해 처리 가능하다. (답 : 2)
나이대별(X) 성별(Y)과 체중(Z) 분석에 대한 모델링을 가정해 보면
X, Y, Z와 관계없이 Z가 없는 경우 : 데이터의 누락(응답 없음) → 완전 무작위 결측(MCAR)
여성(Y)은 체중공개를 꺼려하는 경향 : Z가 누락될 가능성이 Y에만 의존 → 무작위 결측(MAR)
젊은(X) 여성(Y)의 경우는 체중공개를 꺼리는 경우가 더 높음 → 무작위 결측(MAR)
무거운(가벼운) 사람들은 체중 공개 가능성이 적음 : Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달려 있음 → 비 무작위 결측(NMAR) (답 : 2)
단순 대치법
결측값을 그럴듯한 값으로 대체하는 통계적 기법
- 완전한 분석법
- 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법
- 분석은 쉽지만 부분적으로 관측된 자료가 무시되어 효율성이 상실되고 통계적 추론의 타당성 문제 발생
평균 대치법
- 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 법
- 비 조건부 평균 대치법과 조건부 평균 대치법
비 조건부 평균 대치법
관측 값 : [10, x, 14, 20, 13, x, 17, x, 16] 다음의 경우 결측값이 아닌 평균(15)을 x에 대치한다.
대치 값 : [10, 15, 14, 20, 13, 15, 17, 15, 16]
조건부 평균 대치법 (회귀 분석 활용)
Y3 = 3.69 + 0.99Y1 + 0.56Y2 (이 공식이 왜 나오는지는 기사 그 이상 수준이므로 생략)
2가지 값을 알 경우, 나머지 값을 구할 수 있음
- 단순 확률 대치법
- 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법
단순 확률 대치법의 종류
- 핫덱 대체 : 무응답을 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체하는 방법 (표본 조사에서 흔히 사용)
- 콜드덱 대체 : 핫덱과 비슷하나 대체로 자료를 현재 진행 중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
- 혼합 방법 : 몇 가지 다른 방법을 혼합하는 방법
※ 기출문제
단순확률 대치법에 대한 내용이다. (답 : 3)
다중 대치법
단순 대치법을 한 번 하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법(대치 → 분석 → 결합의 3단계)
- 대치 : 각 대치표본은 결측 자료의 예측 분포 또는 사후분포에서 추출된 값으로 결측값을 대치하는 방법 (다중 대치는 베이지안 방법 사용)
- 분석 : 같은 예측 분포로부터 대치 값을 구하여 D개의 대치표본을 구하게 되면 이 D개의 대치표본으로부터 원하는 분석을 각각 수행
- 결합 : 모수 θ의 점 추정과 표본 오차의 추정치를 D개 구한 후 이들을 결합하여 하나의 결과를 제시
데이터 이상값
관측된 데이터 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로 평균에 영향을 미침
- 표본 추출 오류 : 데이터를 샘플링하는 과정에서 나타나는 오류 (주로 샘플링을 잘못한 경우)
- 고의적인 이상값 : 자기 보고식 측정에서 나타나는 오류
- 데이터 입력 오류 : 데이터 수집하는 과정에서 발생할 수 있는 오류 (데이터 분포로 쉽게 발견 가능)
- 실험 오류 : 실험 조건이 동일하지 않을 경우 발생하는 오류
- 측정 오류 : 데이터를 측정하는 과정에서 발생하는 오류
- 데이터 처리 오류 : 여러 개의 데이터에서 필요한 데이터를 추출하거나, 조합해서 사용하는 경우에 발생하는 오류
- 자연 오류 : 인위적이 아닌 자연스레 발생하는 오류
※ 기출문제
→ 최대대표라는 현상은 없다. (답 : 4)
통계 기법을 통한 데이터 이상값 검출 방법
- ESD(Extreme Studentized Deviation) : 평균(μ)으로부터 3 표준편차(σ) 떨어진 값을 이상 값으로 판단 (μ-3σ < data < μ+3σ)
- 기하평균 활용 방법 : 기하평균으로부터 2.5 표준편차(σ) 떨어진 값을 이상 값으로 판단 ( 기하평균 - 2.5σ < data < 기하평균 + 2.5σ
- 사분위수를 이용한 방법 : 제1 사분위, 제3 사분위를 기준으로 사분위 간 범위(Q3-Q1)의 1.5배 이상으로 떨어진 값을 이상값으로 판단 (Q1 -1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)
- Z- 점수 활용(Z-scroe) : 평균이 μ이고 표준편차가 σ인 정규분포를 따르는 관측치들이 자료의 평균에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값을 검출
- 딕슨의 Q 검정(Dixon Q-Test) : 오름차순으로 정렬 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법 (데이터 수가 30개 미만인 경우에 적절)
- 그럽스 T 검정(Grubbs T-Test): 정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법
- 카이제곱 검정(Chi-Square Test) : 카이제곱 검정은 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검증하는 방법
- 마할라노비스 거리 활용 : 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법
시각화를 이용한 데이터 이상값 검출
- 확률 밀도 함수
- 히스토그램
- 시계열 차트
데이터 군집 · 분류를 이용한 데이터 이상값 검출
- K - 평균 군집 (K-Means)
- 주어진 데이터를 K개의 클러스터로 묶는 알고리즘
- 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
- 머신러닝 기법을 이용한 데이터 군집화 기법 등을 활용해 이상값 검출 가능
- LOF (Local Outlier Factor)
- 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적 비교를 통해 이상값을 탐색하는 기법
- LOF가 클수록 이상값 정도 ↑
- IForest(Isolation Forest)
- 관측치 사이의 거리 또는 밀도에 의존하지 않음
- 의사결정나무 데이터 마이닝 기법을 이용해 이상값 탐지
- 적은 횟수로 잎 노드에 도달하는 관측치일수록 이상값일 가능성이 높음
데이터 이상값 처리
- 삭제
- 이상값으로 판단되는 관측값을 제외하고 분석하는 방법
- 추정치의 분산은 작아지지만 실제보다 과소(과대) 추정되어 편의가 발생 가능
- 이상값 제외를 위해 양극단의 값을 절단하기도 함 (기하평균, 하단·상단 %를 이용해 제거)
- 대체법
- 하한값과 상한 값을 결정한 후 하한값보다 작으면 하한값으로 대체하고 상한 값보다 크면 상한 값으로 대체
- 이상값을 평균이나 중위수 등으로 대체
- 변환
- 데이터의 변환은 극단적인 값으로 인해 이상값이 발생했다면 자연로그를 취해 값을 감소시키는 방법
- 상한 값과 하한값을 벗어나는 값들을 하한, 상한 값으로 바꾸어 활용하는 극단값 조정하는 방법도 활용
뒤로 이어지는 내용
https://edder773.tistory.com/136
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 3 (0) | 2023.04.04 |
---|---|
[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 -2 (0) | 2023.04.04 |
[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 6 (0) | 2023.04.03 |
[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 5 (0) | 2023.04.03 |
[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 4 (0) | 2023.04.03 |
댓글