반응형
자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
4과목인 빅데이터 결과 해석을 정리한 내용
교차 검증
- 홀드 아웃 교차 검증 전체 데이터를 비복원 추출 방법을 이용하여 랜덤 하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법
- 훈련 데이터 : 분류기를 만들 때 사용하는 데이터
- 검증 데이터 : 훈련 데이터로 만든 모델이 잘 예측하는지 성능을 평가하기 위한 데이터 세트
- 평가 데이터 : 검증 데이터로 최종 모델을 선택하고 그 성능을 테스트하기 위해 사용되는 데이터 세트
- K Fold Cross Validation 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 1개의 집합을 평가 데이터로, 나머지를 훈련 데이터로 선정하여 분석 모형을 평가하는 기법
- 동등 분할 : 전체 데이터를 K개 같은 크기의 부분집합으로 랜덤 하게 나눔
- 훈련/평가 데이터 구성 : (K-1) 개 부분집합들은 훈련 데이터로, 나머지 1개 부분 집합은 평가 데이터로 하는 K개의 실험 데이터를 구성
- 분류기 학습 : 각 실험 데이터마다 훈련 데이터로 분류기를 학습시키고, 평가 데이터로 분류기의 성능 평가
- 분류기 성능 확인 : 실험 결과 K개를 종합하여 해당 분류기의 최종 성능을 구함
- LOOCV
- 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머진 훈련데이터로 사용하는 과정을 N번 반복하는 교차 검증
- LpOCV
- LpOCV는 LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하는 교차 검증 기법
- nCp만큼 교차 검증이 반복되므로 계산 시간이 매우 큼
- 부트스트랩
- 주어진 자료에서 단순 랜덤 복원 추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법
- 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출하고, 이를 훈련 데이터로 사용
- 전체 데이터 샘플이 N개이고 N개의 샘플을 추출할 경우 특정 샘플이 훈련 데이터에 포함될 확률은 약 63.2%, 한 번도 선택되지 않는 원 데이터는 약 36.8%
- 한번 도 포함되지 않은 데이터는 검증에 사용
모집단과 모수 관계
- Z - 검정
- 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정
- 정규분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설을 검증하기 위해 사용
- 모집단 분산 σ² 를 이미 알고 있을 때 분포의 평균을 테스트
- 임계치보다 크고 작음에 따라 가설을 기각 또는 채택
- T - 검정
- 검정하는 통계량이 귀무가설 하에서 T-분포를 따르는 통계적 가설검정
- 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용
- 모집단이 정규분포라는 정도만 알고 모분산을 모를 때 표본분산으로 대체하여 모평균을 구할 때 사용
- 단일변량 분산 분석
- 일원배치 분산 분석 : 독립변수와 종속변수가 1개이고 모집단의 분산, 표준편차를 알지 못할 때 평균을 비교하기 위해 사용하는 기법
- 이원배치 분산 분석 : 종속변수가 1개, 독립변수가 2개일 때 각 독립변수의 범주에 대응하는 종속변수 간에 평균의 차이를 검정하는 방법
- 다원배치 분산 분석 : 독립변수가 3개 이상이고 종속변수가 1개일 때 분석하는 기법
- 다변량 분산 분석 : 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하기 위해 사용
- 카이제곱 검정
- 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용
- 단일 표본의 모집단이 정규분포를 따르며 분산을 알고 있는 경우에 적용
- F - 검정
- 두 표본의 분산에 대한 차이가 통계적으로 유의미한가를 판별하는 검정 기법
적합도 검정 기법 유형
- 가정된 확률 검정
- 가정된 확률이 정해져 있을 경우에 사용하는 검정 방법
- 카이제곱 검정을 이용하여 검정 수행
- 귀무가설(H0) : 데이터가 가정된 확률을 따름, 대립가설(H1) : 데이터가 가정된 확률을 따르지 않음
- R 언어에서 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다
- 정규성 검정
- 가정된 확률이 정해져 있지 않을 경우에 사용하는 기법
- 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정
- 시각화를 통한 검정 기법으로 히스토그램, Q-Q Plot을 사용
콜모고로프-스미르노프 적합성 검정
- 데이터가 어떤 특정한 분포를 따르는가를 비교하는 거정 기법
- 비교 기준이 되는 데이터를 정규분포를 가진 데이터로 두어서 정규성 검정을 실시
※ 기출문제
더보기
적합도 검정이란 범주형 변수에 관한 분석 방법으로 연속형 변수에 활용되는 검정기법인 T검정은 해당되지 않는다. (답 : 3)
더보기
적합도 검정이란 데이터가 가정된 확률에 적합하게 따르는지를 검정하는 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법이다. (답 : 2)
과대 적합
- 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상
- 모델의 매개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우 발생
과대 적합 원인
- 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있음
- 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 갖고 있을 경우 발생
- 모델이 과도하게 복잡하거나, 변수가 지나치게 많을 때도 과대 적합 발생 가능
과대 적합 방지
- 데이터 증강
- 훈련 데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합현상이 발생할 확률이 높아 충분한 데이터 세트 확보 필요
- 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있음
- 모델의 복잡도 감소
- 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정
- 과대 적합 현상이 발생할 때 인공신경망의 은닉층의 수를 감소하거나 모델의 수용력을 낮추어 복잡도 줄일 수 있음
- 가중치 규제
- 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법
- 복잡한 모델은 많은 수의 매개변수를 가진 모델로 과대 적합될 가능성이 큼
- L1 노름 규제(라쏘) : 기존 비용 함수에 모든 가중치 w들의 절댓값 합계를 추가하여 값이 최소가 되도록 함
- L2 노름 규제(릿지) : 가중치 감소라고도 하며 가중치가 가장 큰 것은 페널티를 부과하여 과적합 위험을 줄임
- Elastic Net : 기존 비용 함수에 L1 규제, L2 규제를 추가
※ 기출문제
더보기
k-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복 없이 병행 진행하여 평균을 내어 최종적 모델의 성능을 평가한다. (답 : 2)
드롭아웃
학습 과정에서 신경망 일부를 사용하지 않는 방법
- 신경망 학습 시에만 사용하고, 예측 시에는 사용 x
- 인공신경망이 특정 뉴런 또는 특정 조합에 너무 의존적으로 되는 것을 방지
- 서로 다른 신경망들을 앙상블 하여 사용하는 것 같은 효과를 내어 과대 적합 방지
드롭아웃 유형
- 초기 드롭아웃 : 학습 과정에서 노드들의 p의 확률로 학습 횟수마다 임의로 생략하고, 남은 노드들과 연결 선들만을 이용하여 추론 및 학습 수행하는 기법 (DNN 알고리즘에 사용)
- 공간적 드롭아웃 : 합성곱 계층에서의 드롭아웃으로 특징 맵 내의 노드 전체에 대해 드롭아웃의 적용 여부를 결정하는 기법 (CNN 알고리즘에 사용)
- 시간적 드롭아웃 : 노드들을 생략하는 방식이 아니라 연결선 일부를 생략하는 방식으로 Drop Connection 방식의 개선 기법 (RNN 알고리즘에 사용)
매개변수 최적화
- 학습 모델과 실제 레이블과 차이는 손실 함수로 표현
- 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것
- 매개변수의 최적값을 찾는 문제
- 가중치 : 각 입력값에 각기 다르게 곱해지는 수치, y= ax+ b라고 하면 a가 가중치
- 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값(가중합)에 더해주는 상수 y = ax + b라고 하면 b가 편향
확률적 경사 하강법(SGD)의 개념
- 손실 함수의 기울기를 구하여 그 기울기를 따라 조금씩 아래로 내려가 최종적으로는 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘
- 손실 함수 그래프에서 지역 극소점에 갇혀 전역 극소점을 찾지 못하는 경우가 많고, 손실 함수가 비등방성 함수일 때에서는 최적화에 있어 매우 비효율적이고 오래 걸리는 탐색 경로
- 확률적 경사 하강법의 단점을 개선해 주는 기법으로 모멘텀, AdaGrad, Adam이 있음
모멘텀
- 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘
- SGD에 속도 개념 적용
- 기울기가 줄어들더라도 누적된 기울기 값으로 인해 빠르게 최적점으로 수렴
- 탐색 경로의 변위가 줄어들어 빠르게 최적점으로 수렴
네스테로프 모멘텀
- 현재 위치에서 기울기를 반영한 모멘텀 최적화 알고리즘과는 다르게 모멘텀 방향을 미리 적용한 위치에서 기울기를 계산하는 방법
- 속도를 개선한 것으로 불필요한 계산량을 줄이고 정확도를 향상한 방법
- 기본 모멘텀 최적화보다 훈련 속도가 빠름
AdaGrad
- 손실 함수의 기울기가 큰 첫 부분에서 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식
- 학습을 진행하면서 학습률을 점차 줄여나가는 학습률 감소 기법을 적용한 최적화 알고리즘
- 학습률 값을 일괄적으로 낮추는 것이 아니라 각각의 매개변수에 맞는 학습률 값을 만들어주는 방식
Adam
- 모멘텀 방식과 AdamGrad 방식 외 장점을 합친 알고리즘
- 최적점 탐색 경로 또한 이 두 방식을 합친 것과 비슷한 양상
- 모멘텀과 비슷한 패턴이지만, 모멘텀보다 공의 좌우 흔들림이 적음
RMSProp
- 기울기를 단순 누적하지 않고 지수 이동 평균을 사용하여 가장 최근의 기울기들이 더 크게 반영되도록 하는 기법
- 이전 기울기의 누적값이 같은 특성으로 인해 학습률이 점점 낮아지는 문제를 개선한 기법
- 새룬 기울기의 정보만 반영하여 학습률이 크게 떨어져 0에 가까워지는 것을 방지
※ 기출문제
더보기
모멘텀(Momentum)은 운동량을 뜻하며 확률적 경사 하강법에 속도 개념으로 기울기 방향으로 힘을 받으면 물체가 가속되는 물리법칙을 알고리즘에 적용, 누적된 값이 가중치 갱신에 영향을 주면서 빠른 최적점 수렴이 가능하다. (답: 4)
최종 모형 선정
- 데이터 분석용 소프트웨어 또는 패키지, 분석 데이터 처리용 프로그래밍 언어 실행 환경, 데이터 시간화 도구, 하둡 프로그램, 스프레드시트 프로그램, 문서 작성 프로그램 등이 활용
- 개선 모델의 구축 목적에 맞는 모형이 무엇인지 검토하고 현업 적용 가능성을 고려하여 최종 모형을 등록
빅데이터 분석 개발 모델 순서
- 최종 모형 평가 기준 선정
- 빅데이터 개선 모형에 대한 개발이 완료되면 분석 알고리즘 수행결과를 검토하여 최종 모형을 선정 (정확도, 재현율, 정밀도 등의 평가지표 사용)
- 최종 모형 분석 결과 검토
- 최종 모형 선정 시에는 다양한 이해관계자가 모여 분석 모형에 대한 결과를 리뷰하고 검토 회의 진행
- 알고리즘별 결과 발표
- 분석 알고리즘별로 매개변수를 변경하여 알고리즘을 수행
※ 기출문제
더보기
분석 알고리즘 적합도 검정은 분석 모형 평가 과정에서 이루어지며, 검정 결과에 따라 리모델링 단계에서는 데이터 품질 검토, 분석 알고리즘 개선, 매개변수 최적화 등의 작업이 이루어진다. (답 : 4)
다음으로 이어지는 내용
https://edder773.tistory.com/149
반응형
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 3 (1) | 2023.04.07 |
---|---|
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 1 (0) | 2023.04.07 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3 (0) | 2023.04.05 |
댓글