본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 2

by char_lie 2023. 4. 7.
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

4과목인 빅데이터 결과 해석을 정리한 내용


교차 검증

  • 홀드 아웃 교차 검증 전체 데이터를 비복원 추출 방법을 이용하여 랜덤 하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법
    • 훈련 데이터 : 분류기를 만들 때 사용하는 데이터
    • 검증 데이터 : 훈련 데이터로 만든 모델이 잘 예측하는지 성능을 평가하기 위한 데이터 세트
    • 평가 데이터 : 검증 데이터로 최종 모델을 선택하고 그 성능을 테스트하기 위해 사용되는 데이터 세트
  • K Fold Cross Validation 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 1개의 집합을 평가 데이터로, 나머지를 훈련 데이터로 선정하여 분석 모형을 평가하는 기법
    1. 동등 분할 : 전체 데이터를 K개 같은 크기의 부분집합으로 랜덤 하게 나눔
    2. 훈련/평가 데이터 구성 : (K-1) 개 부분집합들은 훈련 데이터로, 나머지 1개 부분 집합은 평가 데이터로 하는 K개의 실험 데이터를 구성
    3. 분류기 학습 : 각 실험 데이터마다 훈련 데이터로 분류기를 학습시키고, 평가 데이터로 분류기의 성능 평가
    4. 분류기 성능 확인 : 실험 결과 K개를 종합하여 해당 분류기의 최종 성능을 구함
  • LOOCV
    • 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머진 훈련데이터로 사용하는 과정을 N번 반복하는 교차 검증
  • LpOCV
    • LpOCV는 LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하는 교차 검증 기법
    • nCp만큼 교차 검증이 반복되므로 계산 시간이 매우 큼
  • 부트스트랩
    • 주어진 자료에서 단순 랜덤 복원 추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법
    • 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출하고, 이를 훈련 데이터로 사용
    • 전체 데이터 샘플이 N개이고 N개의 샘플을 추출할 경우 특정 샘플이 훈련 데이터에 포함될 확률은 약 63.2%, 한 번도 선택되지 않는 원 데이터는 약 36.8%
    • 한번 도 포함되지 않은 데이터는 검증에 사용

모집단과 모수 관계

  • Z - 검정
    • 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정
    • 정규분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설을 검증하기 위해 사용
    • 모집단 분산 σ² 를 이미 알고 있을 때 분포의 평균을 테스트
    • 임계치보다 크고 작음에 따라 가설을 기각 또는 채택
  • T - 검정
    • 검정하는 통계량이 귀무가설 하에서 T-분포를 따르는 통계적 가설검정
    • 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용
    • 모집단이 정규분포라는 정도만 알고 모분산을 모를 때 표본분산으로 대체하여 모평균을 구할 때 사용
  • 단일변량 분산 분석
    • 일원배치 분산 분석 : 독립변수와 종속변수가 1개이고 모집단의 분산, 표준편차를 알지 못할 때 평균을 비교하기 위해 사용하는 기법
    • 이원배치 분산 분석 : 종속변수가 1개, 독립변수가 2개일 때 각 독립변수의 범주에 대응하는 종속변수 간에 평균의 차이를 검정하는 방법
    • 다원배치 분산 분석 : 독립변수가 3개 이상이고 종속변수가 1개일 때 분석하는 기법
    • 다변량 분산 분석 : 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하기 위해 사용
  • 카이제곱 검정
    • 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용
    • 단일 표본의 모집단이 정규분포를 따르며 분산을 알고 있는 경우에 적용
  • F - 검정
    • 두 표본의 분산에 대한 차이가 통계적으로 유의미한가를 판별하는 검정 기법

적합도 검정 기법 유형

  • 가정된 확률 검정
    • 가정된 확률이 정해져 있을 경우에 사용하는 검정 방법
    • 카이제곱 검정을 이용하여 검정 수행
    • 귀무가설(H0) : 데이터가 가정된 확률을 따름, 대립가설(H1) : 데이터가 가정된 확률을 따르지 않음
    • R 언어에서 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다
  • 정규성 검정
    • 가정된 확률이 정해져 있지 않을 경우에 사용하는 기법
    • 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정
    • 시각화를 통한 검정 기법으로 히스토그램, Q-Q Plot을 사용

콜모고로프-스미르노프 적합성 검정

  • 데이터가 어떤 특정한 분포를 따르는가를 비교하는 거정 기법
  • 비교 기준이 되는 데이터를 정규분포를 가진 데이터로 두어서 정규성 검정을 실시

 기출문제

더보기

적합도 검정이란 범주형 변수에 관한 분석 방법으로 연속형 변수에 활용되는 검정기법인 T검정은 해당되지 않는다. (답 : 3)

더보기

적합도 검정이란 데이터가 가정된 확률에 적합하게 따르는지를 검정하는 즉 데이터 분포가 특정 분포함수와 얼마나 맞는지를 검정하는 방법이다. (답 : 2)

과대 적합

  • 제한된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상
  • 모델의 매개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우 발생

과대 적합 원인

  • 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있음
  • 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 갖고 있을 경우 발생
  • 모델이 과도하게 복잡하거나, 변수가 지나치게 많을 때도 과대 적합 발생 가능

과대 적합 방지

  • 데이터 증강
    • 훈련 데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합현상이 발생할 확률이 높아 충분한 데이터 세트 확보 필요
    • 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있음
  • 모델의 복잡도 감소
    • 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정
    • 과대 적합 현상이 발생할 때 인공신경망의 은닉층의 수를 감소하거나 모델의 수용력을 낮추어 복잡도 줄일 수 있음
  • 가중치 규제
    • 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법
    • 복잡한 모델은 많은 수의 매개변수를 가진 모델로 과대 적합될 가능성이 큼
    • L1 노름 규제(라쏘) : 기존 비용 함수에 모든 가중치 w들의 절댓값 합계를 추가하여 값이 최소가 되도록 함
    • L2 노름 규제(릿지) : 가중치 감소라고도 하며 가중치가 가장 큰 것은 페널티를 부과하여 과적합 위험을 줄임
    • Elastic Net : 기존 비용 함수에 L1 규제, L2 규제를 추가

 기출문제

더보기

k-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복 없이 병행 진행하여 평균을 내어 최종적 모델의 성능을 평가한다. (답 : 2)

드롭아웃

학습 과정에서 신경망 일부를 사용하지 않는 방법

  • 신경망 학습 시에만 사용하고, 예측 시에는 사용 x
  • 인공신경망이 특정 뉴런 또는 특정 조합에 너무 의존적으로 되는 것을 방지
  • 서로 다른 신경망들을 앙상블 하여 사용하는 것 같은 효과를 내어 과대 적합 방지

드롭아웃 유형

  • 초기 드롭아웃 : 학습 과정에서 노드들의 p의 확률로 학습 횟수마다 임의로 생략하고, 남은 노드들과 연결 선들만을 이용하여 추론 및 학습 수행하는 기법 (DNN 알고리즘에 사용)
  • 공간적 드롭아웃 : 합성곱 계층에서의 드롭아웃으로 특징 맵 내의 노드 전체에 대해 드롭아웃의 적용 여부를 결정하는 기법 (CNN 알고리즘에 사용)
  • 시간적 드롭아웃 : 노드들을 생략하는 방식이 아니라 연결선 일부를 생략하는 방식으로 Drop Connection 방식의 개선 기법 (RNN 알고리즘에 사용)

매개변수 최적화

  • 학습 모델과 실제 레이블과 차이는 손실 함수로 표현
  • 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것
  • 매개변수의 최적값을 찾는 문제
  • 가중치 : 각 입력값에 각기 다르게 곱해지는 수치, y= ax+ b라고 하면 a가 가중치
  • 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값(가중합)에 더해주는 상수 y = ax + b라고 하면 b가 편향

확률적 경사 하강법(SGD)의 개념

  • 손실 함수의 기울기를 구하여 그 기울기를 따라 조금씩 아래로 내려가 최종적으로는 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘
  • 손실 함수 그래프에서 지역 극소점에 갇혀 전역 극소점을 찾지 못하는 경우가 많고, 손실 함수가 비등방성 함수일 때에서는 최적화에 있어 매우 비효율적이고 오래 걸리는 탐색 경로
  • 확률적 경사 하강법의 단점을 개선해 주는 기법으로 모멘텀, AdaGrad, Adam이 있음

모멘텀

  • 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘
  • SGD에 속도 개념 적용
  • 기울기가 줄어들더라도 누적된 기울기 값으로 인해 빠르게 최적점으로 수렴
  • 탐색 경로의 변위가 줄어들어 빠르게 최적점으로 수렴

네스테로프 모멘텀

  • 현재 위치에서 기울기를 반영한 모멘텀 최적화 알고리즘과는 다르게 모멘텀 방향을 미리 적용한 위치에서 기울기를 계산하는 방법
  • 속도를 개선한 것으로 불필요한 계산량을 줄이고 정확도를 향상한 방법
  • 기본 모멘텀 최적화보다 훈련 속도가 빠름

AdaGrad

  • 손실 함수의 기울기가 큰 첫 부분에서 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식
  • 학습을 진행하면서 학습률을 점차 줄여나가는 학습률 감소 기법을 적용한 최적화 알고리즘
  • 학습률 값을 일괄적으로 낮추는 것이 아니라 각각의 매개변수에 맞는 학습률 값을 만들어주는 방식

Adam

  • 모멘텀 방식과 AdamGrad 방식 외 장점을 합친 알고리즘
  • 최적점 탐색 경로 또한 이 두 방식을 합친 것과 비슷한 양상
  • 모멘텀과 비슷한 패턴이지만, 모멘텀보다 공의 좌우 흔들림이 적음

RMSProp

  • 기울기를 단순 누적하지 않고 지수 이동 평균을 사용하여 가장 최근의 기울기들이 더 크게 반영되도록 하는 기법
  • 이전 기울기의 누적값이 같은 특성으로 인해 학습률이 점점 낮아지는 문제를 개선한 기법
  • 새룬 기울기의 정보만 반영하여 학습률이 크게 떨어져 0에 가까워지는 것을 방지

 기출문제

더보기

모멘텀(Momentum)은 운동량을 뜻하며 확률적 경사 하강법에 속도 개념으로 기울기 방향으로 힘을 받으면 물체가 가속되는 물리법칙을 알고리즘에 적용, 누적된 값이 가중치 갱신에 영향을 주면서 빠른 최적점 수렴이 가능하다. (답: 4)

최종 모형 선정

  • 데이터 분석용 소프트웨어 또는 패키지, 분석 데이터 처리용 프로그래밍 언어 실행 환경, 데이터 시간화 도구, 하둡 프로그램, 스프레드시트 프로그램, 문서 작성 프로그램 등이 활용
  • 개선 모델의 구축 목적에 맞는 모형이 무엇인지 검토하고 현업 적용 가능성을 고려하여 최종 모형을 등록

빅데이터 분석 개발 모델 순서

  1. 최종 모형 평가 기준 선정
    • 빅데이터 개선 모형에 대한 개발이 완료되면 분석 알고리즘 수행결과를 검토하여 최종 모형을 선정 (정확도, 재현율, 정밀도 등의 평가지표 사용)
  2. 최종 모형 분석 결과 검토
    • 최종 모형 선정 시에는 다양한 이해관계자가 모여 분석 모형에 대한 결과를 리뷰하고 검토 회의 진행
  3. 알고리즘별 결과 발표
    • 분석 알고리즘별로 매개변수를 변경하여 알고리즘을 수행

 기출문제

더보기

분석 알고리즘 적합도 검정은 분석 모형 평가 과정에서 이루어지며, 검정 결과에 따라 리모델링 단계에서는 데이터 품질 검토, 분석 알고리즘 개선, 매개변수 최적화 등의 작업이 이루어진다. (답 : 4)


다음으로 이어지는 내용

 

https://edder773.tistory.com/149

 

[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 3

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글