본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 1

by char_lie 2023. 4. 7.
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

4과목인 빅데이터 결과 해석을 정리한 내용


분석 모형 설정

  • 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
  • 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차

분석 모형 평가기준

  • 일반화의 가능성 : 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가
  • 효율성 : 적은 입력변수가 필요할수록 효율성이 높은 것으로 평가
  • 예측과 분류의 정확성 : 정확성 측면에서 평가
  • 예측 모형에서 회귀모형은 RMSE(평균 제곱근 오차)를 사용하고 분류모형은 행렬 평가지표 사용

회귀 모형의 기본 평가 지표

  • 오차 제곱 합(SSE)
    • 예측값과 실제값의 차이(오차) 제곱의 합
    • 회귀 모형 평가에 많이 사용되는 지표

  • 전체 제곱 합(SST)
    • TSS라고도 불림
    • 실제값과 평균값의 차이의 제곱 합

  • 회귀 제곱합(SSR)
    • 예측값과 평균값의 차이 제곱 합

  • 평균 오차(AE)
    • 예측한 결괏값의 오류 평균
    • 예측값들이 평균적으로 미달하는지 초과하는지 확인

  • 평균 절대 오차(MAE)
    • 평균 오차 절댓값의 평균

  • 평균 제곱 오차(MSE)
    • SSE의 평균

  • 평균 제곱근 오차(RMSE)
    • SSE 평균의 제곱근

  • 평균백분율 오차(MPE)
    • 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율

  • 평균 절대 백분율 오차(MAPE)
    • 예측이 실젯값에서 평균적으로 벗어나는 정도를 백분율로 표현
    • 절대 평균 오차를 계산할 때 실제값에 대한 상대적인 비율을 고려하여 계산된 값

 기출문제

더보기

MSE(Mean Squared Error) : 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값으로 평균제곱 오차라고도 한다.(답 : 4)

회귀 모형의 결정계수와 Mallow’s Cp에 대한 평가지표

  • 결정계수 : R² (0 ≤ R² ≤ 1)
    • 선형 회귀 분석의 성능 검증지표로 많이 이용(선형이 아닌 회귀 모형에서도 사용 가능)
    • 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
    • 결정계수가 1에 가까울수록 실제값을 잘 설명
    • 독립변수의 개수가 많은 모형의 평가에는 사용이 부적합

  • 수정된 결정 계수 : R²adj (R² > R²adj)
    • 모형에 유의하지 않은 변수의 개수가 증가하더라도 결정 계수는 증가하는 단점 보완
    • 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
    • 적절하지 않은 변수들을 추가할수록 R²adj의 값은 감수
    • 반대로 모형에 유용한 변수들을 추가할수록 R²adj의 값은 증가
    • 독립변수의 개수가 많은 모형을 평가할 때 사용 가능

  • Mallow’s Cp
    • 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
    • Mallow’s Cp가 작을수록 실제값을 잘 설명

혼동 행렬

  • 예측이 정확할 경우
    • TP : 실제값이 Positive이고, 예측값도 Positive인 경우
    • TN : 실제값이 Negative이고 예측값도 Negative인 경우
  • 예측이 틀린 경우
    • FP : 실제값은 Negative이고 예측값은 Positive인 경우
    • FN : 실제값은 Positive이고 예측값은 Negative인 경우

 기출문제

더보기

False Negative는 실제 True인 정답을 False라고 예측하는 의미이다. (답 : 1)

분류 모형 평가지표

  • 정확도(정분류율)
    • 실제 분류를 범주를 정확하게 예측한 비율
    • 전체 예측에서 참 긍정(TP)과 참 부정(TN)이 차지하는 비율

  • 오차 비율
    • 실제 분류 범주를 잘못 분류한 비율
    • 오차 비율 = 1 - 정확도

  • 재현율 = 민감율(Recall)
    • 실제로 긍정인 범주 중에서 긍정으로 올바르게 예측한 비율
    • Hit Rate로도 지칭

  • 특이도
    • 실제로 부정인 범주 중에서 부정으로 올바르게 예측한 비율

  • 거짓 긍정률
    • 실제로 부정인 범주 중에서 긍정으로 잘못 예측한 비율

  • 정밀도(Precision)
    • 긍정으로 예측한 비율 중에서 실제로 긍정인 비율

  • F-Measure
    • 정밀도와 민감도를 하나로 합친 성능 평가 지표
    • 0~1 사이의 범위를 가짐
    • 정밀도와 민감도 양쪽이 모두 클 때 F-Measure도 큰 값을 가짐

  • 카파 통계량
    • 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
    • 0~1의 값을 가지며 1에 가까울수록 모델의 예측값과 실제값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실체값이 불일치

 기출문제

더보기

회귀모델의 해석지표인 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다. (답 : 4)

ROC 곡선

가로축(x)을 혼동 행렬의 FP Rate로 두고 세로축을 TP Rate로 두어 시각화한 그래프

  • FP Rate와 TP Rate는 어느 정도 비례
  • AUC를 구해서 진단 정확도를 측정할 때 사용하는 것으로 ROC 곡선 아래 면적을 모형의 평가지표로 삼음
  • 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형

이익 도표

  • 분류 모형의 성능을 평가하기 위해 사용되는 그래프 분석 방법
  • 이익은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값

데이터 분석 모형의 오류

  • 일반화 오류 (과대 적합)
    • 분석 모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류
    • 주어진 데이터 집합은 모집단 일부분임에도 불구하고 그것이 가지고 있는 주변적인 특성, 단순 잡음 등을 모두 묘사하기에 일반화 오류 발생
  • 학습 오류 (과소 적합)
    • 주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류
    • 학습 오류가 지나치게 자주 발생하는 모형은 과소 적합

뒤로 이어지는 내용

https://edder773.tistory.com/148

 

[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 2

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글