반응형
자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
4과목인 빅데이터 결과 해석을 정리한 내용
분석 모형 설정
- 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
- 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차
분석 모형 평가기준
- 일반화의 가능성 : 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가
- 효율성 : 적은 입력변수가 필요할수록 효율성이 높은 것으로 평가
- 예측과 분류의 정확성 : 정확성 측면에서 평가
- 예측 모형에서 회귀모형은 RMSE(평균 제곱근 오차)를 사용하고 분류모형은 행렬 평가지표 사용
회귀 모형의 기본 평가 지표
- 오차 제곱 합(SSE)
- 예측값과 실제값의 차이(오차) 제곱의 합
- 회귀 모형 평가에 많이 사용되는 지표
- 전체 제곱 합(SST)
- TSS라고도 불림
- 실제값과 평균값의 차이의 제곱 합
- 회귀 제곱합(SSR)
- 예측값과 평균값의 차이 제곱 합
- 평균 오차(AE)
- 예측한 결괏값의 오류 평균
- 예측값들이 평균적으로 미달하는지 초과하는지 확인
- 평균 절대 오차(MAE)
- 평균 오차 절댓값의 평균
- 평균 제곱 오차(MSE)
- SSE의 평균
- 평균 제곱근 오차(RMSE)
- SSE 평균의 제곱근
- 평균백분율 오차(MPE)
- 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율
- 평균 절대 백분율 오차(MAPE)
- 예측이 실젯값에서 평균적으로 벗어나는 정도를 백분율로 표현
- 절대 평균 오차를 계산할 때 실제값에 대한 상대적인 비율을 고려하여 계산된 값
※ 기출문제
더보기
MSE(Mean Squared Error) : 실제값과 예측값의 차이의 제곱에 대한 평균을 취한 값으로 평균제곱 오차라고도 한다.(답 : 4)
회귀 모형의 결정계수와 Mallow’s Cp에 대한 평가지표
- 결정계수 : R² (0 ≤ R² ≤ 1)
- 선형 회귀 분석의 성능 검증지표로 많이 이용(선형이 아닌 회귀 모형에서도 사용 가능)
- 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
- 결정계수가 1에 가까울수록 실제값을 잘 설명
- 독립변수의 개수가 많은 모형의 평가에는 사용이 부적합
- 수정된 결정 계수 : R²adj (R² > R²adj)
- 모형에 유의하지 않은 변수의 개수가 증가하더라도 결정 계수는 증가하는 단점 보완
- 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
- 적절하지 않은 변수들을 추가할수록 R²adj의 값은 감수
- 반대로 모형에 유용한 변수들을 추가할수록 R²adj의 값은 증가
- 독립변수의 개수가 많은 모형을 평가할 때 사용 가능
- Mallow’s Cp
- 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
- Mallow’s Cp가 작을수록 실제값을 잘 설명
혼동 행렬
- 예측이 정확할 경우
- TP : 실제값이 Positive이고, 예측값도 Positive인 경우
- TN : 실제값이 Negative이고 예측값도 Negative인 경우
- 예측이 틀린 경우
- FP : 실제값은 Negative이고 예측값은 Positive인 경우
- FN : 실제값은 Positive이고 예측값은 Negative인 경우
※ 기출문제
더보기
False Negative는 실제 True인 정답을 False라고 예측하는 의미이다. (답 : 1)
분류 모형 평가지표
- 정확도(정분류율)
- 실제 분류를 범주를 정확하게 예측한 비율
- 전체 예측에서 참 긍정(TP)과 참 부정(TN)이 차지하는 비율
- 오차 비율
- 실제 분류 범주를 잘못 분류한 비율
- 오차 비율 = 1 - 정확도
- 재현율 = 민감율(Recall)
- 실제로 긍정인 범주 중에서 긍정으로 올바르게 예측한 비율
- Hit Rate로도 지칭
- 특이도
- 실제로 부정인 범주 중에서 부정으로 올바르게 예측한 비율
- 거짓 긍정률
- 실제로 부정인 범주 중에서 긍정으로 잘못 예측한 비율
- 정밀도(Precision)
- 긍정으로 예측한 비율 중에서 실제로 긍정인 비율
- F-Measure
- 정밀도와 민감도를 하나로 합친 성능 평가 지표
- 0~1 사이의 범위를 가짐
- 정밀도와 민감도 양쪽이 모두 클 때 F-Measure도 큰 값을 가짐
- 카파 통계량
- 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
- 0~1의 값을 가지며 1에 가까울수록 모델의 예측값과 실제값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실체값이 불일치
※ 기출문제
더보기
회귀모델의 해석지표인 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다. (답 : 4)
ROC 곡선
가로축(x)을 혼동 행렬의 FP Rate로 두고 세로축을 TP Rate로 두어 시각화한 그래프
- FP Rate와 TP Rate는 어느 정도 비례
- AUC를 구해서 진단 정확도를 측정할 때 사용하는 것으로 ROC 곡선 아래 면적을 모형의 평가지표로 삼음
- 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형
이익 도표
- 분류 모형의 성능을 평가하기 위해 사용되는 그래프 분석 방법
- 이익은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값
데이터 분석 모형의 오류
- 일반화 오류 (과대 적합)
- 분석 모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류
- 주어진 데이터 집합은 모집단 일부분임에도 불구하고 그것이 가지고 있는 주변적인 특성, 단순 잡음 등을 모두 묘사하기에 일반화 오류 발생
- 학습 오류 (과소 적합)
- 주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류
- 학습 오류가 지나치게 자주 발생하는 모형은 과소 적합
뒤로 이어지는 내용
https://edder773.tistory.com/148
반응형
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 3 (1) | 2023.04.07 |
---|---|
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 2 (0) | 2023.04.07 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3 (0) | 2023.04.05 |
댓글