반응형
반응형
자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
3과목인 빅데이터 모델링을 정리한 내용
범주형 자료 분석
상대위험도
관심 집단의 위험률과 비교 집단의 위험률에 대한 비
- 계산 → 상대위험도(RR) = 관심 집단의 위험률 / 비교 집단의 위험률
- RR < 1 → 관심 집단의 특정 사건 발생 확률이 낮다고 평가
- RR = 1 → 관심 집단과 특정 사건의 발생에 연관성이 없다고 평가
- RR > 1 → 관심 집단의 특정 사건 발생 확률이 높다고 평가
승산(Odds)
특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비(p/1-p)
승산비
승산비 = 관심 집단의 오즈/비교 집단의 오즈
카이제곱 검정 유형
- 카이제곱 검정의 값은 편차의 제곱 값을 기대빈도로 나눈 값들의 합
- 기대빈도는 귀무가설에 따라 계산됨
- 귀무가설이 기각되면 범주별 기대빈도의 값과 관측빈도의 값의 차이가 충분히 크다고 할 수 있음
- 기대빈도는 관측빈도의 총합에 범주별 확률(귀무가설)을 곱해서 구해지므로 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관없이 같음
적합도 검정
- 변수가 1개이고 그 변수가 2개 이상의 범주로 구성되어 있을 때 사용하는 일변량 분석 방법
- 표본 집단의 분포가 주어진 특정 분포를 따르고 있는지를 검정하는 기법
- 적합도 검정의 자료를 구분하는 범주가 상호 배타적이어야 함
- 귀무가설은 ‘표본 집단의 분포가 주어진 특정 분포를 따른다’로 설정
적합도 검정 방법
- 가설 설정
- 귀무가설 (H0) : 표본 집단의 분포가 가정한 이론과 동일
- 대립 가설 (H1) : 표본 집단의 분포가 가정한 이론과 동일하지 않음
- 카이제곱값 구하기
- 유의성 검정
- p-값과 유의 수준을 비교하여 p-값이 유의 수준보다 크면 귀무가설을 채택하고, 작을 경우 귀무가설을 기각
독립성 검정
- 변수가 두 개 이상의 범주로 분할되어 있을 때 사용되며, 각 범주가 서로 독립적인지, 서로 연관성이 있는지를 검정하는 기법
- 기대빈도는 ‘두 변수가 서로 상관이 없고 독립적’이라고 기대하는 것을 의미하며 관측빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힘
- 자유도 = (범주 1 의수 - 1) × (범주 2의 수 - 1)
독립성 검정 방법
- 가설 설정
- 귀무가설(H0) : 요인 1과 요인 2는 독립적
- 대립가설(H1): 요인 1과 요인 2는 독립적이지 않음
- 카이제곱값 구하기
- 유의성 검정
- p-값과 유의 수준을 비교하여 p-값이 유의 수준보다 크면 귀무가설을 채택하고, 작을 경우 귀무가설을 기각
※ 기출문제
더보기
가설검정의 절차는 유의 수준결정 → 검정 통계량의 설정 → 기각역의 설정 → 검정통계량 계산 → 통계적 의사결정으로 나뉜다. (답 : 2)
동질성 검정
독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우 관측값들이 정해진 범주 내에서 서로 동질 한 지 여부를 검정하는 기법
- 독립성 검정은 두 변수가 서로 독립인지 아닌지에 대한 판단
- 동질성 검정은 각 부모집단의 동질성 여부를 검정하는 차이
- 동질성 검정에서의 귀무가설은 ‘모집단은 동질하다’로 설정
피셔의 정확 검정
- 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을 경우 피셔의 정확 검정을 실시
- 범주형 데이터에서 기대빈도가 5 미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 피셔의 정확 검정을 사용
T-검정
- T-검정은 독립변수가 범주형이고, 종속변수가 수치형일 때 두 집단의 평균을 비교하는 검정 방법
- 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용
단일표본 T-검정
- 한 집단의 평균이 모집단의 평균과 같은지 검정하는 방법
- 모집단의 평균이 알려져 있는 경우 하나의 표본 집단의 평균을 구하고 모집단의 평균과 표본 집단의 평균이 같은지를 검정
- 실제 연구자가 측정한 집단의 수는 1개가 되고, 연구자가 측정한 집단의 평균과 기존의 연구를 통해서 제시된 수치와 비교하는 것
대응표본 T-검정
- 동일한 집단의 처치 전후 차이를 알아보기 위해 사용하는 검정 방법
- 한 그룹의 처치 전 데이터와 처치 후 데이터를 분석하는 방법
- 표본이 하나, 독립변수가 1개일 때 사용
독립표본 T-검정
- 서로 다른 모집단에서 추출된 경우 사용할 수 있는 분석 방법
- 검정을 진행하기 전에 반드시 정규성, 등분산성 가정이 만족되는지 먼저 확인
- 표본수에 따라 정상성을 증명
- 10개 미만 : 정상성을 만족하지 못한다고 간주하고 비못적인 방법인 만-위트니 검정을 적용
- 10개 이상 ~ 30개 이하 : 샤피로-월크 검정, 콜모고로프-스미르노프 검정 등의 방법을 통해서 정상을 증명
- 30개 이상 : 중심극한정리를 통해서 정상성을 증명
다변량 분석
여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법
- 다중 회귀 분석
- 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법
- 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측하는 데 활용
- 다변량 분산 분석
- 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하는 기법
- 단일변량 분산 분석의 확장된 형태이다.
- 판별 분석
- 분류된 집단 간의 차이를 설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법
- 여러 특성들을 토대로 주어진 상황에서 응답자들이 어떻게 행동할 것인지를 예측
- 다차원 척도법(MDS)
- 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
- 군집 분석
- 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분서하는 기법
- 요인 분석
- 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정
- 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
- 주성분 분석
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
※ 기출문제
더보기
3번은 로지스틱 회귀분석에 대한 설명이다. (답 : 3)
다차원 척도법
- 데이터에 포함되는 정보를 도출하기 위한 탐색수단으로 활용하기 위한 데이터 축소
- 데이터가 만들어진 현상이나 과정에 고유의 구조로 의미를 부여
- 찾아낸 패턴과 구조를 저차원의 공간에 기하적으로 표현
- 객체들의 거리는 유클리드 거리행렬을 이용
- 스트레스 값을 이용하여 관측 대상들의 적합도 수준을 나타냄
- 스트레스 값은 0에 가까울수록 적합도 수준이 완벽하고 1에 가까울수록 나쁘다.
다차원 척도법 종류
- 계량적 다차원 척도법
- 데이터가 연속형 변수인 경우로 구간 척도나 비율 척도에 사용함
- 유클리드 거리 행렬을 이용하여 개체들 간이 실제 거리를 계산하고 개체들 간의 비유사성을 공간상에 표현
- 비계량적 다차원 척도법
- 데이터가 순서 척도인 경우에 사용
- 개체들 간 거리가 순서로 주어진 경우에는 개체들 간 절대적 거리는 무시하고 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성
다차원 척도의 해석
- 개체 간 그룹 : 공통의 특성을 갖는 개체들은 서로 가깝게 모여 있음
- 개체 간 순서 : 중요한 특성에 따라 개체들이 정렬
- 축의 해석 : 개체들의 그룹화와 순서화에 따라 좌표축을 해석하거나 새로운 축을 형성
주성분 분석(PCA)
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높을 변수들을 요약, 축소하는 기법
- 차원축소는 고윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원
- 누적 기여율이 85% 이상이면 주성분의 수로 결정 가능
- 차원 감소폭의 결정은 스크린 산점도, 전체 변이 공헌도, 평균 고윳값 등을 활용
주성분 분석의 목적
- 차원 축소
- 여러 변수 간에 내재하는 상관간계, 여관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이
- 고차원 데이터에서 두 개의 주성분인 PC1, PC2를 새로운 기저로 하여 가로축은 PC1, 세로축은 PC2로 변환
- 원 데이터를 새로운 기저로 투영하여 차원을 축소
- 다중공선성 해결
- 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용
주성분 개수 선택 방법
- 누적 기여율
- 표준편차를 제곱하면 해당주성분의 분산 값을 구할 수 있음
- 분산 기여율은 주성분 분산 대 전체 분산의 비율
- 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 큼
- 누적 기여율은 제1 주성분부터 해당 주성분까지 기여율의 합
- 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정
- 스크린 산점
- x축에 주성분, y축에 각 주성분의 분산을 표현한 그래프
- 기울기가 완만해지기 직전까지를 주성분 수로 결정함
시계열 분석
- 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
- x축에는 시간, y축에는 관측값을 나타내어 추세를 빠르게 분석
- 시계열 데이터는 규칙적, 불규칙한 특징
정상성
- 시점에 상관없이 시계열의 특성이 일정하다는 의미
- 시계열 분석을 위해서는 정상성을 만족해야 함
- 조건 : 평균이 일정, 분산이 시점에 의존, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않음
시계열 모형
- 자기 회귀 모형(AR 모형)
- 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
- 1차 자기 회귀 모형 : 현시점에서 과거 1 시점의 자료에만 영향을 주는 경우
- 2차 자기 회귀 모형 : 현시점에서 과거 2 시점까지의 자료에만 영향을 주는 경우
- 이동 평균 모형(MA 모형)
- 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
- 이동평균 모형은 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악할 수 있는 방법
- 항상 정상성을 만족하므로 정상성 가정이 필요
자기 회귀 누적 이동평균 모델(ARIMA 모형)
- ARIMA 모형은 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법
- 기본적으로 비정상 시계열 모형이기 대무에 차분이나 변환을 통해 AR 모형, MA 모형, ARMA 모형으로 정상화
시계열 분해
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 회귀 분석적인 방법을 주로 사용하고 있다.
- 시계열 구성요소
- 추세 요인 : 자료가 어떤 특정한 형태를 취함
- 계절 요인 : 고정된 주기에 따라 자료가 변화할 경우
- 순환 요인 : 알려지지 않은 주기를 가지고 자료가 변화
- 불규칙 요인 : 추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인
- 시계열 분해 그래프의 관측치를 통해 추세, 계절성, 잔차를 알 수 있음
※ 기출문제
더보기
2번은 자기회귀누적이동평균모형(ARIMA)
3번의 AR(p) 모형과 MA(q) 모형의 결합형태는 자기회귀이동평균모형(ARMA)
4번은 분해법에 대한 설명 (답 : 1)
더보기
시계열 데이터가 분산이 일정하지 않으면 변환(Transfomation)을 통해 정상성을 가지도록 할 수 있다. (답 : 4)
뒤로 이어지는 내용
https://edder773.tistory.com/146
반응형
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 1 (0) | 2023.04.07 |
---|---|
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3 (0) | 2023.04.05 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 2 (0) | 2023.04.05 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 1 (0) | 2023.04.05 |
댓글