[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

3과목인 빅데이터 모델링을 정리한 내용

범주형 자료 분석

상대위험도

관심 집단의 위험률과 비교 집단의 위험률에 대한 비

계산 → 상대위험도(RR) = 관심 집단의 위험률 / 비교 집단의 위험률
RR < 1 → 관심 집단의 특정 사건 발생 확률이 낮다고 평가
RR = 1 → 관심 집단과 특정 사건의 발생에 연관성이 없다고 평가
RR > 1 → 관심 집단의 특정 사건 발생 확률이 높다고 평가

승산(Odds)

특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비(p/1-p)

승산비

승산비 = 관심 집단의 오즈/비교 집단의 오즈

카이제곱 검정 유형

카이제곱 검정의 값은 편차의 제곱 값을 기대빈도로 나눈 값들의 합
기대빈도는 귀무가설에 따라 계산됨
귀무가설이 기각되면 범주별 기대빈도의 값과 관측빈도의 값의 차이가 충분히 크다고 할 수 있음
기대빈도는 관측빈도의 총합에 범주별 확률(귀무가설)을 곱해서 구해지므로 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관없이 같음

적합도 검정

변수가 1개이고 그 변수가 2개 이상의 범주로 구성되어 있을 때 사용하는 일변량 분석 방법
표본 집단의 분포가 주어진 특정 분포를 따르고 있는지를 검정하는 기법
적합도 검정의 자료를 구분하는 범주가 상호 배타적이어야 함
귀무가설은 ‘표본 집단의 분포가 주어진 특정 분포를 따른다’로 설정

적합도 검정 방법

가설 설정
- 귀무가설 (H0) : 표본 집단의 분포가 가정한 이론과 동일
- 대립 가설 (H1) : 표본 집단의 분포가 가정한 이론과 동일하지 않음
카이제곱값 구하기
유의성 검정
- p-값과 유의 수준을 비교하여 p-값이 유의 수준보다 크면 귀무가설을 채택하고, 작을 경우 귀무가설을 기각

독립성 검정

변수가 두 개 이상의 범주로 분할되어 있을 때 사용되며, 각 범주가 서로 독립적인지, 서로 연관성이 있는지를 검정하는 기법
기대빈도는 ‘두 변수가 서로 상관이 없고 독립적’이라고 기대하는 것을 의미하며 관측빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힘
자유도 = (범주 1 의수 - 1) × (범주 2의 수 - 1)

독립성 검정 방법

가설 설정
- 귀무가설(H0) : 요인 1과 요인 2는 독립적
- 대립가설(H1): 요인 1과 요인 2는 독립적이지 않음
카이제곱값 구하기
유의성 검정
- p-값과 유의 수준을 비교하여 p-값이 유의 수준보다 크면 귀무가설을 채택하고, 작을 경우 귀무가설을 기각

※ 기출문제

가설검정의 절차는 유의 수준결정 → 검정 통계량의 설정 → 기각역의 설정 → 검정통계량 계산 → 통계적 의사결정으로 나뉜다. (답 : 2)

동질성 검정

독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우 관측값들이 정해진 범주 내에서 서로 동질 한 지 여부를 검정하는 기법

독립성 검정은 두 변수가 서로 독립인지 아닌지에 대한 판단
동질성 검정은 각 부모집단의 동질성 여부를 검정하는 차이
동질성 검정에서의 귀무가설은 ‘모집단은 동질하다’로 설정

피셔의 정확 검정

분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을 경우 피셔의 정확 검정을 실시
범주형 데이터에서 기대빈도가 5 미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 피셔의 정확 검정을 사용

T-검정

T-검정은 독립변수가 범주형이고, 종속변수가 수치형일 때 두 집단의 평균을 비교하는 검정 방법
두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용

단일표본 T-검정

한 집단의 평균이 모집단의 평균과 같은지 검정하는 방법
모집단의 평균이 알려져 있는 경우 하나의 표본 집단의 평균을 구하고 모집단의 평균과 표본 집단의 평균이 같은지를 검정
실제 연구자가 측정한 집단의 수는 1개가 되고, 연구자가 측정한 집단의 평균과 기존의 연구를 통해서 제시된 수치와 비교하는 것

대응표본 T-검정

동일한 집단의 처치 전후 차이를 알아보기 위해 사용하는 검정 방법
한 그룹의 처치 전 데이터와 처치 후 데이터를 분석하는 방법
표본이 하나, 독립변수가 1개일 때 사용

독립표본 T-검정

서로 다른 모집단에서 추출된 경우 사용할 수 있는 분석 방법
검정을 진행하기 전에 반드시 정규성, 등분산성 가정이 만족되는지 먼저 확인
표본수에 따라 정상성을 증명
- 10개 미만 : 정상성을 만족하지 못한다고 간주하고 비못적인 방법인 만-위트니 검정을 적용
- 10개 이상 ~ 30개 이하 : 샤피로-월크 검정, 콜모고로프-스미르노프 검정 등의 방법을 통해서 정상을 증명
- 30개 이상 : 중심극한정리를 통해서 정상성을 증명

다변량 분석

여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법

다중 회귀 분석
- 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법
- 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측하는 데 활용
다변량 분산 분석
- 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하는 기법
- 단일변량 분산 분석의 확장된 형태이다.
판별 분석
- 분류된 집단 간의 차이를 설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법
- 여러 특성들을 토대로 주어진 상황에서 응답자들이 어떻게 행동할 것인지를 예측
다차원 척도법(MDS)
- 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
군집 분석
- 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분서하는 기법
요인 분석
- 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정
- 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
주성분 분석
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법

※ 기출문제

3번은 로지스틱 회귀분석에 대한 설명이다. (답 : 3)

다차원 척도법

데이터에 포함되는 정보를 도출하기 위한 탐색수단으로 활용하기 위한 데이터 축소
데이터가 만들어진 현상이나 과정에 고유의 구조로 의미를 부여
찾아낸 패턴과 구조를 저차원의 공간에 기하적으로 표현
객체들의 거리는 유클리드 거리행렬을 이용
스트레스 값을 이용하여 관측 대상들의 적합도 수준을 나타냄
스트레스 값은 0에 가까울수록 적합도 수준이 완벽하고 1에 가까울수록 나쁘다.

다차원 척도법 종류

계량적 다차원 척도법
- 데이터가 연속형 변수인 경우로 구간 척도나 비율 척도에 사용함
- 유클리드 거리 행렬을 이용하여 개체들 간이 실제 거리를 계산하고 개체들 간의 비유사성을 공간상에 표현
비계량적 다차원 척도법
- 데이터가 순서 척도인 경우에 사용
- 개체들 간 거리가 순서로 주어진 경우에는 개체들 간 절대적 거리는 무시하고 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성

다차원 척도의 해석

개체 간 그룹 : 공통의 특성을 갖는 개체들은 서로 가깝게 모여 있음
개체 간 순서 : 중요한 특성에 따라 개체들이 정렬
축의 해석 : 개체들의 그룹화와 순서화에 따라 좌표축을 해석하거나 새로운 축을 형성

주성분 분석(PCA)

상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높을 변수들을 요약, 축소하는 기법
차원축소는 고윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원
누적 기여율이 85% 이상이면 주성분의 수로 결정 가능
차원 감소폭의 결정은 스크린 산점도, 전체 변이 공헌도, 평균 고윳값 등을 활용

주성분 분석의 목적

차원 축소
- 여러 변수 간에 내재하는 상관간계, 여관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이
- 고차원 데이터에서 두 개의 주성분인 PC1, PC2를 새로운 기저로 하여 가로축은 PC1, 세로축은 PC2로 변환
- 원 데이터를 새로운 기저로 투영하여 차원을 축소
다중공선성 해결
- 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용

주성분 개수 선택 방법

누적 기여율
- 표준편차를 제곱하면 해당주성분의 분산 값을 구할 수 있음
- 분산 기여율은 주성분 분산 대 전체 분산의 비율
- 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 큼
- 누적 기여율은 제1 주성분부터 해당 주성분까지 기여율의 합
- 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정
스크린 산점
- x축에 주성분, y축에 각 주성분의 분산을 표현한 그래프
- 기울기가 완만해지기 직전까지를 주성분 수로 결정함

시계열 분석

시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
x축에는 시간, y축에는 관측값을 나타내어 추세를 빠르게 분석
시계열 데이터는 규칙적, 불규칙한 특징

정상성

시점에 상관없이 시계열의 특성이 일정하다는 의미
시계열 분석을 위해서는 정상성을 만족해야 함
조건 : 평균이 일정, 분산이 시점에 의존, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않음

시계열 모형

자기 회귀 모형(AR 모형)
- 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
- 1차 자기 회귀 모형 : 현시점에서 과거 1 시점의 자료에만 영향을 주는 경우
- 2차 자기 회귀 모형 : 현시점에서 과거 2 시점까지의 자료에만 영향을 주는 경우
이동 평균 모형(MA 모형)
- 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
- 이동평균 모형은 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악할 수 있는 방법
- 항상 정상성을 만족하므로 정상성 가정이 필요

자기 회귀 누적 이동평균 모델(ARIMA 모형)

ARIMA 모형은 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법
기본적으로 비정상 시계열 모형이기 대무에 차분이나 변환을 통해 AR 모형, MA 모형, ARMA 모형으로 정상화

시계열 분해

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
회귀 분석적인 방법을 주로 사용하고 있다.
시계열 구성요소
- 추세 요인 : 자료가 어떤 특정한 형태를 취함
- 계절 요인 : 고정된 주기에 따라 자료가 변화할 경우
- 순환 요인 : 알려지지 않은 주기를 가지고 자료가 변화
- 불규칙 요인 : 추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인
시계열 분해 그래프의 관측치를 통해 추세, 계절성, 잔차를 알 수 있음

※ 기출문제

2번은 자기회귀누적이동평균모형(ARIMA)
3번의 AR(p) 모형과 MA(q) 모형의 결합형태는 자기회귀이동평균모형(ARMA)
4번은 분해법에 대한 설명 (답 : 1)

시계열 데이터가 분산이 일정하지 않으면 변환(Transfomation)을 통해 정상성을 가지도록 할 수 있다. (답 : 4)

뒤로 이어지는 내용

https://edder773.tistory.com/146

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

저작자표시 (새창열림)

'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글

[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 1 (0)	2023.04.07
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5 (0)	2023.04.06
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3 (0)	2023.04.05
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 2 (0)	2023.04.05
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 1 (0)	2023.04.05

개발하는 차리의 학습 일기

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4

범주형 자료 분석

상대위험도

승산(Odds)

승산비

카이제곱 검정 유형

적합도 검정

적합도 검정 방법

독립성 검정

독립성 검정 방법

※ 기출문제

동질성 검정

피셔의 정확 검정

T-검정

단일표본 T-검정

대응표본 T-검정

독립표본 T-검정

다변량 분석

※ 기출문제

다차원 척도법

다차원 척도법 종류

다차원 척도의 해석

주성분 분석(PCA)

주성분 분석의 목적

주성분 개수 선택 방법

시계열 분석

정상성

시계열 모형

자기 회귀 누적 이동평균 모델(ARIMA 모형)

시계열 분해

※ 기출문제

'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글

댓글

티스토리툴바

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4

범주형 자료 분석

상대위험도

승산(Odds)

승산비

카이제곱 검정 유형

적합도 검정

적합도 검정 방법

독립성 검정

독립성 검정 방법

※ 기출문제

동질성 검정

피셔의 정확 검정

T-검정

단일표본 T-검정

대응표본 T-검정

독립표본 T-검정

다변량 분석

※ 기출문제

다차원 척도법

다차원 척도법 종류

다차원 척도의 해석

주성분 분석(PCA)

주성분 분석의 목적

주성분 개수 선택 방법

시계열 분석

정상성

시계열 모형

자기 회귀 누적 이동평균 모델(ARIMA 모형)

시계열 분해

※ 기출문제

'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글

관련글

댓글

티스토리툴바