본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4

by char_lie 2023. 4. 6.
반응형
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

3과목인 빅데이터 모델링을 정리한 내용


범주형 자료 분석

상대위험도

관심 집단의 위험률과 비교 집단의 위험률에 대한 비

  • 계산 → 상대위험도(RR) = 관심 집단의 위험률 / 비교 집단의 위험률
  • RR < 1 → 관심 집단의 특정 사건 발생 확률이 낮다고 평가
  • RR = 1 → 관심 집단과 특정 사건의 발생에 연관성이 없다고 평가
  • RR > 1 → 관심 집단의 특정 사건 발생 확률이 높다고 평가

승산(Odds)

특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비(p/1-p)

승산비

승산비 = 관심 집단의 오즈/비교 집단의 오즈

카이제곱 검정 유형

  • 카이제곱 검정의 값은 편차의 제곱 값을 기대빈도로 나눈 값들의 합
  • 기대빈도는 귀무가설에 따라 계산됨
  • 귀무가설이 기각되면 범주별 기대빈도의 값과 관측빈도의 값의 차이가 충분히 크다고 할 수 있음
  • 기대빈도는 관측빈도의 총합에 범주별 확률(귀무가설)을 곱해서 구해지므로 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관없이 같음

적합도 검정

  • 변수가 1개이고 그 변수가 2개 이상의 범주로 구성되어 있을 때 사용하는 일변량 분석 방법
  • 표본 집단의 분포가 주어진 특정 분포를 따르고 있는지를 검정하는 기법
  • 적합도 검정의 자료를 구분하는 범주가 상호 배타적이어야 함
  • 귀무가설은 ‘표본 집단의 분포가 주어진 특정 분포를 따른다’로 설정

적합도 검정 방법

  1. 가설 설정
    • 귀무가설 (H0) : 표본 집단의 분포가 가정한 이론과 동일
    • 대립 가설 (H1) : 표본 집단의 분포가 가정한 이론과 동일하지 않음
  2. 카이제곱값 구하기
  3. 유의성 검정
    • p-값과 유의 수준을 비교하여 p-값이 유의 수준보다 크면 귀무가설을 채택하고, 작을 경우 귀무가설을 기각

독립성 검정

  • 변수가 두 개 이상의 범주로 분할되어 있을 때 사용되며, 각 범주가 서로 독립적인지, 서로 연관성이 있는지를 검정하는 기법
  • 기대빈도는 ‘두 변수가 서로 상관이 없고 독립적’이라고 기대하는 것을 의미하며 관측빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힘
  • 자유도 = (범주 1 의수 - 1) × (범주 2의 수 - 1)

독립성 검정 방법

  1. 가설 설정
    • 귀무가설(H0) : 요인 1과 요인 2는 독립적
    • 대립가설(H1): 요인 1과 요인 2는 독립적이지 않음
  2. 카이제곱값 구하기
  3. 유의성 검정
    • p-값과 유의 수준을 비교하여 p-값이 유의 수준보다 크면 귀무가설을 채택하고, 작을 경우 귀무가설을 기각

 기출문제

더보기

가설검정의 절차는 유의 수준결정 → 검정 통계량의 설정 → 기각역의 설정 → 검정통계량 계산 → 통계적 의사결정으로 나뉜다. (답 : 2)

동질성 검정

독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우 관측값들이 정해진 범주 내에서 서로 동질 한 지 여부를 검정하는 기법

  • 독립성 검정은 두 변수가 서로 독립인지 아닌지에 대한 판단
  • 동질성 검정은 각 부모집단의 동질성 여부를 검정하는 차이
  • 동질성 검정에서의 귀무가설은 ‘모집단은 동질하다’로 설정

피셔의 정확 검정

  • 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을 경우 피셔의 정확 검정을 실시
  • 범주형 데이터에서 기대빈도가 5 미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 피셔의 정확 검정을 사용

T-검정

  • T-검정은 독립변수가 범주형이고, 종속변수가 수치형일 때 두 집단의 평균을 비교하는 검정 방법
  • 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용

단일표본 T-검정

  • 한 집단의 평균이 모집단의 평균과 같은지 검정하는 방법
  • 모집단의 평균이 알려져 있는 경우 하나의 표본 집단의 평균을 구하고 모집단의 평균과 표본 집단의 평균이 같은지를 검정
  • 실제 연구자가 측정한 집단의 수는 1개가 되고, 연구자가 측정한 집단의 평균과 기존의 연구를 통해서 제시된 수치와 비교하는 것

대응표본 T-검정

  • 동일한 집단의 처치 전후 차이를 알아보기 위해 사용하는 검정 방법
  • 한 그룹의 처치 전 데이터와 처치 후 데이터를 분석하는 방법
  • 표본이 하나, 독립변수가 1개일 때 사용

독립표본 T-검정

  • 서로 다른 모집단에서 추출된 경우 사용할 수 있는 분석 방법
  • 검정을 진행하기 전에 반드시 정규성, 등분산성 가정이 만족되는지 먼저 확인
  • 표본수에 따라 정상성을 증명
    • 10개 미만 : 정상성을 만족하지 못한다고 간주하고 비못적인 방법인 만-위트니 검정을 적용
    • 10개 이상 ~ 30개 이하 : 샤피로-월크 검정, 콜모고로프-스미르노프 검정 등의 방법을 통해서 정상을 증명
    • 30개 이상 : 중심극한정리를 통해서 정상성을 증명

다변량 분석

여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법

  • 다중 회귀 분석
    • 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법
    • 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측하는 데 활용
  • 다변량 분산 분석
    • 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증하는 기법
    • 단일변량 분산 분석의 확장된 형태이다.
  • 판별 분석
    • 분류된 집단 간의 차이를 설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법
    • 여러 특성들을 토대로 주어진 상황에서 응답자들이 어떻게 행동할 것인지를 예측
  • 다차원 척도법(MDS)
    • 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
  • 군집 분석
    • 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분서하는 기법
  • 요인 분석
    • 데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정
    • 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
  • 주성분 분석
    • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법

 기출문제

더보기

3번은 로지스틱 회귀분석에 대한 설명이다. (답 : 3)

다차원 척도법

  • 데이터에 포함되는 정보를 도출하기 위한 탐색수단으로 활용하기 위한 데이터 축소
  • 데이터가 만들어진 현상이나 과정에 고유의 구조로 의미를 부여
  • 찾아낸 패턴과 구조를 저차원의 공간에 기하적으로 표현
  • 객체들의 거리는 유클리드 거리행렬을 이용
  • 스트레스 값을 이용하여 관측 대상들의 적합도 수준을 나타냄
  • 스트레스 값은 0에 가까울수록 적합도 수준이 완벽하고 1에 가까울수록 나쁘다.

다차원 척도법 종류

  • 계량적 다차원 척도법
    • 데이터가 연속형 변수인 경우로 구간 척도나 비율 척도에 사용함
    • 유클리드 거리 행렬을 이용하여 개체들 간이 실제 거리를 계산하고 개체들 간의 비유사성을 공간상에 표현
  • 비계량적 다차원 척도법
    • 데이터가 순서 척도인 경우에 사용
    • 개체들 간 거리가 순서로 주어진 경우에는 개체들 간 절대적 거리는 무시하고 순서척도를 거리의 속성과 같도록 변환하여 거리를 생성

다차원 척도의 해석

  • 개체 간 그룹 : 공통의 특성을 갖는 개체들은 서로 가깝게 모여 있음
  • 개체 간 순서 : 중요한 특성에 따라 개체들이 정렬
  • 축의 해석 : 개체들의 그룹화와 순서화에 따라 좌표축을 해석하거나 새로운 축을 형성

주성분 분석(PCA)

  • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
  • 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높을 변수들을 요약, 축소하는 기법
  • 차원축소는 고윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원
  • 누적 기여율이 85% 이상이면 주성분의 수로 결정 가능
  • 차원 감소폭의 결정은 스크린 산점도, 전체 변이 공헌도, 평균 고윳값 등을 활용

주성분 분석의 목적

  • 차원 축소
    • 여러 변수 간에 내재하는 상관간계, 여관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이
    • 고차원 데이터에서 두 개의 주성분인 PC1, PC2를 새로운 기저로 하여 가로축은 PC1, 세로축은 PC2로 변환
    • 원 데이터를 새로운 기저로 투영하여 차원을 축소
  • 다중공선성 해결
    • 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용

주성분 개수 선택 방법

  • 누적 기여율
    • 표준편차를 제곱하면 해당주성분의 분산 값을 구할 수 있음
    • 분산 기여율은 주성분 분산 대 전체 분산의 비율
    • 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 큼
    • 누적 기여율은 제1 주성분부터 해당 주성분까지 기여율의 합
    • 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정
  • 스크린 산점
    • x축에 주성분, y축에 각 주성분의 분산을 표현한 그래프
    • 기울기가 완만해지기 직전까지를 주성분 수로 결정함

시계열 분석

  • 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
  • x축에는 시간, y축에는 관측값을 나타내어 추세를 빠르게 분석
  • 시계열 데이터는 규칙적, 불규칙한 특징

정상성

  • 시점에 상관없이 시계열의 특성이 일정하다는 의미
  • 시계열 분석을 위해서는 정상성을 만족해야 함
  • 조건 : 평균이 일정, 분산이 시점에 의존, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않음

시계열 모형

  • 자기 회귀 모형(AR 모형)
    • 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
    • 1차 자기 회귀 모형 : 현시점에서 과거 1 시점의 자료에만 영향을 주는 경우
    • 2차 자기 회귀 모형 : 현시점에서 과거 2 시점까지의 자료에만 영향을 주는 경우
  • 이동 평균 모형(MA 모형)
    • 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
    • 이동평균 모형은 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악할 수 있는 방법
    • 항상 정상성을 만족하므로 정상성 가정이 필요

자기 회귀 누적 이동평균 모델(ARIMA 모형)

  • ARIMA 모형은 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법
  • 기본적으로 비정상 시계열 모형이기 대무에 차분이나 변환을 통해 AR 모형, MA 모형, ARMA 모형으로 정상화

시계열 분해

  • 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
  • 회귀 분석적인 방법을 주로 사용하고 있다.
  • 시계열 구성요소
    • 추세 요인 : 자료가 어떤 특정한 형태를 취함
    • 계절 요인 : 고정된 주기에 따라 자료가 변화할 경우
    • 순환 요인 : 알려지지 않은 주기를 가지고 자료가 변화
    • 불규칙 요인 : 추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인
  • 시계열 분해 그래프의 관측치를 통해 추세, 계절성, 잔차를 알 수 있음

 기출문제

더보기

2번은 자기회귀누적이동평균모형(ARIMA)
3번의 AR(p) 모형과 MA(q) 모형의 결합형태는 자기회귀이동평균모형(ARMA)
4번은 분해법에 대한 설명 (답 : 1)

더보기

시계열 데이터가 분산이 일정하지 않으면 변환(Transfomation)을 통해 정상성을 가지도록 할 수 있다. (답 : 4)


뒤로 이어지는 내용

https://edder773.tistory.com/146

 

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글