본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 1

by char_lie 2023. 4. 5.
반응형
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

3과목인 빅데이터 모델링을 정리한 내용


통계기반 분석 모형 선정

  • 기술 통계
    • 데이터 분석의 목적으로 수집된 데이터를 확률 · 통계적으로 정리 · 요약하는 기초적 통계
    • 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
    • 막대그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악
    • 분석 초기 단계에서 데이터 분포의 특징 파악
  • 상관 분석
    • 단순 상관 분석 : 두 변수 사이의 연관 관계 분석
    • 다중 상관 분석 : 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
    • 변수 간의 상관 분석 : 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터 등을 가지는 변수 간의 분석
  • 회귀 분석
    • 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
    • 단순선형 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
    • 다중선형 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수)
    • 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 (단, 독립변수가 1개 일 경우에는 2차 함수 이상)
    • 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
    • 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용
    • 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
  • 분산 분석
    • 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산(총 평균가 각 집단의 평균 차이에 의해 생긴 분산)의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
    • 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법
    • 독립변수와 종속변수의 수에 따라서 일원분산 분석, 이원분산 분석, 다변량 분산 분석으로 분류
  • 주성분 분석(PCA)
    • 많은 변수의 분산 방식(분산 · 공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
    • PCA는 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
  • 판별 분석
    • 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법

 기출문제

더보기

분석모형 종류로는 예측분석, 현황진단, 최적화분석 모형이 있다. (답 : 3)

데이터 마이닝(Data Mining) 개념

  • 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적 기법을 활용하여 모델화 하는 것
  • 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공

 기출문제

더보기

데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다. (답 : 1)

분류 모델

  • 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델
  • 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습 모델

예측 모델

  • 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 데이터의 결괏값을 예측하는 기법
  • 회귀 분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
  • 의사결정나무 : 의사결정 규칙을 트리구조로 도표화하여 분류와 예측을 수행하는 분석 방법
  • 시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
  • 인공신공망 : 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델

군집화 모델

이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업

  • 계층적 방법
    • 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
    • 병합적 방법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성하는 방법
    • 분할적 방법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리하는 방법
  • 비계층적 방법
    • 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
    • 비 계층적 방법의 기법으로 k-평균 군집 등이 있음
    • k- 평균 군집은 k개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집하는 방식

연관규칙 모델

  • 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 기법
  • 장바구니 분석이라고도 불리며 주로 마케팅에서 사용

머신러닝 기반 분석 모형 선정

  • 지도 학습 정답인 레이블이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법 설명변수와 목적변수 간의 관계성을 표현해 내거나 미래 관측을 예측해 내는 것에 초점
    • 로지스틱 회귀 : 반응변수가 범주형인 경우 적용되는 회귀 분석 모형
    • 인공신경망 분석 : 인간의 뉴런 구조를 모방하여 만든 기계학습 모델
    • 의사결정나무 : 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델
    • 서포트 벡터 머신 : 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
    • 랜덤 포레스트 : 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
    • 감성 분식 : 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석
  • 비지도 학습 입력 데이터에 대한 정답인 레이블이 없는 상태에서 훈련 데이터를 통해 학습시키는 방법
    • 주로 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 활용
    • 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격
  • 강화 학습
    • 컴퓨터가 선택한 행동에 대한 반응에 따른 보상
    • 행동의 결과로 나타나는 보상을 통하여 학습 진행
    • 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습 진행
  • 준지도 학습
    • 레이블이 일부만 있어도 데이터를 다룰 수 있음
    • 레이블이 포함된 훈련 데이터가 적고 정답인 레이블이 없는 훈련 데이터를 많이 갖고 있음

변수의 개수에 따른 분석 기법

  • 단일 변수
    • 변수 하나에 대해 기술 통계 확인을 하는 기법
    • 연속형 변수는 히스토그램이나 박스 플롯을 사용해서 평균, 최빈수, 중위수 등과 함께 각 변수의 분포 확인
    • 범주형 변수의 경우 막대형 그래프를 사용해서 빈도수 체크
  • 이변수 분석
    • 변수 2개 간의 관계를 분석하는 기법
    • 변수의 유형에 따라 적절한 시각화 및 분석 방법 선택
  • 다변수 분석
    • 세 개 이상의 변수 간의 관계를 시각화, 분석하는 기법
    • 범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석
    • 세 개 이상의 연속형 변수가 포함된 경우 연속형 변수를 범주형 변수로 변환한 후 분석

독립변수와 종속변수의 데이터 유형에 따른 분석 기법

독립변수만 주어진 경우

독립변수와 종속변수가 주어진 경우

분석 모형 활용

  • 연관 규칙 학습
    • 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
    • ex) 주류를 구매하는 사람이 커피를 많이 사는가?
  • 분류 분석
    • 문서를 분류하거나 조직을 그룹으로 나눌 때 사용
    • ex) 이 사용자는 어떤 특성을 가진 집단에 속할까?
  • 유전자 알고리즘
    • 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
    • ex) 응급실에서 응급 처치 프로세스를 어떻게 배치하는게 효율적일까?
  • 기계 학습
    • 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법
    • 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 더 보고 싶어 할까?
  • 회귀 분석
    • 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용
    • 구매자의 나이가 차량 구매 유형에 어떤 영향을 미칠까?
  • 감성 분석
    • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
    • 새로운 환불 정책에 대한 고객의 평가는 어떤가?
  • 소셜 네트워크 분석
    • 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용
    • 고객들 간 관계망은 어떻게 구성되어 있을까?

분석 모형 정의

분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는 기법

  • 매개변수
    • 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
    • 예측을 수행할 때, 모델에 의해 요구되는 값들
    • 모델의 성능을 결정
    • 측정되거나 데이터로부터 학습
    • 사람에 의해 수작업으로 측정되지 않음
    • 종종 학습된 모델의 일부로 저장
  • 초매개변수
    • 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해 주는 값
    • 모델의 매개변숫값을 측정하기 위해 알고리즘 구현 과정에서 사용
    • 초매개변수는 주로 알고리즘 사용자에 의해 결정
    • 경험에 의해 결정 가능한 값
    • 예측 알고리즘 모델링의 성능 등의 문제를 위해 조절

부적합 모형 현상

  • 모형 선택 오류 : 적합하지 않은 함수 모형 생성
  • 변수 누락 : 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델을 생성할 때 누락되는 경우
  • 부적합 변수 생성 : 관련이 없는 변수가 모델에 포함된 경우, 편향을 발생시키지는 않지만 과대적합 발생
  • 동시 편향 : 종속변수가 연립 방정식의 일부인 경우 동시 편향 발생

분석 모형 구축 절차

  1. 요건 정의
    • 분석 요건 도출
      • 기획 단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
      • 데이터 분석 업무의 배경, 주요 이슈, 기대효과, 제약 사항을 사전에 정의하고 이해관계자들과 협의하여 확정
      • 기존 분석 자료와 정보를 기반으로 분석요건과 개인정보 보호, 접근 통제 등 정보 보안 정책을 누락 없이 식별
    • 수행 방안 설계
      • 간단한 탐색적 분석을 수행하여 가설을 수립해 분석 가능성을 검토
      • 수행방안 설계의 최종 산출물은 분석계획서와 WBS
      • 필수와 선택 분석 항목을 사전에 구분하여 우선순위를 부여할 수 있음
    • 요건 확정
      • 요건 도출과 분석계획으로 수립된 기획안을 이해관계자와 공유하여 최종 요건 확정
      • 확정된 요건을 종료 이후에 변경하는 일이 없도록 주의
  2. 모델링
    • 모델링 마트 설계 및 구축
      • 다양한 원천 데이터로부터 분석 대상 데이터를 획득
      • 분석 대상 데이터를 탐색, 정제, 요약 등의 전처리를 통해 변수들을 식별
      • 분석 대상 데이터를 구조화하여 모델 마트를 설계
      • 전처리한 분석 대상 데이터를 적재해 모델 마트를 구축
    • 탐색적 분석과 유의 변수 도출
      • 유의미한 변수를 파악하기 위해 목푯값별로 해당 변수의 분포된 값을 보고 해당 변수의 구간에서 차이가 큰지를 파악
      • 시뮬레이션을 통해 사전에 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
      • 최적화를 위해 분석 모형 및 데이터의 유의성을 반복적으로 보정
      • 최소한의 시간에 탐색적 분석을 완료하여 단위 분석에 대한 예상 소요 시간 추정
      • 탐색적 분석과 유의변수 도출 과정에서 정보가 부족하면 신속하게 추가 변수 개발
    • 모델링
      • 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 여러 모델링 기법을 결합해 적용
      • 프로세스 및 자원에 대한 제약이 있고 입력값이 확률 분포이면 시뮬레이션 기법을, 프로세스 및 자원에 대한 제약이 있고 상수값을 가질 때는 최적화 기법을 사용
      • 경우에 따라 시뮬레이션과 최적화를 결합해 적용
      • 데이터 마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성을 적용하지 않음
    • 모델링 성능 평가
      • 데이터 마이닝에서는 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단
      • 시뮬레이션에서는 처리량, 평균대기시간 등의 지표 활용
      • 최적화에서는 최적화 이전의 객체 함숫값과 최적화 이후의 값의 차이를 구하여 평가
      • 분석 모형이 적합한지 판단 기준을 수립하고 분석 모형별 훈련 데이터 집합을 구축
      • 구축된 훈련 데이터로 분석 모형을 조정
      • 훈련 데이터로 조정한 분석 모형에 검증 데이터를 적용하여, 훈련 데이터 기반 결과와 검증 데이터 기반 결과를 비교 분석
  3. 검증 및 평가
    • 운영상황에서 실제 테스트
      • 운영 상황에서 실제 테스트는 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동
      • 구축 및 조정된 분석 모형을 테스트하기 위한 유사 운영 환경을 구축
      • 구축한 유사 운영환경에서 분석 모형을 테스트하기 위한 절차 설계
      • 설계 절차에 따라 테스트하고 그 결과를 분석
      • 테스트 결과를 분석 모형에 반영하고 반복하여 테스트
      • 최종 테스트 결과를 분석 모형의 실제 운영환경에 적용
      • 분석 모형의 유형에 따라 과대 적합, 과소 적합이 발생하지 않도록 주의
    • 비즈니스 영향도 평가
      • ROI를 산출해 해당 분석에 투자한 비용 대비 재무 효과가 200~300% 이상임을 증명
      • 모델링 성과에서의 재현율이 증가하거나 향상도가 개선되어 발생하는 정량적 효과에 대해 비즈니스적인 효과를 제시
      • 투자 대비 효과 정령화 기법으로 비즈니스 영향도를 평가
      • 시뮬레이션에서는 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과를 제시
      • 최적화에서는 목적함수가 증가한 만큼의 정량적 효과를 제시
  4. 적용
    • 운영 시스템에 적용과 자동화
      • 선정된 기법으로 분석 모형을 실제 운영환경에 적용하는 활동
      • 실시간 또는 배치 스케줄러를 실행하여 주기별로 분석 모델의 성과를 DBMS에 기록하고, 조기경보 시스템을 구성
      • 분석 모델을 자동으로 모니터링하고 이상 시에만 확인하는 프로세스 수립
      • R STUDIO에서 제공하는 샤이니를 이용해 모델링 결과를 사용자 작업 파일과 서버상의 파일을 이용해 배포
    • 주기적 리모델링
      • 데이터 마이닝, 최적화 모델링 결과를 정기적(분기, 반기, 연 단위)으로 재평가해 결과에 따라 필요시 분석 모형을 재조정
      • 데이터 마이닝은 동일한 데이터를 이용해 학습을 다시 하거나 변수를 추가하는 방법 적용

 기출문제

더보기

분석모형 정의 시 사전 고려사항으로 분석모형으로 정의, 분석이 실제 추진될 수 있을지의 가능성을 타진하는 것이 중요하다. 모델확장성은 분석모델 자체가 아닌 과제가 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단함을 뜻한다. (답 : 3)

더보기

종속변수는 결괏값 변수로 지도학습 기반 분석모형에 해당되는 것으로 이와 관계있는 분석은 분류분석이다. (답 : 3)

더보기

분석모형 선정 프로세스는 분석 이전의 단계들을 수행하는 과정으로 분석모델 개발과는 관련성이 없다. (답 : 2)

더보기

검증용 테스트(test) 데이터는 최종적으로 일반화된 분석모형을 검증하는 테스트를 위해 분할, 구분된다. (답 : 4)

더보기

분석 예측모형은 미래에 대한 현상을 사전에 분류, 예측하는 것으로 적조 예측, 날씨 예측, 주가 예측, 범죄/위험 예측, 쇼핑아이템 추천 등에 적용할 수 있다. (답 : 4)

 

R

통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어

  • 기능 : 사용자가 제작한 패키지를 직접 추가하여 기능 확장 가능 및 강력한 시각화 기능 제공
  • 도구 : 방대한 양의 패키지와 즉시 사용 가능한 평가 데이터를 CRAN을 통하여 다운 가능
  • 환경 : R은 인터프리터 언어라는 이유로 처리 속도가 느리다는 평이 있지만, 상용버전인 S-PLUS보다 많은 경우에서 속도가 빠름

파이썬

R과 거의 같은 작업이 가능한 C언어 기반의 오픈 소스 프로그래밍 언어

  • 학습 : 프로그래밍 언어 자체가 어렵지 않고 초보자도 쉽게 배울 수 있음
  • 문법 : 다른 언어와는 다르게 들여 쓰기를 이용하여 블록을 구분하는 문법 사용
  • 기능 : 좋은 시각화 라이브러리가 있으나 R 대비 선택의 폭이 좁음
  • 도구 : 주피터 노트북, 파이참, PTVS 등의 여러 IDE 사용가능
  • 환경 : PYPI로 사용자들이 작성한 패키지를 다운 및 설치 가능

 기출문제

더보기

R의 주요 특징으로 객체지향 언어, 풍부한 시각화 라이브러리, shiny와 같은 웹브라우저 연동 모듈 등이 있으며 단점은 대용량 메모리 처리가 어려우며 보안 기능이 취약한 점이 있다. (답 : 2)

더보기

파이썬의 단점은 컴파일 없이 인터프리터가 한 줄씩 실행하는 방식으로 실행속도가 느리므로 바이트 코드를 일부 생산하거나 JIT(Just-In-Time) 컴파일러를 사용하여 보완한다. (답 : 3)


뒤로 이어지는 내용

https://edder773.tistory.com/143

 

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 2

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글