자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
3과목인 빅데이터 모델링을 정리한 내용
통계기반 분석 모형 선정
- 기술 통계
- 데이터 분석의 목적으로 수집된 데이터를 확률 · 통계적으로 정리 · 요약하는 기초적 통계
- 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
- 막대그래프, 파이 그래프 등 그래프를 활용하여 데이터 파악
- 분석 초기 단계에서 데이터 분포의 특징 파악
- 상관 분석
- 단순 상관 분석 : 두 변수 사이의 연관 관계 분석
- 다중 상관 분석 : 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
- 변수 간의 상관 분석 : 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터 등을 가지는 변수 간의 분석
- 회귀 분석
- 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
- 단순선형 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
- 다중선형 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수)
- 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 (단, 독립변수가 1개 일 경우에는 2차 함수 이상)
- 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
- 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 적용
- 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
- 분산 분석
- 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산(총 평균가 각 집단의 평균 차이에 의해 생긴 분산)의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
- 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 방법
- 독립변수와 종속변수의 수에 따라서 일원분산 분석, 이원분산 분석, 다변량 분산 분석으로 분류
- 주성분 분석(PCA)
- 많은 변수의 분산 방식(분산 · 공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
- PCA는 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는지 알아보는 분석 방법
- 판별 분석
- 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
※ 기출문제
분석모형 종류로는 예측분석, 현황진단, 최적화분석 모형이 있다. (답 : 3)
데이터 마이닝(Data Mining) 개념
- 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적 기법을 활용하여 모델화 하는 것
- 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공
※ 기출문제
데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다. (답 : 1)
분류 모델
- 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델
- 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습 모델
예측 모델
- 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 데이터의 결괏값을 예측하는 기법
- 회귀 분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
- 의사결정나무 : 의사결정 규칙을 트리구조로 도표화하여 분류와 예측을 수행하는 분석 방법
- 시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
- 인공신공망 : 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델
군집화 모델
이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업
- 계층적 방법
- 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
- 병합적 방법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성하는 방법
- 분할적 방법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리하는 방법
- 비계층적 방법
- 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
- 비 계층적 방법의 기법으로 k-평균 군집 등이 있음
- k- 평균 군집은 k개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트하는 방식으로 군집하는 방식
연관규칙 모델
- 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 기법
- 장바구니 분석이라고도 불리며 주로 마케팅에서 사용
머신러닝 기반 분석 모형 선정
- 지도 학습 정답인 레이블이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법 설명변수와 목적변수 간의 관계성을 표현해 내거나 미래 관측을 예측해 내는 것에 초점
- 로지스틱 회귀 : 반응변수가 범주형인 경우 적용되는 회귀 분석 모형
- 인공신경망 분석 : 인간의 뉴런 구조를 모방하여 만든 기계학습 모델
- 의사결정나무 : 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델
- 서포트 벡터 머신 : 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
- 랜덤 포레스트 : 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 감성 분식 : 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석
- 비지도 학습 입력 데이터에 대한 정답인 레이블이 없는 상태에서 훈련 데이터를 통해 학습시키는 방법
- 주로 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 활용
- 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격
- 강화 학습
- 컴퓨터가 선택한 행동에 대한 반응에 따른 보상
- 행동의 결과로 나타나는 보상을 통하여 학습 진행
- 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습 진행
- 준지도 학습
- 레이블이 일부만 있어도 데이터를 다룰 수 있음
- 레이블이 포함된 훈련 데이터가 적고 정답인 레이블이 없는 훈련 데이터를 많이 갖고 있음
변수의 개수에 따른 분석 기법
- 단일 변수
- 변수 하나에 대해 기술 통계 확인을 하는 기법
- 연속형 변수는 히스토그램이나 박스 플롯을 사용해서 평균, 최빈수, 중위수 등과 함께 각 변수의 분포 확인
- 범주형 변수의 경우 막대형 그래프를 사용해서 빈도수 체크
- 이변수 분석
- 변수 2개 간의 관계를 분석하는 기법
- 변수의 유형에 따라 적절한 시각화 및 분석 방법 선택
- 다변수 분석
- 세 개 이상의 변수 간의 관계를 시각화, 분석하는 기법
- 범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석
- 세 개 이상의 연속형 변수가 포함된 경우 연속형 변수를 범주형 변수로 변환한 후 분석
독립변수와 종속변수의 데이터 유형에 따른 분석 기법
독립변수만 주어진 경우
독립변수와 종속변수가 주어진 경우
분석 모형 활용
- 연관 규칙 학습
- 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
- ex) 주류를 구매하는 사람이 커피를 많이 사는가?
- 분류 분석
- 문서를 분류하거나 조직을 그룹으로 나눌 때 사용
- ex) 이 사용자는 어떤 특성을 가진 집단에 속할까?
- 유전자 알고리즘
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- ex) 응급실에서 응급 처치 프로세스를 어떻게 배치하는게 효율적일까?
- 기계 학습
- 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법
- 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 더 보고 싶어 할까?
- 회귀 분석
- 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용
- 구매자의 나이가 차량 구매 유형에 어떤 영향을 미칠까?
- 감성 분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
- 소셜 네트워크 분석
- 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용
- 고객들 간 관계망은 어떻게 구성되어 있을까?
분석 모형 정의
분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는 기법
- 매개변수
- 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
- 예측을 수행할 때, 모델에 의해 요구되는 값들
- 모델의 성능을 결정
- 측정되거나 데이터로부터 학습
- 사람에 의해 수작업으로 측정되지 않음
- 종종 학습된 모델의 일부로 저장
- 초매개변수
- 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해 주는 값
- 모델의 매개변숫값을 측정하기 위해 알고리즘 구현 과정에서 사용
- 초매개변수는 주로 알고리즘 사용자에 의해 결정
- 경험에 의해 결정 가능한 값
- 예측 알고리즘 모델링의 성능 등의 문제를 위해 조절
부적합 모형 현상
- 모형 선택 오류 : 적합하지 않은 함수 모형 생성
- 변수 누락 : 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델을 생성할 때 누락되는 경우
- 부적합 변수 생성 : 관련이 없는 변수가 모델에 포함된 경우, 편향을 발생시키지는 않지만 과대적합 발생
- 동시 편향 : 종속변수가 연립 방정식의 일부인 경우 동시 편향 발생
분석 모형 구축 절차
- 요건 정의
- 분석 요건 도출
- 기획 단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
- 데이터 분석 업무의 배경, 주요 이슈, 기대효과, 제약 사항을 사전에 정의하고 이해관계자들과 협의하여 확정
- 기존 분석 자료와 정보를 기반으로 분석요건과 개인정보 보호, 접근 통제 등 정보 보안 정책을 누락 없이 식별
- 수행 방안 설계
- 간단한 탐색적 분석을 수행하여 가설을 수립해 분석 가능성을 검토
- 수행방안 설계의 최종 산출물은 분석계획서와 WBS
- 필수와 선택 분석 항목을 사전에 구분하여 우선순위를 부여할 수 있음
- 요건 확정
- 요건 도출과 분석계획으로 수립된 기획안을 이해관계자와 공유하여 최종 요건 확정
- 확정된 요건을 종료 이후에 변경하는 일이 없도록 주의
- 분석 요건 도출
- 모델링
- 모델링 마트 설계 및 구축
- 다양한 원천 데이터로부터 분석 대상 데이터를 획득
- 분석 대상 데이터를 탐색, 정제, 요약 등의 전처리를 통해 변수들을 식별
- 분석 대상 데이터를 구조화하여 모델 마트를 설계
- 전처리한 분석 대상 데이터를 적재해 모델 마트를 구축
- 탐색적 분석과 유의 변수 도출
- 유의미한 변수를 파악하기 위해 목푯값별로 해당 변수의 분포된 값을 보고 해당 변수의 구간에서 차이가 큰지를 파악
- 시뮬레이션을 통해 사전에 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
- 최적화를 위해 분석 모형 및 데이터의 유의성을 반복적으로 보정
- 최소한의 시간에 탐색적 분석을 완료하여 단위 분석에 대한 예상 소요 시간 추정
- 탐색적 분석과 유의변수 도출 과정에서 정보가 부족하면 신속하게 추가 변수 개발
- 모델링
- 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 여러 모델링 기법을 결합해 적용
- 프로세스 및 자원에 대한 제약이 있고 입력값이 확률 분포이면 시뮬레이션 기법을, 프로세스 및 자원에 대한 제약이 있고 상수값을 가질 때는 최적화 기법을 사용
- 경우에 따라 시뮬레이션과 최적화를 결합해 적용
- 데이터 마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성을 적용하지 않음
- 모델링 성능 평가
- 데이터 마이닝에서는 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단
- 시뮬레이션에서는 처리량, 평균대기시간 등의 지표 활용
- 최적화에서는 최적화 이전의 객체 함숫값과 최적화 이후의 값의 차이를 구하여 평가
- 분석 모형이 적합한지 판단 기준을 수립하고 분석 모형별 훈련 데이터 집합을 구축
- 구축된 훈련 데이터로 분석 모형을 조정
- 훈련 데이터로 조정한 분석 모형에 검증 데이터를 적용하여, 훈련 데이터 기반 결과와 검증 데이터 기반 결과를 비교 분석
- 모델링 마트 설계 및 구축
- 검증 및 평가
- 운영상황에서 실제 테스트
- 운영 상황에서 실제 테스트는 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동
- 구축 및 조정된 분석 모형을 테스트하기 위한 유사 운영 환경을 구축
- 구축한 유사 운영환경에서 분석 모형을 테스트하기 위한 절차 설계
- 설계 절차에 따라 테스트하고 그 결과를 분석
- 테스트 결과를 분석 모형에 반영하고 반복하여 테스트
- 최종 테스트 결과를 분석 모형의 실제 운영환경에 적용
- 분석 모형의 유형에 따라 과대 적합, 과소 적합이 발생하지 않도록 주의
- 비즈니스 영향도 평가
- ROI를 산출해 해당 분석에 투자한 비용 대비 재무 효과가 200~300% 이상임을 증명
- 모델링 성과에서의 재현율이 증가하거나 향상도가 개선되어 발생하는 정량적 효과에 대해 비즈니스적인 효과를 제시
- 투자 대비 효과 정령화 기법으로 비즈니스 영향도를 평가
- 시뮬레이션에서는 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과를 제시
- 최적화에서는 목적함수가 증가한 만큼의 정량적 효과를 제시
- 운영상황에서 실제 테스트
- 적용
- 운영 시스템에 적용과 자동화
- 선정된 기법으로 분석 모형을 실제 운영환경에 적용하는 활동
- 실시간 또는 배치 스케줄러를 실행하여 주기별로 분석 모델의 성과를 DBMS에 기록하고, 조기경보 시스템을 구성
- 분석 모델을 자동으로 모니터링하고 이상 시에만 확인하는 프로세스 수립
- R STUDIO에서 제공하는 샤이니를 이용해 모델링 결과를 사용자 작업 파일과 서버상의 파일을 이용해 배포
- 주기적 리모델링
- 데이터 마이닝, 최적화 모델링 결과를 정기적(분기, 반기, 연 단위)으로 재평가해 결과에 따라 필요시 분석 모형을 재조정
- 데이터 마이닝은 동일한 데이터를 이용해 학습을 다시 하거나 변수를 추가하는 방법 적용
- 운영 시스템에 적용과 자동화
※ 기출문제
분석모형 정의 시 사전 고려사항으로 분석모형으로 정의, 분석이 실제 추진될 수 있을지의 가능성을 타진하는 것이 중요하다. 모델확장성은 분석모델 자체가 아닌 과제가 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단함을 뜻한다. (답 : 3)
종속변수는 결괏값 변수로 지도학습 기반 분석모형에 해당되는 것으로 이와 관계있는 분석은 분류분석이다. (답 : 3)
분석모형 선정 프로세스는 분석 이전의 단계들을 수행하는 과정으로 분석모델 개발과는 관련성이 없다. (답 : 2)
검증용 테스트(test) 데이터는 최종적으로 일반화된 분석모형을 검증하는 테스트를 위해 분할, 구분된다. (답 : 4)
분석 예측모형은 미래에 대한 현상을 사전에 분류, 예측하는 것으로 적조 예측, 날씨 예측, 주가 예측, 범죄/위험 예측, 쇼핑아이템 추천 등에 적용할 수 있다. (답 : 4)
R
통계 프로그래밍 언어인 S 언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어
- 기능 : 사용자가 제작한 패키지를 직접 추가하여 기능 확장 가능 및 강력한 시각화 기능 제공
- 도구 : 방대한 양의 패키지와 즉시 사용 가능한 평가 데이터를 CRAN을 통하여 다운 가능
- 환경 : R은 인터프리터 언어라는 이유로 처리 속도가 느리다는 평이 있지만, 상용버전인 S-PLUS보다 많은 경우에서 속도가 빠름
파이썬
R과 거의 같은 작업이 가능한 C언어 기반의 오픈 소스 프로그래밍 언어
- 학습 : 프로그래밍 언어 자체가 어렵지 않고 초보자도 쉽게 배울 수 있음
- 문법 : 다른 언어와는 다르게 들여 쓰기를 이용하여 블록을 구분하는 문법 사용
- 기능 : 좋은 시각화 라이브러리가 있으나 R 대비 선택의 폭이 좁음
- 도구 : 주피터 노트북, 파이참, PTVS 등의 여러 IDE 사용가능
- 환경 : PYPI로 사용자들이 작성한 패키지를 다운 및 설치 가능
※ 기출문제
R의 주요 특징으로 객체지향 언어, 풍부한 시각화 라이브러리, shiny와 같은 웹브라우저 연동 모듈 등이 있으며 단점은 대용량 메모리 처리가 어려우며 보안 기능이 취약한 점이 있다. (답 : 2)
파이썬의 단점은 컴파일 없이 인터프리터가 한 줄씩 실행하는 방식으로 실행속도가 느리므로 바이트 코드를 일부 생산하거나 JIT(Just-In-Time) 컴파일러를 사용하여 보완한다. (답 : 3)
뒤로 이어지는 내용
https://edder773.tistory.com/143
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3 (0) | 2023.04.05 |
---|---|
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 2 (0) | 2023.04.05 |
[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 6 (0) | 2023.04.04 |
[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 5 (0) | 2023.04.04 |
[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 4 (0) | 2023.04.04 |
댓글