자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
3과목인 빅데이터 모델링을 정리한 내용
딥러닝
여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합
- 오차역전파 사용
- 시그모이드는 기우기 소실 문제로 인해 ReLU와 같은 활성화 함수를 많이 사용
- 딥러닝은 은닉층을 사용하여 결과에 대한 해석이 어려움
- Dropout은 일정한 비율을 가지고 무작위로 신경망
딥러닝 알고리즘
- DNN 알고리즘
- 은닉층을 심층 구성한 신경망으로 학습하는 알고리즘
- 입력층, 다수의 은닉층, 출력층으로 구성
- 입력층에서 가중치가 곱해져 은닉층으로 이동시키고, 은닉층에서도 가중치가 곱해지면서 다음 계층으로 이동
- 역전파 알고리즘은 출력층 → 은닉층 → 입력층으로 반복적으로 수행되며 최적화된 결과를 도출
- CNN 알고리즘
- 시각적 이미지를 분석하는 데 사용되는 심층신경망으로 합성곱 신경망이라고 함
- 기존 영상처리의 필터 기능과 신경망을 결합하여 성능을 발휘하도록 만든 구조
- 필터 기능을 이용하여 입력 이미지로부터 특징을 추출한 뒤 신경망에서 분류작업을 수행
- CNN 알고리즘 순서
- 입력층 합성곱 연산 : 사용자가 입력한 이미지에서 필터를 이용하여 특징을 추출
- 피처 맵에서 서브샘플링 연산 : 피처 맵에서 서브샘플링 연산을 통해 환면의 크기를 줄임
- 피처 맵에서 합성 곱, 서브샘플링을 반복 연산 : 반복 연산을 통해 최적화된 피처 맵을 구성
- 완전연결계층에서 다층 신경망을 이용하여 분류 수행 : 2차원의 이미지를 1차원 행렬이 되도록 한 후 신경망의 입력에 하나씩 맵핑을 수행함
- RNN 알고리즘
- 입력층, 은닉층, 출력층으로 구성되며 은닉층에서 재귀적인 신경망을 갖는 알고리즘
- 음성신호, 연속적 시계열 데이터 분석에 적합
- 장기 의존성 문제와 기울기 소실문제가 발생하여 학습이 이루어지지 않을 수 있음
- 확률적 경사 하강법, 시간 기반 오차역전파를 사용해서 가중치를 업데이트
※ 기출문제
순환신경망(RNN)의 정의와 특징에 대한 설명이다. (답 : 2)
※ 기출문제
인공신경망의 학습수준을 높이기 위해 하나의 은닉층에 은닉노드를 3개가 아니라 10개, 100개 이런 식으로 동일레이어 내 수직으로 쭉 늘려놓기만 했었는데, 딥러닝에서는 은닉층 자체를 여러 개로 만들어서 여러 단계를 거치도록 인공신경망을 구성하였더니 정확도가 훨씬 향상되었다. (답 : 3)
비정형 데이터 분석
체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법
텍스트 마이닝
- 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법
- 비정형화된 무서에서 정보를 습득 가능
- 자연어 처리 기술에 기반
텍스트 마이닝 절차
- 텍스트 수집
- 데이터베이스, 텍스트 기반 문서 등이 수집 대상
- 데이터 전처리
- 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업
- 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업
- 문장 토큰화 및 파싱, 불용어 제거, 어간 추출 작업
- 의미 추출
- 복잡한 의미정보의 표현을 단순화
- 도메인에 적합한 정보를 문서의 의미 데이터로 저장
- 패턴 분석
- 의미 데이터를 기반으로 문서를 자동으로 군집화 및 분류
- 정보 생성
- 시각화 도구를 통해 효과적으로 정보를 표현
텍스트 마이닝 기능
- 정보 추출 : 일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업
- 문서 요약 : 정보 추출에서 더 나아가 문서에서 다룬 중요 내용을 글로 요약하는 기법
- 문서 분류 : 키워드에 따라 문서를 분류하는 기법으로서 주어진 키워드 집합에 따라 해당 카테고리로 분류
- 문서 군집화 : 문서를 분석해 동일 내용의 문서들을 묶는 기법
오피니언 마이닝
- 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법
- 긍정, 부정, 중립으로 선호도를 판별
오피니언 마이닝 절차
- 특징 추출 : 긍정 및 부정을 표현하는 단어 정보를 추출
- 문장 인식 : 세부 평가 요소와 오피니언으로 구성된 문장을 인식하고, 규칙기반 방법 및 통계기반 방법 활용
- 요약 및 전달 : 긍정, 부정 표현의 통계, 주요 문장을 추출하여 요약 생성 및 전달
웹 마이닝
- 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출, 정제하여 의사결정에 활용하기 위한 기법
- 정보 단위인 노드와 연결점인 링크 활용
웹 마이닝 유형
- 웹 내용 마이닝 : 웹 사이트를 구성하는 페이지의 냉요 중에서 유용한 정보를 추출
- 웹 사용 마이닝 : 웹 로그를 통해 사용자의 행위 패턴을 분석하여 의미 있는 정보 추출
- 웹 구조 마이닝 웹 사이트의 구조적인 요약 정보를 찾기 위한 기법으로 하이퍼링크 사용
사회 연결망 분석
- 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법
사회 연결망 분석 절차
- 데이터 수집 : 소셜 네트워크 서비스에서 데이터를 수집 (웹 크롤러, NodeXL 등 활용)
- 데이터 분석 ; 수집된 데이터를 바탕으로 분석 수행 (R, python, NodeXL 등 활용)
- 데이터 시각화 : 분서글 마친 데이터를 파악하기 위한 시각화 수행
사회 연결망 분석 주요 속성
- 응집력 : 행위자들 간 강한 사회화 관계의 존재
- 구조적 등위성 ; 한 네트워크의 구조적 지위와 그 위치가 주는 역할이 동일한 사람들 간의 관계
- 명성 : 네트워크에서 누가 권력을 가지고 있는지 확인
- 범위 : 행위자의 네트워크 규모
- 중계 : 다른 네트워크와 연결해 주는 정도
사회 연결망 분석 측정지표
- 연결 정도 : 노드 간의 총 연결 관계 개수를 의미
- 포괄성 : 네트워크 내에서 서로 연결된 노드의 개수
- 밀도 ; 네트워크 내에서 노드 간의 전반적인 연결 정도 수준을 나타내는 지표
- 연결 정도 중심성 : 특정 노드가 연결망 내에서 연결된 다른 노드들의 합
- 근접 중심성 : 각 노드 간의 거리를 바탕으로 중심성을 측정하는 방식
- 매개 중심성 : 네트워크 내에서 특정 노드가 다른 노드들 사이에 위치하는 정도를 나타내는 지표
- 위세 중심성 : 자신의 연결 정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정하는 방법
앙상블 분석
여러 동일한 종류 또는 서로 상이한 모형들의 예측 분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법 (배깅, 부스팅, 랜덤포레스트 등)
- 신뢰성 확보 : 다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때보다 높은 신뢰성
- 정확도 상승 : 이상값에 대한 대응력이 높아지고, 전체 분산을 감소
- 원인분석에 부적합 : 모형의 투명성이 떨어지게 되어 정확한 현상의 원인분석에는 부적합
앙상블 학습 절차
- 도출 및 생성 : 훈련 데이터에서 여러 학습 집합들을 도출
- 집합별 모델 학습 : 각 집합으로부터 모델을 학습
- 결과 조합 : 각 학습 모델로부터의 결과를 조합
- 최적 의견 도출 : 학습된 모델들의 최적 의견을 도출
※ 기출문제
앙상블(Ensemble) 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념이다. (답 : 3)
1번은 소프트 보팅에 대한 설명이다.
3번 배깅은 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계(Aggregation)하는 방법이다.
4번 배깅 기법을 활용한 모델로는 랜덤 포레스트(Random Forest)가 있다. (답 : 2)
배깅
훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘
- 전반적으로 분류를 잘할 수 있도록 유도(분산 감소)
- 독립 수행 후 다수결로 결정
- 일반적으로 성능 향상에 효과적이고 결측값이 존재할 때 강함
- 계산 복잡도는 다소 높음
- 소량의 데이터일수록 유리
- 랜덤 포레스트 기법이 포함
배깅 절차
- 부트스트랩 데이터 추출 : 분석 데이터로부터 n 개의 부트스트랩 데이터 추출
- 단일 분류자 생성 : 부트스트랩 데이터에 적합한 모델을 적용하여 n개 단일분류자 생성
- 최조 모델 결정 : n개의 단일 분류자 중 다수결 또는 평균을 통해 최종 모델 결정
부스팅
잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘
- 분류하기 힘든 관측값들에 대해서 정확하게 분류를 잘하도록 유도
- 순차 수행에 따른 가중치 재조정으로 결정 이전 분류에서 정분류 데이터면 낮은 가중치, 오분류 데이터면 높은 가중치)
- 특정 케이스의 경우 상당히 높은 성능
- 배깅에 비해 성능은 좋지만, 속도가 느리고 과대 적합 발생 가능
부스팅 절차
- 동일 가중치 분류기 생성 : 동일한 가중치의 분석 데이터로부터 분류기 생성
- 가중치 변경 통한 분류기 생성 ; 이전 분석 데이터의 분류 결과에 따라 가중치 변경을 통해 분류기 생성
- 최종 분류기 결정 ; 목표하는 정확성이 나올 때까지 N회 반복 후 최종 분류기 결정
랜덤 포레스트
배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 훈련을 통해 구성해 놓은 다수의 나무들로부터 투표를 통해 분류 결과를 도출
- 분류기를 여러 개 쓸수록 성능 상승
- 트리의 개수가 많을수록 과대적합 문제를 피할 수 있음
랜덤 포레스트 절차
- 데이터 추출 : 분석 데이터로부터 N개의 부트스트랩 데이터 추출
- 대표 변수샘플 도출 : N개의 분류기를 훈련 후 대표 변수 샘플 도출
- Leaf Node로 분류 : 대표 변수 샘플들을 의사결정나무의 Leaf Node로 분류
- 최종 모델 결정 : Leaf Node들의 선형 결합으로 최종 모델 결정
랜덤 포레스트 기법
- 배깅을 이용한 포레스트 구성
- 임의노드 최적화 (노드 분할 함수, 훈련 목적 함수, 임의성 정도로 구성)
랜덤 포레스트 초매개 변수
- 포레스트 크기 : 총 포레스트를 몇 개의 트리로 구성할지를 결정하는 매개변수
- 최대 허용 깊이 : 하나의 트리에서 루트 노드부터 종단 노드까지 최대 몇 개의 노드를 거칠 것인지를 결정하는 매개변수
- 임의성 정도 : 임의성에 의해 서로 조금씩 다른 특성을 갖는 트리로 구성
※ 기출문제
랜덤 포레스트는 투표 또는 다수결 방식으로 예측 결정한다. (답 : 1)
배깅에 대한 설명이다. (답 : 2)
K-최근접 이웃(K-NN)
새로운 클래스를 해당 데이터와 가장 가까운 k개의 데이터를 클래스로 분류하는 알고리즘
- 지도 학습 : 예측 변수에 따른 정답 데이터 제공
- 분류와 회귀 사용 가능 : K-NN은 분류와 회귀로 사용
- 수치형 예측 변수 사용 : 모든 예측 변수는 수치형이어야 함
- 예측 변수 표준화 필요 : 거리 기반의 모형이므로 예측 변수에 대한 표준화 필요
- Lazy Model : 학습 절차 없이 새로운 데이터 들어올 때 거리 측정
- K값에 따른 다른 예측 결과 : K값에 따라 예측 결과가 달라짐
K-최근접 이웃의 장단점
- 장점
- 범주를 나눈 기준을 알지 못해도 데이터 분류 가능
- 입력 데이터만 주어지면 바로 예측값을 구할 수 있어서 다른 분류 모형과 달리 학습 과정 불필요
- 이해가 쉽고 구현 간단
- 단점
- 다른 분류 모형과 달리 테스트 데이터의 개수에 따라 시간 증가
- 학습 데이터 모두 거리 계산에 사용하기에 학습 데이터의 양도 계산 시간에 영향
- K 값 결정이 어려움
- 데이터 내에 이상치가 존재하면 분류 성능에 큰 영향을 받음
※ 기타 기출문제
답 : 4
준지도학습의 셀프트레이닝은 레이블이 달린 데이터로 모델을 학습한 뒤 레이블 되지 않은 데이터를 예측하여 이 중에서 가장 확률값이 높은 데이터들만 레이블 데이터로 다시 가져간다. (답 : 3)
많은 표본을 추출하기 어려운 경우에 사용하기 적합하다. (답 : 4)
과적합 방지 기법에는 데이터 분할, K-fold 교차검증, 정규화 등의 방법이 있다. (답 : 2)
정보획득(Information Gain)에 대한 정의이다.(답 : 3)
나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다. (답 : 2)
분석시나리오 작성을 통해 분석과정에 필요한 데이터, 절차, 분석기법 등의 세부사항들을 정의, 분석과정과 결과가 어떻게 활용되는지 명확히 알 수 있다. (답 : 3)
P(A) : 오렌지 구매 = 3/4 = 0.75, P(B): 키위 구매 = 2/4 = 0.5, P(A) → P(B)
지지도 : 동시거래/전체거래 = 2/4 = 0.5
신뢰도 : 지지도/P(A) = 0.5/0.75 = 0.67 (답 : 3)
4번은 리얼리티 마이닝에 대한 설명이다. (답 : 4)
오토인코더의 구조는 뉴럴네트워크 두 개(인코더+디코더)가 뒤집어 붙은 형태이다. (답 : 2)
분석모형 설계에서 상향식 접근은 특정 영역을 지정, 의사결정 지점으로 진행하는 과정에서 분석기회를 발굴하는 방식이다. (답 : 4)
회귀 분석에서 사용된 모형의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석 시 부정적인 영향을 미치는 것은 다중공선성이다. (답 : 3)
답 : 2
신뢰구간은 모수가 포함될 가능성이 있는 구간으로 구간의 비율은 신뢰수준이라고 한다. (답 : 2)
뒤로 이어지는 4과목
https://edder773.tistory.com/147
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 2 (0) | 2023.04.07 |
---|---|
[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 1 (0) | 2023.04.07 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3 (0) | 2023.04.05 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 2 (0) | 2023.04.05 |
댓글