본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 3

by char_lie 2023. 4. 5.
반응형
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

3과목인 빅데이터 모델링을 정리한 내용


의사결정나무 알고리즘

  • CART(이진분할)
    • 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘
    • 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점
    • 개별 입력 변수뿐만 아니라 독립변수들의 선형 결합 중에서 최적의 분리를 구할 수 있음
  • C4.5와 C5.0
    • 가지치기를 사용할 때 학습자료를 사용하는 알고리즘
    • 목표변수가 이상형이어야 함
    • 불순도의 척도로 엔트로피지수 사용
    • CART와 다르게 다지분리가 가능하고 범주형 독립변수에 대해서는 범주의 수만큼 분리 발생
  • CHAID(다지분할)
    • AID를 발전시킨 알고리즘
    • 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 독립변수가 이산형 변수
    • 불순도의 척도로 카이제곱 통계량 사용
    • 분리 방법은 다지 분리 사용
  • QUEST
    • 변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고리즘
    • 변수 선택 편향이 거의 없음
    • 불순도의 척도로 카이제곱 통계량 사용
    • 분리 방법은 이진 분리 사용

의사결정나무의 활용

  • 분류 : 여러 예측변수들에 근거해서 관측 개체의 목표변수 범주를 몇 개의 등급으로 분류하고자 하는 경우에 활용
  • 예측 : 자료에서 규칙을 찾아내고 이를 이용해서 미래의 사건을 예측하고자 하는 경우 활용
  • 차원축소 및 변수선택 : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 구분하고자 하는 경우 활용
  • 교호작용 효과 파악 : 여러 개의 예측변수들을 결합해서 목표변수에 작용하는 규칙을 파악하고자 하는 경우 활용

의사결정나무의 장점

  • 해석의 용이성
    • 나무 구조에 의해서 모형이 표현되기 때문에 모형을 사용자가 쉽게 이해 가능
    • 새로운 자료에 모형을 적합시키기가 쉬움
    • 어떤 입력변수가 목표변수를 설명하기 위해서 더 중요한지 쉽게 파악 가능
  • 상호작용효과의 해석 가능
    • 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악 가능
    • 의사결정나무는 유용한 입력변수나 상호작용의 효과 또는 비선형성을 자동으로 찾아내는 알고리즘
  • 비모수적 모형
    • 의사결정나무는 선형성이나 정규성 또는 등분산성 등의 가정을 필요로 하지 않는 비모수적인 방법
    • 의사결정나무에서는 순서형 또는 연속형 변수는 단지 순위만 분석에 영향을 주기 때문에 이상값에 민감하지 않다는 장점
  • 유연성과 정확도 높음
    • 대용량 데이터에서도 빠르게 제작 가능
    • 설명변수나 목표변수에 수치형 변수와 범주형 변수 모두 사용 가능
    • 모형 분류 정확도 높음

의사결정나무의 단점

  • 비연속성
    • 의사결정나무에서는 연소경 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있음
  • 선형성 또는 주 효과의 결여
    • 의사결정나무에서는 선형 또는 주 효과 모형에서와 같은 결과를 얻을 수 없다는 한계점
  • 비안정성
    • 훈련 데이터에만 의존하는 의사결정나무는 새로운 자료의 예측에서는 불안정하여 과대 적합 발생 가능성 있음
    • 분석용 자료의 크기가 너무 작은 경우와 너무 많은 가지를 가지는 의사결정나무를 얻는 경우에 빈번히 발생

인공신경망

사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델

 기출문제

더보기

순환 연결은 어떠한 뉴런의 출력이 자기 자신에게 입력되는 연결이다. (답 : 3)

더보기

답 : 4

퍼셉트론

인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델

다층 퍼셉트론

입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론

  • 입력층, 은닉층, 출력층으로 구성하고 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론 학습 가능
  • 활설화 함수로 시그모이드 함수 사용

다층 퍼셉트론 문제점

  • 과대 적합
    • 훈련 데이터가 부족하여 훈련 데이터에는 잘 동작하지만, 실제 데이터에는 예측을 못하는 문제점
    • 훈련 데이터 부족으로 인한 과적합은 빅데이터 시대가 열리면서 데이터 확보가 용이해져 해결
  • 기울기 소실
    • 역전파 알고리즘은 학습하는 과정에서 출력층 → 은닉층 → 입력층 방향으로 편미분 진행
    • 다층 퍼셉트론의 활성화 함수인 시그모이드 함수는 편미분을 진행할수록 0으로 근접해져 기울기가 소실되는 문제점 발생
    • 기울기 소실은 시그모이드 함수 대신 ReLU 함수를 사용하여 문제를 해결

뉴런의 활성화 함수

순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수

  • 계단 함수 : 임계값을 기준으로 활성화 또는 비활성화가 됨
  • 부호 함수 : 임계값을 기준으로 양의 부호(+1) 또는 음의 부호(-1) 출력
  • 시그모이드 함수 : 인공뉴런의 활성화 함수인 실함수로서 유한한 영역을 가지는 집합, 미분 가능하며 모든 점에서 음이 아닌 미분 값을 갖고 단 하나의 변곡점을 갖는 특징
  • tanh 함수 : 하이퍼볼릭 탄젠트 함수, 시그모이드 함수와 유사함
  • ReLU 함수 : X>0인 경우 Y값도 지속으로 증가하지만 X≤0인 경우 기울기가 0이기 때문에 뉴런이 죽을 수도 있는 단점
  • Leaky ReLU : ReLU함수에서 뉴런이 죽는 현상을 해결
  • 소프트맥스 함수 : 출력층에서 다중 클래스 분류 모델을 만들기 위해 사용

 기출문제

더보기

ReLU 활성화 함수(이진 분류)는 Sigmoid의 Gradient Vanishing 문제를 해결하며 0보다 크면 입력값을 그대로 출력하고 0 이하의 값은 0으로 출력한다. (답 : 2)

더보기

입력신호의 총합을 출력신호로 변환하는 함수를 일반적으로 활성화 함수라고 한다. (답 : 2)

더보기

과대적합에 대한 설명이다. (답 : 2)

순전파

  • 인공신경망에서 입력층에서 출력층까지 정보가 전달되는 과정
  • 입력층에서 은닉층 방향으로 이동하면서 각 입력 값의 가중치를 곱함

손실 함수

  • 실제 값과 예측 값의 오차를 비교하는 지표
  • 값이 낮을수록 학습이 잘된 것이라 볼 수 있고, 정답과 알고리즘 출력을 비교할 때 사용
  • 인공신경망 학습에서는 최적의 매개변수를 탐색할 때 손실함수의 값을 가능한 작게 하는 매개변수 값을 가짐
  • 평균 제곱 오류 : 출력결과와 데이터 차이 제곱의 평균으로 정답과 오답의 모든 확률을 고려한 손실 함수
  • 교차 엔트로피 오차 : 실제 정답의 확률만을 고려한 손실 함수

경사 하강법

  • 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법
  • 함수의 기울기를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 기법
  • 학습률은 갱신하는 양으로 사람이 직접 설정하는 초매개변수

오차역전파

  • 오차역전파는 계산 결과와 정답의 오차를 구하고 오차와 관련된 값들의 가중치를 수정하여 오차가 작아지는 방향으로 일정 횟수를 반복해서 수정하는 방법
  • 기울기 확인 : 수치 미분과 오차역전파의 결과를 비교하여 두 방식으로 구한 기울기의 차이가 거의 없는지를 확인하는 작업

 기출문제

더보기

오차역전파는 실제 출력과 목표 출력값과의 오차 산출, 비례한 가중치를 출력층에서 은닉층으로 갱신한다. (답 : 4)

인공신경망 학습 절차

  1. 미니배치 학습
    • 훈련 데이터 중 일부를 무작위로 추출하는 과정
    • 추출한 데이터 묶음을 미니 배치라고 함
  2. 기울기 산출
    • 미니 배치의 손실 함숫값을 줄이기 위해 각 가중치 매개변수의 기울기를 구하는 과정
    • 기울기는 손실 함수의 값을 가장 작게 하는 방향 제시
  3. 매개변수 갱신
    • 가중치 매개변수를 기울기 방향으로 조금씩 갱신하는 과정
    • 경사하강법 적용
  4. 반복
    • 최적값을 찾을 때까지 1~3 과정 반복

 기출문제

더보기

데이터를 미니배치로 무작위 선정 뒤 손실함수 값을 줄이기 위해 각 가중치 매개변수 기울기를 구한다. 다음 가중치 매개변수 기울기 방향으로 조금씩 갱신하여 앞에서 진행한 단계들을 반복한다. (답 : 1)

서포트 벡터 머신 (SVM)

  • 벡터 공간에서 훈련 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델
  • 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
  • 최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 이진 분류기

서포트 벡터 머신 특징

  • 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행
  • 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법
  • 훈련시간이 상대적으로 느리지만 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델

서포트 벡터 머신의 구성요소

  1. 결정 경계 : 데이터 분류의 기준이 되는 경계
  2. 초평면 : n차원의 공간의 (n-1) 차원 평면
  3. 마진 : 결정 경계에서 서포트 벡터까지의 거리, 최적의 결정 경계는 마진을 최대화 → 2/||ω||
  4. 서포트 벡터 : 훈련 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
  5. 슬랙 변수 : 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수

 기출문제

더보기

답 : 1

더보기

데이터포인트들에서 2개의 클래스로 나눌 수 있는 초평면 중 Support Vector에서 가장 멀리 떨어진 초평면으로 채택, 분류하는 알고리즘이다. (답 : 3)

하드 마진 SVM

  • 마진의 안쪽이나 바깥쪽에 절대로 잘못 분류된 오 분류를 허용하지 않는 SVM
  • 노이즈로 인하여 최적의 결정 경계를 잘못 구할 수도 있고, 못 찾을 경우도 발생할 수가 있음

소프트 마진 SVM

  • 마진의 안족이나 바깥쪽 절대로 잘못 분류된 오 분류를 허용하는 SVM
  • 하드 마진 SVM은 적용하기가 어려우므로 어느 정도의 오류를 허용하는 소프트 마진 SVM을 주로 이용

서포트 벡터 머신 적용 기준

  • 선형으로 분리 가능한 SVM
    • 최적의 결정 경계를 기준으로 1과 -1로 구분하여 분류 모형으로 사용
  • 선형으로 분리 불가능한 SVM
    • 저 차원 공간을 고차원 공간으로 매핑할 경우에 발생하는 연산의 복합성은 커널 트릭을 통하여 해결
    • 커널 트릭은 커널 함수를 이용하여 고차원 공간으로 매핑할 경우에 증가하는 연산량의 문제를 해결하는 기법
  • 커널트릭이란 방법을 사용하여 실제 데이터를 매핑하여 내적 하지 않고 비슷한 효과를 만드는 방법
  • 맵핑 공간에서의 내적과 동등한 함수를 커널 함수라고 하고, 이를 k로 표현

커널 함수 종류

  • 선형 커널
    • 기본 유형의 커널이며, 1차원이고 다른 함수보다 빠름
    • 텍스트 분류 문제에 주로 사용함
  • 다항 커널
    • 선형 커널의 일반화된 공식으로 효과성과 정확도 측면에서 효율이 적어 선호하지 않음
  • RBF 커널(가우시안 커널)
    • 가장 많이 사용하는 커널이며 비선형 데이터가 있는 경우에 일반적으로 활용
    • 데이터에 대한 사전 지식이 없는 경우 적절하게 분리할 때 활용
  • 시그모이드 커널
    • 인공신경망에서 선호되는 커널로서 인공신경망의 다층 퍼셉트론 모델과 유사

서포트 벡터 머신 장단점

  • 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행
  • 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법
  • 훈련 시간이 상대적으로 느리지만 정확성이 뛰어나 과대 적합의 가능성이 낮고, 노이즈 영향이 적음
  • 정확성이 뛰어나고, 커널 트릭을 활용하여 비선형 모델 분류 가능
  • 데이터 세트의 크기가 클 경우 모델링에 많은 시간이 소요

 기출문제

더보기

다중회귀분석은 회귀(예측) 모델로 분류된다. (답 : 4)

연관성 분석

데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종소 관계를 찾아내는 분석 기법

  • 목적 변수가 없어 분석 방향이나 목적이 없어도 적용 가능
  • 매우 간단하게 분석을 위한 게산 가능
  • 적절한 세분화로 인한 품목 결정은 장점이지만 너무 세분화된 품목은 의미 없는 결과 도출

연관성 분석 측정지표

  • 지지도 : 전체 거래 중 항목 A와 B를 동시에 포함하는 거래 비율
  • 신뢰도 : A상품을 삿을 때 B 상품을 살 조건부 확률에 대한 척도
  • 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도

아프리오리 알고리즘

  • 가능한 모든 경우의 수를 탐색하는 방시글 개선하기 위해 데이터의 발생 빈도가 높은 것을 찾는 알고리즘
  • 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관분석 알고리즘

아프리오리 알고리즘 계산 방법

  • 우선적으로 최소 지지도 경곗값을 정하고, 데이터베이스에서 후보항목 집합 생성
  • 후보 항목 집합에서 최소 지지도 경곗값을 넘는 빈발항목 집합을 찾음
  • 한 항목 집합이 빈발하면, 이 항목 집합의 모든 부분집합은 빈발항목 집합
  • 한 항목 지합이 빈발하지 않다면, 이 항목 집합을 포함하는 모든 집합은 비 빈발항목 집합

FP-Growth 알고리즘

아프리오리 알고리즘을 개선한 알고리즘으로 FP-TREE라는 구조를 통해 최소 지지도를 만족하는 빈발 아이템 집합을 추출하는 알고리즘

  1. 모든 거래를 확인해 각 아이템마다 지지도를 계산하고 최소 지지도 이상의 아이템만 선택
  2. 모든 거래에서 빈도가 높은 아이템 순서대로 순서를 정렬
  3. 부모 노드를 중심으로 거래를 자식 노드로 추가해 주면서 트리를 생성
  4. 새로운 아이템이 나올 경우에는 부모 노드부터 시작하고, 그렇지 않으면 기존의 노드에서 확장
  5. 위 과정을 모든 거래에 대해 반복하여 FP-Tree를 만들고 최소 지지도 이상의 패턴 추출

군집 분석

  • 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석 기법
  • 군집 분석의 목적은 레이블이 없는 데이터 세트의 요약 정보를 추출하고, 요약 정보를 통해 전체 데이터 세트가 가지고 있는 특징을 발견하는 것

 기출문제

더보기

군집분석에서는 판별분석과 달리 집단이 사전에 정의되어 있지 않다. (답 : 3)

분류와 군집비교

  • 분류(Classification)
    • 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제
    • 입력 데이터와 각 데이터의 클래스 라벨이 함께 제공됨
    • K-최근접이웃, 의사결정나무, 베이지안 정리, 인공신경망(ANN), 서포트 벡터 머신(SVM) 등
  • 군집(Clustering)
    • 사전 정의된 범주가 없는 데이터에서 최적의 그룹을 찾아가는 문제
    • 클래스에 대한 정보 없이 단순히 입력값만 제공됨
    • 계층적 군집, k-평균 군집, 자기 조직화 지도(SOm) 등

연속형 변수 거리 게산

  • 유클리드 거리

  • 맨하탄 거리

  • 민코프스키

  • 표준화 거리

  • 마할라노비스 거리

명목형 번수 거리

  • 단일 일치 계수

매칭된 속성의 개수 / 속성의 개수

  • 자카드 계수

순서형 변수 거리

  • 순위 상관 계수

계층적 군집 분석

  • 병합적 방법으로 군집 형성
    • 작은 군집으로부터 시작하여 군집을 병합하는 방법
    • 거리가 가까우면 유사성이 높음
  • 분할적 방법으로 군집 형성
    • 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법
  • 계통도
    • 군집의 결과는 계통도 또는 덴드로그램의 형태로 결과가 주어지며 각 개체는 하나의 군집에만 속하게 됨
    • 군집 내 항목 간 유사 정도를 파악함으로써 군집의 견고성 해석 가능

군집 간의 연결법

  • 최단 연결법
    • 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값으로 측정해서 가장 유사성이 큰 군집으로 병합해 나가는 방법
    • 다른 군집과 가까이 있으면 병합이 가능해 길게 늘어진 사슬 형태의 군집 형성
  • 최장 연결법
    • 두 군집 사이의 거리를 각 군집에서 하나씩 관측값으로 뽑았을 때 나타날 수 있는 거리의 최대 값으로 측정하여 가장 유사성이 큰 군집으로 병합해 나가는 방법
    • 내부 응집성에 중심을 둔 방법으로 둥근 형태의 군집 형성
  • 중심 연결법
    • 두 군집의 중심 간의 거리를 측정하여 가장 유사성이 큰 군집으로 병합해 나가는 방법
    • 군집 내 편차들의 제곱합을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집 형성
  • 평균 연결법
    • 모든 항목에 대한 거리 평균을 구하면서 가장 유사성이 큰 군집을 병합해 나가는 방법
    • 계산량이 불필요하게 많아질 수 있음
  • 와드 연결법
    • 군집 간의 거리에 기반하는 다른 연결법과는 다른 군집 내의 오차제곱합에 기초하여 군집을 수행하는 방법
    • 군집의 병합으로 인한 오차제곱합의 증가량이 최소가 되는 방향으로 군집 형성

k-평균 군집 k값 선정 기법

  • 엘보우 기법 : x 축에 클러스터의 개수를 y축에 SSE 값을 두었을 때 기울기가 완만한 부분에 해당하는 클러스터를 선택하는 기법
  • 실루엣 기법 : 각 군집 간의 거리가 얼마나 분리되어 있는지를 나타내는 기법
  • 덴드로그램 : 계층적 군집 분석의 덴드로그램 시각화를 이용하여 군집의 개수 결정

혼합 분포 군집

  • 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 자료로부터 모수와 가중치를 추정하는 방법
  • 확률 분포를 도입하여 군집을 수행
  • 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기의 군집을 찾을 수 있음
  • EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있음
  • 이상값에 민감하므로 이상값 제거 등의 사전 조치 필요

가우시안 혼합 모델

  • 전체 데이터의 확률분포가 k개의 가우시안 분포의 선형 결합으로 이뤄졌음을 가정하고 각 분포에 속할 확률이 높은 데이터 간의 군집을 형성하는 방법
  • GMM에서는 주어진 데이터에 대하여 적절한 k개 가우시안 분포의 가중치, 평균, 공분산을 추정

EM 알고리즘

  • 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수 추정값을 찾는 반복적인 알고리즘
  • E-단계, M단계로 분류되며 E-단게에선 잠재변수 Z의 기대치를 계산하고, M-단계는 잠재변수 Z의 기대치를 이용하여 매개변수 추정

DBSCAN

개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘

  • 중심점
    • 주변 반경 내에 최소 데이터 개수이상의 다른 데이터를 가지고 있는 데이터
  • 이웃점
    • 특정 데이터 주변 반경 내에 존재하는 다른 데이터
  • 경계점
    • 중심점은 아니지만, 중심점이 주변 반경 내에 존재하는 데이터
  • 잡음점
    • 중심점도 아니고 경계점 조건도 만족하지 못하는 이웃점

DBSCAN 순서

  1. 반경 내에 최소 점 이상이 되도록 중심점을 식별
  2. 모든 비중심점을 무시하고 인접 그래프에서 중심점과 연결된 구성요소 찾기
  3. 중심점 외에 속하면 노이즈로 할당

DBSCAN 장단점

  • 장점
    • k-평균 군집과 같이 클러스터의 수를 정하지 않아도 됨
    • 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도로서 잘 찾을 수 있음
  • 단점
    • 초매개변수를 결정하기 어렵고, 매개변수의 선택에 민감
    • 클러스터들이 다양한 밀도를 가지거나, 차원이 크면 계산이 어려움

자기 조직화 지도(SOM)

  • 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망으로 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘
  • 고차원 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망
  • 실제 공간의 입력변수가 가까이 있으면 지도상에는 가까운 위치에 존재

SOM 구성

  • 입력층
    • 입력 벡터를 받는 측으로 입력변수의 개수와 동일하게 뉴런 수가 존재
    • 입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 연결되어 있으며 이때 완전 연결되어 있음
  • 경쟁층
    • 2차원 격자로 구성된 층으로 입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층
    • SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 가도를 반복적으로 재조정하며 학습
    • 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열

SOM 학습 알고리즘

  1. 초기화 : SOM 맵의 노드에 대한 연결 강도 ㄹ초기화
  2. 입력 벡터 : 입력 벡터를 제시
  3. 유사도 계산 : 유클리드 거리를 사용하여 입력 벡터와 프로토타입 벡터 사이의 유사도 계산
  4. 프로토타입 벡터 탐색 : 입력 벡터와 가장 거리가 짧은 프로토타입 벡터를 탐색
  5. 강도 재조정 : BMU와 그 이웃들의 연결 강도를 재조정
  6. 반복 : 단계 2로 가서 반복

 기출문제

더보기

K-평균 군집은 기준점에 가까운 곳의 데이터들을 하나의 군집으로 묶는 방법이다. (답 : 2)


뒤로 이어지는 내용

https://edder773.tistory.com/145

 

[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글