자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)
https://www.dataq.or.kr/www/sub/a_07.do
3과목인 빅데이터 모델링을 정리한 내용
의사결정나무 알고리즘
- CART(이진분할)
- 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘
- 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점
- 개별 입력 변수뿐만 아니라 독립변수들의 선형 결합 중에서 최적의 분리를 구할 수 있음
- C4.5와 C5.0
- 가지치기를 사용할 때 학습자료를 사용하는 알고리즘
- 목표변수가 이상형이어야 함
- 불순도의 척도로 엔트로피지수 사용
- CART와 다르게 다지분리가 가능하고 범주형 독립변수에 대해서는 범주의 수만큼 분리 발생
- CHAID(다지분할)
- AID를 발전시킨 알고리즘
- 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 독립변수가 이산형 변수
- 불순도의 척도로 카이제곱 통계량 사용
- 분리 방법은 다지 분리 사용
- QUEST
- 변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고리즘
- 변수 선택 편향이 거의 없음
- 불순도의 척도로 카이제곱 통계량 사용
- 분리 방법은 이진 분리 사용
의사결정나무의 활용
- 분류 : 여러 예측변수들에 근거해서 관측 개체의 목표변수 범주를 몇 개의 등급으로 분류하고자 하는 경우에 활용
- 예측 : 자료에서 규칙을 찾아내고 이를 이용해서 미래의 사건을 예측하고자 하는 경우 활용
- 차원축소 및 변수선택 : 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 구분하고자 하는 경우 활용
- 교호작용 효과 파악 : 여러 개의 예측변수들을 결합해서 목표변수에 작용하는 규칙을 파악하고자 하는 경우 활용
의사결정나무의 장점
- 해석의 용이성
- 나무 구조에 의해서 모형이 표현되기 때문에 모형을 사용자가 쉽게 이해 가능
- 새로운 자료에 모형을 적합시키기가 쉬움
- 어떤 입력변수가 목표변수를 설명하기 위해서 더 중요한지 쉽게 파악 가능
- 상호작용효과의 해석 가능
- 두 개 이상의 변수가 결합하여 목표변수에 어떻게 영향을 주는지 쉽게 파악 가능
- 의사결정나무는 유용한 입력변수나 상호작용의 효과 또는 비선형성을 자동으로 찾아내는 알고리즘
- 비모수적 모형
- 의사결정나무는 선형성이나 정규성 또는 등분산성 등의 가정을 필요로 하지 않는 비모수적인 방법
- 의사결정나무에서는 순서형 또는 연속형 변수는 단지 순위만 분석에 영향을 주기 때문에 이상값에 민감하지 않다는 장점
- 유연성과 정확도 높음
- 대용량 데이터에서도 빠르게 제작 가능
- 설명변수나 목표변수에 수치형 변수와 범주형 변수 모두 사용 가능
- 모형 분류 정확도 높음
의사결정나무의 단점
- 비연속성
- 의사결정나무에서는 연소경 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있음
- 선형성 또는 주 효과의 결여
- 의사결정나무에서는 선형 또는 주 효과 모형에서와 같은 결과를 얻을 수 없다는 한계점
- 비안정성
- 훈련 데이터에만 의존하는 의사결정나무는 새로운 자료의 예측에서는 불안정하여 과대 적합 발생 가능성 있음
- 분석용 자료의 크기가 너무 작은 경우와 너무 많은 가지를 가지는 의사결정나무를 얻는 경우에 빈번히 발생
인공신경망
사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
※ 기출문제
순환 연결은 어떠한 뉴런의 출력이 자기 자신에게 입력되는 연결이다. (답 : 3)
답 : 4
퍼셉트론
인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델
다층 퍼셉트론
입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론
- 입력층, 은닉층, 출력층으로 구성하고 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론 학습 가능
- 활설화 함수로 시그모이드 함수 사용
다층 퍼셉트론 문제점
- 과대 적합
- 훈련 데이터가 부족하여 훈련 데이터에는 잘 동작하지만, 실제 데이터에는 예측을 못하는 문제점
- 훈련 데이터 부족으로 인한 과적합은 빅데이터 시대가 열리면서 데이터 확보가 용이해져 해결
- 기울기 소실
- 역전파 알고리즘은 학습하는 과정에서 출력층 → 은닉층 → 입력층 방향으로 편미분 진행
- 다층 퍼셉트론의 활성화 함수인 시그모이드 함수는 편미분을 진행할수록 0으로 근접해져 기울기가 소실되는 문제점 발생
- 기울기 소실은 시그모이드 함수 대신 ReLU 함수를 사용하여 문제를 해결
뉴런의 활성화 함수
순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수
- 계단 함수 : 임계값을 기준으로 활성화 또는 비활성화가 됨
- 부호 함수 : 임계값을 기준으로 양의 부호(+1) 또는 음의 부호(-1) 출력
- 시그모이드 함수 : 인공뉴런의 활성화 함수인 실함수로서 유한한 영역을 가지는 집합, 미분 가능하며 모든 점에서 음이 아닌 미분 값을 갖고 단 하나의 변곡점을 갖는 특징
- tanh 함수 : 하이퍼볼릭 탄젠트 함수, 시그모이드 함수와 유사함
- ReLU 함수 : X>0인 경우 Y값도 지속으로 증가하지만 X≤0인 경우 기울기가 0이기 때문에 뉴런이 죽을 수도 있는 단점
- Leaky ReLU : ReLU함수에서 뉴런이 죽는 현상을 해결
- 소프트맥스 함수 : 출력층에서 다중 클래스 분류 모델을 만들기 위해 사용
※ 기출문제
ReLU 활성화 함수(이진 분류)는 Sigmoid의 Gradient Vanishing 문제를 해결하며 0보다 크면 입력값을 그대로 출력하고 0 이하의 값은 0으로 출력한다. (답 : 2)
입력신호의 총합을 출력신호로 변환하는 함수를 일반적으로 활성화 함수라고 한다. (답 : 2)
과대적합에 대한 설명이다. (답 : 2)
순전파
- 인공신경망에서 입력층에서 출력층까지 정보가 전달되는 과정
- 입력층에서 은닉층 방향으로 이동하면서 각 입력 값의 가중치를 곱함
손실 함수
- 실제 값과 예측 값의 오차를 비교하는 지표
- 값이 낮을수록 학습이 잘된 것이라 볼 수 있고, 정답과 알고리즘 출력을 비교할 때 사용
- 인공신경망 학습에서는 최적의 매개변수를 탐색할 때 손실함수의 값을 가능한 작게 하는 매개변수 값을 가짐
- 평균 제곱 오류 : 출력결과와 데이터 차이 제곱의 평균으로 정답과 오답의 모든 확률을 고려한 손실 함수
- 교차 엔트로피 오차 : 실제 정답의 확률만을 고려한 손실 함수
경사 하강법
- 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법
- 함수의 기울기를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 기법
- 학습률은 갱신하는 양으로 사람이 직접 설정하는 초매개변수
오차역전파
- 오차역전파는 계산 결과와 정답의 오차를 구하고 오차와 관련된 값들의 가중치를 수정하여 오차가 작아지는 방향으로 일정 횟수를 반복해서 수정하는 방법
- 기울기 확인 : 수치 미분과 오차역전파의 결과를 비교하여 두 방식으로 구한 기울기의 차이가 거의 없는지를 확인하는 작업
※ 기출문제
오차역전파는 실제 출력과 목표 출력값과의 오차 산출, 비례한 가중치를 출력층에서 은닉층으로 갱신한다. (답 : 4)
인공신경망 학습 절차
- 미니배치 학습
- 훈련 데이터 중 일부를 무작위로 추출하는 과정
- 추출한 데이터 묶음을 미니 배치라고 함
- 기울기 산출
- 미니 배치의 손실 함숫값을 줄이기 위해 각 가중치 매개변수의 기울기를 구하는 과정
- 기울기는 손실 함수의 값을 가장 작게 하는 방향 제시
- 매개변수 갱신
- 가중치 매개변수를 기울기 방향으로 조금씩 갱신하는 과정
- 경사하강법 적용
- 반복
- 최적값을 찾을 때까지 1~3 과정 반복
※ 기출문제
데이터를 미니배치로 무작위 선정 뒤 손실함수 값을 줄이기 위해 각 가중치 매개변수 기울기를 구한다. 다음 가중치 매개변수 기울기 방향으로 조금씩 갱신하여 앞에서 진행한 단계들을 반복한다. (답 : 1)
서포트 벡터 머신 (SVM)
- 벡터 공간에서 훈련 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델
- 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
- 최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 이진 분류기
서포트 벡터 머신 특징
- 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행
- 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법
- 훈련시간이 상대적으로 느리지만 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델
서포트 벡터 머신의 구성요소
- 결정 경계 : 데이터 분류의 기준이 되는 경계
- 초평면 : n차원의 공간의 (n-1) 차원 평면
- 마진 : 결정 경계에서 서포트 벡터까지의 거리, 최적의 결정 경계는 마진을 최대화 → 2/||ω||
- 서포트 벡터 : 훈련 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
- 슬랙 변수 : 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수
※ 기출문제
답 : 1
데이터포인트들에서 2개의 클래스로 나눌 수 있는 초평면 중 Support Vector에서 가장 멀리 떨어진 초평면으로 채택, 분류하는 알고리즘이다. (답 : 3)
하드 마진 SVM
- 마진의 안쪽이나 바깥쪽에 절대로 잘못 분류된 오 분류를 허용하지 않는 SVM
- 노이즈로 인하여 최적의 결정 경계를 잘못 구할 수도 있고, 못 찾을 경우도 발생할 수가 있음
소프트 마진 SVM
- 마진의 안족이나 바깥쪽 절대로 잘못 분류된 오 분류를 허용하는 SVM
- 하드 마진 SVM은 적용하기가 어려우므로 어느 정도의 오류를 허용하는 소프트 마진 SVM을 주로 이용
서포트 벡터 머신 적용 기준
- 선형으로 분리 가능한 SVM
- 최적의 결정 경계를 기준으로 1과 -1로 구분하여 분류 모형으로 사용
- 선형으로 분리 불가능한 SVM
- 저 차원 공간을 고차원 공간으로 매핑할 경우에 발생하는 연산의 복합성은 커널 트릭을 통하여 해결
- 커널 트릭은 커널 함수를 이용하여 고차원 공간으로 매핑할 경우에 증가하는 연산량의 문제를 해결하는 기법
- 커널트릭이란 방법을 사용하여 실제 데이터를 매핑하여 내적 하지 않고 비슷한 효과를 만드는 방법
- 맵핑 공간에서의 내적과 동등한 함수를 커널 함수라고 하고, 이를 k로 표현
커널 함수 종류
- 선형 커널
- 기본 유형의 커널이며, 1차원이고 다른 함수보다 빠름
- 텍스트 분류 문제에 주로 사용함
- 다항 커널
- 선형 커널의 일반화된 공식으로 효과성과 정확도 측면에서 효율이 적어 선호하지 않음
- RBF 커널(가우시안 커널)
- 가장 많이 사용하는 커널이며 비선형 데이터가 있는 경우에 일반적으로 활용
- 데이터에 대한 사전 지식이 없는 경우 적절하게 분리할 때 활용
- 시그모이드 커널
- 인공신경망에서 선호되는 커널로서 인공신경망의 다층 퍼셉트론 모델과 유사
서포트 벡터 머신 장단점
- 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행
- 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법
- 훈련 시간이 상대적으로 느리지만 정확성이 뛰어나 과대 적합의 가능성이 낮고, 노이즈 영향이 적음
- 정확성이 뛰어나고, 커널 트릭을 활용하여 비선형 모델 분류 가능
- 데이터 세트의 크기가 클 경우 모델링에 많은 시간이 소요
※ 기출문제
다중회귀분석은 회귀(예측) 모델로 분류된다. (답 : 4)
연관성 분석
데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종소 관계를 찾아내는 분석 기법
- 목적 변수가 없어 분석 방향이나 목적이 없어도 적용 가능
- 매우 간단하게 분석을 위한 게산 가능
- 적절한 세분화로 인한 품목 결정은 장점이지만 너무 세분화된 품목은 의미 없는 결과 도출
연관성 분석 측정지표
- 지지도 : 전체 거래 중 항목 A와 B를 동시에 포함하는 거래 비율
- 신뢰도 : A상품을 삿을 때 B 상품을 살 조건부 확률에 대한 척도
- 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
아프리오리 알고리즘
- 가능한 모든 경우의 수를 탐색하는 방시글 개선하기 위해 데이터의 발생 빈도가 높은 것을 찾는 알고리즘
- 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관분석 알고리즘
아프리오리 알고리즘 계산 방법
- 우선적으로 최소 지지도 경곗값을 정하고, 데이터베이스에서 후보항목 집합 생성
- 후보 항목 집합에서 최소 지지도 경곗값을 넘는 빈발항목 집합을 찾음
- 한 항목 집합이 빈발하면, 이 항목 집합의 모든 부분집합은 빈발항목 집합
- 한 항목 지합이 빈발하지 않다면, 이 항목 집합을 포함하는 모든 집합은 비 빈발항목 집합
FP-Growth 알고리즘
아프리오리 알고리즘을 개선한 알고리즘으로 FP-TREE라는 구조를 통해 최소 지지도를 만족하는 빈발 아이템 집합을 추출하는 알고리즘
- 모든 거래를 확인해 각 아이템마다 지지도를 계산하고 최소 지지도 이상의 아이템만 선택
- 모든 거래에서 빈도가 높은 아이템 순서대로 순서를 정렬
- 부모 노드를 중심으로 거래를 자식 노드로 추가해 주면서 트리를 생성
- 새로운 아이템이 나올 경우에는 부모 노드부터 시작하고, 그렇지 않으면 기존의 노드에서 확장
- 위 과정을 모든 거래에 대해 반복하여 FP-Tree를 만들고 최소 지지도 이상의 패턴 추출
군집 분석
- 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석 기법
- 군집 분석의 목적은 레이블이 없는 데이터 세트의 요약 정보를 추출하고, 요약 정보를 통해 전체 데이터 세트가 가지고 있는 특징을 발견하는 것
※ 기출문제
군집분석에서는 판별분석과 달리 집단이 사전에 정의되어 있지 않다. (답 : 3)
분류와 군집비교
- 분류(Classification)
- 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제
- 입력 데이터와 각 데이터의 클래스 라벨이 함께 제공됨
- K-최근접이웃, 의사결정나무, 베이지안 정리, 인공신경망(ANN), 서포트 벡터 머신(SVM) 등
- 군집(Clustering)
- 사전 정의된 범주가 없는 데이터에서 최적의 그룹을 찾아가는 문제
- 클래스에 대한 정보 없이 단순히 입력값만 제공됨
- 계층적 군집, k-평균 군집, 자기 조직화 지도(SOm) 등
연속형 변수 거리 게산
- 유클리드 거리
- 맨하탄 거리
- 민코프스키
- 표준화 거리
- 마할라노비스 거리
명목형 번수 거리
- 단일 일치 계수
매칭된 속성의 개수 / 속성의 개수
- 자카드 계수
순서형 변수 거리
- 순위 상관 계수
계층적 군집 분석
- 병합적 방법으로 군집 형성
- 작은 군집으로부터 시작하여 군집을 병합하는 방법
- 거리가 가까우면 유사성이 높음
- 분할적 방법으로 군집 형성
- 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법
- 계통도
- 군집의 결과는 계통도 또는 덴드로그램의 형태로 결과가 주어지며 각 개체는 하나의 군집에만 속하게 됨
- 군집 내 항목 간 유사 정도를 파악함으로써 군집의 견고성 해석 가능
군집 간의 연결법
- 최단 연결법
- 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최솟값으로 측정해서 가장 유사성이 큰 군집으로 병합해 나가는 방법
- 다른 군집과 가까이 있으면 병합이 가능해 길게 늘어진 사슬 형태의 군집 형성
- 최장 연결법
- 두 군집 사이의 거리를 각 군집에서 하나씩 관측값으로 뽑았을 때 나타날 수 있는 거리의 최대 값으로 측정하여 가장 유사성이 큰 군집으로 병합해 나가는 방법
- 내부 응집성에 중심을 둔 방법으로 둥근 형태의 군집 형성
- 중심 연결법
- 두 군집의 중심 간의 거리를 측정하여 가장 유사성이 큰 군집으로 병합해 나가는 방법
- 군집 내 편차들의 제곱합을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집 형성
- 평균 연결법
- 모든 항목에 대한 거리 평균을 구하면서 가장 유사성이 큰 군집을 병합해 나가는 방법
- 계산량이 불필요하게 많아질 수 있음
- 와드 연결법
- 군집 간의 거리에 기반하는 다른 연결법과는 다른 군집 내의 오차제곱합에 기초하여 군집을 수행하는 방법
- 군집의 병합으로 인한 오차제곱합의 증가량이 최소가 되는 방향으로 군집 형성
k-평균 군집 k값 선정 기법
- 엘보우 기법 : x 축에 클러스터의 개수를 y축에 SSE 값을 두었을 때 기울기가 완만한 부분에 해당하는 클러스터를 선택하는 기법
- 실루엣 기법 : 각 군집 간의 거리가 얼마나 분리되어 있는지를 나타내는 기법
- 덴드로그램 : 계층적 군집 분석의 덴드로그램 시각화를 이용하여 군집의 개수 결정
혼합 분포 군집
- 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 자료로부터 모수와 가중치를 추정하는 방법
- 확률 분포를 도입하여 군집을 수행
- 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기의 군집을 찾을 수 있음
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있음
- 이상값에 민감하므로 이상값 제거 등의 사전 조치 필요
가우시안 혼합 모델
- 전체 데이터의 확률분포가 k개의 가우시안 분포의 선형 결합으로 이뤄졌음을 가정하고 각 분포에 속할 확률이 높은 데이터 간의 군집을 형성하는 방법
- GMM에서는 주어진 데이터에 대하여 적절한 k개 가우시안 분포의 가중치, 평균, 공분산을 추정
EM 알고리즘
- 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수 추정값을 찾는 반복적인 알고리즘
- E-단계, M단계로 분류되며 E-단게에선 잠재변수 Z의 기대치를 계산하고, M-단계는 잠재변수 Z의 기대치를 이용하여 매개변수 추정
DBSCAN
개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘
- 중심점
- 주변 반경 내에 최소 데이터 개수이상의 다른 데이터를 가지고 있는 데이터
- 이웃점
- 특정 데이터 주변 반경 내에 존재하는 다른 데이터
- 경계점
- 중심점은 아니지만, 중심점이 주변 반경 내에 존재하는 데이터
- 잡음점
- 중심점도 아니고 경계점 조건도 만족하지 못하는 이웃점
DBSCAN 순서
- 반경 내에 최소 점 이상이 되도록 중심점을 식별
- 모든 비중심점을 무시하고 인접 그래프에서 중심점과 연결된 구성요소 찾기
- 중심점 외에 속하면 노이즈로 할당
DBSCAN 장단점
- 장점
- k-평균 군집과 같이 클러스터의 수를 정하지 않아도 됨
- 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도로서 잘 찾을 수 있음
- 단점
- 초매개변수를 결정하기 어렵고, 매개변수의 선택에 민감
- 클러스터들이 다양한 밀도를 가지거나, 차원이 크면 계산이 어려움
자기 조직화 지도(SOM)
- 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망으로 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘
- 고차원 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망
- 실제 공간의 입력변수가 가까이 있으면 지도상에는 가까운 위치에 존재
SOM 구성
- 입력층
- 입력 벡터를 받는 측으로 입력변수의 개수와 동일하게 뉴런 수가 존재
- 입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 연결되어 있으며 이때 완전 연결되어 있음
- 경쟁층
- 2차원 격자로 구성된 층으로 입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층
- SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 가도를 반복적으로 재조정하며 학습
- 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며, 승자와 유사한 연결 강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열
SOM 학습 알고리즘
- 초기화 : SOM 맵의 노드에 대한 연결 강도 ㄹ초기화
- 입력 벡터 : 입력 벡터를 제시
- 유사도 계산 : 유클리드 거리를 사용하여 입력 벡터와 프로토타입 벡터 사이의 유사도 계산
- 프로토타입 벡터 탐색 : 입력 벡터와 가장 거리가 짧은 프로토타입 벡터를 탐색
- 강도 재조정 : BMU와 그 이웃들의 연결 강도를 재조정
- 반복 : 단계 2로 가서 반복
※ 기출문제
K-평균 군집은 기준점에 가까운 곳의 데이터들을 하나의 군집으로 묶는 방법이다. (답 : 2)
뒤로 이어지는 내용
https://edder773.tistory.com/145
'자격증 > 빅데이터 분석 기사' 카테고리의 다른 글
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 5 (0) | 2023.04.06 |
---|---|
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 4 (0) | 2023.04.06 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 2 (0) | 2023.04.05 |
[빅데이터 분석 기사 필기 3과목] 빅데이터 모델링 정리 - 1 (0) | 2023.04.05 |
[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 6 (0) | 2023.04.04 |
댓글