본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 3

by char_lie 2023. 4. 4.
반응형
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

2과목인 빅데이터 분석 기획을 정리한 내용


데이터 탐색

  • 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
  • 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 방식
  • 데이터 탐색의 도구로는 도표, 그래프, 요약 통계를 이용

탐색적 데이터 분석의 4가지 특징

  • 저항성 : 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질로 탐색적 데이터 분석은 저항성이 큰 통계적 데이터를 이용
  • 잔차 해석 : 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 탐색
  • 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그 변환, 제곱근 변환, 역수 변환 등)로 바꾸는것
  • 현시성 : 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 의미

개별 변수 탐색 방법

  • 범주형 데이터
    • 명목형 : 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
    • 순서형 : 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
  • 수치형 데이터
    • 이산형 : 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
    • 연속형 ; 변수가 구간 안의 모든 값을 가질 수 있는 경우

다차원 데이터 탐색 방법

  • 범주형-범주형 : 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성 분석, 시각화는 막대령 그래프를 이용
  • 수치형-수치형 : 수치형 데이터 간에는 산점도와 기울기를 통하여 변수간의 상관성을 분석, 상관성과 추세성 여부는 산점도를 이용하여 시각화할 수 있고, 피어슨 상관계수를 통하여 방향과 강도 파악 가능
  • 범주형-수치형 : 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통계량 차이를 상호 비교

상관관계 분석

두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법

  • 양(+)의 상관관계 : 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관관계
  • 음(-)의 상관관계 : 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계
  • 상관관계 없음 : 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

산점도를 통한 표현 방법

기초통계량 추출

  1. 중심 경향성의 통계량
    • 평균값 : 자료를 모두 더한 후 자료 개수로 나눈 값
    • 중위수 : 모든 데이터값을 순서대로 배열하였을 때 중앙에 위차한 데이터값
    • 최빈수 : 데이터값 중에서 빈도수가 가장 높은 데이터값
    • 사분위수 : 모든 데이터값을 순서대로 배열하였을 때 4등분한 지점에 있는 값
  2. 산포도 통계량
    • 분산 : 평균으로부터 얼마나 떨어져 있는지 나타내는 값
    • 표준편차 : 분산에 양의 제곱근을 취한 값
    • 범위 : 데이터값 중에서 최댓값과 최솟값의 차
    • IQR(interQuartile Range) : 3사분위수와 1사분위수의 차이 값
    • 사분편차 : IQR의 절반 값
    • 변동계수 : 표준편차를 평균으로 나눈 값
  3. 분포 통계량
    • 첨도 : 데이터 분포의 뵤족한 정도를 설명하는 통계량
    • 왜도 : 데이터 분포의 기울어진 정도를 설명하는 통계량

히스토그램의 특징

자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프

  • 가로축은 수치형 데이터
  • 막대는 서로 붙어있음
  • 막대 너비는 일정

막대형 그래프의 특징

막대형 그래프는 여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프

  • 가로축은 수치형 데이터가 아니어도 됨
  • 막대는 서로 떨어져 있음
  • 막대 너비는 같지 않을 수 있음

박스 플롯

많은 데이터를 그림을 이용하여 집합의 범위와 중위수를 빠르게 확인할 수 있으며, 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법

박스 플롯의 구성요소

  • 하위 경계 : 제1 사분위에서 1.5 IQR을 뺀 위치
  • 최솟값 : 하위 경계 내의 관측치의 최솟값
  • 제1 사분위(Q1) : 자료들의 하위 25%의 위치를 의미
  • 제2 사분위(Q2, 중위수) : 자료들의 50%의 위치로 중위수를 의미, 두꺼운 막대로 가시성을 높여서 표현
  • 제3 사분위(Q3) : 자료들의 하위 75%의 위치를 의미
  • 최댓값 : 상위 경계 내의 관측치의 최댓값
  • 상위 경계 : 제3 사분위서 IQR의 1.5배 위치
  • 수염 : Q1, Q3로부터 IQR의 1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선
  • 이상값 : 수염보다 바깥쪽에 데이ㅓ가 존재한다면, 이것은 이상값으로 분류

산점도

  • 가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
  • 2개의 연속형 변수 간의 관계를 보기 위하여 사용

뒤로 이어지는 내용

https://edder773.tistory.com/138

 

[빅데이터 분석 기사 필기 2과목] 빅데이터 탐색 정리 - 4

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글