본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 4과목] 빅데이터 결과 해석 정리 - 3

by char_lie 2023. 4. 7.
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

4과목인 빅데이터 결과 해석을 정리한 내용


데이터 시각화

데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정

  • 정보 전달 : 데이터의 진실을 간단하고 정확하게 전달, 분석할 수 있는 실용적이고 과학적인 측면의 목적
  • 설득 : 데이터를 통해 전달하고자 하는 메시지에 대한 공감, 설득 등의 반응을 유도하는 추상적이고 예술적 측면의 목적

더보기

데이터 시각화는 그래픽적인 도구를 이용하여 데이터의 의미, 관계, 차이, 분포 등을 선명하게 표현한다. (답 : 1)

데이터 시각화 유형

  • 시간 시각화 : 시간 흐름에 따른 변화를 통해 경향을 파악하는 방법
  • 분포 시각화 : 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분하는 방법
  • 관계 시각화 : 집단 간의 상관관계를 확인하여 다른 수치의 변화 예측하는 방법
  • 비교 시각화 : 각각의 데이터 간의 차이점과 유사성 관계도 확인하는 방법
  • 공간 시각화 : 지도를 통해 시점에 따른 경향, 차이 등을 확인하는 방법

빅데이터 시각화 도구

  • 태블로 : 차트, 그래프, 지도를 포함한 다양한 그래픽 기능을 제공하는 시각화 도구
  • 인포그램 : 실시간으로 인포그래픽을 연동해 주는 시각화 도구
  • 차트 블록 : 코딩 없이 스프레드시트, 데이터베이스 형태 데이터를 쉽게 가시화하는 시각화 도구
  • 데이터 래퍼 : 쉽게 데이터를 업로드하고 차트나 맵으로 변환하는 시각화 도구

데이터 시각 절차

  • 구조화
    • 데이터 시각화 목표를 설정하고 분석 결과를 토대로 데이터의 표현 규칙과 패턴 탐색
    • 시각화를 위한 요건을 정의한 후 사용자에 따른 시나리오를 작성하고 스토리를 구성하는 단계
  • 시각화
    • 단순하고 명료한 메시지 전달을 위해 시각화 과정을 반보적으로 수행하여 시각화
    • 구조화 단계에서 정의된 시각화 요건, 스토리를 기반으로 적절한 시각화 도구와 기술을 선택하여 데이터 분석 정보의 시각화를 구현하는 단계
  • 시각 표현
    • 시각화 단계에서 만들어진 결과물을 보정
    • 정보표현을 위한 그래픽 요소를 반영하여 그래픽 품질을 향상함

비즈니스 기여도 평가

  • 총 소유 비용(TCO) : 하나의 자신을 획득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용
  • 투자 대비 효과(ROI) : 자본 투자에 따른 순효과의 비율을 의미(투자 타당성)
  • 순 현재가치(NPV) : 특정시점의 투자금액과 매출금액의 차이를 이자율을 고려하여 계산한 값
  • 내부 수익률(IRR) : 순 현재가치를 ‘0’으로 만드는 할인율(연 단위 기대수익 규모)
  • 투자 회수 기간(PP) : 누계 투자금액과 매출금액의 합이 같아지는 기간

비즈니스 기여도 평가 시 고려 사항

  • 효과 검증 : 데이터 모델링 과점을 통해 검출률 증가, 향상도(Lift) 개선 등의 효과 제시
  • 성능 검증 : 시뮬레이션을 통해 처리량, 대기 시간, 대기행렬의 감소를 통한 성능 측면의 효과를 제시
  • 중복 검증 : 타 모델링과의 중복에 따른 효과를 통제 · 제시할 수 있어야 함
  • 최적화 검증 : 최적화를 통해 목적함수가 증가한 만큼의 효과를 제시

시공간 시각화

  • 막대그래프 : 동일한 너비의 여러 막대를 사용하여 데이터를 표시하며, 각 막대는 특정 범주를 나타내는 그래프
  • 누적 막대그래프 : 막대를 사용하여 전체 비율을 보여주면서 여러 가지 범주를 동시에 차트로 표현가능
  • 선 그래프 : 수량을 점으로 표시하고, 점들을 선분으로 이어 그린 그래프
  • 영역 차트 : 선 그래프와 같이 시간에 값에 따라 크기 변화를 보여줌
  • 계단식 그래프 : 두 지점 사이를 선분으로 연결하기보다는 변화가 생길 때까지 x축과 평행하게 일정한 선을 유지
  • 추세선 : 데이터 값의 즉각적인 변화보다는 변화하는 경향성을 보여주는 직선 또는 곡선

 기출문제

더보기

막대그래프에서 굵기는 데이터 값과 상관이 없다. (답 : 3)

더보기

스케일은 그래프에 표현되는 데이터 값의 범위를 말하며, 각각의 축에 일정한 간격을 가지고 표시된다. (답 : 3)

더보기

범례는 차트에 표현되고 있는 기호나 선 등이 어떤 의미인지 설명하는 역할을 한다. (답 : 2)

공간 시각화

  • 등치지역도(코로플레스 지도) : 지리적 단위로 데이터의 의미를 색상으로 구분하여 표시
  • 등차선도 : 같은 값을 가지는 점을 선으로 이은 지도로 등치지역도의 데이터 왜곡을 줄 수 있는 결점을 극복
  • 도트맵 · 도트 플롯맵 : 지도상의 위도와 경도에 해당하는 좌표점에 산점도와 같이 점을 찍어 표현
  • 버블맵 · 버블 플롯맵 : 수치화된 데이터 값의 크기를 나타내는 서로 다른 크기의 원형으로 표시
  • 카토그램 : 지역의 값을 표현하기 위해 지리적 형상 크기를 조절

분포 시각화

  • 파이 차트 : 원형 모양을 데이터가 차지하는 비율에 따라 여러 조각으로 나누어서 나타내는 시각화 방법
  • 도넛 차트 : 파이 차트와 비슷하지만, 중심 부분이 비어 있는 도넛 모양의 시각화 방법
  • 트리맵 : 여러 계층 구조 데이터를 표현하는 시각화 방법
  • 누적 영역 그래프 : 여러 개의 영역 차트를 겹겹이 쌓아놓은 모양의 시각화 방법, 가로축은 시간을 나타내고 세로축은 데이터를 나타냄

관계 시각화

  • 산점도 : x축과 y축 각각에 두 변숫값의 순서쌍을 한 점으로 표시하여 변수의 관계를 나타낸 그래프
  • 산점 도행렬 : 다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프
  • 버블 차트 : 산점도에서 데이터값을 나타내는 점 또는 마크에 여러 가지 의미를 부여하여 확장된 차트
  • 히스토그램 : 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프
  • 네트워크 그래프 : 개체 간 논리적인 관계를 표현하는 시각화 도구

 기출문제

더보기

평행좌표계는 스타차트처럼 하나 이상의 대상에 대한 특징을 보여주는 것으로 데이터 값을 분포를 표현하기에는 적합하지 않다. (답 : 4)

더보기

산점도는 두 변수의 값을 2차원 좌표계를 활용하여 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현한다. (답 : 4)

더보기

산점도는 3차원으로 표현할 수도 있다. (답 : 3)

비교 시각화

  • 플로팅 바 차트 : 막대가 가장 낮은 수치부터 가장 높은 수치까지 걸쳐있게 표현한 차트
  • 히트맵 : 여러 가지 변수를 비교할 수 있는 시각화 그래프
  • 체르노프 페이서 : 데이터를 눈, 코, 귀, 입 등과 일대일 대응하여 얼굴 하나로 표현하는 방법
  • 스타 차트 : 각 변수를 표시 지점을 연결선을 통해 그려 별 모양의 도형으로 나타낸 차트
  • 평행 좌표 : 다변량 데이터를 2차원 평면에 표현하는 효과적인 가시화 방법

 기출문제

더보기

시각적 분석은 상호작용이 가능한 시각적 인터페이스를 사용해 데이터의 분석적 추론을 진행하는 과정을 말한다. 문제의 크기가 크거나 복잡한 영역에서 시각적으로 다양한 측면에 따라 사람과 컴퓨터가 상호작용하면서 분석을 진행한다. (답 : 3)

더보기

다차원 척도법은 모든 변수를 비교해서 비슷한 대상을 그래프 상에 가깝게 배치하는 방법으로 대상들 간의 거리 또는 유사성을 이용하여 원래의 차원(변수의 수) 보다 낮은 차원의 공간상에 위치시킴으로써 대상 간의 유사성을 쉽게 파악할 수 있다. (답 : 1)

더보기

스타차트도 여러 개의 대상을 하나의 차트에 동시에 표현할 수 있다. (답 : 3)

인포그래픽

복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형 있게 조합

  • 지도형 : 특정 국가나 지역의 지도 안에 정보를 담는 방식
  • 도표형 : 다양한 표와 그래프를 사용해 정보를 담는 방식
  • 스토리텔링형 : 하나의 사건이나 주제에 대해 이야기를 들려주는 구성방식
  • 타임라인형 : 주제를 선정하여 관련된 히스토리를 타임라인 형태로 나타내는 방식
  • 비교분석형 : 두 가지 이상의 제품, 개념을 비교하는 방식
  • 만화형 : 캐릭터 등의 만화적 요소를 활용한 방식

빅데이터 모형 개발 및 운영 단계

  • 분석 목적 정의
    • 분석을 위해서 문제가 무엇인지, 어떠한 방식으로 분석하고 문제를 해결해야 하는지에 대한 목적을 명확히 해야 함
    • 문제 해결을 위한 분석 기법으로서 빅데이터 모형의 적용 가능성을 판단해야 함
  • 가설 검토
    • 분석의 목적을 명확히 한 이후, 빅데이터 모형 개발을 통해 문제 해결에 적합한 가설 수립
    • 통계적으로 어떤 유의미한 결론을 도출하여 그 결과를 어떻게 활용하여 문제를 해결할 것인지에 대한 구체적인 검토 수행
  • 데이터 준비 및 처리
    • 빅데이터 모형 구축 및 이를 활용한 분석을 위한 데이터를 파악하고 이들을 수집, 저장해야 함
    • 불필요한 변수를 제거하고 변수 변환, 새로운 파생변수를 생성하는 등의 작업을 통해 변수별로 분석 모형에 포함하는 것이 타당한지 확인
    • 데이터 마이닝 기반 분석 모형을 개발할 때는 훈련 데이터 세트, 평가 데이터 세트, 검증 데이터 세트로 수집된 데이터를 나누는 작업 수행
  • 모델링 및 분석
    • 앞선 단계에서 검토되었던 사안을 구체적인 통계적 질문으로 변환하는 단계
    • 분석 모적에 부합하는 빅데이터 분석 유형 및 적합한 모형 선택
  • 정확도 및 성능 평가
    • 도출된 빅데이터 분석 모형에 대하여 검증 데이터 세트를 이용하여 분석 모형의 성능을 평가하는 단계
  • 운영
    • 분석 모형을 운영 시스템과 통합
    • 분석 목적에 맞게 도출된 빅데이터 분석 모형 활용

 기출문제

더보기

빅데이터 분석의 근원적인 목적은 과거의 데이터를 토대로 미래를 분석하는 성격으로 서비스 가이드라인 제정과는 거리가 멀다. (답 : 4)

빅데이터 모형의 운영 시스템 적용 단계

  • 분석 모형 적용 모듈 결정
    • 빅데이터 분석 모형을 운영 시스템에 적용할 때, 먼저 운영 시스템의 구성을 이해하고 어떤 모듈에 도출된 분석 모형을 적용할지 판단
    • 통계기반 빅데이터 분석 모형 개발은 분석 목적에 부합되게 개발되어야 함
  • 분석 모형 통합 결정 및 구현
    • 분석 모형 개발언어 혹은 패키지 등을 고려하여 운영 시스템 내 모듈과 어떠한 방식으로 통합할지를 결정하고 구현
    • 분석 모형이 개발되고 성능 평가가 이루어진 이후에는 운영 시스템과의 통합을 위하여 통합 방식 결정

빅데이터 모형의 개선 방안

  • 예측 모형에 대한 성능추적
    • 예측 모형에 대해 예측 오차를 지속적으로 추적하여 예측 오차가 계속 증가하는지 혹은 감소하는지 확인 필요
    • 예측 오차의 추적을 통해 예측 모형의 타당성을 지속 확인
  • 예측 모형에 대한 개선방안
    • 예측 오차의 지속적인 추적을 통해 예측 모형의 점검이 필요하게 되면 두 가지 방법을 따름
    • 일반적으로 같은 분석 모형을 사용하되 새로운 데이터를 수집하여, 재학습을 위해 해당 분석 모형에 적용하여 수정된 분석 모형 도출

빅데이터 모형 운영 및 개선 방안 수립 절차

  1. 예측 오산 계산 : 예측 모형의 성능을 지속해서 추적하기 위해서 매회 예측 모형 수행 시 그 결괏값과 실제값과의 차이인 예측 오차를 계산하고 기록
  2. 예측 모형의 점검 여부 결정 : 새로 계산된 예측 오차를 가지고 추적 신호를 다시 계산하고, 관리도를 활용하여 추적 신호 추적
  3. 예측 모형 개선 방향 결정 : 예측 모형이 추적 신호 상한 혹은 하한을 벗어나서 개선이 필요할 경우 예측 모형 개선방안을 모색해야 함

분석 결과 활용 시 고려사항

  • 분석 모형 최종 평가 시에는 학습할 때 사용하지 않았던 데이터를 사용
  • 정확도, 재현율 등의 평가 지표를 분석 모형 성능 지표로 활용
  • 분석 모형 개발과 피드백 적용을 반복적으로 수행하여 분석 모형의 성능을 향상

분석 모형의 결과를 활용할 수 있는 분야 파악

  • 직접 활용 분야 도출
    • 빅데이터 분석 모형의 분석 결과를 이용해서 해당 업무의 가치 사슬에서 직접 활용할 수 있는 분야 파악
    • 일반적으로 빅데이터 서비스를 위해 분석 모형을 구상해서 모형을 개발하는 경우 활용 방안이 정의되어 있음
  • 파생 활용 분야 도출
    • 빅데이터 분석 결과를 직접 활용할 수 있는 분야를 토대로 파생 활용이 가능한 분야 파악
    • 분석 모형 정의서에 명시되어 있는 활용 방안을 확대하거나, 해당 분석 모형과 유사 또는 관련이 있는 업무의 가치 사슬에서 분석 결과를 활용할 수 있는 분야 파악

초기 아이디어 개발 관점 분류

  • 마인드맵 방식의 분류 : 마인드맵 방식의 분류는 생각하고 있는 것, 기억하고 있는 내용을 마음속에 지도를 그리듯 줄거리를 이해하며 정리하는 방법
  • 친화 도표 방식의 분류 : 친화 도표는 관련성이 있는 아이디어끼리 같이 묶어서 분류하는 방법
  • 피라미드 방식의 분류 : 피라미드 방식의 분류는 계층 구조가 중요할 대 적용하면 유용한 방식

서비스 품질 관점의 제공 가치

  • 반응성 : 고객의 질문, 요구 및 불만 등에 대하여 종업원 반응의 신속성
  • 공감성 : 친절성이나 진정성
  • 확신성 : 서비스에 대하여 고객이 느껴지는 믿음과 확신, 또는 위험이나 불신, 의혹으로부터의 자유
  • 유형성 : 서비스를 제공하는 건물, 장소, 시설, 인테리어 등과 같은 유형적인 것
  • 신뢰성 : 약속한 서비스를 정확하게 수행하는 능력

분석 모형 모니터링

  • 데이터 분석 전문 솔루션으로 각종 분석 및 시각화 솔루션
  • R Studio에서 제공하는 샤이니를 이용해 모델링 결과를 사용자 작업 파일과 서버상의 파일을 이용해 간단히 배포가능

분석 모형 모니터링 고려 사항

  • 시뮬레이션 : 모델 적용을 위한 프로세스와 업무 규칙이 문서화되고 이해관계자 간 공유
  • 최적화 : 최적화 솔루션의 결과를 시스템과 인터페이스가 가능하도록 데이터베이스 연동 프로그램을 개발

분석 모형 리모델링

  • 빅데이터 모형의 지속적인 성과모니터링을 통하여 편차가 일정 수준 이상으로 지속적으로 하락하는 경우 기존 빅데이터 모형에 대해 데이터 마이닝, 시뮬레이션, 최적화를 적용하는 개조 작업
  • 리모델링 시 수행 업무
    • 데이터 마이닝 : 동일한 데이터를 이용해 학습을 다시 수행하거나 변수를 추가해 학습을 다시 수행
    • 시뮬레이션 : 이벤트 발생 패턴의 변화, 시간 지연의 변화, 이벤트를 처리하는 리소스 증가, 큐잉 우선순위, 자원 할당 규칙 변화 등 처리
    • 최적화 : 오브젝트 함수의 계수 변경이나 제약조건에 사용되는 제약 값의 변화와 추가

 기출문제

더보기

빅데이터 분석목적에 따른 분석과제 선정과 별개로 분석 결과의 기여도 평가 정의가 필요하다. (답 : 3)

더보기

분석 인력에 대한 관리는 분석 서비스 유지관리의 주요 대상이다. (답 : 4)

더보기

분석 모니터링은 분석 프로젝트가 종료된 후 운영단계의 활동이다. (답 : 4)

더보기

주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영하기 위해 분석 모형을 지속적으로 모니터링하고 리모델링해야 한다. (답 : 1)

더보기

버스 요금 인상은 분석범위에 해당하지 않는다. (답 : 4)

더보기

서비스 요구사항은 신규 프로젝트 계획에서 검토하는 것이 적합하다. (답 : 3)

기타 기출문제

더보기

답 : 3

더보기

회귀분석에서의 잔차진단 유형으로 잔차의 정규성, 등분산성, 독립성 진단이 있다. (답 : 2)

더보기

군집타당성지표(Clustering Validity Index)는 군집 간 분산과 군집 내 분산으로 군집 간 거리, 군집의 지름, 군집의 분산 등을 고려한다. (답 : 4)

더보기

초매개변수(하이퍼파라미터)란 사람이 직접 설정해주어야 하는 매개변수로 뉴런의 수, 배치(batch) 크기, 학습률(learning rate), 가중치 감소 시의 규제 강도(regularization strength) 등이 있다. (답 : 1)

더보기

KNN은 비교시각화 기법의 평행좌표계로써 변수들과의 연관성 및 그룹데이터의 경향성을 파악한다. (답 : 2)

더보기

딥러닝 모델은 파라미터, 가중치 시각화 및 특징 차원감소를 통해 노드-링크 다이어그램, 산포도, 차원축소 등으로 시각화할 수 있다. (답 : 4)

더보기

사각형의 크기를 이용해서 데이터 값을 표현한다. (답 : 3)

더보기

초매개변수 최적화 기법으로 미니배치 크기, 훈련반복 횟수, 은닉층 개수조정 등이 있다. (답 : 4)

더보기

딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용한다. (답 : 1)

더보기

연관분석 모델은 연관규칙을 생성하는 Aporior 알고리즘을 주로 사용하며 두 개 또는 그 이상의 품목들 사이의 상호 관련성으로 해석한다. (답 : 3)

반응형

댓글