본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 2

by char_lie 2023. 4. 3.
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

1과목인 빅데이터 분석 기획을 정리한 내용


빅데이터 기술 및 제도

빅데이터 플랫폼

  • 빅데이터에서 가치를 추출하기 위해 수집 → 저장 → 분석 → 활용을 규격화한 기술
  • 특화된 분석을 지원하는 빅데이터 플랫폼 발전 추세
  • 빅데이터 플랫폼 구성 요소
    • 수집 : 원천 데이터의 정형 / 반정형 / 비정형 데이터 수집
    • 저장 : 정형 데이터, 반정형 데이터, 비정형 데이터 저장
    • 분석 : 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
    • 활용 : 데이터 가시화 및 BI, Open API 연계

더보기

→ 빅데이터 플랫폼의 요소기술에는 데이터 생성기술, 수집기술, 저장기술, 공유기술, 처리기술, 분석기술, 시각화 기술이 있다. (답 : 4)

더보기

→ 빅데이터 플랫폼의 부하 제어 기능으로는 컴퓨팅 부하 제어, 저장 부하 제어, 네트워크 부하 제어가 있다. (답 : 2)

하둡 에코시스템

  • 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임
  • 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분

하둡 에코시스템 기술

  • 비정형 데이터 수집
    • 척와 : 분산된 각서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술
    • 플럼 : 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
    • 스크라이브 : 다수의 서버로부터 실시간으로 스트리밍 되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
  • 정형 데이터 수집
    • 스쿱 : 커넥터를 사용하여 RDBMS에서 HDFS로 데이터를 수집하거나, HDFS에서 RDBMS로 데이터를 보내는 기술
    • 히호 : 스쿱과 같은 대용량 데이터 전용 솔루션
  • 분산 데이터 저장
    • HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
  • 분산 데이터 베이스
    • HBASE : HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터베이스
  • 분산 데이터 처리
    • 맵리듀스 : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크 (split → Map → Shuffle → Reduce 순으로 데이터 처리)

※ 기출문제

더보기

→ 맵리듀스의 데이터 처리 과정은 분할(Split), 맵(Map) 처리, 셔플(Shuffle), 리듀스(Reduce) 단계로 이어진다 (답 : 1)

  • 리소스 관리
    • 얀 : 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
  • 인메모리 처리
    • 아파치 스파크 : 하둡 기반 대규모 데이터 분산처리시스템
  • 데이터 가공
    • 피그 : 대용량 데이터 집합을 분석하기 위한 플랫폼
    • 하이브 : 하둡 기반의 DW 솔루션
  • 데이터 마이닝
    • 머하웃 : 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
  • 실시간 SQL 질의
    • 임팔라 : 하둡 기반의 실시간 SQL 질의 시스템
    • 타조 : 다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 DW에 적재하는 시스템
  • 워크플로우 관리
    • 우지 : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
  • 분산 코디네이션
    • 주키퍼 : 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술

개인정보보호법

개인정보보호의 필요성

  • 유출 시 피해 심각 : 개인적 피해와 함께 사회적 혼란 야기
  • 정보사회 핵심 인프라 : 정보사회에서 모든 경제활동의 중심이 개인정보를 매개로 운영
  • 개인정보 자기 통제권 : 정보 주체는 자신과 관련된 정보의 수집, 이용, 공개, 제공에 대해 본인이 통제할 수 있는 권리가 있음

개인정보보호 가이드라인

  • 개인정보비식별화 : 수집 시부터 개인 식별 정보에 대한 철저한 비식별화 조치
  • 개인정보 재식별 시 조치 : 개인정보 재식별 시, 즉시 파기 및 비식별화 조치
  • 민감정보처리 : 민감정보 및 통신비밀의 수집, 이용, 분석 등 처리 금지
  • 투명성 확보 : 빅데이터 처리 사실, 목적 등의 공개를 통한 투명성 확보
  • 수집정보의 보호조치 : 수집된 정보의 저장관리 시 기술적, 관리적 보호조치

※ 기출문제

더보기

→ 비식별화된 개인정보가 재식별된 경우 즉시 파기하거나 추가적인 비식별화 조치를 하여야 한다. (답 : 3)

더보기

→ 개인으로 인식될 수 있는 가능성을 가진 데이터를 식별하기 어려운 형태로 가공하는 과정을 비식별화라고 한다.(답 : 1)

더보기

→ 가명처리 기법의 세부기술로는 휴리스틱 가명화, 암호화, 교환 방법이 있으며, 제어 라운딩은 데이터 범주화 기법의 세부기술이다. (답 : 4)

개인정보보호 관련 법령

  • 개인정보 보호법 : 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정
  • 정보통신망법 : 정보 통신망 이용 촉진 및 정보보호 등에 관한 법률
  • 신용정보법 : 신용정보의 이용 및 보호에 관한 법률
  • 위치정보법 : 위치정보의 보호 및 이용 등에 관한 법률

개인정보보호 관련 용어

  • 개인정보 : 개인에 관한 정보로 다른 정보와 결합하여 개인을 알아볼 수 있는 정보
  • 가명처리 : 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리하는 기술
  • 개인정보의 처리 : 개인정보의 수집, 생성, 연계, 연동, 기록, 저장, 보유, 가공, 편집, 검색, 출력, 정정, 복구, 이용, 제공, 공개, 파기, 그 밖에 이와 유사한 행위
  • 정보 주체 : 처리되는 정보에 의하여 알아볼 수 있는 사람으로서 그 정보의 주체가 되는 사람
  • 개인정보파일 : 개인정보를 쉽게 검색할 수 있도록 일정한 규칙에 따라 체계적으로 배열하거나 구성한 개인정보의 집합물
  • 개인정보처리자 : 업무를 목적으로 개인정보파일을 운용하기 위하여 스스로 또는 다른 사람을 통하여 개인정보를 처리하는 공공기관, 법인, 단체 및 개인
  • 영상정보처리기기 : 일정한 공간에 지속적으로 설치되어 사람 또는 사물의 영상 등을 촬영하거나 이를 유 · 무선망을 통하여 전송하는 장치로서 대통령령으로 정하는 장치
  • 과학적 연구 : 기술의 개발과 실증, 기초연구, 응용연구 및 민간 투자 연구 등 과학적 방법을 적용하는 연구

※ 기출문제

더보기

→ 개인정보의 판단 기준은 생존하는 개인에 관한 정보여야 하며, 개인에 관한 정보여야 하고, 정보의 내용이나 형태 등은 제한이 없으며, 개인을 알아볼 수 있는 정보여야 하고, 다른 정보와 결합하여 개인을 알아볼 수 있는 정보도 포함된다. (답 : 2)

더보기

개인정보보호법의 개인정보 범위에서는 개인정보를 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보라 정의하고 있다. (답 : 3)

데이터 3 법 개정 내용

  • 가명 정보 도입 : 데이터 이용 활성화를 위한 가명 정보 개념 도입
  • 거버넌스 체계 효율화 : 관련 법률의 유사 · 중복 규정을 정비하고 추진체계를 일원화하는 등 거버넌스 체계의 효율화
  • 책임 강화 : 데이터 활용에 다른 개인정보처리자의 책임 강화
  • 기준 명확화 : 모호한 개인정보 판단 기준의 명확화

데이터 3 법 주요 법률

  • 개인정보 보호법 : 데이터 이용 활성화를 위한 가명 정보 개념 도입
  • 정보통신망법 : 개인정보보호 관련 사항은 개인정보 보호법으로 이관
  • 신용정보법 : 금융 분야 빅데이터 분석 · 이용의 법적 근거 명확화

프라이버시 보호 모델

  • k - 익명성 : 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델
  • l - 다양성 : 주어진 데이터 집합에서 함께 비식별되는 레코드들은 적어도 l개의 서로 다른 민감한 정보를 가져야 하는 프라이버시 모델
  • t - 접근성 : 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 1 이하의 차이를 보여야 하는 모델
  • m - 유일성 : 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델

※ 기출문제

더보기

→ 비식별화된 개인정보의 재식별 가능성 검토 기법으로는 k-익명성, l-다양성, t-접근성이 있다. (답 : 1)

마이 데이터

  • 개인이 자신의 정보를 관리, 통제하고 신용이나 자산관리 등에 능동적으로 활용하는 과정
  • 마이 데이터 원칙
    • 데이터 권한 : 개인이 개인 데이터의 접근, 이동, 활용 등에 대한 통제권 및 결정권 보유
    • 데이터 제공 : 개인 데이터를 보유한 기관은 개인이 요구할 때, 개인 데이터를 안전한 환경에서 쉽게 접근하여 이용할 수 있는 형식으로 제공
    • 데이터 활용 : 개인의 요청 및 승인에 의한 데이터의 자유로운 이동과 제3자의 접근이 가능해야 함

※ 기출문제

더보기

→ 마이데이터는 개인이 자신의 데이터를 자신을 위해서 사용한다는 사상을 담은 것으로 데이터 권리 시대에 해당한다. (답 : 4)


뒤로 이어지는 내용

https://edder773.tistory.com/128

 

[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 3

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글