본문 바로가기
자격증/빅데이터 분석 기사

[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 5

by char_lie 2023. 4. 3.
반응형

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래)

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

1과목인 빅데이터 분석 기획을 정리한 내용


데이터 수집 유형

  • 내부 데이터
    • 조직 내부에 데이터가 위치하며, 데이터 담당자와 수집 주기 및 방법 등 협의
    • 내부 조직 간 협의를 통한 데이터 수집
    • 주로 수집이 용이한 정형 데이터
    • 서비스의 수명 주기 관리 용이
    • 분야별 사용 예시) 서비스 : SCM, ERP, CRM, 거래 시스템 / 네트워크 : 방화벽, IPS, IDS / 마케팅 : 고객 포털 사이트

※ 기출문제

더보기

→ 내부 데이터에는 서비스 시스템 데이터, 네트워크 및 서버 장비 제이터, 마케팅 데이터가 있으며, 외부 데이터로는 소셜 데이터, 특정 기관 데이터, M2M 데이터, Linked Open Data가 있다. (답 : 4)

  • 외부 데이터
    • 조직 외부에 데이터가 위치하며, 특정 기관의 담당자 협의 또는 데이터 전문 업체 통해 데이터 수집
    • 공공 데이터의 경우 공공 데이터 사이트에서 Open API나 파일을 통해 수집
    • 주로 수집이 어려운 비정형 데이터
    • 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터를 통한 데이터 수집
    • 분야별 사용 예시) 소셜 : SNS, 커뮤니티 / 네트워크 : 센서 데이터 / 공공 : 의료, 지역정보, 교육, 기술

※ 기출문제

더보기

→ 외부 데이터의경우 외부 환경에 대한 통제가 어려움에 따른 서비스 관리 정책 수립이 필요하다. (답 : 2)

ETL

DW(데이터 웨어하우스) 및 DM(데이터 마트)으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출 · 변환 · 적재 하는 기술

  • 추출 : 동일 기종 또는 타기종 소스 데이터베이스로부터 데이터를 추출 (JDBC, ODBC, 3rd party 툴 등 사용)
  • 변환 : 조회 또는 분석을 목적으로 적절한 포맷이나 구조로 데이터를 저장하기 위해 데이터 변환
  • 적재 : 추출 및 변환된 데이터를 DM 또는 DW에 저장, Insert, Delete, Update, Append 수행

FTP

TCP/IP 프로토콜 기반으로 서버, 클라이언트 사이에서 파일 송수신하기 위한 프로토콜

  • ACTive FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번포트를 통해 클라이언트의 임의의 포트로 데이터를 전송해주는 방식 (명령은 21번, 데이터는 20번 포트)
  • Passive FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식 (명력은 21번, 데이터는 1024 이후 포트)

스쿱(Sqoop)의 특징

커넥터를 사용하여 RDBMS에 HDFS(하둡 파일 시스템)으로 데이터를 수집하거나 HDFS에서 RDBMS로 데이턱를 보내는 기술

  • 벌크 임포트 지원 : 전체 데이터베이스 또는 테이블을 HDFS로 한 번에 전송 가능
  • 데이터 전송 병렬화 : 시스템 사용률과 성능을 고려한 병렬 데이터 전송
  • 직접 입력 제공 : RDB에 매핑해서 HBase와 Hive에 직접 import 제공
  • 프로그래밍 방식의 데이터 인터랙션 : 자바 클래스 생성을 통한 데이터 상호작용

스쿱 구성요소

  • 스쿱 클라이언트 : 스쿱 1에서 지원하며, 클라이언트 기반으로 import와 export 제공
  • 스쿱 서버 : 스쿱 2에서 지원하며, 클라이언트의 요청을 받아 작업 수행
  • 커넥터 : FTP, JDBC, HDFS, 카프카 등과 연결하여 데이터 이동을 수행하는 기술
  • Import : 다른 RDBMS의 데이터를 지정된 HDFS, Hive, Hbase로 가져오기 기능
  • Export : 저장소의 데이터를 다른 RDBMS로 내보내기 기능

스크래파이(Scrapy) 특징 및 기능

파이썬 언어 기반의 비정형 데이터 수집 기술

  • 특징
    • 파이썬 언어 기반으로 구성, 설정이 쉬움
    • 크롤링 후 바로 데이터 처리 가능
    • scrapyed, scrapinghub 등의 부가 기능, 쉬운 수집, 로깅 지원
  • 주요 기능
    • Spide : 크롤링 대상 웹 사이트 및 웹 페이지의 어떤 부분을 스크래핑 할 것인지 명시하는 기능
    • Selector : 웹 페이지의 특정 HTML 요소를 선택하는 기능 (LXML 기반으로 제작 가능)
    • Items : 웹 페이지를 스크랩하여 저장할 때 사용되는 사용자 정의 자료 구조
    • Pipelines : 스크래핑 결과물을 아이템 형태로 구성할 때 가공하거나 파일 형태로 저장 제공
    • Settings : Spider와 Pipeline을 동작시키기 위한 세부 설정

아파치 카프카(Apache Kafka) 특징 및 기능

대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼

  • 특징
    • 신뢰성 제공 : 메모리 및 파일 큐 기반의 채널 지원
    • 확장성 제공 : Multi Agent, Consolidation, Fan Out Flow 방식으로 구성되어 수평 확장 및 수집 분산 처리 가능
  • 주요 기능
    • 소스 : 외부 이벤트 생성, 수집 영역으로 1개로 구성되어 여러 개의 채널 지정 가능
    • 채널 : 소스와 싱크 간 버퍼 구간으로 채널별로 1개 싱크 지정
    • 싱크 : 채널로부터 수집된 로그 또는 이벤트를 목적지에 전달 및 저장
    • 인터프리터 : 수집된 로그 또는 이벤트 가공

플럼(Flume) 특징 및 기능

많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술

  • 특징
    • 발행 · 구독 모델 : 풀 방식으로 동작하여 부하 감소 및 고성능의 기능 제공
    • 고가용성 제공 : 클러스토 구성 통해 내결함성이 있는 고가용성 서비스를 제공하여 분산 처리를 통해 빠른 실시간 데이터 처리가 가능
    • 파일 기반 저장 방식 : 데이터를 디스크에 순차적으로 저장
  • 주요 기능
    • 소스 : 이벤트를 전달하는 컨테이너로 소스, 채널, 싱크로 흐름을 제어
    • 채널 : 이벤트를 소스와 싱크로 전달하는 통로
    • 싱크 : 채널로부터 받은 이벤트를 저장, 전달

스크라이브(Scribe) 특징

다수의 서버로부터 실시간으로스트리밍되는 로그데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술

  • 실시간 스티리밍 수집 : 다수의 서버로부터 실시간으로 스트리밍되는 로그 수집
  • 확장 : 아파치 Thrift 기반 스크라이브 API를 활용하여 확장 가능
  • 데이터 수집 다양성 : 클라이언트 서버 타입에 상관없이 로그 수집 가능
  • 고가용성 : 중앙 스크라이브 서버 장애시, 로컬 스크라이브 서버에 데이터를 저장한 후 중앙 스크라이브 서버 복구 시 메시지를 전송

척와(Chukwa) 특징 및 기능

분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 수집하여 HDFS에 저장 및 실시간 분석 기능을 제공하는 기술

  • 특징
    • HDFS 연동 : 수집된 로그 파일을 HDFS에 저장하는 기능 지원
    • 실시간 분석 제공 : HDFS를 통한 실시간 분석 지원
    • 청크 단위 처리 : 어댑터가 데이터를 메타데이터가 포함된 청크 단위로 전송
  • 기능
    • 에이전트 : 컬렉터 페일오버 기능과 체크 포인트를 통해 데이터 유실 방지 기능 제공
    • 컬렉터 : 여러 에이전트로부터 수신된 데이터를 단일 싱크 파일에 저장 및 주기적으로 HDFS에 저장
    • 아키이빙 : 데이터 중복 제거 및 정렬 작업을 수행하고 HDFS Sequence File 포맷으로 저장
    • 디먹스 : 로그 레코드를 파싱해서 key-value 쌍으로 구성되는 척와를 만들고, 하둡 파일 시스템에 파일로 저장

기타 기술

  • CEP (Complex Event Processing)
    • 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술
    • 실시간 상황에서 의미 있는 이벤트를 파악하고 빠른 대응 가능
  • EAI (Enterprise Application Integration)
    • 기업에서 운영되는 서로 다른 플랫폼 및 어플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해주는 연계 기술
    • 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높이거나 시스템간의 확장성을 높일 수 있음
  • CDC(Change Data Capture)
    • 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른시스템으로 이동하는 처리 기술
    • 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용
  • ODS(Operational Data Store)
    • 데이터에 대한 추가 작업을 위해 다양한 데이터 소스로부터 데이터를 추출 및 통합한 데이터베이스
    • 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관
  • 크롤링(Crawling)
    • 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네이트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술
  • RSS(Rich Site Summary)
    • 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
  • Open API
    • 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술
    • 센서 데이터, 공공 데이터등의 정보 수집 가능

구조 관점의 데이터 유형

  • 정형 데이터 : 정형화된 스키마 구조 기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 갖는 데이터 (관계형 데이터 베이스, 스프레드시트 등)
  • 반정형 데이터 : 스키마 구조 형태를 가지고 메타데이터를 포함하며 값과 형식에서 일관성을 갖지 않는 데이터 (XML, HTML, JSON, RSS, 로그 데이터 등)
  • 비정형 데이터 : 스키마 구조 형태를 가지지 않고, 고정된 필드에 저장되지 않는 데이터(SNS, 웹 게시판, 텍스트,이미지,오디오 등)

더보기

→ 전화번호는 일반적으로 숫자로 구성되며, 이는 정형 데이터에 해당한다. (답 : 4)

시간 관점의 데이터 유형

  • 실시간 데이터 : 생성된 이후 최대한 빠른시간 안에 처리돼야 의미있는 현재 데이터(센서 데이터, 시스템 로그 네트워크 로그, 알림 등)
  • 비실시간 데이터 : 생성된 이후 일정 기간 이후에 처리되어야 의미있는 과거 데이터(통계, 웹 로그, 서비스 로그 등)

저장 형태 관점의 데이터 유형

  • 파일(File) : 시스템 로그, 서비스 로그, 텍스트, 스프레드시트 등과 같은 파일 형식으로 파일 시스템에 저장되는 데이터 (대용량이거나, 개수가 다수인 데이터)
  • 데이터베이스(Database) : RDBMS, NoSQL, 인메모리 데이터베이스 등에 의해 데이터 종류나 성격에 따라 데이터베이스의 칼럼 or 테이블 등에 저장된 데이터
  • 콘텐츠(Content) : 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분 될 수 있는 미디어 데이터
  • 스트림(Stream) : 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해 실시간으로 전송되는 데이터

데이터 변환 기술

  • 평활화(Smoothing) : 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법
  • 집계(Aggregation): 다양한 차원의 방법으로 데이터를 요약하는 기법
  • 일반화 (Generalization) : 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법
  • 정규화 (Normalization) : 데이터를 특정 구간으로 바꾸는 척도법
  • 속성 생성 (Attribue) : 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법

※ 기출문제

더보기

→ TCP 방식에서 Open API로 수집하여 저장하는 방식은 데이터 변환 방식의 종류가 아니라 데이터를 수집하는 방식을 변경하는 것이다. (답 : 2)

데이터 비식별화 처리 대상

  • 그 자체로 개인을 식별 할 수 있는 정보 : 이름, 주민등록번호, 외국인 번호 등
  • 다른 정보와 결합하여 개인을 알아볼 수 있는 정보 : 성별, 생일, 나이, 학교명, 학력명 등

데이터 비식별화 처리 기법

  • 가명 처리
    • 개인 식별이 가능한 데이터에 대해 직접 식별할 수 없는 다른 값으로 대체하는 기법
    • 완전 비식별화가 가능하며 데이터의 변형 변질 수준이 낮음
    • ex) 홍길동, 20세, 서울 거주 → 김가명, 20대, 서울 거주
  • 총계 처리
    • 개인정보에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없게 하는 기법
    • 민감한 정보에 대하여 비식별화가 가능하며 다양한 통계분석용 데이터 세트 작성에 유리
    • ex) A 160cm, B 150cm, C 155cm → 반 학생들 키의 합 465cm, 평균 155cm
  • 데이터값 삭제
    • 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
    • 민감한 개인 식별 정보에 대하여 완전한 삭제 처리가 가능하여 예측, 추론 등이 어렵게 함
    • ex) 주민등록 번호 : 800401 - 1234567 → 80년대생 남자
  • 범주화
    • 단일 식별 정보를 해당 그룹의 대표값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법
    • 범주나 범위를 이용해 다양한 분석 및 가공이 가능
    • ex) 홍길동, 46세 → 김 씨, 40~50세
  • 데이터 마스킹
    • 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값으로 변환하는 기법
    • ex) 홍길동, 31세, 서울 거주, 길동대학교 → 홍OO, 서울 거주, OO대학교

재현 데이터 특징

  • 실제로 측정된 원본 자료를 활용하여 통계적 방법이나 기계학습 방법 등을 이용하여 새롭게 생성한 모의 데이터
  • 원본 자료와 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해 개인정보의 특징을 분석하여 새로운 데이터를 생성
  • 원본 자료와 다르지만, 원본 자료와 동일 분포를 따르도록 통계적으로 생성한 자료
  • 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음

재현 데이터의 유형

  • 완전 재현 데이터
    • 원본 자료 속성 정보 모두를 재현 데이터를 이용하여 생성한 데이터
    • 정보보호 측면에서 가장 강력한 보안성을 가짐
  • 부분 재현 데이터
    • 민감하지 않은 정보는 그대로 두고, 민감한 정보에 대해서만 재현 데이터로 대체한 데이터
  • 복합 재현 데이터
    • 일부 변수들의 값을 재현 데이터로 생성 후 생성된 재현 데이터와 실제 변수를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성한 데이터

개인정보 익명 처리 기법

  • 가명 처리 : 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
  • 일반화 : 더 일반화된 값으로 대체하는 것, 숫자 데이터는 구간, 범주화된 속성은 트리의 계층 구조에 의해 대체하는 기법
  • 섭동 : 원래 데이터를 동일한 확률적 정보를 가지는 변형된 값으로 대체하는 기법
  • 치환 : 특정 컬럼의 데이터를 무작위로 순서를 변경하는 기법

※ 기출문제

더보기

→ 익명화는 사생활 침해를 방지하기 위하여 데이터에 포함된 개인정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 방법이다. (답 : 4)

비식별 조치

  • 식별자 조치 기준 : 정보 집합물에 포함된 식별자는 원칙적으로 삭제 조치
  • 속성자 조치 기준 : 데이터 이용 목저과 관련이 없는 속성자의 경우 원칙적으로 삭제
  • 비식별 조치 방법 : 여러 비식별 조치 방법을 이용하여 단독 또는 복합적 활용

적정성 평가

  • 기초 자료 작성 : 적정성 평가에 필요한 기초자료 작성
  • 평가단 구성 : 개인정보보호 책임자가 3명 이상의 관련 분야 전문가로 구성
  • 평가 수행 : 여러 프라이버시 보호 모델을 활용하여 비식별 수준 적정성 평가
  • 추가 비식별 조치 : 평가결과가 부적정인 경우, 추가 비식별 조치 실시
  • 데이터 활용 : 평가 결과가 적정인 경우, 해당 데이터를 빅데이터 분석에 이용하거나 제3자에게 제공

사후 관리

  • 비식별 정보 안전조치 : 비식별 조치된 정보가 유출되는 경우 다른 정보와 결합하여 식별될 우려가 존재하므로 필수적 보호 조치 이행
  • 재식별 가능성 모니터링 : 비식별 정보를 이요하여 제3자에게 제공하는 경우, 정보의 재식별 가능성을 정기적으로 모니터링 수행

뒤로 이어지는 내용

https://edder773.tistory.com/131

 

[빅데이터 분석 기사 필기 1과목] 빅데이터 분석 기획 정리 - 6

자격증 준비하면서 내가 이해하기 편하게, 다시 보기 좋게 정리하는 빅데이터 분석기사의 내용 (자격증 상세 내용은 아래) https://www.dataq.or.kr/www/sub/a_07.do 데이터자격시험 대용량의 데이터 집합

edder773.tistory.com

 

반응형

댓글