하파와 데이터

[ADP]PART2-1 데이터 처리 프로세스 - 오답노트 본문

자격증

[ADP]PART2-1 데이터 처리 프로세스 - 오답노트

hhpp 2024. 1. 29. 00:46

ADP 공부 2일차

 

오늘은 PART2-1 데이터 처리 프로세스를 학습했다.

DALL-E가 그려준, ADP 문제를 풀고 있는 모습.

 

이번 챕터에서는 조직 내 정형 데이터 통합 및 연계를 위한 기술(ETL, CDC, EAI)과 전통적 데이터분석과 빅데이터 분석의 차이 그리고 대용량 비정형 데이터 처리방법에 대한 다양한 것을 배웠다. 

그리고 문제를 풀었고, 여전히 나는 틀렸다. 

 

이번에 문제를 풀면서 애매한 부분이 몇개 있었고, 오답의 결과를 보니 애매하다고 생각했던 부분이 틀렸다. 

 

내가 안일하게 외웠고, 문제로 나왔던 부분은 아래의 2개 주제였다. 

- 전통적 분석방법과 빅데이터분석방법의 차이

- CDC LOG SCAN의 특징

 

관련 사항을 다시금 읽고, 학습해야겠다. 

 

제2과목 -1 데이터처리 프로세스(교재 153~160쪽)

03. 다음 중 빅데이터가 가지고 있는 특징에 대한 설명으로 가장 적절하지 않은 것은?

① 과거와 혀내의 데이터를 수집/분석하여 새로운 정보를 발굴하고, 가까운 미래를 예측할 수 있다. 

② 일반적으로 OLAP(다차원분석)을 위주로 사용한다.

③ 시각화를 통해 데이터에서 통찰력(insight)을 획득하고자 하는 시도는 빅데이터의 고유한 특징이다.

④ 비정형 또는 준정형 데이터를 정형 데이터로 변환(transformation)하는 것은 빅데이터의 주요한 기술적 특성이다.

더보기

내가 선택한 답:  → 실제 답:  

내가 답을 택한 이유: 시각화는 기본적으로 하는게 아닌가? 데이터 분석을 하면 시각화해서 보여줘야하는거 아냐?! 근데 뭘 이걸 빅데이터만의 엄청난걸로 말하는거야!라는 생각으로 골랐다..

 

2번이 정답인 이유: OLAP는 기존의 데이터 웨어하우스에서 주로 이용하는 분석법이다.

 

08. CDC(Change Data Capture)구현 방식에 대한 설명으로 가장 옳지 않은 것은?

① Status on Rows는 타임 스탬프 및 버전 넘버 기법에 대한 보완용도로 활용될 수 없다.

② Event Programming은 애플리케이션 개발 부담과 복잡도를 증가시키나, 다양한 조건에 의한 CDC매커티즘을 구현할 수 있는 기법이다.

③ Log Scanner on Database 기법을 이용하면 트랜잭션 무결성에 대한 영향도를 최소화 할 수 있다.

④ Version NUmbers on Rows를 활용하면 일반적으로 레코드들의 최신버전을 기록/관리하는 참조 테이블을 함께 운영한다.

더보기

내가 선택한 답:   → 실제 답:  

내가 답을 택한 이유: 2,4번이 옳은 지문이라는 생각이 있었꼬, Log Scanner에 대한 지식이 얉아서 잘 모르는 Log를 정답으로 선택함

 

1번이 정답인 이유: 지금 작성하면서는 Status 내용이 당연히 정답이네, 라는 생각이 드는데 왜 1번은 아무 생각없이 했는지 모르겠네. Status on Rows는 이것만으로는 CDC의 변화를 모두 추적하기 어렵다. 타임스탬프와 버젼넘버 등은 기록이 명확하게 남는데, Status는 변화의 여부만 True/False 형태로 나오기 때문에 독자적 사용이 아닌, 보완용도로 사용된다. 

 

13. CDC(Change Data Capture)구현 기법 중 Log Scanner on Database 방식의 특징 중 옳지 않은 것은?

① 데이터베이스에 대한 영향도 최소화

② 변경 식별 지연시간 최소화

③ 시스템 관리 복잡도 증가

④ 데이터베이스 스키마 변경 불필요

더보기

내가 선택한 답:   → 실제 답:   

내가 답을 택한 이유: Log Scanner에 대한 정확한 이해가 없었어서, 찍은느낌이 있음

 

3번이 정답인 이유: Log Scanner의 장점으로 데이터베이스와 사용 어플에 대한 영향도 최소화, 변경 식별 지연시간 최소화, 트랜잭션 무결성에 대한 영향도 최소화, 데이터베이스 스키마 변경 불필요가 있음.

 

16. 다음 중 전통적 데이터 처리 기법과 빅데이터 처리 기법을 비교한 것으로 적절하지 않은 것은?

① 전통적 데이터 처리 기법에서는 운영 DB의 데이터를 ODS로 적재하고 이를 다시 데이터웨어하우스에 적재한다.

② 전통적 데이터 처리에서는 인프라스트럭처로 SQL혹은 RDBMS를 사용하며, 빅데이터 처리에서는 NoSQL 혹은 초대형 분산 데이터 저장소를 사용한다.

③ 빅데이터 처리 기법과 전통적 데이터 처리 기법은 모두 통계와 데이터마이닝 기술을 활용한다.

④ 빅데이터 처리 기법과 전통적 데이터 처리 기법은 모두 시각화를 통해 데이터에서 인사이트를 도출한다.

더보기

내가 선택한 답:    → 실제 답:    

내가 답을 택한 이유: 데이터마이닝은 듣기만해도 비정형 데이터를 마이닝해오는 기술로, 전통적 방식에서는 활용하지 않은 빅데이터의 비정형 데이터 관리 기법이라고 생각하여 3번을 선택함. 

 

4번이 정답인 이유: 앞선 3번문제의 지문과 동일하게, 전통적 방법은 OLAP의 방법을 사용한다. 시각화를 하는 것은 빅데이터 처리기법의 특징이다. 

 

 

지금 거의 혼수상태의 정신이기 때문에 오답노트를 잘하고 있는지 모르겠지만,

완벽을 기하며 하지 않는 것보다는 뭐라도 하는게 낫다는 생각으로 오늘고 뭐라도 적어본다.