1. 다음 중 CDC(Change Data Capture) 기술에 대한 설명 중 옳은 것은?
ㄱ. 일괄(Batch) 작업 중심이다.
ㄴ. CDC는 데이터에 변경이 생겼다는 것을 식별하고, 변경된 데이터는 캡처할 수 없다.
ㄷ. 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리를 자동화하는 기술이다.
ㄹ. 데이터 웨어하우스 구축에는 사용할 수 있으나, ODS 구축에는 사용할 수 없다.
2. 다음 중 EAI(Enterprise Application Integration)의 활용 효과로 옳지 않은 것은?
ㄱ. 향후 정보 시스템 개발 및 유지 보수비용 절감 도모
ㄴ. 다양한 조건에 의한 CDC 매커니즘을 구현 가능
ㄷ. 협력사/파트너/고객과의 상호 협력 프로세스 연계 발전 기반 확보
ㄹ. 그룹 및 지주 회사 계열사들 간 상호 관련 데이터 동기화 등을 위한 데이터 표준화 기반 확보
3. 다음 중 빅데이터가 가지고 있는 특징에 대한 설명으로 가장 적절하지 않은 것은?
ㄱ. 과거와 현재의 데이터를 수집/분석하여 새로운 정보를 발굴하고, 가까운 미래를 예측할 수 있다.
ㄴ. 일반적으로 OLAP(다차원 분석)을 위주로 한다.
ㄷ. 시각화를 통해 데이터에서 통찰렬(insight)을 획득하고자 하는 시도는 빅데이터의 고유한 특징이다.
ㄹ. 비정형 또는 준정형 데이터를 정형 데이터로 변환(transformation)하는 것은 빅데이터의 주요한 기술적 특성이다.
4. 다음 중 SQL on 하둡 기술에 해당하지 않는 것은?
ㄱ. 샤크(Shark)
ㄴ. 스파크(Spark)
ㄷ. 아파치 드릴(Drill)
ㄹ. 호크(HAWQ)
5. 다음 중 ODS(Operational Data Store)를 구성하기 위한 일괄 작업 ETL의 작업 단계(Layer)순서로 적절한 것은?
ㄱ. Interface Layer - Cleansing Layer - Staging Layer - Integration Layer - Profiling Layer - Export Layer
ㄴ. Staging Layer - Profiling Layer - Interface Layer - Integration Layer - Cleansing Layer - Export Layer
ㄷ. Interface Layer- Profiling Layer - Cleansing Layer - Integration Layer - Staging Layer - Export Layer
ㄹ. Interface Layer - Staging Layer - Profiling Layer - Cleansing Layer - Integration Layer - Export Layer
6. 다음 중 하둡에 대한 설명 중 옳지 않은 것은?
ㄱ. 하둡(Hadoop)은 하둡 분산 파일시스템(HDFS)와 MapReduce를 핵심 구성요소로 가진다.
ㄴ. HDFS에 저장되는 데이터는 3중복제가 되어 서로 다른 물리서버에 저장되므로 서버에서 장애가 발생하더라도 데이터 유실을 방지할 수 있다.
ㄷ. 하둡은 공유형 분산 아키텍처 시스템에 해당한다.
ㄹ. 맵리듀스는 하둡에서 제공하는 대규모 분산 병렬 처리 기술로 구글이 처음 고안해 상용화한 기술이다.
7. 다음 중 데이터 적재 작업의 핵심구성요소인 ETL에 관한 설명으로 가장 적절한 것은?
ㄱ. 추출: 처리가 완료된 데이터를 특정 목표 시스템에 저장
ㄴ. 변환: 데이터 클린징, 형식변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
ㄷ. 작업단위: 획득한 데이터를 목표 시스템에 적재하는 하나의 작업
ㄹ. 적재: 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
8. CDC(Change Data Capture) 구현 방식에 대한 설명으로 가장 옳지 않은 것은?
ㄱ. Status on Rows는 타임 스탬프 및 버전 넘버 기법에 대한 보완 용도로 활용될 수는 없다.
ㄴ. Event Programming는 애플리케이션 개발 부담과 복잡도를 증가시키나, 다양한 조건에 의한 CDC 메커니즘을 구현할 수 있는 기법이다.
ㄷ. Log Scanner on Database 기법을 이용하면 트랜잭션 무결성에 대한 영향도를 최소화할 수 있다.
ㄹ. Version Numbers on Rows를 활용하면 일반적으로 레코드들의 최신 버전을 기록/관리 하는 참조 테이블을 함께 운영한다.
9. 다음 중 로그 데이터 수집 시스템에 해당하지 않는 것은?
ㄱ. 페이스북 프레스토
ㄴ. 아파치 Flume-NG
ㄷ. 아파치 Chukwa
ㄹ. 페이스북 Scribe
10. 다음 중 EAI(Enterprise Application Integration) 설명으로 가장 옳지 않은 것은?
ㄱ. EAI는 허브 역할을 하는 브로커를 가운데 두고, 연결 대상 노드들이 데이터 연계 요구를 중계해주는 방식으로 노드 간 연결 구조를 단순화한다.
ㄴ. EAI를 활용하면 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대를 확립할 수 있다.
ㄷ. EAI의 아키텍처는 단일 접점인 허브시스템을 이용한 중앙집중식 연결구조이다.
ㄹ. EAI의 구현 유형 중 Mediation(intra-communication)은 EAI엔진이 외부 정보 시스템으로부터 데이터 요청들을 일괄적으로 수령해 필요한 데이터를 전달한다.
11. 데이터 웨어하우스의 테이블 모델링 기법인 스타스키마에 대한 설명으로 옳은 것은?
ㄱ. 조인 스키마(Join Schema)라고도 하며, 데이터 웨어하우스 스키마 중 가장 복잡하다.
ㄴ. 스타 스키마는 이해하기 어렵다는 것이 단점이다.
ㄷ. 스타 스키마는 쿼리 작성이 복잡하고 조인 테이블 개수가 많다.
ㄹ. 단일 사실 테이블(Fact Table)을 중심으로 다수의 차원 테이블(Dimensional Table)들로 구성된다.
12. 다음 중 비정형 데이터 처리 기술에 대한 설명으로 가장 부적절한 것은?
ㄱ. 데이터 연동에 있어서 관계형 DB에서 하둡으로 데이터를 옮기는 것은 가능하지만 하둡에서 관계형 DB로 데이터를 옮기는 것은 불가능하다.
ㄴ. YARN은 맵리듀스의 단점을 극복하기 위해 시작되었고, 분산 애플리케이션을 구현하기 위한 자원 관리 프레임워크를 지원하다.
ㄷ. 워크플로 관리에는 Oozie, Azkaban 등의 기술이 사용된다.
ㄹ. Flume-NG, Kafka 등은 대표적인 비정형 데이터 수집 기술이다.
13. CDC(Change Data Capture)의 구현 기법 중 Log Scanner on Database 방식의 특징 중 옳지 않은 것은?
ㄱ. 데이터베이스에 대한 영향도 최소화
ㄴ. 변경 식별 지연시간 최소화
ㄷ. 시스템 관리 복잡도를 증가
ㄹ. 데이터베이스 스키마 변경 불필요
14. 다음은 ODS(Operational Data Storage)와 DW(Data Warehouse)를 비교한 내용의 보기들이다. 이 중 가장 적절한 것은?
ㄱ. 데이터의 내용 관점에서 보면 DW는 현재 또는 비교적 최신의 데이터를 저장하고, ODS는 오래된 상세 데이터 및 2차 가공된 고도로 요약된 데이터를 저장한다.
ㄴ. 과거에 ODS는 DW와 구분되는 명확한 특징을 지닌 분석영역이었지만 현재, 운영환경의 통합이 상당수 진행된 상황에서는 단순히 DW를 구축하지 위한 1차 데이터 수집공간의 의미로 설계하는 경우도 있다.
ㄷ. ODS는 단순한 적재(Load)와 접근(Access)기능 중심이지만, DW는 데이터의 업데이트 저장 환경으로 데이터베이스에서의 데이터 처리의 모든 기능을 사용하도록 설계되어 있다.
ㄹ. DW가 비교적 소규모 데이터를 저장하는데 비해 ODS는 대규모 데이터를 저장하는데 사용된다.
15. 다음중 EAI의 활용이 기업에 가져올 수 있는 효과 혹은 변화에 관한 설명으로 부적절한 것은?
ㄱ. 협력사, 파트너, 고객과의 협력 프로세스를 서로 연계할 수 있다.
ㄴ. 글로벌 경영 환경에 상응하는 데이터 표준화 기반을 제공한다.
ㄷ. 지역적으로 분리된 정보 시스템에 대한 데이터 표준화 기반은 제공하지 못한다.
ㄹ. 웹 서비스 등의 인터넷 비즈니스를 위한 기본 토대를 확립할 수 있게 해준다.
16. 다음 중 전통적 데이터 처리 기법과 빅데이터 처리 기법을 비교한 것으로 적절하지 않은 것은?
ㄱ. 전통적 데이터 처리 기법에서는 운영 DB의 데이터를 ODS로 적재하고, 이를 다시 데이터 웨어하우스에 적재한다.
ㄴ. 전통적 데이터 처리에서는 인프라스트럭처로 SQL 혹은 RDBMS를 사용하며, 빅데이터 처리에서는 NoSQL 혹은 초대형 분산 데이터 저장소를 사용한다.
ㄷ. 빅데이터 처리 기법과 전통적 처리 기법은 모두 통계와 데이터마이닝 기술을 활용한다.
ㄹ. 빅데이터 처리 기법과 전통적 처리 기법은 모두 시각화를 통해 데이터에서 인사이트를 도출한다.
17. 다음 중 하둡 에코시스템의 구성요소와 그에 해당하는 설명을 짝지은 것으로 옳지 않은 것은?
ㄱ. Oozie는 하둡 작업을 관리하는 어ㅜ크플로우 및 코디네이터 시스템이다.
ㄴ. Hive는 하둡 기반의 데이터 웨어하우스이며, 테이블 단위의 데이터 저장과 SQL쿼리를 지원한다.
ㄷ. Chukwa는 분산 환경에서 생성되는 데이터를 HDFS에 안정적으로 저장시키는 플랫폼이다.
ㄹ. Scribe는 Sqoop과 같은 대용량 데이터 전송 솔루션으로 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있다.
18. 다음 중 대용량 질의 기술에 관한 설명으로 옮지 않은 것은?
ㄱ. 하둡과 하이브(Hive)는 대용량 데이터를 배치 처리하는데 최적화 되어 있다.
ㄴ. 아파치 타조(Tajo)는 기존 하이브 코드를 최대한 이용하여 성능을 개선하는 식으로 호튼웍스에서 개발을 주도하고 있다.
ㄷ. 하이브는 SQL질의를 이용하여 하둡에 저장된 데이터를 처리하고 분석할 수 있게 해준다.
ㄹ. 하둡은 대용량 데이터를 저비용으로 신속하게 처리할 수 있게 하지만, 여전히 코딩이 필요한 기술이다.
19. 다음 중 기업 정보 시스템들의 데이터를 연계/통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크인 EAI에 관한 설명으로 옳지 않은 것은?
ㄱ. EAI는 미들웨어(Bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계한다.
ㄴ. EAI를 도입하면 글로벌 경영 환경에 적합한 데이터 표준화 기반을 정립할 수 있다.
ㄷ. Mediation 구현은 Publish/subscribe Model에 해당한다.
ㄹ. 다양한 형태로 산재되어 있는 애플리케이션을 프로세스 및 메시지 차원에서 통합/관리한다.
20. 다음 중 하둡 에코시스템을 구성하는 다양한 기술과 그에 해당하는 설명으로 적절하지 않은 것은?
ㄱ. 스쿱(Sqoop)은 하둡과 데이터베이스 간의 데이터 연동 솔루션으로 오픈소스이다.
ㄴ. Pig는 Pig Latin 언어를 제공하지만, 복잡한 MapReduce 프로그래밍을 대체하지는 못한다.
ㄷ. 플럼(Flume)은 소스서버에 에이전트가 설치되고, 에이전트로부터 데이터를 전달받는 콜렉터로 구성된다.
ㄹ. Mahout는 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스 라이브러리에 해당한다.
'ADP (데이터분석전문가) > ADP 필기 기출문제' 카테고리의 다른 글
[ADP] 필기 기출문제 - 2과목 2장: 데이터 처리 기술 (0) | 2024.02.20 |
---|---|
[ADP] 필기 기출문제 - 1과목: 데이터의 이해 (2) | 2024.02.20 |