1. 아마존 SimpleDB의 데이터 모델용어와 관계형 데이터베이스(RDBMS)의 데이터 모델용어의 연결이 적절하지 않은 것은?
ㄱ. Domain - Table
ㄴ. Attribute - Column
ㄷ. Data Dictionary - Schema
ㄹ. Item - Record

2. 무공유(Shared Nothing) 클러스터와 공유 디스크(Shared Disk) 클러스터를 비교한 내용 중 옳지 않은 것은?
ㄱ. 무공유 클러스터에서 각 데이터베이스 인스턴스는 자신이 관리하는 데이터 파일을 자신의 로컬 디스크에 저장하며, 이 파일들은 노드 간에 공유하지 않는다.
ㄴ. 공유 디스크 클러스터는 노드 확장에 제한이 없으나, 무공유 디스크는 클러스터가 커지면 디스크 영역에서 병목현상이 발생한다.
ㄷ. 공유 디스크 클러스터의 경우 높은 수준의 폴트톨러런스(fault-tolerance)를 제공하므로 클러스터를 구성하는 노드 중 하나의 노드만 살아 있어도 서비스가 가능하다.
ㄹ. Oracle RAC(Real Application Cluster)를 제외한 대부분의 데이터베이스 클러스터가 무공유 방식을 채택하고 있다.

3. 다음 중 구글 파일 시스템(GFS)을 설계할 때 세웠던 가정으로 적절하지 않은 것은?
ㄱ. 높은 처리율보다 낮은 응답 지연시간이 중요하다.
ㄴ. 여러 클라이언트에서 동시에 동일한 파일에 데이터를 추가하는 경우를 고려한다.
ㄷ. 파일에 대한 쓰기 연산은 주로 순차적으로 일어나고, 파일에 대한 갱신은 드물게 이루어진다.
ㄹ. 저가형 서버로 구성된 환경으로 서버의 고장이 빈번히 발생할 수 있다고 가정한다.

4. GFS(Google File System)의 구동원리 중 옳지 않은 것은?
ㄱ. 청크(chunk)는 청크서버에 의해 생성/삭제 될 수 있으며, 유일한 식별자에 의해 구별된다.
ㄴ. GFS는 트리 구조가 아닌 해시 테이블 구조 등을 사용함으로써 메모리상에서 보다 효율적인 메타데이터의 처리를 지원한다.
ㄷ. GFS는 파일을 임의의 크기의 청크(chunk)들로 나누어 청크서버들에 분산/저장한다.
ㄹ. 클라이언트는 마스터로부터 읽고자 하는 파일의 청크(chunk)가 저장된 청크서버의 위치를 알아온 뒤, 직접 청크서버에 파일 데이터를 요청한다.

5. 분산 파일 시스템인 러스터(Luster)에 대한 설명 중 옳지 않은 것은?
ㄱ. 클러스터 파일 시스템(Cluster File Systems Inc.)에서 개발한 객체 기반 클러스터 파일 시스템이다.
ㄴ. 고속네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장서버들로 구성되어 있다.
ㄷ. 러스터는 파일의 메타 데이터와 파일 데이터에 대한 동시성 제어를 위해 별도의 잠금을 사용한다.
ㄹ. 객체 저장서버는 파일 시스템의 이름 공간과 파일에 대한 메타데이터를 관리한다.

6. Oracle RAC 데이터베이스 서버에 대한 다음의 설명 중 옳지 않은 것은?
ㄱ. Oracle RAC 데이터베이스 서버는 한 노드가 어떤 이유로 장애를 일으켰을 때 클러스터를 구성하는 노드 중 하나의 노드만 살아 있어도 서비스가 가능하다.
ㄴ. 추가 처리 성능이 필요하면 응용 프로그램이나 데이터베이스를 수정할 필요 없이 새 노드를 클러스터에 쉽게 추가할 수 있다.
ㄷ. 클러스터의 모든 노드는 데이터베이스의 모든 테이블에 차등하여 액세스하며, 특정 노드가 데이터를 '소유'하는 개념이 존재한다.
ㄹ. RAC는 표준화된 소규모(CPU 4개 미만) 저가형 상용 하드웨어의 클러스터에서도 고가의 SMP 시스템만큼 효율적으로 응용 프로그램을 실행함으로써 하드웨어 비용을 절감한다.

7. NoSQL에 대한 다음의 설명 중 옳지 않은 것은?
ㄱ. NoSQL은 Key와 Value의 형태로 자료를 저장하고, 빠르게 조회할 수 있는 자료 구조를 제공하는 저장소다.
ㄴ. 전통적인 RDBMS의 장점이라고 할 수 있는 복잡한 Join 연산 기능을 지원한다.
ㄷ. 스키마 없이 동작하며, 구조에 대한 정의 변경 없이 자유롭게 데이터베이스의 레코드에 필드를 추가할 수 있다.
ㄹ. 높은 수평적 확장성, 가용성, 성능을 제공한다.

8. 구글 Sawzall에 대한 설명 중 옳은 것은?
ㄱ. Sawzall은 MapReduce를 구체화한 스크립트 형태의 병렬 프로그래밍 언어다.
ㄴ. Sawzall은 사용자가 이해하기 쉬운 인터페이스를 제공하며, MapReduce 개발 생산성과는 관련성이 없다.
ㄷ. 오픈소스 프로젝트인 Pig나 하이브(Hive)의 개발 배경과 기본적인 개념은 Sawzallrhk dbtkgkek.
ㄹ. MapReduce에 대한 이해가 없으면 병렬 프로그래밍에 어려움이 있다.

9. MySQL에 대한 다음의 설명 중 옳지 않은 것은?
ㄱ. 특정한 하드웨어 및 소프으퉤어를 요구하지 않고 병렬 서버구조로 확장이 가능하다.
ㄴ. MySQL 운영 중에 노드를 추가/삭제가 가능하다.
ㄷ. MySQL 클러스터는 데이터의 가용성을 높이기 위해 데이터를 다른 노드에 복제시키며, 특정 노드에 장애가 발생하더라도 지속적인 데이터 서비스가 가능하다.
ㄹ. 클러스터에 참여하는 노드(SQL 노드, 데이터 노드, 매니저를 포함) 수는 255로 제한한다. 데이터 노드는 최대 48개까지만 가능하다.

10. MapReduce에 대한 설명 중 옳지 않은 것은?
ㄱ. 분할정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델이다.
ㄴ. 맵과 리듀스라는 2개의 함수 구현으로 동작되는 시스템이다.
ㄷ. 정렬과 같은 작업은 맵리듀스 모델을 적용하여 처리하기에 매우 적합하다.
ㄹ. map 단계에서는 key와 value의 쌍들을 입력으로 받는다.

11. 다음 중 가상화 기술을 이용할 경우 얻을 수 있는 효과로 가장 부적절한 것은?
ㄱ. 수시로 변화하는 가상머신의 자원 요구량에 맞추어 전체 시스템의 자원을 재배치함으로써 자원 할당의 유연성을 증가시킨다.
ㄴ. 가상머신에서 수행중인 애플리케이션의 장애가 다른 가상머신에는 전혀 영향을 미치지 않는다.
ㄷ. 다양한 운영체제나 운영환경에서 테스트가 필요한 경우, 새로운 서버를 추가하지 않아도 테스트 환경을 구성할 수 있다.
ㄹ. 마이그레이션(migration) 기능을 이용할 경우 운영 중인 가상머신을 중지하고, 가상머신을 다른 물리적인 서버로 이동시킬 수 있다.

12. Hadoop Architecture에 대한 설명 중 옳지 않은 것은?
ㄱ. JobTracker는 MapReduce 시스템의 마스터이고, TaskTracker는 워커 데몬이다.
ㄴ. TaskTracker는 JobTracker에게 3초에 한 번씩 주기적으로 하트비트(Heartbeat)를 보내 살아 있다는 것을 알린다.
ㄷ. 데몬 관점에서 하둡은 2개의 구성요소를 가지고 있다.
ㄹ. 네임노드(NameNode)와 데이터노드(DataNode)는 분산 파일 시스템의 데몬들이다.

13. SQL on Hadoop 기술에 대한 설명 중 옳지 않은 것은?
ㄱ. 하둡에 저장된 대용량 데이터를 대화형식의 SQL질의를 통해서 처리하고 분석하는 기술이다.
ㄴ. 임팔라는 하둡과 Hbase에 저장된 데이터를 대상으로 SQL질의를 할 수 있다.
ㄷ. 호튼웍스에서 개발한 아파치 스팅거(Stinger)는 하이브 코드를 최대한 이용하여 성능을 개선하는 방식으로 개발하였다.
ㄹ. SQL on Hadoop 원조 기술은 구글에서 개발한 빅테이블이다.

14. 다음 중 하둡의 성능과 관련된 설명으로 옳지 않은 것은?
ㄱ. 맵리듀스 작업에서 sort 작업은 데이터가 커지더라도 처리시간이 크게 증가하지 않는다.
ㄴ. 하둡 클러스터를 구성하는 서버의 수를 늘림으로써 처리 시간을 줄일 수 있는 것은 아니다.
ㄷ. 플랫폼이 선형 확장성을 가지고 있다면 처리 속도를 개선할 수 있다.
ㄹ. 맵리듀스의 sort는 map에서 reduce로 넘어가는 과정에서 항상 발생하는 프로세스이다.

15. 병렬 쿼리 시스템 중 하나인 아파치 Pig에 대한 설명으로 옳은 것은?
ㄱ. 야후에서 개발한 데이터 저장을 위한 언어이며, 아직 오픈소스 프로젝트화되지 않았다.
ㄴ. Hadoop MapReduce 위에서 동작하는 구체화된 병렬 처리 언어이다.
ㄷ. Pig는 맵리듀스의 중복된 알고리즘 개발, 코드 공유의 어려움 등의 요구사항을 해결하기 위해 정의된 언어이다.
ㄹ. 아파치 Pig를 이용하면 MapReduce를 이용할 때 보다 프로그래밍해야 할 코드 라인의 수는 줄지 않지만 데이터 처리 속도가 매우 빨라진다.

16. 클라우드 컴퓨팅 기반이 되는 인프라 기술인 가상화에 대한 설명 중 옳지 않은 것은?
ㄱ. 최근에는 CPU 제조업체에서도 하드웨어에서 가상화 기술을 지원하는 등 새로운 가상화 방법이 계속 나오고 있기 때문에 서버 가상화 기술을 정확하게 분류하기는 힘들다.
ㄴ. 컨테이너 기반 가상화 방식에서 가상화를 지원하는 계층을 하이퍼바이저라고 한다.
ㄷ. 서버 가상화는 물리적인 서버와 운영체제 사이에 적절한 계층을 추가해 서버를 사용하는 사용자에게 물리적인 자원은 숨기고 논리적인 자원만을 보여주는 기술이다.
ㄹ. 완전가상화는 어떠한 운영 체제라도 수정하지 않은 채 설치가 가능하다.

17. 하이퍼바이저 기반의 가상화와 컨테이너 기반 가상화를 비교한 다음의 내용 중 옳지 않은 것은?
ㄱ. 하이퍼바이저 기반 가상화는 가상머신 내에서 완전한 하드웨어 독립성을 가지며, 컨테이너 기반 가상화는 호스트 OS를 사용한다.
ㄴ. 하이퍼바이저 기반 가상화는 높은 오버헤드를 발생시키는 반면, 컨테이너 기반 가상화는 오버헤드가 거의 없다.
ㄷ. 컨테이너 기반 가상화는 공통 소프트웨어에 의한 중앙 집중식 관리 구조를 가지며, 하이퍼 바이저 기반 가상화는 가상머신별로 별도로 관리되는 구조를 가진다.
ㄹ. Xen과 VMware ESX는 컨테이너 기반 가상화의 대표 제품이다.

18. 다음 중 MySQL에 관한 설명으로 옳지 않은 것은?
ㄱ. 장애가 발생했던 노드가 복구되어 클러스터에 투입된 경우에도 기존 데이터와 변경된 데이터에 대한 동기화 작업이 자동으로 수행된다.
ㄴ. MySQL의 구성요소 중 MySQL 노드는 클러스터를 관리하는 노드로 클러스터 시작과 재구성 시에만 관여한다.
ㄷ. 클러스터에 참여하는 노드(SQL 노드, 데이터 노드, 매니저를 포함) 수는 255로 제한되며, 데이터 노드는 최대 48개까지만 가능하다.
ㄹ. MySQL 클러스터는 비공유형으로서 메모리 기반 데이터베이스의 클러스터링을 지원한다.

19. 호스트 컴퓨터에서 다수의 운영 체제를 동시에 실행하기 위한 논리적 플랫폼인 하이퍼바이저(Hypervisor)에 대한 설명으로 옳지 않은 것은?
ㄱ. 일반적으로 가상머신(Virtual machine)을 하이퍼바이저라고 할 수 있다.
ㄴ. 물리적 서버 위에 존재하는 가상화 레이어를 통해 운영체제를 수행하는데 필요한 하드웨어 환경을 가상으로 만들어 준다.
ㄷ. 하이퍼바이저를 통해 사용자는 추가 하드웨어 구입 없이 새로운 운영체제의 설치, 애플리케이션의 테스팅 및 업그레이드를 동일한 물리적 서버에서 동시에 수행할 수 있다.
ㄹ. 하이퍼바이저는 하드웨어 환경 에뮬레이션(emulation)을 수행하지만 소프트웨어 스택 보존의 기능은 수행하지 못한다.

20. 다음의 데이터베이스 클러스터에 대한 설명 중 옳지 않은 설명은 무엇인가?
ㄱ. Oracle RAC 데이터베이스 서버는 공유 클러스터이며, 별도의 폴트톨러런스 기능은 제공하지 않는다
ㄴ. 데이터베이스 파티셔닝을 구현하면 성능의 선형적인 증가 효과를 볼 수 있다.
ㄷ. MS SQL Server는 연합 데이터베이스 형태이며, Active-Standby 방법의 페일오버(failover) 메커니즘을 제공한다.
ㄹ. Oracle RAC 데이터베이스 서버에서 클러스터가 커지면 디스크 영역의 병목현상이 발생할 수도 있다.

1. 다음 중 CDC(Change Data Capture) 기술에 대한 설명 중 옳은 것은?
ㄱ. 일괄(Batch) 작업 중심이다.
ㄴ. CDC는 데이터에 변경이 생겼다는 것을 식별하고, 변경된 데이터는 캡처할 수 없다.
ㄷ. 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리를 자동화하는 기술이다.
ㄹ. 데이터 웨어하우스 구축에는 사용할 수 있으나, ODS 구축에는 사용할 수 없다.

2. 다음 중 EAI(Enterprise Application Integration)의 활용 효과로 옳지 않은 것은?
ㄱ. 향후 정보 시스템 개발 및 유지 보수비용 절감 도모
ㄴ. 다양한 조건에 의한 CDC 매커니즘을 구현 가능
ㄷ. 협력사/파트너/고객과의 상호 협력 프로세스 연계 발전 기반 확보
ㄹ. 그룹 및 지주 회사 계열사들 간 상호 관련 데이터 동기화 등을 위한 데이터 표준화 기반 확보

3. 다음 중 빅데이터가 가지고 있는 특징에 대한 설명으로 가장 적절하지 않은 것은?
ㄱ. 과거와 현재의 데이터를 수집/분석하여 새로운 정보를 발굴하고, 가까운 미래를 예측할 수 있다.
ㄴ. 일반적으로 OLAP(다차원 분석)을 위주로 한다.
ㄷ. 시각화를 통해 데이터에서 통찰렬(insight)을 획득하고자 하는 시도는 빅데이터의 고유한 특징이다.
ㄹ. 비정형 또는 준정형 데이터를 정형 데이터로 변환(transformation)하는 것은 빅데이터의 주요한 기술적 특성이다.

4. 다음 중 SQL on 하둡 기술에 해당하지 않는 것은?
ㄱ. 샤크(Shark)
ㄴ. 스파크(Spark)
ㄷ. 아파치 드릴(Drill)
ㄹ. 호크(HAWQ)

5. 다음 중 ODS(Operational Data Store)를 구성하기 위한 일괄 작업 ETL의 작업 단계(Layer)순서로 적절한 것은?
ㄱ. Interface Layer - Cleansing Layer - Staging Layer - Integration Layer - Profiling Layer - Export Layer
ㄴ. Staging Layer - Profiling Layer - Interface Layer - Integration Layer - Cleansing Layer - Export Layer
ㄷ. Interface Layer- Profiling Layer - Cleansing Layer - Integration Layer - Staging Layer - Export Layer
ㄹ. Interface Layer - Staging Layer - Profiling Layer - Cleansing Layer - Integration Layer - Export Layer

6. 다음 중 하둡에 대한 설명 중 옳지 않은 것은?
ㄱ. 하둡(Hadoop)은 하둡 분산 파일시스템(HDFS)와 MapReduce를 핵심 구성요소로 가진다.
ㄴ. HDFS에 저장되는 데이터는 3중복제가 되어 서로 다른 물리서버에 저장되므로 서버에서 장애가 발생하더라도 데이터 유실을 방지할 수 있다.
ㄷ. 하둡은 공유형 분산 아키텍처 시스템에 해당한다.
ㄹ. 맵리듀스는 하둡에서 제공하는 대규모 분산 병렬 처리 기술로 구글이 처음 고안해 상용화한 기술이다.

7. 다음 중 데이터 적재 작업의 핵심구성요소인 ETL에 관한 설명으로 가장 적절한 것은?
ㄱ. 추출: 처리가 완료된 데이터를 특정 목표 시스템에 저장
ㄴ. 변환: 데이터 클린징, 형식변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
ㄷ. 작업단위: 획득한 데이터를 목표 시스템에 적재하는 하나의 작업
ㄹ. 적재: 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득

8. CDC(Change Data Capture) 구현 방식에 대한 설명으로 가장 옳지 않은 것은?
ㄱ. Status on Rows는 타임 스탬프 및 버전 넘버 기법에 대한 보완 용도로 활용될 수는 없다.
ㄴ. Event Programming는 애플리케이션 개발 부담과 복잡도를 증가시키나, 다양한 조건에 의한 CDC 메커니즘을 구현할 수 있는 기법이다.
ㄷ. Log Scanner on Database 기법을 이용하면 트랜잭션 무결성에 대한 영향도를 최소화할 수 있다.
ㄹ. Version Numbers on Rows를 활용하면 일반적으로 레코드들의 최신 버전을 기록/관리 하는 참조 테이블을 함께 운영한다.

9. 다음 중 로그 데이터 수집 시스템에 해당하지 않는 것은?
ㄱ. 페이스북 프레스토
ㄴ. 아파치 Flume-NG
ㄷ. 아파치 Chukwa
ㄹ. 페이스북 Scribe

10. 다음 중 EAI(Enterprise Application Integration) 설명으로 가장 옳지 않은 것은?
ㄱ. EAI는 허브 역할을 하는 브로커를 가운데 두고, 연결 대상 노드들이 데이터 연계 요구를 중계해주는 방식으로 노드 간 연결 구조를 단순화한다.
ㄴ. EAI를 활용하면 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대를 확립할 수 있다.
ㄷ. EAI의 아키텍처는 단일 접점인 허브시스템을 이용한 중앙집중식 연결구조이다.
ㄹ. EAI의 구현 유형 중 Mediation(intra-communication)은 EAI엔진이 외부 정보 시스템으로부터 데이터 요청들을 일괄적으로 수령해 필요한 데이터를 전달한다.

11. 데이터 웨어하우스의 테이블 모델링 기법인 스타스키마에 대한 설명으로 옳은 것은?
ㄱ. 조인 스키마(Join Schema)라고도 하며, 데이터 웨어하우스 스키마 중 가장 복잡하다.
ㄴ. 스타 스키마는 이해하기 어렵다는 것이 단점이다.
ㄷ. 스타 스키마는 쿼리 작성이 복잡하고 조인 테이블 개수가 많다.
ㄹ. 단일 사실 테이블(Fact Table)을 중심으로 다수의 차원 테이블(Dimensional Table)들로 구성된다.

12. 다음 중 비정형 데이터 처리 기술에 대한 설명으로 가장 부적절한 것은?
ㄱ. 데이터 연동에 있어서 관계형 DB에서 하둡으로 데이터를 옮기는 것은 가능하지만 하둡에서 관계형 DB로 데이터를 옮기는 것은 불가능하다.
ㄴ. YARN은 맵리듀스의 단점을 극복하기 위해 시작되었고, 분산 애플리케이션을 구현하기 위한 자원 관리 프레임워크를 지원하다.
ㄷ. 워크플로 관리에는 Oozie, Azkaban 등의 기술이 사용된다.
ㄹ. Flume-NG, Kafka 등은 대표적인 비정형 데이터 수집 기술이다.

13. CDC(Change Data Capture)의 구현 기법 중 Log Scanner on Database 방식의 특징 중 옳지 않은 것은?
ㄱ. 데이터베이스에 대한 영향도 최소화
ㄴ. 변경 식별 지연시간 최소화
ㄷ. 시스템 관리 복잡도를 증가
ㄹ. 데이터베이스 스키마 변경 불필요

14. 다음은 ODS(Operational Data Storage)와 DW(Data Warehouse)를 비교한 내용의 보기들이다. 이 중 가장 적절한 것은?
ㄱ. 데이터의 내용 관점에서 보면 DW는 현재 또는 비교적 최신의 데이터를 저장하고, ODS는 오래된 상세 데이터 및 2차 가공된 고도로 요약된 데이터를 저장한다.
ㄴ. 과거에 ODS는 DW와 구분되는 명확한 특징을 지닌 분석영역이었지만 현재, 운영환경의 통합이 상당수 진행된 상황에서는 단순히 DW를 구축하지 위한 1차 데이터 수집공간의 의미로 설계하는 경우도 있다.
ㄷ. ODS는 단순한 적재(Load)와 접근(Access)기능 중심이지만, DW는 데이터의 업데이트 저장 환경으로 데이터베이스에서의 데이터 처리의 모든 기능을 사용하도록 설계되어 있다.
ㄹ. DW가 비교적 소규모 데이터를 저장하는데 비해 ODS는 대규모 데이터를 저장하는데 사용된다.

15. 다음중 EAI의 활용이 기업에 가져올 수 있는 효과 혹은 변화에 관한 설명으로 부적절한 것은?
ㄱ. 협력사, 파트너, 고객과의 협력 프로세스를 서로 연계할 수 있다.
ㄴ. 글로벌 경영 환경에 상응하는 데이터 표준화 기반을 제공한다.
ㄷ. 지역적으로 분리된 정보 시스템에 대한 데이터 표준화 기반은 제공하지 못한다.
ㄹ. 웹 서비스 등의 인터넷 비즈니스를 위한 기본 토대를 확립할 수 있게 해준다.

16. 다음 중 전통적 데이터 처리 기법과 빅데이터 처리 기법을 비교한 것으로 적절하지 않은 것은?
ㄱ. 전통적 데이터 처리 기법에서는 운영 DB의 데이터를 ODS로 적재하고, 이를 다시 데이터 웨어하우스에 적재한다.
ㄴ. 전통적 데이터 처리에서는 인프라스트럭처로 SQL 혹은 RDBMS를 사용하며, 빅데이터 처리에서는 NoSQL 혹은 초대형 분산 데이터 저장소를 사용한다.
ㄷ. 빅데이터 처리 기법과 전통적 처리 기법은 모두 통계와 데이터마이닝 기술을 활용한다.
ㄹ. 빅데이터 처리 기법과 전통적 처리 기법은 모두 시각화를 통해 데이터에서 인사이트를 도출한다.

17. 다음 중 하둡 에코시스템의 구성요소와 그에 해당하는 설명을 짝지은 것으로 옳지 않은 것은?
ㄱ. Oozie는 하둡 작업을 관리하는 어ㅜ크플로우 및 코디네이터 시스템이다.
ㄴ. Hive는 하둡 기반의 데이터 웨어하우스이며, 테이블 단위의 데이터 저장과 SQL쿼리를 지원한다.
ㄷ. Chukwa는 분산 환경에서 생성되는 데이터를 HDFS에 안정적으로 저장시키는 플랫폼이다.
ㄹ. Scribe는 Sqoop과 같은 대용량 데이터 전송 솔루션으로 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있다.

18. 다음 중 대용량 질의 기술에 관한 설명으로 옮지 않은 것은?
ㄱ. 하둡과 하이브(Hive)는 대용량 데이터를 배치 처리하는데 최적화 되어 있다.
ㄴ. 아파치 타조(Tajo)는 기존 하이브 코드를 최대한 이용하여 성능을 개선하는 식으로 호튼웍스에서 개발을 주도하고 있다.
ㄷ. 하이브는 SQL질의를 이용하여 하둡에 저장된 데이터를 처리하고 분석할 수 있게 해준다.
ㄹ. 하둡은 대용량 데이터를 저비용으로 신속하게 처리할 수 있게 하지만, 여전히 코딩이 필요한 기술이다.

19. 다음 중 기업 정보 시스템들의 데이터를 연계/통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크인 EAI에 관한 설명으로 옳지 않은 것은?
ㄱ. EAI는 미들웨어(Bus)를 이용하여 서비스 중심으로 시스템을 유기적으로 연계한다.
ㄴ. EAI를 도입하면 글로벌 경영 환경에 적합한 데이터 표준화 기반을 정립할 수 있다.
ㄷ. Mediation 구현은 Publish/subscribe Model에 해당한다.
ㄹ. 다양한 형태로 산재되어 있는 애플리케이션을 프로세스 및 메시지 차원에서 통합/관리한다.

20. 다음 중 하둡 에코시스템을 구성하는 다양한 기술과 그에 해당하는 설명으로 적절하지 않은 것은?
ㄱ. 스쿱(Sqoop)은 하둡과 데이터베이스 간의 데이터 연동 솔루션으로 오픈소스이다.
ㄴ. Pig는 Pig Latin 언어를 제공하지만, 복잡한 MapReduce 프로그래밍을 대체하지는 못한다.
ㄷ. 플럼(Flume)은 소스서버에 에이전트가 설치되고, 에이전트로부터 데이터를 전달받는 콜렉터로 구성된다.
ㄹ. Mahout는 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스 라이브러리에 해당한다.

1. 데이터는 그 형태에 따라 정성 데이터와 정량 데이터로 구분된다. 다음 중 정성 데이터에 속하는 것은?

ㄱ. 풍향

ㄴ. 습도

ㄷ. 기상특보

ㄹ. 1시간 강수량

 

2. 다음 중 암묵지와 형식지의 상호작용과 가장 관련이 없는 것은?

ㄱ. 공통화

ㄴ. 내면화

ㄷ. 연결화

ㄹ. 추상화

 

3. SQL은 다양한 집계함수를 제공하는데 다음 집계함수 중 어떠한 데이터의 타입에도 사용이 가능한 것은?

ㄱ. AVG

ㄴ. COUNT

ㄷ. SUM

ㄹ. STDDEV

 

4. 다음 중 개인정보 비식별화 기법을 설명한 것으로 가장 부적절한 것은?

ㄱ. 총계처리 - 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함

ㄴ. 데이터 마스킹 - 개인 식별에 중요한 데이터 값을 삭제

ㄷ. 가명처리 - 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경

ㄹ. 범주화 - 데이터의 값을 범주의 값으로 변환하여 값을 감춤

 

5. 다음 중 데이터에 대한 설명으로 가장 적절하지 않는 것은 무엇인가?

ㄱ. 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음

ㄴ. 창의적인 데이터 매시업(Mashup)은 기존에 풀기 어려웠던 문제 해결에 도움

ㄷ. 비정형 데이터는 데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일 형태로 저장

ㄹ. 공공부문에서 개방하고 있는 대표적인 데이터는 교통 데이터, 물가 데이터, 의료 데이터이다.

 

6. 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정은?

ㄱ. 연결화

ㄴ. 내면화

ㄷ. 표출화

ㄹ. 공통화

 

7. 다음 중 그 자체로는 의미가 중요하지 않은 객관적인 사실인 데이터를 가공, 처리하여 얻을 수 없는 것은?

ㄱ. 지혜

ㄴ. 정보

ㄷ. 기호

ㄹ. 지식

 

8. 다음 중 지식에 대한 예시로 가장 적절한 것은?

ㄱ. A사이트보다 B사이트가 다른 물건도 비싸게 팔 것이다.

ㄴ. B사이트보다 가격이 상대적으로 저렴한 A사이트에서 USB를 사야겠다.

ㄷ. A사이트는 10,000원에, B사이트는 15,000원에 USB를 팔고 있다.

ㄹ. B사이트의 USB 판매가격이 A사이트보다 더 비싸다.

 

9. 다음 중 글로벌 기업의 빅데이터 활용사례로 그 연결이 부적절한 것은?

ㄱ. 구글 - 실시간 자동 번역시스템을 통한 의사소통의 불편 해소

ㄴ. 라쿠텐 - 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영

ㄷ. 월마트 - 소셜 미디어를 통해 고객 소비 패턴을 분석하는 월마트랩(Wallmart Labs) 운영

ㄹ. 자라 - 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측

 

10. 다음은 데이터베이스의 구성요소들을 설명한 것이다. 각 설명에 해당하는 구성요소를 가장 적절하게 나열한 것은?

(A) 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터

(B) 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조

ㄱ. 메타데이터 - 인덱스

ㄴ. 데이터모델 - 트리거

ㄷ. 백업데이터 - 저장된 절차

ㄹ. 스키마구조 - 데이터 마트

 

11. 다음 중 데이터에 관한 구조화된 데이터로서 다른 데이터를 설명해 주는 데이터로 정의되는 것은?

ㄱ. 데이터모델

ㄴ. 메타데이터

ㄷ. 백업데이터

ㄹ. 데이터마트

 

12. 다음 중 주요 데이터 분석 기술에 대한 설명으로 가장 부적절한 것은?

ㄱ. OLAP - 다차원의 데이터를 대화식으로 분석하기 위한 기술

ㄴ. Business Intelligence - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

ㄷ. Business Analytics - 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

ㄹ. Deep Learning - 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술

 

13. 아래는 특정산업의 일차원적 분석 사례를 나열한 것이다. 다음 중 특정산업으로 적절한 것은?

[트레이딩, 공급, 수요예측]

ㄱ. 소매업

ㄴ. 에너지

ㄷ. 운송업

ㄹ. 금융서비스

 

14. 다음 중 기업내부 데이터베이스인 고객관계관리(CRM)에 대한 설명으로 적절한 것은 무엇인가?

ㄱ. 부품의 설계, 제조, 유통 등의 공정 포함

ㄴ. 외부 공급업체와의 정보시스템 통합으로 시간과 비용 최적화

ㄷ. 기업의 내부 고객들만을 대상으로 한 정보시스템

ㄹ. 단순한 정보의 수집에서 탈피, 분석 중심의 시스템 구축 지향

 

15. 아래는 데이터베이스를 기반으로 기업 내 구추고디는 주요 정보시스템 중 하나를 설명한 것이다. 보기에서 가장 적합한 것을 고르시오.

[기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템]

ㄱ. ERP

ㄴ. CRM

ㄷ. SCM

ㄹ. KMS

 

16. 다음 중 사회기반 구조로서의 데이터베이스에 대한 설명으로 가장 부적절한 것은?

ㄱ. 물류, 무역, 조세 등 사회간접자본 차원에서 정보망을 통해 유통, 이용된 정보가 데이터베이스로 구축

ㄴ. 지리, 교통 부문에서 데이터베이스가 보다 고도화되어 데이터베이스를 구축

ㄷ. 인터넷의 보편화로 데이터베이스가 사회 전반의 인프라로 자리매김

ㄹ. 의료, 교육, 행정 부문에서는 데이터베이스 구축과 활용이 활성화되지 못함

 

17. 러셀 L. 애오프가 1989년에 이야기한 DIKW Hiearchy는 데이터가 어떻게 진화하는지를 단계적으로 설명하였다. 다음 DIKW 단계를 설명하는 것 중 다른 하나는 무엇인가?

ㄱ. 지난 1년 매출액의 50%는 8월에 집중되어 있다.

ㄴ. 지난 1년 매출은 1월에서 8월까지 증가하였고, 12월까지 다시 증가하였다.

ㄷ. 날씨가 따뜻해지고, 지점을 확장하여 올 8월 매출액은 3000만원으로 예상한다.

ㄹ. 8월 A상품 구매 고객의 80%가 40대 여성 고객으로 대부분 회사원이다.

 

18. 다음 중 빅데이터에 대한 정의를 설명한 것으로 가장 부적절한 것은?

ㄱ. 대규모 데이터에서 저비용으로 가치를 추출, 초고속으로 수집 및 분석하기 위한 아키텍처이다.

ㄴ. 용량은 방대하지만 구조가 단순한 데이터세트의 집합이다.

ㄷ. 일반적인 데이터베이스 소프트웨어로 저장, 분석할 수 있는 범위를 초과하는 규모를 빅데이터라 정의한다.

ㄹ. 데이터의 양, 수집, 처리 속도가 급격히 증가하면서 나타난 현상이다.

 

19. 빅데이터 활용에 필요한 기본적인 3요소로 가장 적절한 것은?

ㄱ. 데이터, 기술, 인력

ㄴ. 데이터, 기술, 프로세스

ㄷ. 기술, 인력, 프로세스

ㄹ. 데이터, 인력, 프로세스

 

20. 다음 중 빅데이터 출현 배경에 관한 설명으로 부적절한 것은?

ㄱ. 개별 기업의 데이터 축적 및 데이터 활용에 대한 니즈 증가

ㄴ. 데이터 저장 기술의 발전과 저장 비용 감소

ㄷ. 인터넷, SNS와 사물네트워크의 확산으로 데이터 생산량 증가

ㄹ. 수집 관리 및 분석에 용이한 형태로 데이터 구조의 정형화

 

21. 다음 중 빅데이터의 수집, 구축, 분석의 최종 목적으로 가장 적절한 것은?

ㄱ. 새로운 통찰과 가치를 창출

ㄴ. 데이터 중심 조직 구성

ㄷ. 초고속 데이터 처리 기술 개발

ㄹ. 데이터 관리 비용 절감

 

22. 빅데이터의 기능 중 '공동 활용의 목적으로 구축된 유, 무형의 구조물 역할을 수행한다.' 라는 것에 해당하는 내용은 무엇인가?

ㄱ. 산업혁명 시대의 석탄, 철

ㄴ. 21세기의 원유

ㄷ. 렌즈

ㄹ. 플랫폼

 

23. 다음 중 빅데이터가 만들어 내는 변화로 가장 부적절한 것은?

ㄱ. 사전처리에서 사후처리 시대로의 변화

ㄴ. 대면조사에서 표본조사로의 변화

ㄷ. 데이터의 질보다 양의 중요도 증가

ㄹ. 인과관계에서 상관관계의 중요도 증가

 

24. 빅데이터가 만들어내는 본질적인 변화에 대한 설명이 부적절한 것은 무엇인가?

ㄱ. 질 -> 양

ㄴ. 인과관계 -> 상관관계

ㄷ. 사전처리 -> 사후처리

ㄹ. 표본조사 -> 인과관계

 

25. 다음 중 데이터의 가치 측정이 어려운 이유로 적절하지 않은 것은 무엇인가?

ㄱ. 데이터 재사용의 일반화로 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문이다.

ㄴ. 빅데이터 전문 인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있기 때문이다.

ㄷ. 분석기술의 발전으로 과거에 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문이다.

ㄹ. 빅데이터는 기존에 존재하지 않던 새로운 가치를 창출하기 때문이다.

 

26. 다음 중 사생활 침해를 막기 위해 개인정보를 무작위 처리하는 등 데이터가 본래 목적 외에 가공되고 처리되는 것을 방지하는 기술은 무엇인가?

ㄱ. 정규화

ㄴ. 난수화

ㄷ. 익명화

ㄹ. 일반화

 

27. 다음 중 감성 분석(Sentimental Analysis)에 대한 설명으로 가장 부적절한 것은?

ㄱ. 특정 주제에 대한 사용자의 긍정/부정 의견을 분석한다.

ㄴ. 주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적 사례이다.

ㄷ. 사용자간의 소셜 관계를 알아내고자 할 때 이용한다.

ㄹ. 사용자가 사용한 문장이나 단어가 분석 대상이 된다.

 

28. 아래와 같은 비즈니스 문제가 있다면, 각 문제를 해결하기 위해 주로 사용되는 기법과 연결이 적절하지 않은 것은?

ㄱ. 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많다. - 연관규칙학습

ㄴ. 고객의 만족도가 충성도에 어떤 영향을 미치는가? - 회귀분석

ㄷ. 친분관계가 승진에 어떤 영향을 미치는가? - 소셜 네트워크 분석

ㄹ. 택배차량을 어떻게 배치하는 것이 비용측면에서 가장 효율적인가? - 유형분석

 

29. 아래 빅데이터 활용을 위한 기본 테크닉 중 어떤 사례에 해당하는가?

[A마트는 금요일 저녁에 맥주를 사는 사람은 기저귀도 함께 구매했다는 사실을 발견하고, 두가지 상품을 가까운 곳에 진열하기로 결정했다.]

ㄱ. 회귀분석

ㄴ. 연관성분석

ㄷ. 유형분석

ㄹ. 구문분석

 

30. 다음 핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야인 것은?

ㄱ. 크라우드 펀딩(Crowd Funding)

ㄴ. 신용평가(Credit Rating)

ㄷ. 간편결제(Simple Payment)

ㄹ. 블록체인(Block Chain)

 

31. 다음 중 딥러닝(Deep Learning)과 가장 관련 없는 분석 기법은?

ㄱ. LSTM

ㄴ. Autoencoder

ㄷ. K-NN

ㄹ. RNN

 

32. 최근에 딥러닝에 대한 관심이 전 세계적으로 높아지고 있다. 딥러닝을 활용하기 위해 다양한 오픈소스가 개발되어 제공되고 있다. 다음 중 이와 가장 관련이 없는 것은?

ㄱ. Caffe

ㄴ. Tensorflow

ㄷ. Anaconda

ㄹ. Theano

 

33. 다음 중 빅데이터 시대에 발생할 수 있는 위기 요인으로 가장 부적절한 것은?

ㄱ. 재산권 침해

ㄴ. 데이터 오용

ㄷ. 책임원칙 훼손

ㄹ. 사생활 침해

 

34. 다음 중 빅데이터 시대 위기 요인 중 사생활 침해 문제를 해결하기 위해 개인 정보를 사용하는 자가 적극적인 보호 장치를 강구하게 하는 방법으로 가장 적절한 것은?

ㄱ. 알고리즘에 대한 접근을 허용해 부당함을 반증할 방법을 명시해 공개할 것을 주문

ㄴ. 개인정보 제공자가 허락하는 동의제의 도입

ㄷ. 개인정보를 사용하는 사람이 직접 책임지는 책임제의 도입

ㄹ. 정보 사용자에게 수집된 내용을 공개하고 접근하는 권리 부여

 

35. 빅데이터 시대가 도래하면서 발생할 수 있는 부정적인 측면의 하나로 '책임 원칙의 훼손'을 들 수 있다. 다음 중 이에 대한 사례로 가장 적절한 것은?

ㄱ. 범죄 예측 프로그램에 의해 범행 전에 체포

ㄴ. 빅브라더가 출현하여 개인의 일상생활 전반을 감시

ㄷ. 여행 사실을 SNS에 올린 사람의 집에 강도가 침입

ㄹ. 검색엔진의 차별적인 누락에 의한 매출액 감소

 

36. 다음 중 데이터화(datafication) 현상에 큰 영향을 미치는 기술로 적절한 것은?

ㄱ. 사물인터넷

ㄴ. 인공지능

ㄷ. 가상현실

ㄹ. 3D 프린팅

 

37. 다음 중 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현, 관리할 수 있는 데이터베이스 관리 시스템은 무엇인가?

ㄱ. 관계형 DBMS

ㄴ. 객체지향 DBMS

ㄷ. 네트워크 DBMS

ㄹ. 계층형 DBMS

 

38. 데이터 사이언스는 데이터 처리와 관련된 IT 영역, 분석적 영역, 그리고 비즈니스 컨설팅 영역을 포괄하고 있다. 다음 중 세 개의 영역과 다른 영역에 속하는 하나는?

ㄱ. 데이터 시각화

ㄴ. 데이터 웨어하우징

ㄷ. 분산 컴퓨팅

ㄹ. 파이썬 프로그래밍

 

39. 데이터 사이언스에서 인문학적 사고는 반드시 필요한 요소이다. 다음 중 인문학 열풍을 가져오게 한 외부 환경 요소로 가장 부적절한 것은?

ㄱ. 디버전스 동역학이 작용하는 복잡한 세계화

ㄴ. 비즈니스 중심이 제품생산에서 체험 경제를 기초로 한 서비스로 이동

ㄷ. 경제의 논리가 생산에서 최근 패러다임인 시장 창조로 변화

ㄹ. 빅데이터 분석 기법의 이해와 분석 방법론 확대

 

40. 다음 중 데이터 사이언티스트의 필요 역량으로 가장 부적절한 것은?

ㄱ. 설득력있는 스토리텔링

ㄴ. 통찰력 있는 분석

ㄷ. 네트워크 최적화

ㄹ. 다분야 간 협력을 위한 커뮤니케이션

 

41. 데이터 사이언스에 대한 설명으로 가장 부적절한 것은?

ㄱ. 데이터 사이언스는 데이터로부터 의미있는 정보를 추출하는 학문이다.

ㄴ. 주로 분석의 정확성에 초점을 두고 진행한다.

ㄷ. 정형데이터 뿐만 아니라 다양한 데이터를 대상으로 한다.

ㄹ. 기존의 통계학과는 달리 총체적 접근법을 사용한다.

 

잘 틀리는 유형 기준으로..

 

1. 익명화 기법

- 가명(직접 식별 불가능한 정보로 대체)

- 일반화(더 일반화된 값으로 대체하는 것으로 구간이나 계층 등으로 대체)

- 섭동(동일한 확률적 정보를 가지는 변형된 값에 대하여 원래 데이터를 대체)

- 치환(속상 값을 수정하지 않고 레코드 간에 속성 값의 위치를 바꿈)

 

2. 대상별 분석 기획 유형

  분석 대상 (What)
Known Un-Known
분석 방법
(How)
Known 최적화
(Optimization)
통찰
(Insight)
Un-Known 솔루션
(Solution)
발견
(Discovery)

 

3. 가트너의 분석 가치 에스컬레이터

- 묘사분석(Descriptive): 분석의 가장 기본적인 지표. 과거에 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인

- 진단분석(Diagnositc): 분석의 원인을 이해하는 과정. 데이터를 기반으로 왜 발생했는지 이유 확인

- 예측분석(Predictive): 데이터를 통해 예측하는 과정. 무슨 일이 일어날 것인지 확인

- 처방분석(Prescriptive): 예측을 바탕으로 최적화하는 과정. 무엇을 해야할 것인지 확인

 

4. 베이즈정리

P(C|E) = P(E|C)P(C) / [ P(E|A)P(A) +  P(E|B)P(B) + P(E|C)P(C) ]

 

5. 데이터양

KB < MB < GB < TB < FB < EB < ZB < YB

10^3 <  6  <  9  < 12 < 15 < 18 < 21 < 24

2^10 < 20 < 30< 40 < 50 < 60 < 70 < 80

 

6. 데이터 품질 요소: 정확성 / 완전성 / 적시성 / 일관성

 

7. 왜도

- 왜도=0 이면, 최빈수=중위수=평균

- 왜도>0 이면, 최빈수<중위수<평균, 우측으로 긴 꼬리

- 왜도<0 이면, 최빈수>중위수>평균, 좌측으로 긴 꼬리

 

8. 확률분포와 확률변수

- 이산확률분포: 포아송, 베르누이, 이항, 초기하

- 연속확률분포: 정규, 감마, 지수, 카이제곱

 

9. 점추정 조건

- 불편성/불편의성 (Unbiasedness): 추정량의 기댓값이 모집단의 모수와 차이가 없음

- 효율성 (Efficiency): 추정량의 분산은 작을 수록 좋고, 효율이 항상 1 이하. 1이 max

- 일치성 (Consistency): 표본의 크기가 커지면, 추정량이 모수와 거의 일치

- 충족성/충분성 (Sufficiency): 추정량은 모수에 대하여 많은 정보를 제공할 수록 좋음

 

10. 가설검정 오류

  참값(실제 현상)
H0 H1
채택
(통계적 결정)
H0 올바른 결정 (1 - alpha) 제 2종 오류 (Beta)
H1 제 1종 오류 (Alpha) 올바른 결정 (1 - Beta)

- 유의수준 (Alpha): 제 1종 오류를 범할 최대 허용 확률

- 신뢰수준 (1 - Alpha): 귀무가설이 참일 떄 이를 참이라고 판단하는 확률

- 베타수준 (Beta) : 제 2종 오류를 범할 최대 허용 확률

- 검정력 (1 - Beta): 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률

- 유의확률(p-Value): 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본통계량의 값보다 더 극단적인 값이 나올 확률

- 귀무가설 채택: p-Value > Alpha

- 귀무가설 기각: p-Value < Alpha

 

11. 모수/비모수 검정

  모수검정 비모수검정
단일표본 단일표본T검정 부호검정
윌콕슨 부호 순위 검정
두표본 독립표본T검정 윌콕슨 순위 합 검정
(만-위트니의 U검정)
대응표본T검정 부호검정
윌콕슨 부호 순위 검정
분산분석 ANOVA 크루스칼-왈리스 검정
무작위성   런 검정 (Run Test)
상관분석 피어슨 상관계수 스피어만 순위 상관계수

 

12. EDA의 4가지 주제(특징)

- 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질

- 잔차 해석: 잔차로 데이터의 보통과 다른 특징을 탐색

- 자료 재표현: 분석과 해석을 단순화 할 수록 다른 척도로 변환, 데이터의 구조파악과 해석

- 현시성: 데이터 시각화

 

13. 회귀 모형의 가정

- 선형성: 독립변수와 종속변수가 선형적이어야 한다

- 독립성: 잔차와 독립변수의 값이 서로 독립적이어야 한다. 더빈-왓슨 검정

- 등분산성: 잔차의 분산이 독립변수와 무관하게 일정해야 한다. 잔차가 고르게 분포되어야 함

- 비상관성: 관측치와 잔차는 서로 상관이 없어야 한다. 잔차끼리 독립이면 비상관성이 있다고 판단

- 정상성(정규성): 잔차항이 정규분포를 이루어야 한다. Q-Q플롯 직선, 샤피로-윌크, 콜모고로프-스미르노프 검정

 

14. 결정계수 R-square

- R-square = SSR (회귀제곱합) / SST (전체제곱합) = SSR / SSR + SSE

MSR = SSR / k

MSE = SSE / n-k-1

MST = SST / n-1

F = MSR / MSE

 

15.시계열 구성요소

- 추세 / 계절 / 순환 / 불규칙 (잔차)

- 백색잡음 모형

- 확률보행 모형

- 자기회귀 모형 AR

- 이동평균 모형 MA

- ARIMA (p, q, d): p는 AR / q는 차분회수 / d는 MR

 

16. CNN Feature Map 계산

[ n (이미지 크기) + 2p (padding) - f (filter) / s (Stride) ] + 1

 

17. Confusion Matrix

  예측
Positive Negative
실제 Positive TP FN
Negative FP TN

- TP Rate 재현율(Recall), 민감도(Sensitivity) = TP / (TP + FN)

- 정밀도(Precision) = TP / (TP + FP)

- 특이도(Specificity) = TN / (TN + FP)

- 거짓긍정률FP Rate = FP / (TN + FP)

- F1 = 2 x Precision x Recall / (Precision + Recall)

- ROC Curve: FP Rate (x축)과 TP Rate (y축) 그래프. 아래 영역이 AUROC

 

18. 시각화

- 관계시각화 유형: 산점도 / 산점도 행렬/ 버블차트 / 히스토그램 / 네트워크그래프

- 비교시각화 유형: 플로팅 바 차트 / 히트맵 / 체르노프페이스 / 스타차트 / 평행 좌표계

 

19. 데이터 이상값 발생원인

- 표본추출 오류 / 고의적인 이상값 / 데이터 입력 오류 / 실험 오류 / 측정 오류

 

20. 상향식 접근방법

- 프로세스 분류 / 프로세스 흐름 분석 / 분석 요건 식별 / 분석 요건 정의

3d-data-management-controlling-data-volume-velocity-and-varietypdf-pdf-free.pdf
0.08MB

 

빅데이터의 특성은 무엇인가. 하면 언제나 같이 말이 나오는 3V가 있다.

 

Volume, Velocity, and Variety.

한국어로는 규모, 속도, 다양성 정도로 해석할 수 있다.

 

이 말은 2001년 2월 Meta Group (현 가트너, Gatner)의 Doug Laney가 쓴 Technical Report인 "3D Data Management: Controlling Data Volume, Velocity, and Variety"에서 시작되었다고 볼 수 있다. 물론, 그가 지어냈다기 보다는 당시 IT업계에서 떠돌던 말을 V에 맞춰 정리한 셈이다. 3장 짜리의 짧은 리포트이니 원본이 궁금한 사람은 PDF 파일을 올려놓았으니 참고하길 바란다.

3D Data Management: Controlling Data Volume, Velocity, and Variety. Laney, D. Technical Report META Group, 2001.

최근에는 3V를 넘어, 7V: Value (가치), Veracity (신뢰성), Validity (정확성), Volatility (휘발성) 까지 나왔다고 하는데 좀 억지스러운 면이 있다.

 

나처럼 누군가의 말을 쉽게 믿지 않고, 기원이 어디서부터인지를 찾고자 하는 사람에게 도움이 되길 바란다.

.merge를 사용하면 된다

how를 이용하여 inner, left, right, outer, cross를 정할 수 있으며, on에 key값을 입력하면 된다.

df_new = pd.merge(df_A, df_B, on='key_column', how='inner')
df_new = pd.merge(df_A, df_B, on='key_column', how='left')
df_new = pd.merge(df_A, df_B, on='key_column', how='right')
df_new = pd.merge(df_A, df_B, on='key_column', how='outer')
df_new = pd.merge(df_A, df_B, on='key_column', how='cross')

1. Inner Join : 교집합, A ∩ B

https://stackoverflow.com/questions/53645882/pandas-merging-101

2. Left Join : A ∪ (B - A)

https://stackoverflow.com/questions/53645882/pandas-merging-101

3. Right Join : B ∪ (A - B)

https://stackoverflow.com/questions/53645882/pandas-merging-101

4. Outer Join : 합집합, A∪B, Full Outer Join 이라고도 부른다.

https://stackoverflow.com/questions/53645882/pandas-merging-101

5. Cross Join : 곱집합, A×B

https://en.wikipedia.org/wiki/Cartesian_product

그 외에도 Excluding 하는 Join이 있다.

6. Left-Excluding Join: A - B

https://stackoverflow.com/questions/53645882/pandas-merging-101

df_new = df_A.merge(df_B, on='key_column', how='left', indicator=True)\
				.query('_merge == "left_only"')\
				.drop('_merge', 1)

7. Right-Excluding Join: B - A

https://stackoverflow.com/questions/53645882/pandas-merging-101

df_new = df_A.merge(df_B, on='key_column', how='left', indicator=True)\
				.query('_merge == "right_only"')\
				.drop('_merge', 1)

8. Outer-Excluding Join: ANTI Join, A - ( A ∩ B)

https://stackoverflow.com/questions/53645882/pandas-merging-101

df_new = df_A.merge(df_B, on='key_column', how='outer', indicator=True)\
				.query('_merge != "both"')\
				.drop('_merge', 1)

'자주찾는 Python Code' 카테고리의 다른 글

파이썬 데이터 열 (Column) / 행 (Row) 삭제  (0) 2023.03.06

.drop을 사용하면 된다

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

열 (Column) 제거

1. 특정 열 이름으로 제거

new_df = df.drop(['column_1', ...., 'column_N'], axis = 1)

 

2. Index 번호들 제거 (범위 지정)

new_df = df.drop(df.columns[index_#1, index_#N], axis = 1)

 

행 (Row) 제거

1. Index 번호들 제거(리스트 나열)

new_df = df.drop([index_#1, ..., index_#N])

 

2. Index 번호들 제거(범위 지정)

new_df = df.drop(label=range(index_#1, index_#N))

 

3. 특정 열의 특정 값이 존재하는 행을 제거 (+조건)

new_df = df.drop(df[df.column_k == '값'].index)

new_df = df.drop(df[df.column_k < '값'].index)

 

import pandas as pd
ais = pd.csv('ais.csv')
data.head()

ais.columns

ais_ww = ais.drop(['time_query', 'lat_query', 'lon_query', 'time_query_str', 'u_wind',
       'v_wind', 'wave_height', 'wave_direction', 'wave_period',
       'swell_height', 'swell_direction', 'swell_period', 'ice_cover',
       'u_current', 'v_current', 'water_temperature', 'pressure',
       'air_temperature'], axis=1)
ais_ww.head()

ais.vessel_type.unique()

len(ais)

ais_wv = ais.drop(ais[ais.vessel_type == 'Other'].index)
ais_wv.vessel_type.unique()

len(ais_wv)

 

'자주찾는 Python Code' 카테고리의 다른 글

파이썬 데이터 병합 (merge, join)  (0) 2023.03.07

+ Recent posts