잘 틀리는 유형 기준으로..

 

1. 익명화 기법

- 가명(직접 식별 불가능한 정보로 대체)

- 일반화(더 일반화된 값으로 대체하는 것으로 구간이나 계층 등으로 대체)

- 섭동(동일한 확률적 정보를 가지는 변형된 값에 대하여 원래 데이터를 대체)

- 치환(속상 값을 수정하지 않고 레코드 간에 속성 값의 위치를 바꿈)

 

2. 대상별 분석 기획 유형

  분석 대상 (What)
Known Un-Known
분석 방법
(How)
Known 최적화
(Optimization)
통찰
(Insight)
Un-Known 솔루션
(Solution)
발견
(Discovery)

 

3. 가트너의 분석 가치 에스컬레이터

- 묘사분석(Descriptive): 분석의 가장 기본적인 지표. 과거에 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인

- 진단분석(Diagnositc): 분석의 원인을 이해하는 과정. 데이터를 기반으로 왜 발생했는지 이유 확인

- 예측분석(Predictive): 데이터를 통해 예측하는 과정. 무슨 일이 일어날 것인지 확인

- 처방분석(Prescriptive): 예측을 바탕으로 최적화하는 과정. 무엇을 해야할 것인지 확인

 

4. 베이즈정리

P(C|E) = P(E|C)P(C) / [ P(E|A)P(A) +  P(E|B)P(B) + P(E|C)P(C) ]

 

5. 데이터양

KB < MB < GB < TB < FB < EB < ZB < YB

10^3 <  6  <  9  < 12 < 15 < 18 < 21 < 24

2^10 < 20 < 30< 40 < 50 < 60 < 70 < 80

 

6. 데이터 품질 요소: 정확성 / 완전성 / 적시성 / 일관성

 

7. 왜도

- 왜도=0 이면, 최빈수=중위수=평균

- 왜도>0 이면, 최빈수<중위수<평균, 우측으로 긴 꼬리

- 왜도<0 이면, 최빈수>중위수>평균, 좌측으로 긴 꼬리

 

8. 확률분포와 확률변수

- 이산확률분포: 포아송, 베르누이, 이항, 초기하

- 연속확률분포: 정규, 감마, 지수, 카이제곱

 

9. 점추정 조건

- 불편성/불편의성 (Unbiasedness): 추정량의 기댓값이 모집단의 모수와 차이가 없음

- 효율성 (Efficiency): 추정량의 분산은 작을 수록 좋고, 효율이 항상 1 이하. 1이 max

- 일치성 (Consistency): 표본의 크기가 커지면, 추정량이 모수와 거의 일치

- 충족성/충분성 (Sufficiency): 추정량은 모수에 대하여 많은 정보를 제공할 수록 좋음

 

10. 가설검정 오류

  참값(실제 현상)
H0 H1
채택
(통계적 결정)
H0 올바른 결정 (1 - alpha) 제 2종 오류 (Beta)
H1 제 1종 오류 (Alpha) 올바른 결정 (1 - Beta)

- 유의수준 (Alpha): 제 1종 오류를 범할 최대 허용 확률

- 신뢰수준 (1 - Alpha): 귀무가설이 참일 떄 이를 참이라고 판단하는 확률

- 베타수준 (Beta) : 제 2종 오류를 범할 최대 허용 확률

- 검정력 (1 - Beta): 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률

- 유의확률(p-Value): 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본통계량의 값보다 더 극단적인 값이 나올 확률

- 귀무가설 채택: p-Value > Alpha

- 귀무가설 기각: p-Value < Alpha

 

11. 모수/비모수 검정

  모수검정 비모수검정
단일표본 단일표본T검정 부호검정
윌콕슨 부호 순위 검정
두표본 독립표본T검정 윌콕슨 순위 합 검정
(만-위트니의 U검정)
대응표본T검정 부호검정
윌콕슨 부호 순위 검정
분산분석 ANOVA 크루스칼-왈리스 검정
무작위성   런 검정 (Run Test)
상관분석 피어슨 상관계수 스피어만 순위 상관계수

 

12. EDA의 4가지 주제(특징)

- 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질

- 잔차 해석: 잔차로 데이터의 보통과 다른 특징을 탐색

- 자료 재표현: 분석과 해석을 단순화 할 수록 다른 척도로 변환, 데이터의 구조파악과 해석

- 현시성: 데이터 시각화

 

13. 회귀 모형의 가정

- 선형성: 독립변수와 종속변수가 선형적이어야 한다

- 독립성: 잔차와 독립변수의 값이 서로 독립적이어야 한다. 더빈-왓슨 검정

- 등분산성: 잔차의 분산이 독립변수와 무관하게 일정해야 한다. 잔차가 고르게 분포되어야 함

- 비상관성: 관측치와 잔차는 서로 상관이 없어야 한다. 잔차끼리 독립이면 비상관성이 있다고 판단

- 정상성(정규성): 잔차항이 정규분포를 이루어야 한다. Q-Q플롯 직선, 샤피로-윌크, 콜모고로프-스미르노프 검정

 

14. 결정계수 R-square

- R-square = SSR (회귀제곱합) / SST (전체제곱합) = SSR / SSR + SSE

MSR = SSR / k

MSE = SSE / n-k-1

MST = SST / n-1

F = MSR / MSE

 

15.시계열 구성요소

- 추세 / 계절 / 순환 / 불규칙 (잔차)

- 백색잡음 모형

- 확률보행 모형

- 자기회귀 모형 AR

- 이동평균 모형 MA

- ARIMA (p, q, d): p는 AR / q는 차분회수 / d는 MR

 

16. CNN Feature Map 계산

[ n (이미지 크기) + 2p (padding) - f (filter) / s (Stride) ] + 1

 

17. Confusion Matrix

  예측
Positive Negative
실제 Positive TP FN
Negative FP TN

- TP Rate 재현율(Recall), 민감도(Sensitivity) = TP / (TP + FN)

- 정밀도(Precision) = TP / (TP + FP)

- 특이도(Specificity) = TN / (TN + FP)

- 거짓긍정률FP Rate = FP / (TN + FP)

- F1 = 2 x Precision x Recall / (Precision + Recall)

- ROC Curve: FP Rate (x축)과 TP Rate (y축) 그래프. 아래 영역이 AUROC

 

18. 시각화

- 관계시각화 유형: 산점도 / 산점도 행렬/ 버블차트 / 히스토그램 / 네트워크그래프

- 비교시각화 유형: 플로팅 바 차트 / 히트맵 / 체르노프페이스 / 스타차트 / 평행 좌표계

 

19. 데이터 이상값 발생원인

- 표본추출 오류 / 고의적인 이상값 / 데이터 입력 오류 / 실험 오류 / 측정 오류

 

20. 상향식 접근방법

- 프로세스 분류 / 프로세스 흐름 분석 / 분석 요건 식별 / 분석 요건 정의

3d-data-management-controlling-data-volume-velocity-and-varietypdf-pdf-free.pdf
0.08MB

 

빅데이터의 특성은 무엇인가. 하면 언제나 같이 말이 나오는 3V가 있다.

 

Volume, Velocity, and Variety.

한국어로는 규모, 속도, 다양성 정도로 해석할 수 있다.

 

이 말은 2001년 2월 Meta Group (현 가트너, Gatner)의 Doug Laney가 쓴 Technical Report인 "3D Data Management: Controlling Data Volume, Velocity, and Variety"에서 시작되었다고 볼 수 있다. 물론, 그가 지어냈다기 보다는 당시 IT업계에서 떠돌던 말을 V에 맞춰 정리한 셈이다. 3장 짜리의 짧은 리포트이니 원본이 궁금한 사람은 PDF 파일을 올려놓았으니 참고하길 바란다.

3D Data Management: Controlling Data Volume, Velocity, and Variety. Laney, D. Technical Report META Group, 2001.

최근에는 3V를 넘어, 7V: Value (가치), Veracity (신뢰성), Validity (정확성), Volatility (휘발성) 까지 나왔다고 하는데 좀 억지스러운 면이 있다.

 

나처럼 누군가의 말을 쉽게 믿지 않고, 기원이 어디서부터인지를 찾고자 하는 사람에게 도움이 되길 바란다.

+ Recent posts