잘 틀리는 유형 기준으로..
1. 익명화 기법
- 가명(직접 식별 불가능한 정보로 대체)
- 일반화(더 일반화된 값으로 대체하는 것으로 구간이나 계층 등으로 대체)
- 섭동(동일한 확률적 정보를 가지는 변형된 값에 대하여 원래 데이터를 대체)
- 치환(속상 값을 수정하지 않고 레코드 간에 속성 값의 위치를 바꿈)
2. 대상별 분석 기획 유형
분석 대상 (What) | |||
Known | Un-Known | ||
분석 방법 (How) |
Known | 최적화 (Optimization) |
통찰 (Insight) |
Un-Known | 솔루션 (Solution) |
발견 (Discovery) |
3. 가트너의 분석 가치 에스컬레이터
- 묘사분석(Descriptive): 분석의 가장 기본적인 지표. 과거에 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인
- 진단분석(Diagnositc): 분석의 원인을 이해하는 과정. 데이터를 기반으로 왜 발생했는지 이유 확인
- 예측분석(Predictive): 데이터를 통해 예측하는 과정. 무슨 일이 일어날 것인지 확인
- 처방분석(Prescriptive): 예측을 바탕으로 최적화하는 과정. 무엇을 해야할 것인지 확인
4. 베이즈정리
P(C|E) = P(E|C)P(C) / [ P(E|A)P(A) + P(E|B)P(B) + P(E|C)P(C) ]
5. 데이터양
KB < MB < GB < TB < FB < EB < ZB < YB
10^3 < 6 < 9 < 12 < 15 < 18 < 21 < 24
2^10 < 20 < 30< 40 < 50 < 60 < 70 < 80
6. 데이터 품질 요소: 정확성 / 완전성 / 적시성 / 일관성
7. 왜도
- 왜도=0 이면, 최빈수=중위수=평균
- 왜도>0 이면, 최빈수<중위수<평균, 우측으로 긴 꼬리
- 왜도<0 이면, 최빈수>중위수>평균, 좌측으로 긴 꼬리
8. 확률분포와 확률변수
- 이산확률분포: 포아송, 베르누이, 이항, 초기하
- 연속확률분포: 정규, 감마, 지수, 카이제곱
9. 점추정 조건
- 불편성/불편의성 (Unbiasedness): 추정량의 기댓값이 모집단의 모수와 차이가 없음
- 효율성 (Efficiency): 추정량의 분산은 작을 수록 좋고, 효율이 항상 1 이하. 1이 max
- 일치성 (Consistency): 표본의 크기가 커지면, 추정량이 모수와 거의 일치
- 충족성/충분성 (Sufficiency): 추정량은 모수에 대하여 많은 정보를 제공할 수록 좋음
10. 가설검정 오류
참값(실제 현상) | |||
H0 | H1 | ||
채택 (통계적 결정) |
H0 | 올바른 결정 (1 - alpha) | 제 2종 오류 (Beta) |
H1 | 제 1종 오류 (Alpha) | 올바른 결정 (1 - Beta) |
- 유의수준 (Alpha): 제 1종 오류를 범할 최대 허용 확률
- 신뢰수준 (1 - Alpha): 귀무가설이 참일 떄 이를 참이라고 판단하는 확률
- 베타수준 (Beta) : 제 2종 오류를 범할 최대 허용 확률
- 검정력 (1 - Beta): 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률
- 유의확률(p-Value): 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본통계량의 값보다 더 극단적인 값이 나올 확률
- 귀무가설 채택: p-Value > Alpha
- 귀무가설 기각: p-Value < Alpha
11. 모수/비모수 검정
모수검정 | 비모수검정 | |
단일표본 | 단일표본T검정 | 부호검정 윌콕슨 부호 순위 검정 |
두표본 | 독립표본T검정 | 윌콕슨 순위 합 검정 (만-위트니의 U검정) |
대응표본T검정 | 부호검정 윌콕슨 부호 순위 검정 |
|
분산분석 | ANOVA | 크루스칼-왈리스 검정 |
무작위성 | 런 검정 (Run Test) | |
상관분석 | 피어슨 상관계수 | 스피어만 순위 상관계수 |
12. EDA의 4가지 주제(특징)
- 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질
- 잔차 해석: 잔차로 데이터의 보통과 다른 특징을 탐색
- 자료 재표현: 분석과 해석을 단순화 할 수록 다른 척도로 변환, 데이터의 구조파악과 해석
- 현시성: 데이터 시각화
13. 회귀 모형의 가정
- 선형성: 독립변수와 종속변수가 선형적이어야 한다
- 독립성: 잔차와 독립변수의 값이 서로 독립적이어야 한다. 더빈-왓슨 검정
- 등분산성: 잔차의 분산이 독립변수와 무관하게 일정해야 한다. 잔차가 고르게 분포되어야 함
- 비상관성: 관측치와 잔차는 서로 상관이 없어야 한다. 잔차끼리 독립이면 비상관성이 있다고 판단
- 정상성(정규성): 잔차항이 정규분포를 이루어야 한다. Q-Q플롯 직선, 샤피로-윌크, 콜모고로프-스미르노프 검정
14. 결정계수 R-square
- R-square = SSR (회귀제곱합) / SST (전체제곱합) = SSR / SSR + SSE
MSR = SSR / k
MSE = SSE / n-k-1
MST = SST / n-1
F = MSR / MSE
15.시계열 구성요소
- 추세 / 계절 / 순환 / 불규칙 (잔차)
- 백색잡음 모형
- 확률보행 모형
- 자기회귀 모형 AR
- 이동평균 모형 MA
- ARIMA (p, q, d): p는 AR / q는 차분회수 / d는 MR
16. CNN Feature Map 계산
[ n (이미지 크기) + 2p (padding) - f (filter) / s (Stride) ] + 1
17. Confusion Matrix
예측 | |||
Positive | Negative | ||
실제 | Positive | TP | FN |
Negative | FP | TN |
- TP Rate 재현율(Recall), 민감도(Sensitivity) = TP / (TP + FN)
- 정밀도(Precision) = TP / (TP + FP)
- 특이도(Specificity) = TN / (TN + FP)
- 거짓긍정률FP Rate = FP / (TN + FP)
- F1 = 2 x Precision x Recall / (Precision + Recall)
- ROC Curve: FP Rate (x축)과 TP Rate (y축) 그래프. 아래 영역이 AUROC
18. 시각화
- 관계시각화 유형: 산점도 / 산점도 행렬/ 버블차트 / 히스토그램 / 네트워크그래프
- 비교시각화 유형: 플로팅 바 차트 / 히트맵 / 체르노프페이스 / 스타차트 / 평행 좌표계
19. 데이터 이상값 발생원인
- 표본추출 오류 / 고의적인 이상값 / 데이터 입력 오류 / 실험 오류 / 측정 오류
20. 상향식 접근방법
- 프로세스 분류 / 프로세스 흐름 분석 / 분석 요건 식별 / 분석 요건 정의
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터의 특성, 3V] Volume, Velocity, and Variety - Doug Laney, Meta Group (Gatner) (0) | 2023.03.08 |
---|