<<< KDD 분석 방법론 >>>
KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스로서 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝, 기계학습, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다.
-KDD 분석 절차-
프로세스 순서 | 단계 | 내용 | ||
1 | 데이터셋 선택 (Selection) |
-분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표 설정 -데이터 마이닝에 필요한 목표데이터 선택 |
||
2 | 데이터 전처리 (Preprocessing) |
-분석 데이터셋에 포함되어 있는 잡음(noise),이상값(outlier), 결측치(Missing Value)를 식별하고 필요시 제거한다. |
||
3 | 데이터 변환 (Transformation) |
-분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경한다. |
||
4 | 데이터 마이닝 (Data Mining) |
-변환된 데이터셋을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닝 작업을 시행한다. |
||
5 | 데이터 마이닝 결과평가 (Interpretation/Evaluation) |
- 분석 결과에 대한 해석과 평가 및 활용을 한다. |
<<CRISP-DM 분석 방법론>>
-CRISP-DM(Cross Industry Standard Process For Data Mining)은 1966년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 계층적 프로세스 모델로서 4개 레벨로 구성되어 있다.
-최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Genetic Task)를 포함한다.
-일바화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다.
-세 번째 레벨은 세분화 태스크(Specialized Tasks)로 일반화 태스크를 구체적으로 수행하는 레벨이다.
-예를 들어 데이터 정제 (Data Cleaning)의 일반화 태스크는 범주형 데이터 정제, 연속형 데이터 정제 등으로 구체화된 세부화 태스크가 있다.
-마지막으로 레벨인 프로세스 실행(Process Instance)은 데이터 마이닝을 위한 구체적인 실행을 포함한다.
<<CRISP-DM 분석 절차>>
CRISP-DM프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수 모델처럼 일방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.
프로세스 순서 | 단계 | 내용 | |||
1 | 업무이해 (Buiseness Understanding) |
-비즈니스 관점 프로젝트의 목적과 요구 사항을 이해하기 위한 단계로서, 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로제그 계획을 수립하는 단계 -업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
|||
2 | 데이터 이해 (Data Understanding) |
-데이터 이해는 분석을 위한 데이터를 수집하고 데이터속성을 이해하기 위한 과정으로 구성되고, 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계 -초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
|||
3 | 데이터 준비 (Data Preparation) |
-데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계로서 많은 시간이 소요될 수 있다. -분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅이 해당된다. |
|||
4 | 모델링 (Modeling) |
-다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계. 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합(Overfitting)등의 문제를 발견하고 대응방안을 마련한다. -모델링 기법 선택, 모델 테스트 계획 설계, 모델작성, 모델 평가로 구성된다. |
|||
5 | 평가 (Evaluation) |
-모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가한다. 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 것에 있다. -분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
|||
6 | 전개 (Deployment) |
-모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립한다. -전개 계획 수립, 모니터일과 모델링 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |

<<KDD와 CRISP-DM 비교>>
KDD | CRISP-DM | ||
분석 대상 비즈니스 이해 | 업무 이해 (Buiseness Understanding) | ||
데이터셋 선택(Selection) | 데이터 이해 (Data Understanding) | ||
데이터 전처리 (Preprocessing) | 데이터 이해 (Data Understanding) | ||
데이터 변환(Transformation) | 데이터 준비 (Data Preparation) | ||
데이터 마이닝(Data Mining) | 모델링(Modeling) | ||
데이터 마이닝 결과평가(Interpretation/Evaluation) | 평가(Evaluation)0 | ||
데이터 마이닝 활용 | 전개(Deployment) |
'Data Science > Big_Data' 카테고리의 다른 글
분석과제 발굴 / 디자인 씽킹Design Thinking (0) | 2022.01.26 |
---|---|
빅데이터 분석 방법론 (0) | 2022.01.26 |
빅데이터 분석 방법론 (0) | 2022.01.26 |
데이터 분석 기획 방향성 도출 (0) | 2022.01.25 |
빅데이터 그리고 사이언스의 미래 (0) | 2022.01.25 |
댓글