본문 바로가기
Data Science/Big_Data

KDD , CRISP-DM 분석 방법론

by 전테리 2022. 1. 26.
728x90
SMALL

<<< KDD 분석 방법론 >>>

KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스로서 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝, 기계학습, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다.

 

-KDD 분석 절차-

프로세스 순서 단계 내용
1 데이터셋 선택
(Selection)
-분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표 설정
-데이터 마이닝에 필요한 목표데이터 선택
2 데이터 전처리
(Preprocessing)
-분석 데이터셋에 포함되어 있는 잡음(noise),이상값(outlier),
결측치(Missing Value)를 식별하고 필요시 제거한다.
3 데이터 변환
(Transformation)
-분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여
데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋을 변경한다.
4 데이터 마이닝
(Data Mining)
-변환된 데이터셋을 이용하여 분석 목적에 맞는 데이터 마이닝 기법을
선택하고, 데이터
마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는
예측 등의 마이닝 작업을 시행한다.
5 데이터 마이닝 결과평가
(Interpretation/Evaluation)
- 분석 결과에 대한 해석과 평가 및 활용을 한다.

 

 

<<CRISP-DM 분석 방법론>>

-CRISP-DM(Cross Industry Standard Process For Data Mining)은 1966년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 계층적 프로세스 모델로서 4개 레벨로 구성되어 있다.

-최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Genetic Task)를 포함한다.

-일바화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이다.

-세 번째 레벨은 세분화 태스크(Specialized Tasks)로 일반화 태스크를 구체적으로 수행하는 레벨이다.

-예를 들어 데이터 정제 (Data Cleaning)의 일반화 태스크는 범주형 데이터 정제, 연속형 데이터 정제 등으로 구체화된 세부화 태스크가 있다.

-마지막으로 레벨인 프로세스 실행(Process Instance)은 데이터 마이닝을 위한 구체적인 실행을 포함한다.

 

<<CRISP-DM 분석 절차>>

CRISP-DM프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수 모델처럼 일방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.

프로세스 순서 단계 내용
1 업무이해
(Buiseness Understanding)
-비즈니스 관점 프로젝트의 목적과 요구 사항을 이해하기 위한 단계로서, 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로제그 계획을 수립하는 단계
-업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2 데이터 이해
(Data Understanding)
-데이터 이해는 분석을 위한 데이터를 수집하고 데이터속성을 이해하기 위한 과정으로 구성되고, 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
-초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3 데이터 준비
(Data Preparation)
-데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계로서 많은 시간이 소요될 수 있다.
-분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅이 해당된다.
4 모델링
(Modeling)
-다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계. 모델링 단계를 통하여 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 
과적합(Overfitting)등의 문제를 발견하고 대응방안을 마련한다.
-모델링 기법 선택, 모델 테스트 계획 설계, 모델작성, 모델 평가로 구성된다.
5 평가
(Evaluation)
-모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가한다. 이 단계의 목적은 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 것에 있다.
-분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
6 전개
(Deployment)
-모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립한다.
-전개 계획 수립, 모니터일과 모델링 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

CRISP-DM 절차

 

<<KDD와 CRISP-DM 비교>>

KDD CRISP-DM
분석 대상 비즈니스 이해 업무 이해 (Buiseness Understanding)
데이터셋 선택(Selection) 데이터 이해 (Data Understanding)
데이터 전처리 (Preprocessing) 데이터 이해 (Data Understanding)
데이터 변환(Transformation) 데이터 준비 (Data Preparation)
데이터 마이닝(Data Mining) 모델링(Modeling)
데이터 마이닝 결과평가(Interpretation/Evaluation) 평가(Evaluation)0
데이터 마이닝 활용 전개(Deployment)

 

728x90
LIST