본문 바로가기
Data Science/Big_Data

상향식 접근 방식

by 전테리 2022. 1. 27.
728x90
SMALL

-문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결 방안을 탐색하고 이를 지속적으로 개선하는 방식이며, 일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행된다.

 

-통계적 분석에서는 인과관계(원인과 결과)분석을 위해 가설을 설정하고 이를 검정하기위해 모집단으로 표본을 추출하고, 그 표본을 이용한 가설검정을 실시하는 방식으로 문제를 해결한다.

 

-그러나 빅데이터 환경에서는 이와 같은 논리적인 인과관계 분석뿐만 아니라 상관관계 분석 또는 연관분석을 통하여 다양한 문제 해결에 도움을 받을 수 있다. 즉 인과관계로부터 상관관계 분석으로의 이동이 빅데이터 분석에서의 주요 변화라고 할 수 있다.

 

-상향식 접근 방법은 결국 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법을 말한다.

 

 

1) 기존 하향식 접근법의 한계를 극복하기 위한 방법론

-기존 접근방법인 논리적인 단계별 접근법은 문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하기 위한 데이터 분석가 및 의사결정자가 존재하고 있음을 가정하기 때문에 솔루션 도출에는 유효하지만 새로운 문제 탐색에는 한계가 있다.

-따라서 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않을 수 있다.

-이를 해결하기 위한 방법으로 스탠포드 대학의 디스쿨은 디자인 씽킹 접근법을 통해서 전통적인 분석적 사고를 극복하려고 하였다.

-디자인 씽킹은 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 'What'관점에서 보아야 한다는 것이다.

-객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 더 잘 이해하는 방식으로 접근을 의미한다.

 

 

2) 지도학습과 비지도학습

1. 지도학습 Supervised Learning

-명확한 목적 하에 데이터 분석을 실시하는 것을 지도학습이라고 하며, 분류 , 추출, 예측 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적이다.

-지도학습의 경우 결과로 도출되는 값에 대해서 사전에 인지하고 어떠한 데이터를 넣었을 때 어떠한 결과가 나올지를 예측하는 것이라면 비지도 학습의 경우 목표값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹들을 도출함으로써 해석이 용이하지는 않지만 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용할 수 있다.

-빅데이터 환경에서는 논리적인 인과관계 분석뿐만 아니라 상관관계 또는 연관분석을 통하여 다양한 문제에 도움을 받을 수 있다.

-다량의 데이터 분석을 통해서 "왜" 그러한 일이 발생했는지 역으로 추적하면서 문제를 도출하거나 재정의 할 수 있는 것이 상향식 접근 방법이다.

 

2. 비지도학습 UnSupervied Learning

-일반적으로 상향식 접근방법의 데이터 분석은 비지도 학습방법에 의해 수행된다.

-비지도학습은 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드 값을 구하는 것이 아니라, 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.

-데이터 마이닝 기법을 예로 들면 장바구니 분석, 군집분석, 기술통계 및 프로파일링 등이 이에 속한다.

 

3) 시행착오를 통한 문제 해결

-하향식 접근방식은 문제가 정형화되어 있고 문제 해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적이다.

-이에 반해 프로토타이핑 방법론은 비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하고 구체화 할 수 있게 하는 유용한 상향식 접근방식이다.

 

(1) 프로토타이핑 접근법

사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법

 

(2) 프로토타이핑 프로세스

-프로토타이핑 접근법의 기본 프로세스는 가성의 생성(Hypothoses), 디자인에 대한 실험(Design Experiment), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight), 도출 및 가설 확인으로 구성된다.

-한 번의 분석을 통해서 의도했던 결과가 나오기 쉽지 않은 동적인 환경에서 최대한 빨리 결과를 보여주고 해당 내용을 토대로 지속적인 반복을 수행하는 프로토타이핑 방식이 빅데이터 환경에서 보다 유용하다고 알려져 있다.

 

(3)빅데이터 분석 환경에서 프로토타이핑 필요성

1. 문제에 대한 인식 수준

= 문제 정의가 불명확하거나 이전에 접해보지 못한 새로운 문제일 경우 사용자 및 이해관계자는 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 구제화하는데 도움을 받을 수 있다.

 

2. 필요데이터 존재 여부의 불확실성

-문제 해결을 위해 필요한 데이터의 집합이 모두 존재하지 않을 경우, 그데이터의 수집을 어떻게 할 것이지 또는 그 데이터를 다른 데이터로 대체할 것인지 등에 대한 데이터 사용자와 분석가 간의 반복적이고 순환적인 협의 과정이 필요하다.

-대체 불가능한 데이터가 존재하는지 사전에 확인한다면 불가능한 프로젝트를 수행하는 리스크를 사전에 방지할 수 있다.

 

3. 데이터의 사용목적의 가변성

-데이터 가치는 사전에 정해진 수집목적에 따라 확정되는 것이 아니고 그 가치를 지속적으로 변화할 수 있다.

-조직에서 보유 중인 데이터라 하더라도 기존의 데이터 정의를 재검토하여 데이터릐 사용 목적과 범위를 확대할 수 있을 것이다.

-예를 들면 이동통신사에서 수집하는 사용자의 위치추적은 사용자의 호출을 효율적으로 처리하기 위한 원래의 목적으로부터, 사용자들이 특정 시간에 많이 모이는 장소가 어디 인지를 분석하는 정보로 활용이 가능하다.

728x90
LIST