Data Science/Big_Data

BIG DATA의 이해

전테리 2022. 1. 19. 17:38
728x90
SMALL

} 빅 데이터의 정의 {

 

데이터 크기 관점 : 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.

 

데이터 분석 관점 : 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다.

 

데이터 가치 관점 : 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계등 많은 분야에 변화를 가져오는 일이다.

 

<3V>

VOLUME(크기) , VARIETY(다양성) , VELOCITY(속도)

 

 

} 출현 배경 {

 

1. 산업계 : 고객 데이터를 축적하여 보유 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력원으로 만들어낼 수 있는 빅데이터 기술 확보가 관건이다.

예) 테스코는 매월 15억 건 이상의 고객 데이터를 수집한다. 매킨지 보고에 의하면 미국의 상장 기업 대부분이 100테라바이트 이상의 데이터를 보유중이며, 상당수는 1페타바이트(1,024TB) 이상의 데이터를 보유하고 있다.

2.학계 : 거대 데이터 활용 과학 확산

예) 인간 게놈 프로젝트

3. 관련 기술 발전 : 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

예) 디지털 데이터 양은 2년마다 약 2배씩 증가해 2020년 약 40제타바이트에 다다를 것으로 전망되었었는데 실제로 2020년엔 예상치의 약 2배인 90 제타바이트의 디지털 데이터양이 측정되었다. 이는 99조 기가바이트에 해당한다.

 

} 빅데이터 기능 { 

 

1. 빅데이터는 산업혁명의 석탄, 철에 비유된다. 

빅데이터는 석탄과 철이 산업혁명에서 했던 역할을 차세대 산업혁명에서 해낼것으로 기대되낟. 빅데이터역시 지금의 제조업뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대되고 있다.

 

2. 빅데이터는 원유에 비유된다. 

빅데이터는 원유처럼 각종 비즈니스, 공공기관 대국민 서비스 , 경제 성장에 필요한'정보'을 제공함으로써 산업 전반의 생산성을 한단계 향상시킬 것으로 기대된다.

 

3. 빅데이터는 렌즈에 비유된다.

현미경이 생물학 발전에 미쳤던 영향만큼 나아가 데이터가 산업 전반에 영향을 미칠 것으로 기대된다.

 

4. 빅데이터는 플랫폼에 비유된다.

플랫폼이란 다양한 차원에서 활용되는 개념이지만, 비즈니스 측면에서는 일반적으로 '공동 활용의 목적으로 구축된 뮤우형의 구조물'을 의미한다.

 

} 빅데이터가 만들어내는  본질적인 변화 {

 

1. 사전처리에서 사후처리 시대로

산업혁명 시대에 발전해온 것이 바로 정보의 사전처리(pre-processing)방식이다. 사전처리의 대표적인 예로는 표준화한 문서 포맷을 들 수 있다. 사전에 정한 포맷으로 인쇄된 문서를 통해 자신들이 원하는 정보만 수집하고, 특수한 상황을 반영하는 정보의 수집을 포기함으로써 정보관리 비용을 줄인다. 빅데이터 시대에는 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 이른바 사후처리(post-processing)방식이라고 부를 수 있다.

 

2. 표본조사에서 전수조사로

빅데이터 시대가 되면서 많은 제약이 사라졌다. 데이터 수집 비용은 더는 문제가 되지 않았고, 클라우드 컴퓨팅 기술의 발전에 따라 데이터 처리 비용이 급격히 감소하고 있다. 전수조사의 장점은 표본조사가 주지못하는 패턴이나 정보를 제공해준다는 데 있다.

 

3. 질보다 양으로

빅데이터 성공 사례로 자주 언급되는 구글의 자동번역 시스템 구축 과정은 데이터의 양이 질보다 중요함을 잘 보여준다. 빅데이터를 다룰 때, 질 보다 양이 중요한 또 다른 이유가 있다. 데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가' 대세에 영향을 주지 못하는' 경향이 늘어나기 때문이다.

 

4.인과관계에서 상관관계로

기존의 과학적 발견법은 이론에 기초해서 수집할 변인을 결정하고 엄격한 실험을 통해 잘 정제된 데이터를 얻고 이를 정교한 이론적 틀에 맞춰 분석한 후 변수 간에 인과관계를 찾으려 했다. 이러한 접근법은 데이터를 얻는데 드는 비용이 매우 비쌋던 시대의 모델이다. 비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많다.

 

 

728x90
LIST