빅데이타 (빅데이터.빅데이터 프로세싱)에 대한 이해



1.개요

본래 경제 가치를 창출해 

낼 수 있는 설문조사 

결과 모음으로 정의되며 

'빅 데이터 프로세싱'이란 

빅 데이터에서 돈이 될 만한 것을 

뽑아내는 기술로 정의되었다. 


그러나 빅 데이터 기술이

 대중에게 유명해진 지금은 

경제 분야에 국한되어 쓰이지 

않는 용어가 되었다. 


업체들이 난립하고 있으며, 

대형 벤더에서는 

솔루션 업체들을 인수하여 

솔루션을 강화하고자 하는 실정이다. 




사람들의 마음 속을 어느 정도

 계량화해서 데이터로 만들어 

응용하는 것이 가능하다 보니 주요 

대기업들 사이에서 독자적인 빅 데이터 

응용 모델 만들기가 대유행 중이다. 


유엔에서도 이와 관련하여 빅 데이터를

 국제개발 및 사회발전에 활용하기

 위해 BD4D(Big Data for Development)라는 

개념도 만들었다. 


대표적인 것이 유엔 글로벌 펄스(UN Global Pulse).


빅 데이터의 특징을 규모 (대용량), 다

양성, 속도, 정확성, 가치로 보아 

3V, 4V, 5V 등으로 표현하기도 한다.

 (3V 문서 참조)


대용량 데이터를 가지고 있으면 

자료 관리 기술과 자료 분석 

기술이 필요하다. 

자료 관리 기술은 Hadoop 

등을 이용한다. 


자료 분석 기술로는 

통계학, 기계학습, 인공신경망,

 데이터 마이닝 등을 이용한다.


편의상 줄여서 "빅데이터"라고도 

부르기도 한다.

 

2. 활용

예방의학과

존 스노우가 빅 데이터를

 활용해 콜레라를 퇴치한 이후,

 각종 전염병 전파과정의 

기본적인 규명방법으로

 사용되고 있다.


추천 엔진

'페이스북의 당신이 알 수도 있는 사람', 

'아마존 추천 상품' 등


검색엔진의 검색어

 분포도를 통한 데이터 추출


특정 사용자가 검색하는 

검색어 패턴이나 클릭해서 본

 적이 있는 각종 인터넷 광고들의

 통계를 내서 정확도 순서로 맞춰

 리스트를 출력해 주는데, 

이것이 빅 데이터 응용의 기본 개념이다.


 특정 지역에서 감기 또는 감기약

 등의 검색어를 사용하는 빈도가 늘어난다고

 하면 해당 지역에 감기약의

 공급을 늘릴 필요가 있다.


 이 활용법이 서울대 의대 면접 제시문으로 등장했다. 



시내버스 노선 통계


이전에는 요금함을 일일이 뒤져서 

액수 다 세고 그리고 어디서 내리는지도

 알 수 없었으나 수도권 통합 요금 도입으로 

인해 내릴 때 카드를 찍는 것이


 일반화되어 승하차량을

 좀 더 간편히 알 수 있게 되어 

시내버스 노선을 새로 짤 경우 

유용하게 사용될 수 있다.

심리/동향 분석


SNS 포스팅이나 인터넷 

광고 클릭 성향 등을 통한

 맞춤형 정보 제공.


정당 후보의 선거 유세

SNS속 빅 데이터의 분석으로 

유권자 개개인의 특성과 성향을

 분류하고 이에 따라 마이크로 타기팅이 가능


. 실제로 2012 미국 대선에서 

민주당 오바마 당시 후보가 사용했던 선거 전략

으로, 약 1억 건의 빅 데이터 분석을 

통해 유권자의 정당 지지 성향, 

관심 공약, 투표율 등을 고려하여 

약 600종류의 이메일로 

선거활동을 한 바 있다.

리스크 모델링

금융업계에서의 투자 시나리오 작성 보조

인터넷 사기 탐지

거래 데이터 및 평가도 

기준으로 필터링 가능. 

남아프리카의 보험사 Santam 사에서는

 예측 분석과 위험 세분화 등을 


통해 발견한 패턴으로

 보험 사기를 좀 더 빠르게 적발하고, 

보험 사기 확률이 낮은 건에 대한 

처리 속도를 개선해 고객 만족도 

역시 높였다.



각종 네트워크 모니터링

빅 데이터 통합 카테고리로

 통합된 온라인 업무 정리


인간 게놈 분석을 

통한 맞춤 의학의 실현


인공지능 구현


대표적으로 알파고가 있었으며, 

블리자드 엔터테인먼트도

 자사의 게임 플레이를 취합해 

사용함으로써 인공지능 구현 

수준이 높다는 평을 받고 있다.


높은 조회수 이끌어내기

2.1. 한국

2015년 미국에서는 

이미 380억 달러 규모의

 시장이 형성되어 있다고 한다. 

이는 약 38조원 규모로 한국 시장의 150배. 


국내 시장은 데이터 

수집 영역만 과포화되어 있으며, 

그 대신 서비스 관리 플랫폼(SMP) 및

 데이터 가공 영역, 데이터 

통합 영역 등은 빈약하다고 한다. 



그런데 문제는 

국내 업계에서 별다른 성과 없이 

빅 데이터 논의가 사그라드는 

조짐이 보인다는 것이다. 


이는 국내에서는 "CRM → 소프트웨어 시스템 구축

 → 하둡 → 빅 데이터 → 사물인터넷 → 인공지능 & 딥러닝"같은

 식으로 돌아가면서 

구호만 반복하고 있기 때문이라는

 분석도 있다. 


즉 데이터 활용의 현황을

 파악하고 통찰을 얻지 못하고 있기

 때문에 시간 낭비만 하고 있다는

 게 데이터 업계의 푸념이다.


3. 관련 자격증

사회조사분석사


경영 빅데이터 분석사


데이터 분석 전문가/준전문가


SAS Base


5. 개인정보 침해 우려

분명한 것은 필요에 따라 

익명으로 활동하거나

 남아 있을 자유의 박탈은

 편리의 증대나 경제적 부가가치의 

생산으로 보상될 수 있는

 문제가 아니라는 것이다. 



평소 잘 인식하지 못하지만, 

익명으로 숨어 있을 권리는 

프라이버시의 문제를 넘어 

민주주의의 근간이기도 하다. 


우리는 개인보다 집단으로 저항한다.

 그리고 군중 속에서

 훨씬 더 잘 저항한다. 

따라서 개인정보를 기업의 

이윤추구와 정보권력의 통제 욕망에 

무방비로 맡기는 것은 

현대 산업사회에서 

인간의 실존을 뿌리부터 

흔드는 재앙이다.



"몇 년 동안 대중을 몰래 

감시해온 저희로서는 수많은 사람들이

 자발적으로 자신의 거주지와 종교적 

정치적 견해, 순서대로 정리한 친구 목록, 


이메일 주소, 전화번호, 

자신이 찍힌 수백 장의 사진,

 현재 하고 있는 활동 정보를 


공개하고 있다니 놀랍기 

그지 없습니다. CIA로서는 

꿈에 그리던 일이지요."


- 'The Onion' 미국의 풍자언론에서

 CIA 부국장인 크리스토퍼 사르틴스키가 한 발언. 


미국의 슈퍼마켓

 체인점 타깃(TARGET)에 한 

중년남성이 찾아와 항의했다.

 딸에게 배송된 광고물에 임신 상품만이 

실려 있었기 때문이다.


 딸에게 임신권유하는 것도 

아니고 광고지가 왜 이러냐고 

항의하는 남성에게 직원은 사과를 했다.


 하지만 다음날 그 남성은 전화를 

걸어 사과했다. 여고생 딸이 임신 중이었던 것.

 빅 데이터는 아버지도 모르는

 딸의 임신을 기업이 먼저

 알게 해주었다.


 이 일화는 뉴욕타임즈의 기사에

 실려 빅 데이터의 유용성을 

알게해주지만 위험성도 말해준다.




빅 데이터는 종종 조지 

오웰의 빅 브라더와도 관련되어 언급되곤 한다

. 혹시 혼동할까봐 구별하자면 

빅 데이터는 데이터베이스 관련 기술명이며 

빅 브라더는 국가권력의 비합법적인

 사회 감시체계를 말하는 것이다. 


빅 데이터를 이용해 사람들을 분석,

 예상, 유도하는 기술은 나날히 발전하고 있다. 

독재 정부의 손에 의해 국민을 통제하는 

디스토피아에서 빅데이터는 효율적으로

 사람을 감시하고 평가하고 유도해나가는 밑거름이 될 것이다.




 지금도 "데이터 권력", "정보 권력" 이라 불리는

 빅 데이터가 절대적 권력자의 손에 들어가고

 국민의 정보를 지속적으로 얻는 순간 사실상 사회의

 완벽한 통제가 가능해진다. "빅 데이터는




 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 

데이터 전문가들 사이에 돌 정도다. 

딱히 독재자가 아니어도 민간기업이나 


선거유세 때 개인정보를 구매하는

 것은 이제 드문 일이 아니다. 

우리나라 선거 때도 문자가 날라오고, 

영국회사가 페이스북을 통해 

5000만 명의 개인정보를 얻는다.


 이를 어떻게 이용할지는 정보를 가진 이들에게 온전히 맡겨져 있다.