프로그램/데이터마이닝

[빅데이터] 빅데이터란 무엇일까?

네오류이 2021. 1. 13. 15:18
728x90
반응형

빅데이터에 대한 이야기는 아주 오래전 부터 나온 이야기 였지만..  2000년대 초반때 였지만..

 

그 당시에는 기술적으로 또는 시대적 요구와도 맞지가 않아서 저쪽 구석에 넘겨 놓았는데.. 지금 현재는 그 needs가 많이 커졌고, 기술적 역량 자체도 많이 올라간 것이 사실입니다.

 

요즘 벤처투자 쪽을 알아봐도 빅데이터에 대한 시장의 needs가 크다는 것을 쉽게 알 수 있었습니다.

 

지금의 미래 기술 중에 유전자공학이나 나노기술, 태양광기술, 스마트폰컨테츠 등 여러가지가 있지만. 그 중에 이 빅데이터도 하나의 자리를 차지하고 있습니다.

 

사실 앱쪽 기술자들은 많고,. 컨텐츠를 개발해서 성공하기도 힘든 시대이기 때문에 IT를 하는 저로써 미래를 위해 이 빅데이터 기술을 지금부터라도 공부하지 않으면 않된다는 생각이 들었습니다.

 

우선 기초부터 알아야겠다는 생각에 여기저기에서 빅데이터의 개념을 소개하고자 합니다.

 

위키(Wi-Ki)에서 보면 

 

 

빅 데이터(영어: big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술 을 의미한다

 

 

위키백과의 편집 현황의 시각화 자료(IBM 작성). 수 테라바이트의 용량을 지닌 위키백과의 텍스트 및 이미지 자료는 빅 데이터의 고전적 사례에 속한다.

 

전세계 저장 매체 용량의 증가 및 디지털화.(출처: 워싱턴 포스트)

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.

 

이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.

 

하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있다. 빅데이터는 수많은 개인들의 수많은 정보의 집합이다. 그렇기에 빅데이터를 수집,분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 수도 있는 것이다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수 있다.

 

세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정 했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정 하는 등 최근 세계는 빅 데이터를 주목하고 있다.

 

위와 같이 정의하고 있습니다. 

 

이중 '세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정' 이란 부분은 얼마나 이 기술이 중요한지를 알게 합니다.

 

아래는 IBM에서 만든 빅데이터의 텍스트 및 이미지를 스팩트럼으로 형상화 한 것인데.. 꼭 트랜스포머에서 본 장면과 비슷한 느낌이 듭니다.

 

테라바이트에 해당하는 웹상의 단어의 비중을 색상으로 정의하여 그것의 빈도수를 스팩트럼 길이로 표시한 것인데 이 차체만 봐도 멋있다는 생각이 드네요/

 

 

 

그리고 위 그림은 아날로그와 디지탈의 비중을 년도별로 표시한 것인데. 가히 디지털 데이터의 양이 얼마나 큰지를 알게 합니다.

이 부분에서 하드디스크와 CD의 비중이 얼마나 큰지를 알 수 있습니다. 그리고 클라우딩 서비스의 방향도 느낄 수 있습니다.

 

그리고,

 

빅데이터의 활용 영역은 초기에는 과학기술 데이터를 분석을 위한 것에서 출발했지만 지금은 아무래도 경제 및 경영의 지표 및 경영정책, 마케팅 정책에 적극 활용을 하게 되면서 활용도가 무척 높아지고 있습니다.

 

 

* 기업 경영

대규모의 다양한 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 품질을 높이고 방대한 데이터의 처리를 돕는 데이터 통합(Data Integration)의 중요성이 부각되고 있다.

 

데이터 통합(DI)은 데이터의 [[추출, 변환, 적재\\를 위한 ETL 솔루션이 핵심인데 ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다.

 

한편 비즈니스 인텔리전스(Business Intelligence, BI)보다 진일보한 빅데이터 분석 방법이 비즈니스 애널리틱스(Business analytics, BA)인데 고급분석 범주에 있는 BA는 기본적으로 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 하는 것으로 평가받고 있기도 하다.

 

* 마케팅

인터넷으로 시작해서 인터넷으로 마감하는 생활, 스마트폰을 이용해 정보를 검색하고 쇼핑도하고 SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 흔적같은 모인 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할 수 있고 기업들은 이런 데이터를 통해서 소비자가 원하는 것들을 미리 예측할 수 있다. 빅 데이터가 마케팅 자료로 활용되는 사례이다.

 

 

지금까지 빅데이터에 대해 알아보았고, 앞으로 창업이나 기업에서 얼마나 빅데이터의 needs 을 알게 되었습니다.

 

하지만, 아무래도 빅데이터마이닝은 쉬운 영역이 아니고. 개발자료도 풍부하지 않지 않은 상태입니다.

 

열심히 구글링을 해서 자료를 모으고 샘플코드를 만들어 가면서 공부해 보겠습니다.

 

빅테이터를 위해서..

 

#무엇일가? #빅데이터 #빅데이터란 #정의

728x90
반응형