본문 바로가기
IT

빅 데이터(Big Data)

by 비준 2022. 9. 14.

빅데이터

빅데이터는 기존 데이터보다 너무 방대하여 기존 데이터 베이스 관리 도구의 능력을 넘어서는 대량(수집 테라바이트)의 정형 또는 데이터 베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 즉, 데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software) 로는 수집,저장,분석,처리하기 어려울 정도로 방대한 양의 데이터를 의미한다.

 

다양하고 많은 데이터를 생성, 수집, 분석하는 특징으로 하는 빅데이터는 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 한다. 개인화된 현대 사회의 구성원마다 맞춤형 정보를 제공, 관리, 분석이 가능 해 과거에는 불가능했던 기술을 실현 시키기도 한다.

 

이와 같이 빅데이터는 정치, 사회, 경제, 문화, 과학기술 등 전 영역에 걸쳐서 사회와 인류에 가치 있는 정보를 제공할 수있는 가능성을 제시하며 그 중요성이 부각되고 있다. 하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면이 자리하고 있다. 세계 경제 포럼은 2012년 떠오로는 10대 기술 중 그 첫번째를 빅데이터 기술로 선정하였으며 대한민국 지식 경제부 R&D 전략기획단은 IT 10대 핵심 기술 가운데 하나로 빅데이터를 선정하기도 했다.

 

특징과 의미

빅데이터의 공통적인 특징은 3V로 설명할 수 있다. 3V란 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)를 의미하며 최근에는 가치(Value)나, 복잡성(Complexity)를 덧붙이기도 한다. 이처럼 다양하고 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원으로 활용될 수 있다는 점에서 주목받고 있다. 대규모 데이터를 분석해서 의미있는 정보를 찾아내는 시도는 예전에도 존재했다. 그러나 현재의 빅데이터 환경은 과거와 비교해 데이터의 양은 물론 질과 다양성 측면에서 패러다임의 전환을 의미한다. 이러한 관점에서 빅데이터는 산업 혁명 시기의 석탄 처럼 IT와 스마트 혁명 시기에 혁신과 경쟁력 강화, 생산성 향샹을 위한 중요한 원천으로 간주되고 있다. 데이터 속도(Velocity)은 다양한 형태의 데이터를 포함하는 것을 뜻한다. 정형 데이터 뿐만 아니라 사진, 오디오, 소셜 미디어 데이터, 로그 파일 등과 같은 비 정형 데이터도 포함된다.

 

빅데이터의 새로운 V

- 정확성 (Veracity)

빅데이터 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수있다. 하지만 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어지기 쉽다. 따라서 빅데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야하는 필요성이 대두되었고, 이러한 측면에서 새로운 속성인 정확성(Veracity)가 제시되고 있다.

 

- 가변성 (Variability)

최근 소셜 미디어의 확산으로 자신의 의견을 웹사이트를 통해 자유롭게 게시하는 것이 쉬워 졌지만 실제로 자신의 의도와 달리 자신의 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도가 다른 사람에게 오해를 불러일으킬 수도 있다. 이처럼 데이터가 맥락에 따라 의미가 달라진다고 하여 빅 데이터의 새로운 속성으로 가변성(Variability)가 제시되고 있다.

 

- 시각화 (Visualization)

빅데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거친다. 이때 중요한 것은 정보의 사용대상자의 이해정도이다. 그렇지 않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문이다.

분석기법

빅데이터의 처리기법은 크게 분석 기술, 표현 기술로 나뉜다.

 

- 분석 기술

빅데이터를 다루는 처리 프로세스로서 병렬처리의 핵심은 분할 점령(Dicide and Conquer)이다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말한다. 빅데이터의 데이터 처리란 이렇게 문제를 여러 개의 작은 연산으로 나누고 이르 취합하여 하나의 결과로 만드는 것을 뜻한다. 다양한 데이터 처리 프레임 워크가 존재하지만 대표적으로는 아래와 같다.

 

  • 아파치 하둡(Apache Hadoop) : 대량의 자룔르 처리할 수있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임 워크
  • 텍스트 마이닝 : 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반을 두어 유용한 정보를 추출, 가공
  • 오피니언 마이닝 : 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립 선호도를 판별
  • 소셜 네트워크 분석 : 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
  • 군집 분석 : 비숫한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특정의 군집을 발굴

대규모의 정형/비정형 데이터를 처리하는데 있어 가장 기본적인 분석 인프라로 하둡이 있으며 데이터를 유연하고 빠르게 처리하기 위해 NoSQL기술이 활용되기도 한다.

 

- 표현 기술

빅데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 대표적인 것으로는 R(프로그래밍 언어)이 있다.

 

 

'IT' 카테고리의 다른 글

프로그래머블 로직 컨트롤러 (PLC)  (2) 2022.09.17
기계 학습(머신 러닝(Machine Learning))  (0) 2022.09.16
오버 더 톱 서비스(OTT)  (0) 2022.09.13
4차 산업 혁명  (0) 2022.09.13
사물 인터넷  (0) 2022.09.12

댓글