빅 데이터 종류 | 빅 데이터 3분 요약 76 개의 가장 정확한 답변

당신은 주제를 찾고 있습니까 “빅 데이터 종류 – 빅 데이터 3분 요약“? 다음 카테고리의 웹사이트 https://you.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://you.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 연합뉴스경제TV 이(가) 작성한 기사에는 조회수 101,457회 및 좋아요 689개 개의 좋아요가 있습니다.

빅데이터는 유형에 따라 정형, 비정형, 반정형의 데이터를 가지고 있습니다. 정형 데이터, 비정형데이터, 반정형데이터의 존재 유무 및 유형을 파악하는 것이 필요합니다. · 일반적으로 파일(file) 형태로 저장됩니다.

빅 데이터 종류 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 빅 데이터 3분 요약 – 빅 데이터 종류 주제에 대한 세부정보를 참조하세요

질병통제예방센터보다 더욱 빠르게 독감을 예측할 수 있다면 어떨까요? 구글의 엔지니어였던 제러미 긴즈버그는 구글 빅데이터에서 높은 상관관계를 지닌 데이터를 찾았습니다. 사람들이 구글 검색창에 감기 관련 증상을 검색하는 빈도를 파악하면 독감 발병률을 상당히 정확하게 측정할 수 있다는 사실을 알아낸 거죠. 구글은 그 이후 독감 트렌드 서비스를 제공, 질병통제예방센터보다 2주 정도 더 빨리 독감의 확산경로를 예측해 냈습니다. 바로 여기에 빅데이터가 사용됩니다. 여기저기서 너무도 많이 들리는 말 빅데이터, 도대체 빅데이터란 무엇일까요?
포털에서 빅데이터를 검색하면 ‘기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 데이터’ 라는 정의가 나옵니다. 1분 동안 구글에서는 200만 건의 검색, 유튜브에서는 72시간의 비디오, 트위터에서는 27만 건의 트윗이 생성된다고 하는데요, 컴퓨터나 스마트폰 사용의 증가로 디지털 환경이 조성되면서 사용되는 정보의 양과 규모가 엄청나게 증가했다는 것을 알 수 있죠.
그러나 빅데이터를 단순히 크다와 데이터의 합성어로만 볼 순 없을 것 같습니다. 과학전문지 네이처는 ‘향후 10년 안에 세상을 바꿀 가장 중요한 기술’로 빅데이터를 선정했고, 미국의 시장조사기관 가트너는 미국 경쟁력을 좌우하는 21세기 원유라고 표현하기도 했는데요. 그 방대한 데이터들을 모으고 분석하다 보면 상관관계에 있는 예측도 가능하다는 뜻입니다. 대량의 비정형 데이터에 담긴 사람들의 생각과 필요를 읽어낸다면 실로 그 힘이 엄청나게 커지는 것이죠.
날씨에 따라 먹고 싶은 음식이 달랐던 경험은 누구에게나 있을 듯 한데요, 국내 대표 베이커리 전문 매장은 5년간 169개 지역의 일별 매출과 기상자료를 통계기법으로 지수화한 ‘날씨 판매지수’를 활용했는데요, 판매량을 예측하고 주문량을 조절할 수 있어 판매할 제품이 없어 발생하는 손실인 찬스 로스를 방지할 수 있게 됐고, 영업이익은 더욱 늘었다고 합니다. 또 서울시는 심야시간 강남과 홍대 등 일부 지역에서 통화량이 급증한다는 사실을 깨닫고 데이터 30억 건을 분석해 심야에 사람들이 많이 이용할 수 있는 적절한 노선을 찾아 올빼미 버스라는 성공적인 프로젝트를 실행시켰죠.
“정보를 가진 자가 권력을 가진자이다” 이는 미래학자 앨빈 토플러가 한 말인데요, 만약 지금 앨빈 토플러가 살아 있다면 “정보를 분석하는 능력을 가진 자가 권력을 가진 자다”라고 이야기 하지 않을까 싶네요. 인터넷만 켜면 수많은 정보에 접근할 수 있는 지금, 누구나 가진 구슬을 갖는 사람이 아니라 그 구슬을 꿰어 보배를 만드는 사람이 진정한 권력자가 되겠죠. 빅데이터는 세상을 뒤바꿀 만병통치약이 아니라 의미 있는 일을 위한 도구의 하나라는 사실을 꼭 기억해야겠습니다.

빅 데이터 종류 주제에 대한 자세한 내용은 여기를 참조하세요.

빅데이터의 분류 – 네이버 블로그

빅 데이터를 형태별로 분류를 해보면 정형 데이터(Structured Data), 반정형 데이터(Semi-structured Data), 비정형 데이터(Unstructured Data) 3가지 …

+ 여기에 더 보기

Source: m.blog.naver.com

Date Published: 8/21/2022

View: 8217

3. 빅데이터 종류와 유형 – 이끼의 생각

정형, 반정형, 비정형, 다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현 등의 특징을 갖는 빅 데이터 기술의 발전은 복잡하고, 다변화된 현대 …

+ 여기에 더 보기

Source: ikkison.tistory.com

Date Published: 9/8/2021

View: 7610

빅 데이터 – 위키백과, 우리 모두의 백과사전

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 …

+ 여기에 표시

Source: ko.wikipedia.org

Date Published: 7/19/2022

View: 6392

빅데이터를 이해하기 위해 알아야 할 3가지 정보

빅데이터란 아시다시피, 데이터의 생성 양·주기·형식 등이 기존 데이터보다 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 …

+ 더 읽기

Source: www.codingworldnews.com

Date Published: 9/28/2021

View: 5852

2022년 빅데이터 활용 사례 10가지, 업계별 추천한다

업계별로 빅데이터 활용 사례를 해설함으로써 그 장점과 활용 방법을 알려드리고자 … 시각화 차트 종류 14 종: 한 눈에 들어오는 가치를 잡아주기.

+ 여기에 자세히 보기

Source: www.finereport.com

Date Published: 12/14/2022

View: 5295

빅 데이터란 무엇입니까? | Oracle 대한민국

빅 데이터란 양(volume)이 매우 많고, 증가 속도(velocity)가 빠르며, 종류(variety)가 매우 다양한 데이터를 말합니다. 이것을 3V라고도 합니다. 간단히 말해, 빅 데이터 …

+ 여기에 자세히 보기

Source: www.oracle.com

Date Published: 2/16/2022

View: 9915

1 장 빅데이터 개요 | ICT 빅데이터의 이해 – Big data Lab.

1.4 우리가 알고 있는 데이터의 유형 · Relational Data (Tables/Transaction/Legacy Data) · Text Data (Web) · Semi-structured Data (XML) · Graph Data · Social Network, …

+ 여기에 자세히 보기

Source: bigdata.dongguk.ac.kr

Date Published: 12/22/2021

View: 2550

빅데이터의 유형 – IT 서비스기획

빅데이터의 유형에 대해서 알아보려고 합니다. 데이터 크기를 기준으로 유형을 나눠보는 것이 명확할 것 같아 크기 기준으로 표기해보았습니다.

+ 더 읽기

Source: kun-hee.tistory.com

Date Published: 10/3/2021

View: 4087

주제와 관련된 이미지 빅 데이터 종류

주제와 관련된 더 많은 사진을 참조하십시오 빅 데이터 3분 요약. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

빅 데이터 3분 요약
빅 데이터 3분 요약

주제에 대한 기사 평가 빅 데이터 종류

  • Author: 연합뉴스경제TV
  • Views: 조회수 101,457회
  • Likes: 좋아요 689개
  • Date Published: 2019. 9. 2.
  • Video Url link: https://www.youtube.com/watch?v=l2RBzee3Ag4

정형, 비정형, 반정형

반응형

데이터 유형

빅데이터는 유형에 따라 정형, 비정형, 반정형의 데이터를 가지고 있습니다.

정형 데이터, 비정형데이터, 반정형데이터의 존재 유무 및 유형을 파악하는 것이 필요합니다.

유형 설명 정형 데이터 (Structured data) · 형식이 정해져 있는 데이터 · 고정된 필드에 저장된 데이터 · 정량 데이터(Quantitative data) · DB형태의 데이터 · 수치화된 데이터 · 엑셀 데이터 · 기간계, 관리계, 정보계, 분석계등 업무 시스템 데이터 · 관계형 데이터베이스나 스프레드시트, 사무정보 등에 저장된 데이터 · 재무정보, 급여테이블, 인사정보, 재고관리, 거래정보, 거래처 정보 비정형 데이터 (Unstructured data) · 형태와 구조가 복잡한 데이터 · 정성데이터Qualitative data) · · 설문조사, 주간식 응답, 블로그 · 이미지, 오디오, 비디오, 동영상, 멀티미디어 · 이메일, 보고서, 문서, · SNS 데이터(소셜 데이터) 반정형 데이터 (Semi-structured data) · 값과 형식이 다소 일관성이 없는 데이터 · 정형구조의 데이터 모델을 준수하지 않는 정형데이터의 한 형태 · 일반적으로 파일(file) 형태로 저장됩니다. · 센서를 중심으로 스트리밍(Streaming) 되는 IoT 머신 데이터(Machine Data) · HTML, XML, 웹문서, 웹로그, 센서 데이터, RFID, 사물통신 정보, 인지 정보 · 마케팅 정보, 다양한 장치 데이터

반응형

빅데이터의 분류

빅 데이터를 형태별로 분류를 해보면 정형 데이터(Structured Data), 반정형 데이터(Semi-structured Data), 비정형 데이터(Unstructured Data) 3가지로 구분할 수 있다.

정형 데이터(Structured Data)

정형 데이터(Structured Data)는 고정된 필드에 저장된 데이터를 말하며 관계형 데이터베이스(RDB, Related Database) 와 스프레드시트 등을 예로 들수 있다. 정형 데이터의 경우는 데이터베이스를 설계한 기술자에 의해 수집되는 정보의 형태가 정해지게 된다. 한정된 정보들 속에서 고객의 정보와 상품 분석, 인기 품목에 대한 정보를 분석할 수 있다.

반정형 데이터(Semi-Structured Data)

반정형 데이터(Semi-Structured Data)는 고정된 필드에 저장된 데이터는 아니지만 XML, HTML 텍스트등 메타데이터(Meta Data) 및 스키마(Schema)를 포함하는 데이터이다.

여기서 반정형 데이터에서 중요한 위치를 차지하고 있는 HTML의 변화에 대해서 말하고자 한다. 인터넷의 확산으로 HTML 자료들이 방대해지고 있는 상황에서 정보 탐색을 위한 요구사항들이 점차 늘어나고 있다. 웹 문서를 보다 쉽게 탐색하고 정확하게 해석하여 의미있는 정보를 추출하기 위해서이다.

HTML5 이전의 웹 문서들은 표현을 위한 태그들은 있었으나 문서에 대한 의미을 담은 태그들은 존재하지 않았다. 이러한 문서는 사람이 읽기에는 적합하지만 자동으로 문서의 의미를 파악하고 분류 및 분석하기에는 힘든 구조이다.

HTML5의 경우 머리글, 바닥글, 탐색줄, 사이드바와 같은 문서의 의미를 위한 시멘틱 태그(Semantic Tag)들이 추가되었다. 이러한 태그들은 문서의 구조와 영역 그리고 범위를 명확히 함으로서 웹 페이지의 전체 또는 일 부분에 의미를 부여할 수 있게 되어 검색시 보다 정확한 정보를 추출할 수 있도록 도와준다.

비정형 데이터(Unstructured Data)

비정형 데이터(Unstructured Data)는 고정된 필드에 저장되어 있지 않은 데이터를 의미하며 페이스북과 트위터, 유튜브 영상, 이미지 파일, 음원파일, 워드 문서, PDF 문서등을 예로 들수 있다. 비정형 데이터의 경우는 페이스북, 트위터, 네이버, 다움등에서 생성되는 실시간 정보들을 통해서 더 많은 정보들을 수집하고 분석할 수 있다. 예를 들면 특정 지역의 날씨 정보, 유동 인구의 수, 이들의 판매 정보등을 수집할 수 있다. 형태가 정해지지 않는 정보속에서 분석 방향에 따라 다양한 정보를 수집할 수 있는 것이다.

빅 데이터의 85% 가량이 형태가 정해지지 않은 비정형 데이터이다. 소셜 네트워크 이용자 수의 증가로 비정형 데이터는 급속도로 확산되고 있는 추세이지만, 정형 데이터 분석을 위해서 이용되고 있는 많은 기술들이 비정형 데이터에서는 활용할 수 없다는 한계를 가지고 있다.

이러한 이유로 하둡 플랫폼을 이용하여 비정형 데이터를 수집 및 분석하여 내용을 쉽게 보여줄 수 있는 기술력 확보가 필요하다. 이를 통해 무의미하던 데이터에서 보석과 같은 값어치가 있는 정보를 추출하여 다른 경쟁 기업보다 경쟁력 우위를 확보하는 것이 무엇보다 중요다고 할수 있다.

빅데이터 분석기법

빅데이터 분석은 데이터 양이 방대하고 분석해야 할 비정형 데이터의 비중이 높아서 정확한 정보 추출을 위해서는 기술력 확보가 중요하다.

텍스트 마이닝(Text Mining)

텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연어처리(Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.

텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다.

컴퓨터가 인간이 사용하는 언어(자연어)를 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량 언어자원과 통계적, 규칙적 알고리즘이 사용되고 있다. 주요 응용분야로 문서분류(Document Classification), 문서군집(Document Clustering), 정보추출(Information Extraction), 문서요약(Document Summarization) 등이 있다.

오피니언 마이닝(Opinion Mining)

텍스트 마이닝의 관련 분야로는 오피니언 마이닝, 혹은 평판 분석(Sentiment Analysis)이라고 불리는 기술이 있다. 오피니언 마이닝은 소셜미디어 등의 정형/비정형 텍스트의 긍정(Positive), 부정(Nagative), 중립(Neutral)의 선호도를 판별하는 기술이다.

오피니언 마이닝은 특별 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응, 입소문 분석(Viral Analysis) 등에 활용되고 있다. 정확한 오피니언 마이닝을 위해서는 전문가에 의한 선호도를 나타내는 표현/단어 자원의 축적이 필요하다.

소셜 네트워크 분석(Social network Analytics)

소셜 네트워크 분석은 수학의 그래프 이론(Graph Theory)에 뿌리를 두고 있다. 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하여, 소셜 네트워크 상에서 입소문의 중심이나 허브(Hub) 역할을 하는 사용자를 찾는데 주로 활용된다.

이렇게 소셜 네트워크 상에서 영향력이 있는 사용자를 인플루언서(Influencer)라고 부르는데, 인플루언서의 모니터링 및 관리는 마케팅 관점에서 중요하다고 할 수 있다.

클러스터 분석(Cluster Analysis)

군집분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집(Group)을 발굴하는데 사용된다. 예를 들어 트위터 상에서 주로 사진/카메라에 대해 이야기하는 사용자군이 있을 수 있고 자동차에 관심 있는 사용자군이 있을수 있다. 이러한 관심사나 취미에 따른 사용자군을 군집분석을 통해 분류할 수 있다.

빅데이터 처리 인프라 기술

빅데이터와 같은 엄청난 규모의 데이터를 분석하기 위해서는 먼저 인프라 기술이 갖추어져야 한다. 이러한 기술력 확보를 위해서 클라우데라(Cloudera), 야후(Yahoo), 아마존(Amazon), 구글(Google) 등의 기업들은 각자의 기술을 개발, 오픈소스화에 앞장서고 있다.

하둡(Hadoop)

더그 커팅과 마이크 카파렐라에 의해 개발된 하둡(Hadoop)은 방대한 양의 정형/비정형 데이터를 분산 처리하여 빠른 시간내에 결과를 제공하는 오픈소스 기반의 데이터 관리 기술로 분산시스템에서 대량의 자료를 처리하는 자유 자바 소프트웨어 프레임워크이다.

하둡의 뿌리는 구글과 맞닿아 있다. 이는 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일시스템(GFS, Google File System)과 분석 처리 시스템 MapReduce에 대한 논문을 접한 더그 커팅이 이를 참고하여 구현한 것이기 때문이다.

대표적인 하둡 솔루션 업체로는 클라우데라(Cloudera)와 호튼웍스(Hotonworks)가 있다. 클라우데라는 빅데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고 호튼웍스는 하둡의 코어기술과 아키텍처 개선을 담당하고 있다.

구글의 빅쿼리(Big Query)

구글의 ‘빅쿼리’는 빅데이터를 클라우드 상에서 신속하게 분석해주는 서비스이다. 이용자가 구글 클라우드 스토리지에 분석하고자 하는 데이터를 업로드하면 웹 브라우저를 통해 해당 데이터가 분석된다. 따라서 기업은 별도 인프라를 구축하지 않고도 데이터를 분석할 수 있다.

‘빅쿼리’는 초당 수십억 단위 행(rows) 데이터를 다룰 수 있으며, 데이터 탐색 범위를 테라바이트 규모가지 확장할 수 있다. ‘빅쿼리’ 인프라를 사용해 기업들은 자체 서버와 솔루션을 구축하지 않고도 데이터를 저장하고 이를 분석하는 프로그램 역시 ‘빅쿼리’를 통해 개발해 서비스를 운영할 수 있다.

아마존의 다이나모(Dynamo)

2007년말 아마존은 차세대 가상 분산 저장공간(Virtual Distributed Storage) 시스템인 다이나모를 공개합니다. 일단 아마존 웹 서비스(AWS, Amazon Web Service)을 통해서 자신들이 가장 잘하는 전자상거래 분야를 장악한 아마존이 웹 기반의 인프라 시스템 기술에 도전하기 시작합니다.

다이나모는 새롭게 소개된 AWS의 NoSQL 서비스입니다. 키-밸류(Key-Value) 형태로 대용량의 데이터를 저장할 수 있으며 고속의 데이터 접근도 가능합니다. RDBMS(Relational Database Management System)와 동일한 테이블(Table) 개념을 가지고 있으며 테이블은 테이블명과 각각의 row로 구성됩니다.

3. 빅데이터 종류와 유형

빅데이터의 규모와 다양성

빅데이터를 처리할 때 데이터 집합의 크기와 데이터의 종류에 따라 각각의 특징을 갖을 수 있습니다.

정형 데이터는 쉬운 예로 DBMS에서 주로 사용하는 SQL을 이용한 테이블, 릴레이션을 갖는 데이터셋으로 이해하면 됩니다. 이러한 데이터셋을 수십년간 사용한 방식으로 당연히 테라, 페라 단위의 데이터를 갖는 경우는 거의 없습니다.(국가기반, 전세계 규모는 예외).

데이터 규모가 작으면 이러한 전통적인 방법의 비즈니스 모델을 갖게 되지만 만약 비정형의 경우 소프트웨어 수준에서 간단한 분석, 작은 분석값들을 얻을 수 있으며 비즈니스 가치를 갖는다고 말하기는 어렵습니다.

빅데이터인 경우 처리 연산이 비례하기 되므로 전통적인 방식에서는 확장성이 떨어져 숨은 가치를 추출하기 어려워집니다. 그러나 비정형, 정형 모두 빅데이터 처리를 위한 인프라와 기술을 활용하면 가치를 얻을 기회가 많아 지겠죠.

빅데이터의 종류와 유형, 그리고 변화

빅데이터의 종류는 다음과 같습니다.

– 정형 : 고정된 필드에 저장된 데이터이다. 예) 관계형 데이터베이스, 스프레드시트 등.

– 반정형 : 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터이다. 예) XML, HTML 텍스트, JSON 등.

– 비정형 : 고정된 필드에 저장되어 있지 않은 데이터이다. 예) 텍스트 분석이 가능한 텍스트문서, 이미지, 동영상, 음성 데이터, GPS 위치 정보 등.

이 3가지 종류들의 변화를 보겠습니다.

정형데이터는 특수한 상황, 전문적인 기술을 다루는 분야에서 사람들에 의해 생성되는데 쉽게 생각해서 데이터베이스 시스템을 다루거나, SQL을 이용하는 전문가, 개발자, 엑셀과 같은 스프레드시트를 전문적으로 다루어 DBMS를 사용하는 경우를 생각하시면 됩니다. 비정형 데이터 역시 특수한 상황에서 사용되거 데이터가 축적되죠.

그에 반면에 비정형데이터 인터넷을 이용하는 일반 사용자들에 의해 축적이되는데 스마트폰의 등장으로 SNS 글, 문서, 이미지, 영상 등 비정형 데이터들이 빠르게 늘어나고 있습니다.

전통적인 데이터와 빅데이터 특징 비교

위키백과, 우리 모두의 백과사전

빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한[1] 데이터로부터 가치를 추출하고 결과를 분석하는 기술[2]이다. 즉, 데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software)로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다.

위키백과의 편집 현황의 시각화 자료(IBM 작성). 수 테라바이트 의 용량을 지닌 위키백과의 텍스트 및 이미지 자료는 빅 데이터의 고전적 사례에 속한다.

다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케한다. 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석이 가능해 과거에는 불가능했던 기술을 실현시키기도 한다.

이와 같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.

하지만 빅데이터의 문제점은 바로 사생활 침해와 보안 측면에 자리하고 있다. 빅데이터는 수많은 개인들의 수많은 정보의 집합이다. 그렇기에 빅데이터를 수집, 분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 수도 있는 것이다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수 있다.

세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정[3] 했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정[4] 하기도 했다.

정의 [ 편집 ]

빅 데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다.[5] 빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다. 빅데이터라는 용어는 1990년대부터 사용되어 왔으며, 존 매쉬가 이 용어를 대중화하였다[6][7].

[8]과 의미 특징과 의미 [ 편집 ]

빅 데이터의 공통적 특징은 3V로 설명할 수 있다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석처리가 가능한 성능을 의미한다. 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있다. 빅데이터의 특징은 3V로 요약하는 것이 일반적이다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미한다. 최근에는 가치(Value)나 복잡성(Complexity)을 덧붙이기도 한다. 이처럼 다양하고 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원으로 활용될 수 있다는 점에서 주목받고 있다. 대규모 데이터를 분석해서 의미있는 정보를 찾아내는 시도는 예전에도 존재했다. 그러나 현재의 빅데이터 환경은 과거와 비교해 데이터의 양은 물론 질과 다양성 측면에서 패러다임의 전환을 의미한다.이런 관점에서 빅데이터는 산업혁명 시기의 석탄처럼 IT와 스마트혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 간주되고 있다. 데이터 속도(Velocity)은 다양한 형태의 데이터를 포함하는 것을 뜻한다. 정형 데이터 뿐만 아니라 사진, 오디오, 비디오, 소셜 미디어 데이터, 로그 파일 등과 같은 비정형 데이터도 포함된다.

[9] 빅 데이터의 새로운 V [ 편집 ]

빅 데이터의 새로운 V – 정확성(Veracity) : 빅 데이터 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있다. 하지만 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어지기 쉽다. 따라서 빅데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 대두되었고, 이러한 측면에서 새로운 속성인 정확성(Veracity)이 제시되고 있다.

빅 데이터의 새로운 V – 가변성(Variability) : 최근 소셜미디어의 확산으로 자신의 의견을 웹사이트를 통해 자유롭게 게시하는 것이 쉬워졌지만 실제로 자신의 의도와는 달리 자신의 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도가 다른 사람에게 오해를 불러일으킬 수 있다. 이처럼 데이터가 맥락에 따라 의미가 달라진다고 하여 빅 데이터의 새로운 속성으로 가변성(Variability)이 제시되고 있다.

빅 데이터의 새로운 V – 시각화(Visualization) : 빅 데이터는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거친다. 이때 중요한 것은 정보의 사용대상자의 이해정도이다. 그렇지 않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문이다.

메타그룹(현재 가트너)의 애널리스트 더그 레이니(Doug Laney)는 2001년 그의 연구 보고서[10]와 관련 강의에서 데이터의 급성장에 따른 이슈와 기회를 데이터의 양(volume), 데이터 입출력의 속도(velocity), 데이터 종류의 다양성(variety)이라는 세 개의 차원으로 정의하였다. 이 “3V” 모델은 이후 가장 널리 사용되는 빅 데이터의 정의가 되었다.[11] 2012년 가트너는 기존의 정의를 다음과 같이 개정하였다: “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.”[12] 이에 더해, IBM은 정확성(Veracity)이라는 요소를 더해 4V를 정의하였고,[13] 브라이언 홉킨스(Brian Hopkins) 등은 가변성(Variability)을 추가하여 4V를 정의하였다.[14]

가트너의 3V 정의가 여전히 널리 사용되고 있는 가운데, 데이터와 그것의 사용 방법에 있어서 빅 데이터와 경영정보학의 차이가 점차 더 뚜렷하게 구분되고 있다.

경영정보학은 대상을 측정하고 경향을 예측하는 등의 일을 하기 위해 고밀도의 데이터로 구성된 기술적 통계를 활용한다.

빅 데이터는 큰 데이터 집합으로부터 일정한 법칙을 추론하여 결과 및 행동을 예측하기 위해 통계적 추론과 비선형 시스템 식별(nonlinear system identification)[15]의 일부 개념을 활용한다.[15][16]

분석 기법 [ 편집 ]

상기 특징을 가진 빅 데이터의 분석, 활용을 위한 빅 데이터 처리 기법은 크게 분석 기술, 표현 기술로 나뉜다.

분석 기술 [ 편집 ]

빅데이터를 다루는 처리 프로세스로서 병렬 처리의 핵심은 분할 점령(Divide and Conquer)이다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말한다. 빅데이터의 데이터 처리란 이렇게 문제를 여러 개의 작은 연산으로 나누고 이를 취합하여 하나의 결과로 만드는 것을 뜻한다. 대용량의 데이터를 처리하는 기술 중 가장 널리 알려진 것은 아파치 하둡()과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크이다. 대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당한다.[17] 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목받고 있다.[18]

아파치 하둡(Apache Hadoop) : 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크

텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반을 두어 유용한 정보를 추출, 가공

오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별

소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정

군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴

대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 하둡이 있으며 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다.[18]

표현 기술 [ 편집 ]

빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 대표적인 것으로는 R (프로그래밍 언어)이 있다.[18] [19] 빅데이터 플랫폼 [ 편집 ]

빅데이터 플랫폼은 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 환경이다. 기업들은 빅데이터 플랫폼을 사용하여 빅데이터를 수집, 저장, 처리 및 관리 할 수 있다. 빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라(Infrastructure)인 셈이다. 빅데이터 플랫폼은 빅데이터라는 원석을 발굴하고, 보관, 가공하는 일련의 과정을 이음새 없이 통합적으로 제공해야 한다. 이러한 안정적 기반 위에서 전처리된 데이터를 분석하고 이를 다시 각종 업무에 맞게 가공하여 활용한다면 사용자가 원하는 가치를 정확하게 얻을 수 있을 것이다.

활용사례 및 의의 [ 편집 ]

정치 [ 편집 ]

2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 ‘유권자 맞춤형 선거 전략’을 전개했다. 당시 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화나 개별 방문을 또는 소셜 미디어를 통해 유권자 정보를 수집하였다. 수집된 데이터는 오바마 캠프 본부로 전송되어 유권자 데이터베이스를 온라인으로 통합관리하는 ‘보트빌더(VoteBuilder.com)’시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별 , 유권자에 대한 예측을 해나갔다. 이를 바탕으로‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다.

중앙선거관리위원회는 대한민국 제19대 총선부터 소셜 네트워크 등 인터넷 상의 선거 운동을 상시 허용하였다.[20] 이에 소셜 미디어 상에서 선거 관련 데이터는 증폭되었으며, 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등[21] 소셜 네트워크 활용에 주목했다. 이 가운데 여론 조사 기관들은 기존 여론조사 방식으로 예측한 2010년 제5회 지방 선거 및 2011년 재보궐선거의 여론조사 결과와 실제 투표 결과와의 큰 차이를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했다. 그러나 SNS 이용자의 대다수가 수도권 20~30대에 쏠려 있기에[22], 빅 데이터를 이용한 대한민국 제19대 총선에 대한 SNS 분석은 수도권으로 한정되어 일치하는 한계를 드러내기도 하였다.

경제 및 경영 [ 편집 ]

아마존닷컴 의 추천 상품 표시 / 구글 페이스북 의 맞춤형 광고 [ 편집 ]

아마존닷컴은 모든 고객들의 구매 내역을 데이터베이스에 기록하고, 이 기록을 분석해 소비자의 소비 취향과 관심사를 파악한다.[23] 이런 빅 데이터의 활용을 통해 아마존은 고객별로 ‘추천 상품(레코멘데이션)’을 표시한다. 고객 한사람 한사람의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일, 홈 페이지상에서 중점적으로 고객 한사람 한사람에게 자동적으로 제시하는 것이다.[24] 아마존닷컴의 추천 상품 표시와 같은 방식으로 구글 및 페이스북도 이용자의 검색 조건, 나아가 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여 이용자에게 맞춤형 광고를 제공하는 등 빅데이터의 활용을 증대시키고 있다.

사회 [ 편집 ]

코로나19 와 이민자, 유학생 간 상관관계 [ 편집 ]

코로나19 확진자의 국가별 통계와 중국인 유학생 이동 통계, 중국인 이민자 수 통계를 이용한 상관성 분석을 통해 코로나19의 세계적 확산 양상이 중국 이민자 및 유학생 진출자 수와 비교적 강한 상관관계를 지닌다는 국내 연구팀의 분석 결과가 나왔다.[25] 중국인이 감염증 발생 및 확산의 원인이라는 결론은 위험하며, 정보 분석을 통해 감염병 확산을 예측하고 효과적으로 대처할 수 있다는 사실을 알리기 위한 분석의 한 사례이다.

문화 [ 편집 ]

머니볼 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다.[26] 이는 미국 메이저 리그 베이스볼 오클랜드 어슬레틱스의 구단장 빌리 빈이 리그 전체 25위에 해당하는 낮은 구단 지원금 속에서도 최소비용으로 최대효과를 거둔 상황에서 유래되었다. 빌리 빈은 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저 리그 최초로 20연승이라는 신기록을 세우도록 탈바꿈 시켰다. 2003년, 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워렌 버핏, 앨런 그린스펀과 함께 빌리 빈을 선정[27] 하는 등 머니볼 이론은 경영, 금융 분야에서도 주목받았다. 최근 들어서 과학기술 및 카메라 기술의 발달로 더욱 정교한 데이터의 수집이 가능해졌으며 투구의 궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 잡아낼 수 있게 되었다. 이처럼 기존의 정형 데이터뿐만 아닌 비정형 데이터의 수집과 분석, 활용을 통해 최근 야구경기에서 빅 데이터의 중요성은 더욱 커지고 있다. 선수의 인기만을 쫓는 것이 아니라 팀별 승률이나 선수의 성적을 나타내는 수치와 야구를 관전한다면 그 재미는 배가된다. ‘출루율’은 타율로 인정되지 않는 볼넷을 포함하여 타자가 성공적으로 베이스를 밟은 횟수의 비율, ‘장타율’은 타수마다 밟은 총 베이스를 계산해서 타격력이 얼마나 강한지를 나타내는 비율이다.

출루율과 장타율 못지 않게 ‘타수’는 한두 경기에서 낸 성적이 아닌, 수천 번의 타석에 들어 좋은 성적을 만들어낸 선수를 선별하기 위한 기초 통계자료이다. 이처럼 한 선수의 타율에서 팀의 역대 시리즈 전적까지 모든 것을 숫자로 표현할 수 있다고 해서 야구를 ‘통계의 스포츠’라고 부르기도 한다. 야구뿐만 아니라 생활 곳곳에서 활용되는 통계는 복잡한 상황과 설명을 간단한 숫자로 바꿔주는 매우 강력한 도구이다.[28]

프로파일링 ‘과 ‘빅데이터’ 기법을 활용한 프로그램 MBC [ 편집 ]

방송에는 19세 소년의 살인 심리를 파헤친 ‘용인살인사건의 재구성’, 강남 3구 초등학교 85곳의 학업성취도평가 성적과 주변 아파트 매매가의 상관관계를 빅데이터(디지털 환경에서 발생한 방대한 규모의 데이터)를 통해 분석한 ‘강남, 부자일수록 공부를 잘할까'[29]

브라질에서 개최된 2014년 FIFA 월드컵에서 독일은 준결승에서 개최국인 브라질을 7:1로 꺾고, 결승에서 아르헨티나와 연장전까지 가는 접전 끝에 1:0으로 승리를 거두었다. 무패행진으로 우승을 차지한 독일 국가대표팀의 우승의 배경에는 ‘빅데이터’가 있었다.

독일 국가대표팀은 SAP와 협업하여 훈련과 실전 경기에 ‘SAP 매치 인사이트’를 도입했다. SAP 매치 인사이트란 선수들에게 부착된 센서를 통해 운동량, 순간속도, 심박수, 슈팅동작 등 방대한 비정형 데이터를 수집, 분석한 결과를 감독과 코치의 태블릿PC로 전송하여 그들이 데이터를 기반으로 전술을 짜도록 도와주는 솔루션이다. 기존에 감독의 경험이나 주관적 판단으로 결정되는 전략과는 달리, SAP 매치 인사이트를 통해 이루어지는 분석은 선수들에 대한 분석 뿐만 아니라 상대팀 전력, 강점, 약점 등 종합적인 분석을 통해 좀 더 과학적인 전략을 수립할 수 있다. 정보 수집에 쓰이는 센서 1개가 1분에 만들어내는 데이터는 총 12000여개로 독일 국가대표팀은 선수당 4개(골키퍼는 양 손목을 포함해 6개)의 센서를 부착했고, 90분 경기동안 한 선수당 약 432만개, 팀 전체로 약 4968만개의 데이터를 수집했다고 한다.월드컵8강 獨 전차군단 비밀병기는 ‘빅데이터’

여론의 장으로서의 유튜브 [ 편집 ]

유튜브가 폭발적 성장한 것은 2011년에 트위터와 페이스북 등 소셜미디어와 유사하게 개편되면서 구독하기·댓글달기·추천동영상 등 사람들이 쉽게 관계를 맺고 적극적 참여가 가능하도록 만들었다.[30] 이는 오락적 콘텐츠 소비 차원을 넘어 새로운 여론의 장을 만들어가고 있다. 다음 아고라로 시작된 인터넷 여론의 창은 트위터, 페이스북을 거쳐 유튜브로 이동하고 있다. 빅 데이터는 언급 빈도의 단순 집계와 통계적 분포는 물론 해당 단어들이 사용된 정서적 맥락과 제3의 단어와 가지는 관계성을 고려한 분석이 가능하다.[31]

과학기술 및 활용 [ 편집 ]

데이터 마이닝이란 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로, 수집되는 ‘빅 데이터’를 보완하고 마케팅, 시청률조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다.[32][33]

대한민국에서는 2000년부터 정보통신부의 산하단체로 사단법인 한국BI데이터마이닝학회가 설립되어 데이터 마이닝에 관한 학술과 기술을 발전, 보급, 응용하고 있다. 또한 국내ㆍ외 통계분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지고 있는 가운데 국가통계 업무를 계획하고 방대한 통계자료를 처리하는 국가기관인 통계청이 빅 데이터를 연구하고 활용방안을 모색하기 위한 ‘빅 데이터 연구회’를 발족하였다.[34] 하지만 업계에 따르면, 미국과 영국, 일본 등 선진국들은 이미 빅 데이터를 다각적으로 분석해 조직의 전략방향을 제시하는 데이터과학자 양성에 사활을 걸고 있다. 그러나 한국은 정부와 일부 기업이 데이터과학자 양성을 위한 프로그램을 진행 중에 있어 아직 걸음마 단계인 것으로 알려져 있다.[35]

최근 생물학에서 DNA, RNA, 단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고 이에 따라 이 빅데이터를 활용한 생명의 이해에 관한 논의가 진행되고 있다.

[36] 빅데이터 시대의 초고속 SSD [ 편집 ]

SSD는 대용량 데이터를 처리하고 관리 하는 데이터센터, 클라우드 등에서 많은 인기를 끌고 있으며, 실제로 국내·외의 하드웨어 업체들은 소비자용 SSD를 넘어 데이터센터 기반의 기업들을 대상으로 한 기업용 SSD를 출시하여 시장의 입지를 다져가며 넓혀가 있는 중이다. 시장조사기관 IHS 마킷(IHS Markit) 에 따르면 기업용 SSD 시장은 올해 142억달러로 꾸준히 성장하여 2021년에는 176억달러로 늘어나며 연평균 7.0% 성장을 이끌어낼 전망이다.

보건의료 [ 편집 ]

국민건강보험공단은 가입자의 자격·보험료, 진료·투약내용, 건강검진 결과 및 생활습관 정보 등 2조1천억건, 92테라바이트의 빅데이터를 보유하고 있고, 한편, 건강보험심사평가원은 진료내역, 투약내용(의약품 안심서비스), 의약품 유통 등의 2조2천억건, 89테라바이트의 빅데이터를 보유하고 있으며, 경제협력개발기구(OECD)는 한국의 건강보험 빅데이터 순위가 2위라고 발표했었다. 건보공단과 심평원은 빅데이터를 민간에 널리 알리고 더 많이 개방하고 있다. (연합뉴스 2016.6.14 인터넷뉴스 참조)

빅 데이터를 활용하면 미국 의료부문은 연간 3,300 억 달러(미 정부 의료 예산의 약 8%에 해당하는 규모)의 직간접적인 비용 절감 효과를 보일 것으로 전망된다.[37] 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고 환자 데이터를 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다.[38]

한편, 의료 분야에서 빅 데이터가 효과를 발휘하기 위해서는 대량의 의료정보 수집이 필수적이기 때문에, 개인정보의 보호와 빅 데이터 활용이라는 두 가지 가치가 상충하게 된다. 따라서, 의료 분야에서 빅 데이터의 활용과 보급을 위해서는 이러한 문제에 대한 가이드라인 마련이 필요한 상태이다.[39]

기업 경영 [ 편집 ]

대규모의 다양한 데이터를 활용한 ‘빅데이터 경영’이 주목받으면서 데이터 품질을 높이고 방대한 데이터의 처리를 돕는 데이터 통합(Data Integration)의 중요성이 부각되고 있다.

데이터 통합(DI)은 데이터의 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데 ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다.

한편 비즈니스 인텔리전스(Business Intelligence, BI)보다 진일보한 빅데이터 분석 방법이 비즈니스 애널리틱스(Business analytics, BA)인데 고급분석 범주에 있는 BA는 기본적으로 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 하는 것으로 평가받고 있기도 하다.[40]

마케팅 [ 편집 ]

인터넷으로 시작해서 인터넷으로 마감하는 생활, 스마트폰을 이용해 정보를 검색하고 쇼핑도하고 SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 흔적같은 모인 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할 수 있고 기업들은 이런 데이터를 통해서 소비자가 원하는 것들을 미리 예측할 수 있다. 빅 데이터가 마케팅 자료로 활용되는 사례이다.[40]

마케팅 분석의 예로써 지역축제의 SNS 분석을 들 수 있다. 기존 지역축제의 성공을 측정하는 방식은 경제적 파급효과를 통해 이루어져 왔다. 하지만 축제의 성공 지표는 개최에 따르는 경제성만으로는 평가될 수 없으며, 축제를 즐기는 관광객의 즐겁고 신나는 경험을 통해 투자와 소비로 연결되는 선순환 과정을 확보해야 한다. 이를 측정할 방법은 축제를 즐긴 관광객이 남긴 웹상의 ‘5Ns’의 추적을 통해 가능하다.[41] 먼저, 주목(attentioN, SNS 게시물 및 영상 조회수와 도달범위 등으로 측정) 정도와 2단계인 반응(reactioN, 좋아요, 공감, 비공감 등 표시 행위)을 통해 사람들의 축제에 대한 관심을 파악할 수 있다. 나아가 표현(expressioN, 게시물, 댓글 등 의사표현 행위)을 통해 축제에 대한 만족 및 불만족을 표현하게 되고, 온라인 공간을 넘어 오프라인 축제로의 참여(participatioN)와 소비(consumptioN)로 이어지게 된다. 5Ns 분석을 적용한 대구치맥페스티벌은 전국적 인지도와 폭넓은 대중성을 확보했음에도 마지막 단계인 소비(consumptioN)로의 연계 고리가 약한 것으로 나타났다. 일회성 행사의 한계를 극복하기 위해 축제의 상설화를 통해 축제 경험을 강화하는 물리적 공간의 확보가 제시되었다.[42]

기상정보 [ 편집 ]

한반도 전역의 기상관측정보를 활용해 일기예보와 각종 기상특보 등 국가 기상서비스를 제공하고 있는 기상청은 정밀한 기상예측을 위한 분석 과정에서 발생하는 데이터 폭증에 대응하고자 빅데이터 저장시스템의 도입을 추진하였다.

대다수 스토리지 기업들의 솔루션을 검토한 끝에 한국 IBM의 고성능 대용량 파일공유시스템(General Parallel File System, 이하 GPFS)을 적용한 스토리지 시스템을 선택하였다고 밝혔다.

한국IBM이 기상청에 제공한 GPFS 기반의 빅데이터 저장시스템은 IBM 시스템 스토리지 제품군, 시스템 x서버 제품군과 고속 네트워킹 랙스위치(RackSwitch) 등이 통합돼 있는 시스템이다.[40]

보안관리 [ 편집 ]

보안관리는 빅데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리한다. 클라우드 및 모바일 환경으로 접어들면서 물리/가상화 IT 시스템의 복잡성이 더욱 높아지고 있어 유무선 네트워크, 프라이빗/퍼블릭 클라우드, 모바일 애플리케이션과 기기관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안관리가 중요한 요소로 현실화되고 있다.[43]

구글 번역 [ 편집 ]

구글에서 제공하는 자동 번역 서비스인 구글 번역은 빅 데이터를 활용한다. 지난 40년 간 컴퓨터 회사 IBM의 자동 번역 프로그램 개발은 컴퓨터가 명사, 형용사, 동사 등 단어와 어문의 문법적 구조를 인식하여 번역하는 방식으로 이뤄졌다. 이와 달리 2006년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여 번역시 유사한 문장과 어구를 기존에 축적된 데이터를 바탕으로 추론해 나가는 통계적 기법을 개발하였다. 캐나다 의회의 수백만 건의 문서를 활용하여 영어-불어 자동번역 시스템개발을 시도한 IBM의 자동 번역 프로그램은 실패한 반면 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다. 이러한 사례로 미루어 볼 때, 데이터 양의 측면에서의 엄청난 차이가 두 기업의 자동 번역 프로그램의 번역의 질과 정확도를 결정했으며, 나아가 프로젝트의 성패를 좌우했다고 볼 수 있다.[40]

논쟁점 [ 편집 ]

폐해 사례 [ 편집 ]

2019년 7월에 넷플릭스에서 개봉된 오리지널 다큐멘터리 <거대한 해킹(The Great Hack)>에서 파슨스 디자인 스쿨의 부교수 데이비드 캐롤(David Carroll)은 이렇게 말한다.

“ 우리의 온라인 활동에서 나오는 데이터가 그냥 사라지진 않는다. 우리의 디지털 흔적들을 모으고 분석하면 매년 1조 달러 규모의 산업이 된다. 우린 이제 원자재가 된 것이다. 그럼에도 불구하고, 누구도 이용 조건을 읽어보려고 하지 않는다. 우리의 모든 교류 내역과 신용카드 결제, 웹 검색, 위치 정보, ‘좋아요’까지 우리의 신원과 결부되어 실시간으로 수집된다. 그 데이터를 구매하는 누구든, 우리의 감정의 고동에 곧바로 접속할 수 있다. 그들은 이런 지식으로 무장하고 우리의 관심을 끌기 위해 경쟁한다. 개인 맞춤형으로 각자 혼자만 보는 콘텐츠를 지속적으로 제공하면서. 이것은 우리 모두에게 해당되는 진실이다.

-《거대한 해킹》 내용 中[44] ”

데이비드 캐롤은 2016년 미국 대통령 선거와 2016년 브렉시트 국민투표에 케임브리지 애널리티카(Cambridge Analytica)가 깊이 관여해 있음을 밝히려고 애쓰면서 영국의 법을 이용해서 캐임브리지 애널리티카가 보유하고 있다고 여겨지는 데이터를 되찾아오려고 노력하고 있다. 그는 런던 소재 고등 법원에 케임브리지 애널리티카와 SCL 선거 캠페인회사(SCL Elections Ltd)를 언급하며 자신의 데이터를 복구하고 그 출처를 공개하라는 성명을 제출했다. 영국 보수당 국회의원 다미안 콜린스(Damian Noel Thomas Collins MP)가 케임브리지 애널리티카의 대표인 알렉산더 닉스(Alexander Nix)를 법정에 불러서 심문을 받게 했고, 페이스북의 대표이사 마크 주커버그와 케임브리지 애널리티카의 내부고발자 크리스토퍼 와일리(Christopher Wylie)를 참고인으로 불러 조사가 시작되었다. 데이비드 캐롤은 빅데이터 해킹의 위험에 대해 경고하면서, 대서양 양측에서 규제 압력을 가해서 전세계 기업들이 개인 정보 취급에 대해 보다 투명하게 만들게 해야 한다고 주장을 계속하고 있다.[45]

윤리 강령 [ 편집 ]

같이 보기 [ 편집 ]

각주 [ 편집 ]

빅데이터를 이해하기 위해 알아야 할 3가지 정보

3가지 정보로 빅데이터 이해하기

– 3요소 : 빅데이터와 관련된 3가지 정보들에 대해 소개하고자 합니다.

빅데이터의 속성?

요즘에는 빅데이터의 중요성이 커짐에 따라 그만큼 이제는 대중적으로 많이 알려진 개념이기도 한 빅데이터! 오늘은 빅데이터의 속성을 설명하려고 합니다.

빅데이터란 아시다시피, 데이터의 생성 양·주기·형식 등이 기존 데이터보다 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터를 말합니다.

위키피디아에서는 “기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술”로 정의하고 있어요.

이런 빅데이터의 특징, 혹은 속성으로 불리는 대표적인 3V로는 초대용량의 데이터양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻을 가지고 있으며, 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 합니다.

빅데이터에서 가치가 중요 특징으로 등장한 것은 엄청난 규모뿐만 아니라 빅데이터의 대부분이 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변하기 때문인데요. 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서, 가치 창출의 중요성이 강조되고 있습니다.

더 나아가 정확성(veracity)이 추가돼, 5V로 표현하기도 하는데요, 빅데이터의 무궁무진함이 다양한 정의를 만들어내는 것 같습니다.

이러한 빅데이터의 종류를 분류한다면?

2022년 빅데이터 활용 사례 10가지, 업계별 추천한다-FineReport

빅데이터는 위키피디아에 따르면 일반적인 데이터 관리 및 처리 소프트웨어에서 다루기 어려울 정도로 거대하고 복잡한 데이터의 집합을 나타내는 용어입니다. 빅데이터 활용에 의해, 새로운 발견이 되어 안고 있는 과제의 해결과 업무 운영의 효율화가 기대되므로, 기업이나 조직의 일하는 방식을 완전히 바꾸어 여러 가지 업계에 혁명을 일으켰다고 말할 수 있습니다.

이 문장에서는 업계별로 빅데이터 활용 사례를 해설함으로써 그 장점과 빅데이터를 분석하여 활용 방법을 알려드리고자 합니다.

참고: 본문에서 나타내는 빅데이터 활용사례 Demo플랫폼은 FineReport(파인리포트)로 제작한 것입니다. 필요하시면 다운로드하여 빅데이터 데모를 만들어 보세요.

1.업계별 빅데이터 활용 사례 10가지

빅데이터 활용사례 ① 제조업

제조업에서는 데이터가 ERP나 MES, CMMS등의 수많은 시스템에 산재해, 데이터를 단일적으로 이용할 수 없기 때문에, 공장의 가동 상황을 전반적으로 파악하는 것이 어렵습니다. 기업에서 빅데이터 분석의 첫걸음은 바로 데이터를 통합하여 관리해야 하는 것입니다. 빅데이터의 잘 활용으로 제조 프로세스를 개선할 수 있을 뿐만 아니라 생산성 향상 및 품질 안정 등에 도움이 됩니다.

빅데이터 활용 장면:

설비예지보전: 센서 데이터의 가시화를 통하여 공장전체, 라인별 설비 의 운전상황, 고장이 많은 설비의 파악, 설비 문제를 조기 발견 가능합니다.

의 운전상황, 고장이 많은 설비의 파악, 설비 문제를 조기 발견 가능합니다. 예실관리: 당초 계획에 대하여 실적이나 목표와 실적과의 차이를 인식하여 원인을 철저히 분석하여 차기부터 개선할 수 있습니다.

제품 트래킹: 빅데이터를 분석하여 바코드 스캐너와 무선장비를 이용하여 원자재 조달에서 생산, 소비 또는 폐기에 이르기까지 추적할 수 있습니다.

출처:FineReport

FineReport는 Hadoop Hive, SPARK등과 같은 빅데이터 플랫폼 및 광범위한 데이터 소스를 지원합니다. 서로 다른 데이터베이스 및 테이블에서의 데이터 추출을 지원하고 ERP / OA / MES 및 기타 비즈니스 시스템의 데이터를 단일 플랫폼으로 쉽게 통합할 수 있는 비즈니스 인텔리전스 소프트웨어입니다.

체험판 무료로 알아보기

현재 파인리포트(FineReport)는 기간과 기능의 제한이 없는 개인 사용자용 라이선스를 공식홈페이지에서 무료로 배포하고 있습니다.

빅데이터 활용사례 ② 의료업

매일 대량 복잡한 비구조화 데이터를 생성하는 의료업은 빅데이터 기술을 통해 의료정보 활용의 폭과 가능성이 넓어집니다.

빅데이터 활용 장면:

이 데이터 분석 사례는 유행병의 발생을 예측하고 그 영향을 최소화하기 위해 어떤 예방책을 강구할지를 결정하는 데 도움이 됩니다. 엑셀 수백만 명의 환자로부터 수집된 엑셀 데이터나 다른 데이터를 사용하여 근거에 따른 진단을 하므로 치료비를 절감합니다. 웨어러블 디바이스를 사용하면 빅데이터가 환자의 건강상태를 감시하고 의사에게 보고할 수 있습니다.

코로나 현황 대시보드

출처: FineReport

빅데이터를 분석하여 코로나 대시보드를 제작하는 포로세스에 대한 관심이 있으신분 다음 자료를 참고하세요 🙂

빅데이터 활용 사례③ 은행업

은행업에서는, 빅데이터가 오랜 세월 활용되어 이미 경쟁 전략상 빠뜨릴 수 없는 것이 되었습니다. 현금 회수부터 재무 관리까지 빅 데이터는 은행 모든 업무의 효율을 높입니다. 은행업의 빅데이터 애플리케이션은 고객의 수고를 덜어주고 수익을 창출합니다.

데이터 분석 활용 장면:

클라우드 컴퓨팅으로 리스크 계산 데이터 처리에 드는 비용을 절감하고 리스크 관리의 효율을 향상시킵니다. 고객 데이터 수집, 분석을 통해 보다 개개인에 맞는 개별 서비스를 제공합니다. 클러스터링+어소시에이션의 데이터 분석 기법을 사용하여 지점 장소 선정 등 중요한 결정의 정확도를 높입니다.

출처: FineReport

체험판 무료로 알아보기

현재 파인리포트(FineReport)는 기간과 기능의 제한이 없는 개인 사용자용 라이선스를 공식홈페이지에서 무료로 배포하고 있습니다.

빅데이터 활용 사례 ④소매업

빅데이터는 시장과 고객 관심 분석을 통해 소매업 발전에 좋은 기회를 제공합니다. 다양한 시장 정보를 수집해, 빅데이터의 해석을 기초로, 고객 만족도를 판단하거나 신제품 개발에 도움이 되거나 투입 시기를 계산하는 등 광범위하게 활용됩니다.

빅데이터 사례 활용 장면:

운용을 통한 결합 판매 데이터, 고객가구 데이터 등 빅데이터는 패턴별로 세분화해 고객을 분류하고 각 부분에 대해 최적의 마케팅을 합니다.예측 분석에 힘입어 상품을 높이다공급과 수요 예측의 정확도는 받아들일 수 없는 상품을 시장에 내놓는 것을 피합니다.히트 상품과 데드 셀러 분석을 하다상품의 재고 범위를 정하여, 재고 보유 비용의 영향을 최소한으로 억제합니다.

출처: FineReport

빅데이터 활용 사례 ⑤ EC업계

EC사이트는 인터넷상에서 고객에게 상품이나 서비스를 판매함으로써 이익을 획득하므로, 고객과 상품이 EC사이트 운영에 있어서의 가장 중요한 요소라고 생각할 수 있습니다.EC 업계에서 빅데이터는 데이터 분석 및 마이닝을 통해 법칙을 도출하여 기업에 지속적인 경쟁 우위를 가져옵니다.

빅데이터 활용 장면:

유입원과 사이트 내의 고객 행동 데이터를 조합하여 효과가 있는 집객 채널과 판매 활동을 판별합니다.구매 데이터, 경쟁사 가격, 상품 원가 등의 데이터에 따라 상품의 베스트 프라이스를 결정합니다.고객의 취향과 과거의 행동 패턴에 따라 그 고객에게 최적의 상품만을 추천합니다.

더 많은 데이터 정보가 필요하신가요? 지금 바로 전문 컨설턴트에게 물어보세요!

빅데이터 활용 사례⑥ 교육업

교육업계에서는 학습이나 교육현장에 대한 다양한 데이터가 축적되고 있습니다. 학습 이력이나 행동 이력 등의 빅데이터 수집, 시각화 분석을 통해 학습 평가 및 각종 예측, 성적과 학습 행위 사이의 관계를 명확하게 할 수 있습니다. 많은 나라에서 학교와 대학에서 빅데이터를 사용합니다.

데이터 분석 활용 장면:

역사 데이터를 개별적으로 학습하다학생들은 학생 전체의 결과를 개선하기 위하여, 개별화된 과정과 방안을 제정합니다. 실시간 모니터링을 통한 수업 시청과자가 얼마나 큰 이점이 있는지,과정 자료를 수정합니다. 학생의 학력 데이터에 근거하여 공부하다이력 데이터의 분석, 각 학생의 진보, 장단점, 취미 등을 이해하여, 장래 학생에게 적합한 직업을 판단합니다.

빅데이터 활용 사례 ⑦ 여행업

여행 업계는 주로 고객의 관광지에 대한 흥미와 그 행동 특징을 바탕으로 비즈니스를 전개합니다. 현재, 대리점보다 Web 서비스를 사용하는 경향이 있습니다. 빅데이터는 인터넷을 통해 전 세계 관광지와 관광객의 정보를 수집하여 여행 수요를 예측하는데 큰 도움을 줍니다.

빅데이터를 분석하여 볼 만한 사례 :

입소문과 고객의 검색 키워드를 분석하여 관광지의 인기도를 평가합니다. 항공사는 여행 중인 승객과 그 수하물의 데이터에 따라 효과적으로 계획하고 그에 따라 서비스를 제공합니다. 지리적 위치, 교통 및 날씨 정보를 바탕으로 특정 고객에게 적합한 섭외와 혜택을 전송합니다.

빅데이터 활용 사례 ⑧ 정부

어느 나라 정부든 매일 국민, 경제성장, 에너지 자원, 교통 등에 관한 다양한 기록과 데이터베이스를 추적해야 합니다.이러한 데이터의 적절한 조사와 분석은, 정부의 나날의 업무를 지원합니다.

빅데이터 분석 사례 :

주의해야 할 영역을 특정하여 정치 프로그램 상에서의 신속한 의사 결정을 실현합니다. 실업, 테러리즘, 에너지 자원 탐사 등 국가적 과제를 극복합니다. 행정이 보유한 지리공간정보와 방재정보 등 공공데이터를 2차 이용하기 쉬운 형태로 민간에 개방하여 비즈니스 이용을 촉진합니다.

빅데이터 활용 사례 ⑨ 농업

농업은 경험과 직감에 의지하는 부분이 많았습니다만, 농사일에 빅데이터를 구사해, 디지털 기술을 도입하면, 예측이나 생산성 향상, 생산 현장의 가시화를 가능하게 합니다.

활용 장면:

센서에서 얻은 기온일조량우량농작 데이터를 분석하여 생산 계획부터 수확출하까지 모두 볼 수 있게 합니다. 기상 데이터 등 각종 빅데이터에 따른 리스크 예측, 사전대책 실현합니다. 농가의 각종 기술·판단 기록·데이터화를 진행하고, 그 기술을 신농자 등에게 공유합니다.

빅데이터 활용사례 ⑩ 음식업

경쟁이 치열해지는 음식업계에서는 시장 지위를 유지하기 위해 데이터 드리븐의 경영 전략을 설정하는 기업이 늘고 있습니다. 과거 레스토랑은 고객의 내점을 기다리기만 한 상태였지만, 음식점 정보를 빅데이터화하면 방문객 수를 예상할 수 있어 재방문 고객을 늘리기 위한 서비스와 판촉활동을 조정할 수 있습니다.

빅데이터 활용 장면:

근처에서 음식점을 찾는 사람의 스마트폰 등에 최적의 타이밍에 효과적으로 광고를 냅니다. 센서로 매장 내에서의 행동을 데이터화하여 현장의 운영 상태를 대폭 개선합니다. 과거의 히트 상품을 분석하거나 보다 정확한 내점 예측, 매출 예측에 따라 생산자가 출하 조정할 수 있습니다.

2. 빅데이터 활용 에는 어떤 장점이 있습니까?

업계에 따라 빅데이터 활용 방법과 효과가 다르지만 기본적으로는 다음 3가지 점을 확인할 수 있습니다.

2.1. 데이터 분석 사례 : 현황 정확히 파악한다

과거에는 기업은 사람의 느낌과 경험에 의지해, 비즈니스의 상태를 파악하는 일이 많았습니다. 빅데이터 활용 으로 다양한 데이터의 수집 및 저장은 쉬워지고 데이터 분석이 가능합니다. 현황 파악에 필요한 정보를 데이터 분석 및 가시화 툴로 알기 쉬운 보고서로 전환하면 경영층이 조직 전체의 경영상황을, 현장직원이 특정 업무의 진척상황을 알게 됩니다.

2.2. 과제 해결책을 얻는다

빅데이터 활용은 데이터 수집에 그치지 않고 데이터 분석을 통해 일의 법칙을 찾아낼 수 있습니다. 신속히 적절한 액션을 취하는 것이 가능합니다. 또한 시책의 효과를 데이터 분석을 통해 검증하고, 시책을 반복해 개선할 수 있습니다.

2.3.새로운 사업기회를 발견한다

빅데이터 활용의 또 다른 장점은 기존 제품과 서비스, 바이어와 공급자, 소비자의 취향에 대한 정보를 수집하고 통합적인 분석을 함으로써 기업들이 새로운 비즈니스 기회를 발견하고 완전히 새로운 서비스를 창출하는 것입니다.

추천할 만 빅데이터 활용 툴

빅데이터 활용의 사례와 장점을 이해했는데 구체적으로 어떤 툴, 어떤 방법으로 빅데이터를 활용할지 묻고 싶은 분이 계실 겁니다. 빅데이터 분석 도구에는 목적 및 용도별로 다양하지만 BI 툴(Tableau, Fine Report), 데이터 마이닝 툴(Python, R), 데이터 시각화 라이브러리(Echarts, Highcharts), 데이터 맵(PowerMap, Polymaps) 등이 있습니다.자세한 내용에 대해서, 이 문장을 보면 됩니다.

대시보드는 훌륭한 데이터 관리 툴입니다. 그러나 한 곳에 데이터 값을 많이 넣는 것 이상이 필요하며, 대시보드를 유용하게 만들려면 데이터를 효과적으로 구성할 줄 알아야 합니다.데이터 기반 의사결정이 가능하고 실무에 활용할 수 있는 대시보드를 제작하는 것은 개인적으로 매우 어려운 일이라고 생각합니다.

*파인리포트란?

*파인리포트는 데이터 연결부터, 리포트 제작,실시간 관제센터를 구축할 수 있는 대시보드 기능을 제공하는 데이터 관리 리포팅 대시보드 툴입니다.

지금 바로 FineReport 무료 체험판을 사용해보세요.

간단한 사용자 등록만 하시면 기능과 기간의 제한이 없는 라이선스 코드가 발급됩니다. 체험판 라이선스는 비영리적인 목적으로만 사용 가능합니다.

체험판 무료로 알아보기

현재 파인리포트(FineReport)는 기간과 기능의 제한이 없는 개인 사용자용 라이선스를 공식홈페이지에서 무료로 배포하고 있습니다.

페이스북에서 FineReport Reporting Sofeware 채널을 구독하고 무료로 대시보드 템플릿을 다운 받으세요!

빅 데이터란 무엇인가?

빅 데이터의 역사

빅 데이터 자체의 개념은 비교적 새로운 것이지만, 대규모 데이터 세트의 기원은 최초의 데이터 센터가 등장하고 관계형 데이터베이스가 개발되는 등 데이터 세상이 막 시작되었던 1960년대와 70년대로 거슬러 올라갑니다.

2005년 무렵 사람들은 Facebook, YouTube 및 기타 온라인 서비스를 통해 사용자가 얼마나 많은 양의 데이터를 생성하고 있는지 깨닫기 시작했습니다. 같은 해에 Hadoop(빅 데이터 세트를 저장하고 분석하기 위해 특별히 개발된 오픈 소스 프레임워크)이 개발되었습니다. NoSQL도 이 기간 동안 인기를 얻기 시작했습니다.

Hadoop(그리고 최근에는 Spark) 같은 오픈 소스 프레임워크의 개발은 빅 데이터를 보다 손쉽게 사용하고 저렴하게 저장할 수 있게 해준다는 점에서 빅 데이터의 성장에 필수적이었습니다. 그 이후로 빅 데이터의 양이 급증했습니다. 사용자는 여전히 방대한 양의 데이터를 생성하고 있지만, 데이터를 생성하는 것은 인간만이 아닙니다.

Internet of Things(IoT)의 출현으로 더 많은 객체와 장치가 인터넷에 연결되어 고객 사용 패턴 및 제품 성능에 대한 데이터를 수집하고 있습니다. 머신 러닝의 등장으로 더 많은 데이터가 생성되었습니다.

빅 데이터의 역사는 오래되었지만, 활용은 이제 시작 단계입니다. 클라우드 컴퓨팅으로 빅 데이터 가능성이 더욱 확장되었습니다. 클라우드는 개발자가 임시 클러스터를 손쉽게 가동하여 데이터 하위 집합을 테스트할 수 있도록 진정한 의미에서 탄력적인 확장성을 제공합니다. 또한 그래프 데이터베이스는 분석 속도를 높이고 포괄적인 방식으로 대량의 데이터를 표시할 수 있으므로 점점 더 중요해지고 있습니다.

빅데이터의 이점:

반응형

빅데이터의 유형에 대해서 알아보려고 합니다.

데이터 크기를 기준으로 유형을 나눠보는 것이 명확할 것 같아 크기 기준으로 표기해보았습니다.

정형화 데이터는 텍스트 위주의 데이터를 말합니다. 그리고 반정형 및 비정형 데이터들이 대량으로 발생되고 있죠.

데이터 크기 기준으로는 MB, GB가 정형화 데이터, TB는 반정형 데이터, PB는 빅데이터 크기라고 합니다.

정형화 데이터 vs 비정형 데이터

정형화 데이터

기반 시스템(기간계, ERP 등) 관리계, 정보계, 분석계 등 업무 시스템 데이터

* 데이터 크기 : MB, GB

– 재무정보, 급여표, 인사정보

– 재고관리, 거래정보, 거래처 정보

반정형 데이터

정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태

– 그 외 다양한 장치 데이터

* 데이터 크기 : TB

– Web Log데이터

– 보안 및 특정 센서 데이터

– 마케팅 정보

데이터 구분

빅데이터

형태나 구조가 정형화되지 않은 데이터 형식 다양한 형식의 모든 데이터

* 데이터 크기 : PB

– 문서, 텍스트, 이미지, 동영상, Social Data

– 센서(Sencor) 데이터 장치 Log 데이터

– 가상 데이터 RFID 데이터

– SNS 데이터

– 그 외 다양한 형식의 데이터 포함

빅데이터란 모든 데이터를 포괄하는 것이긴 히지만

데이터 크기와 종류가 다양해야 빅데이터라고 할 수 있습니다.

반응형

키워드에 대한 정보 빅 데이터 종류

다음은 Bing에서 빅 데이터 종류 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 빅 데이터 3분 요약

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기

빅 #데이터 #3분 #요약


YouTube에서 빅 데이터 종류 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 빅 데이터 3분 요약 | 빅 데이터 종류, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment