빅데이터정의/병렬시스템프로세스/활용사례

본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

빅데이터정의/병렬시스템프로세스/활용사례에 대한 보고서 자료입니다.

본문내용

Big Data

삼성카드사는 삼성카드 종류를 9가지로 나누어서 카드를 사용하는 고객 정보와 구매 패턴을 파악하여 어떤 소비자 인지 정의하고 어떤 카드가 각각의 해당되는 고객에게 어울리고 구매 패턴을 바탕으로 모아진 고객 맞춤형 혜택을 제공하여 고객의 일상에 실용을 더 해주겠다는 가이드라인을 가지고 바이럴 영상 및 옥외 광고 등을 통해 마케팅 활동을 해왔다. 특히 ‘사라’라는 카드와 사랑에 빠진 영화배우 유해진은 가만히 있어도 가지고 있는 포인트와 함께 모든걸 알아서 결제해주고, 지출 내역 및 구매 패턴을 분석하여 영화배우 유해진의 자산관리마저 해주는 든든한 동반자를 삼성페이에서 만나는 영상광고를 제작하여 한동안 화제가 되었다.
삼성카드는 어떻게 유해진이 무엇을 원하고 어디에 얼마나 쓰는지 알고 그야말로 맞춤형 혜택을 제공함으로써 ‘아무것도 하고 있지 않지만 좀 더 격렬하게 아무것도 하고 싶지 않은’ 유해진을 만족 시킬 수 있었을까? 얼마 전 삼성페이를 기반으로 고객의 일상에 실용을 더 해 주겠다는 크리에이티브 가이드라인을 제시한 삼성카드의 공모전에 참여 하였다. 의견을 도출 할 수 없을 때 한 팀원이 제시한 삼성카드의 장점이 빅데이터를 통한 고객을 맞춰 혜택을 제공할 수 있다는 점이다. 팀원 중에 한 명이 대체 빅데이터가 무엇이냐고 질문하였지만, 우리들 중 누구도 정확한 정의를 내려 대답해 줄 수 없었다. 과연 빅데이터란 무엇일까?

1. 빅데이터의 정의

과연 빅데이터란 무엇일까? 빅데이터의 사전적 의미를 찾아보면 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 그럼 과연 빅데이터의 정의와 빅데이터란 용어의 매력도가 이렇게 올라가게 된 이유는 무엇일까? 1997년 크기는 매우 크고, 큰 메모리의 용량과 로컬 디스크와 분리된 디스크로 구성되었던 빅데이터는 나사 과학자들의 의해 처음 소개되었다(Press 2014). 데이터가 메인 메모리에 맞지 않거나, 그들이 로컬 디스크에 맞지 않을 때, 더 많은 자원을 구함으로써 해결책을 만들어냈다. 2008년 미국에 있는 컴퓨터 과학자들이 빅데이터는 기업의 활동, 과학 자료와 국가간의 보안 및 인공 운영 방식들을 예언하는 컴퓨터의 작업으로 불려 졌을 뿐이었지 명확한 정의가 내려지진 않았다(Press 2014). McKinsey는 단순히 많은 양의 정보로 빅데이터를 정의하지 않고, 분석을 통해 정보의 의미를 통찰하도록 연구되고 저장되어 데이터베이스 분석 프로그램의 능력을 넘어선 방대한 양의 사이즈의 데이터로 정의하였다(Press 2014).

2. 빅데이터의 속성

빅데이터는 양(Volume), 속도(velocity) 그리고 다양성(variety) 이렇게 세가 속성에 대해 이야기 할 수 있다. 양은 데이터의 양과 의미 분석 및 데이터 가공을 많이 해야 하는 처리 요구 양을 말하고 이렇게 많은 양의 데이터를 처리해내는 속도와 정형화되고 사전에 정의할 수 있는 정제된 형태의 데이터를 포함하여 텍스트, 이미지와 같은 비정형의 많은 양들의 데이터들을 저장-처리-분석하고 난 후 발생될 가치(value)등이 빅데이터들의 속성이라고 말할 수 있다 (Dive 2013).

3. 빅데이터를 다루는 기술
기존 인터넷 서비스 환경이 검색과 포털 위주였던 인터넷 웹 서비스의 범주를 넘어 통신, 게임, 음악, 검색, 쇼핑 등의 전 서비스 영역에서 개인화 서비스와 소셜 서비스를 제공해야 하는 환경으로 바뀌고 있다. 따라서 저장소의 수직적 확장(scale-up)보다는 수평적 확장(scale-out) 기술이 중요해지고 있고 복잡한 데이터를 처리하고 방대한 데이터의 저장 크기와 처리를 위해서OLTP(Online Transaction Processing) 범위를 넘어서는 기술이 필요해지고 있다.

빅데이터 시스템
저장 시스템(병렬 DBMS) 처리 시스템 분석 시스템
VoltDB Map-Reduce GNU R
SAP HANA Dryad Apache mahout
Vertica Apache Pig
Greenplum Hadoop
IBM Netezza data warehouse
NoSQL

[저장시스템]
기존 저장 기술인 SAN(Storage Area Network), NAS(Network Attached Storage)와 클라우드 파일을 저장하기 위한 시스템으로는 Amazon S3나 OpenStack Swif이 있으며 GFS(Google File System), HDFS(Hadoop Distributed File System)와 같은 분산 파일 시스템 등이 모두 대량의 데이터를 저장하기 위한 기술이다. 이 중에서 오늘날 많은 회사에서 대량의 데이터를 저장 하는 HDFS(Hadoop distributed File System)과 병렬 DBMS를 활용하고 있는데,병렬 DBMS에는 VoltDB, SAP HANA, Vertica, Greenplum, IBM Netezza data warehouse 등을 포함하고 있다.

키워드

빅데이터정의, 활용사례(테러리스트, 유권자포함), 병렬시스템처리과정, 빅데이터

소개글

목차

본문내용

키워드

추천자료