목차
1. 정형 데이터는 크게 범주형 데이터와 수치형 데이터로 나뉜다.
1) 범주형 데이터와 수치형 데이터의 의미를 비교하여 기술하시오. (2점)
(1) 범주형 데이터 (2) 수치형 데이터
2) 범주형 데이터와 수치형 데이터는 각각 두 종류의 유형으로 나누어 볼 수 있는데, 이러한 분류에 따른 데이터의 종류를 기술하고 각 데이터의 사례를 제시하시오. (단, 교재 외의 사례를 제시할 것) (4점)
(1) 범주형 데이터
① 명목형 데이터와 교재 외 다양한 사례 ② 순서형 데이터와 교재 외 다양한 사례
(2) 수치형 데이터
① 이산형 데이터와 교재 외 다양한 사례 ② 연속형 데이터와 교재 외 다양한 사례
2. 빅데이터 시대에 접어들어 인공지능 등 첨단 기술의 발전이 가속화되는 상황에서 ‘데이터 주도권’이라는 개념이 강조되고 있다. 교재에서 제시한 데이터 주도권과 관련된 다섯 가지 소양 중 본인의 입장에서 보다 집중적으로 갖추어야할 분야는 어느 것(들)인지 선택하고 그 이유를 기술하시오. (분량 : 문제를 제외하고 한글 11pt 줄간격 160%, MS word 기준 글자 크기 11 pt, 줄간격 1.5로 하여 A4지 1매 이상 기술할 것) (9점)
1) 데이터 주도권을 지니기 위해 갖추어야 할 소양
① 이해력 ② 인문학적 소양 ③ 통찰력 ④ 윤리의식 ⑤ 유연성
2) 보다 집중적으로 갖추어야 할 소양
3. 빅데이터 환경에서 사용할 수 있는 효과적인 데이터 수집 방법 네 가지를 기술하시오. (2점) 또한 제시한 네 가지 방법 중 한 가지 방법을 택하여 직접 데이터를 수집하고 수집된 데이터의 특징을 기술하시오. (4점)
1) 빅데이터 환경에서 효과적인 데이터 수집 방법
①검색 데이터를 수집하여 이용하는 방법 ②소셜네트워크서비스 데이터를 수집하여 이용하는 방법
③웹문서 데이터를 수집하여 이용하는 방법 ④공공데이터를 수집하여 이용하는 방법
2) 검색으로 수집한 데이터의 특징(네이버 데이터랩)
4. 데이터 품질관리의 미흡할 때 발생할 수 있는 문제에 대해 약술하고 이러한 문제가 발생한 (교재 외의) 실제 사례를 조사하여 기술하시오. (분량 : 문제를 제외하고 한글 11pt 줄간격 160%, MS word 기준 글자 크기 11 pt, 줄간격 1.5로 하여 A4지 1매 이상 기술할 것) (9점)
1) 데이터 품질관리 미흡 시 발생 문제
2) 데이터 품질관리 미흡 시 발생 문제 교재 외의 실제 사례 3가지
5. 참고문헌
1) 범주형 데이터와 수치형 데이터의 의미를 비교하여 기술하시오. (2점)
(1) 범주형 데이터 (2) 수치형 데이터
2) 범주형 데이터와 수치형 데이터는 각각 두 종류의 유형으로 나누어 볼 수 있는데, 이러한 분류에 따른 데이터의 종류를 기술하고 각 데이터의 사례를 제시하시오. (단, 교재 외의 사례를 제시할 것) (4점)
(1) 범주형 데이터
① 명목형 데이터와 교재 외 다양한 사례 ② 순서형 데이터와 교재 외 다양한 사례
(2) 수치형 데이터
① 이산형 데이터와 교재 외 다양한 사례 ② 연속형 데이터와 교재 외 다양한 사례
2. 빅데이터 시대에 접어들어 인공지능 등 첨단 기술의 발전이 가속화되는 상황에서 ‘데이터 주도권’이라는 개념이 강조되고 있다. 교재에서 제시한 데이터 주도권과 관련된 다섯 가지 소양 중 본인의 입장에서 보다 집중적으로 갖추어야할 분야는 어느 것(들)인지 선택하고 그 이유를 기술하시오. (분량 : 문제를 제외하고 한글 11pt 줄간격 160%, MS word 기준 글자 크기 11 pt, 줄간격 1.5로 하여 A4지 1매 이상 기술할 것) (9점)
1) 데이터 주도권을 지니기 위해 갖추어야 할 소양
① 이해력 ② 인문학적 소양 ③ 통찰력 ④ 윤리의식 ⑤ 유연성
2) 보다 집중적으로 갖추어야 할 소양
3. 빅데이터 환경에서 사용할 수 있는 효과적인 데이터 수집 방법 네 가지를 기술하시오. (2점) 또한 제시한 네 가지 방법 중 한 가지 방법을 택하여 직접 데이터를 수집하고 수집된 데이터의 특징을 기술하시오. (4점)
1) 빅데이터 환경에서 효과적인 데이터 수집 방법
①검색 데이터를 수집하여 이용하는 방법 ②소셜네트워크서비스 데이터를 수집하여 이용하는 방법
③웹문서 데이터를 수집하여 이용하는 방법 ④공공데이터를 수집하여 이용하는 방법
2) 검색으로 수집한 데이터의 특징(네이버 데이터랩)
4. 데이터 품질관리의 미흡할 때 발생할 수 있는 문제에 대해 약술하고 이러한 문제가 발생한 (교재 외의) 실제 사례를 조사하여 기술하시오. (분량 : 문제를 제외하고 한글 11pt 줄간격 160%, MS word 기준 글자 크기 11 pt, 줄간격 1.5로 하여 A4지 1매 이상 기술할 것) (9점)
1) 데이터 품질관리 미흡 시 발생 문제
2) 데이터 품질관리 미흡 시 발생 문제 교재 외의 실제 사례 3가지
5. 참고문헌
본문내용
데이터는 공공데이터포털 외에도 지방자치단체나 개별 공공기관에서도 수집할 수 있다. 예를 들어, 서울특별시는 \'서울 열린 데이터 광장\'을 통해 다양한 데이터를 제공하고 있으며, API 인증키를 받아 데이터를 수집할 수 있다. 공공데이터는 대중교통 정보와 같이 일상생활에서 널리 활용되며, 스마트폰을 통해 언제든지 접근할 수 있는 형태로 가공되어 제공된다.
2) 검색으로 수집한 데이터의 특징(네이버 데이터랩)
네이버 데이터랩에서 ‘주식(stock)’을 주제어로 하여 수집한 검색어 ‘증권계좌’의 검색량 데이터는 수치형 데이터(numerical data)에 해당한다. 즉, 검색량은 정량적으로 표현되어 있으며, 이는 객관적인 숫자 값으로 측정된다는 점에서 수치형 데이터이다. 또한 검색량은 무한하게 정량적인 측정값을 제공하므로 연속형 데이터(continuous data)로 분류될 수 있다. 아울러 검색량 데이터는 날짜별로 기록된 데이터로, 시간 축을 따라 연속적으로 변하는 값이므로 시계열 데이터(time series data)의 특성도 가진다. 끝으로 검색량 데이터를 통해 특정 트렌드나 주기적 변화를 분석할 수 있으며, 이를 기반으로 예측 모델을 구축할 수 있다.
수집된 데이터의 시계열 그래프와 요약통계량은 다음과 같다.
사분위수(quartiles)를 분석하면, 검색량이 하위 25%(1사분위)에 해당하는 값은 5.68 이하이고, 상위 25%(3사분위)에 해당하는 값은 12.39 이상이다. 표준편차는 0.15로 데이터는 비교적 좁은 범위에 밀집되어 분포되어 있다고 할 수 있다. 위 히스토그램을 봐도, 대부분의 데이터가 중앙값을 중심으로 밀집되어 있음을 알 수 있다. 그리고 시계열 그래프의 특정 시점에서 검색량이 급증는 현상(이상치, outlier)은 특정 이벤트에 의해 검색량이 급등할 수 있음을 시사한다.
4. 데이터 품질관리의 미흡할 때 발생할 수 있는 문제에 대해 약술하고 이러한 문제가 발생한 (교재 외의) 실제 사례를 조사하여 기술하시오. (9점)
1) 데이터 품질관리 미흡 시 발생 문제
데이터 품질 관리가 부족할 경우 다양한 문제가 발생할 수 있다. 예를 들어, 알레르기 유발 제품의 성분 정보나 서비스 장소의 위생 상태에 대한 부정확한 정보가 의사결정에 반영된다면, 소비자의 불만을 초래할 뿐만 아니라 법적 소송으로까지 이어질 수 있다. 또한, 잘못된 데이터는 거래 시점의 오류나 판매 지연을 일으켜 재고가 쌓이거나, 반대로 공급 부족으로 인해 판매 기회를 놓치는 결과를 가져올 수 있다. 이러한 문제는 결국 소비자의 불만을 가중시키고, 판매 기회를 상실하게 만들 수 있다.
데이터 오류는 유통 과정에서도 문제를 일으킨다. 잘못된 거래 번호가 전달되면, 판매점과 유통센터에서 물품 수령에 차질이 발생할 수 있으며, 파손이 쉬운 제품에 대한 정보가 제대로 전달되지 않으면 큰 피해로 이어질 수 있다. 제품의 규격이나 중량에 대한 부정확한 정보는 과적 등으로 법적 제재를 초래할 수 있고, 이로 인해 유통 시간의 지연이 발생할 수 있다. 또한, 잘못된 제품 설명이나 측정치, 가격 오류는 고객의 불만을 일으키며, 이는 판매 기회 상실과 고객 이탈로 이어진다.
나아가 데이터 오류가 법적 규제와 관련된 부분에서 발생하면, 벌금이나 경영 활동에 대한 제재로 이어질 수 있다. 따라서 데이터 품질이 제대로 관리되지 않으면 기업 경영 전반에 심각한 제약을 초래할 수 있으며, 이를 예방하기 위해서는 철저한 데이터 품질 관리가 필수적이다.
2) 데이터 품질관리 미흡 시 발생 문제 교재 외의 실제 사례 3가지
① 8년 동안 2천300만 달러를 더 지불한 미국 시민
미국 연금 계산 오류로 인해 Nashvill 시민 일부는 8년 동안 2천300만 달러를 초과해 지불했으며, 반면에 다른 사람들은 동일 기간 동안에 2천600만 달러를 적게 낸 것으로 드러났다.
② 금융계좌 주민등록번호 오류 398만개
국내 금융회사의 고객 계좌 100개 중 1개 수준인 398만여 계좌가 잘못된 주민등록번호로 사용돼 온 것으로 확인되었다. 잘못된 주민등록번호를 가진 금융계좌의 경우 이자소득을 금융소득종합과세할 수 없거나, 다른 사람에게 과세됐을 수도 있기 때문에, 주민등록번호를 정정하는 과정에서 상당한 문제점이 노출될 것으로 보인다. 금융감독원은 2003년 11월말 기준 전 금융권 1314개 금융회사가 갖고 있는 3억7399만 계좌의 주민등록번호에 대해 행정자치부를 통해 오류여부를 문의한 결과, 1.1%인 398만3000개 계좌에서 주민등록번호 오류가 발견됐다고 밝혔다. 이는 지난 92~95년 행정전산화 과정에서 변경된 주민등록번호를 고객이 금융회사에 알려주지 않거나(176만여건), 금융회사 직원이 주민등록번호를 잘못 입력하고 정정하지 않아(221만여건) 주민등록번호 오류가 발생한 것이다.
③ 호적정보 10명중 1명 주민번호 오류
대법원이 관리하고 있는 호적정보시스템에 기록돼 있는 국민 10명 중 1명꼴로 주민등록번호가 잘못 기록돼 있었던 것으로 밝혀졌다. 2004년 7일 대법원에 따르면 2003년 5월 구축돼 가동 중인 이 시스템에 입력된 인구 5254만8493명 중 10.5%인 551만7646명의 주민등록번호가 잘못 기록됐던 것으로 집계됐다. 또 사망이나 분가 등으로 호적이 말소된 2040만4484명 중 20.6%인 419만6693명의 주민등록번호에 오류가 있었다. 이처럼 호적정보시스템의 주민등록번호 오류는 2001년부터 2년5개월 동안 7300만여명의 호적을 전산화하는 과정에서 지방자치단체 공무원들의 실수나, 1975년부터 주민등록번호를 기록하기 시작한 호적 원본 자체의 오류 때문으로 추측된다.
5. 참고문헌
장영재·유찬우 『데이터과학개론』 KNOU Press, 2022.
https://www.datanet.co.kr/news/articleView.html?idxno=36044
https://biz.chosun.com/site/data/html_dir/2004/01/06/2004010670373.html
https://www.donga.com/news/Politics/article/all/20040707/8080816/1
2) 검색으로 수집한 데이터의 특징(네이버 데이터랩)
네이버 데이터랩에서 ‘주식(stock)’을 주제어로 하여 수집한 검색어 ‘증권계좌’의 검색량 데이터는 수치형 데이터(numerical data)에 해당한다. 즉, 검색량은 정량적으로 표현되어 있으며, 이는 객관적인 숫자 값으로 측정된다는 점에서 수치형 데이터이다. 또한 검색량은 무한하게 정량적인 측정값을 제공하므로 연속형 데이터(continuous data)로 분류될 수 있다. 아울러 검색량 데이터는 날짜별로 기록된 데이터로, 시간 축을 따라 연속적으로 변하는 값이므로 시계열 데이터(time series data)의 특성도 가진다. 끝으로 검색량 데이터를 통해 특정 트렌드나 주기적 변화를 분석할 수 있으며, 이를 기반으로 예측 모델을 구축할 수 있다.
수집된 데이터의 시계열 그래프와 요약통계량은 다음과 같다.
사분위수(quartiles)를 분석하면, 검색량이 하위 25%(1사분위)에 해당하는 값은 5.68 이하이고, 상위 25%(3사분위)에 해당하는 값은 12.39 이상이다. 표준편차는 0.15로 데이터는 비교적 좁은 범위에 밀집되어 분포되어 있다고 할 수 있다. 위 히스토그램을 봐도, 대부분의 데이터가 중앙값을 중심으로 밀집되어 있음을 알 수 있다. 그리고 시계열 그래프의 특정 시점에서 검색량이 급증는 현상(이상치, outlier)은 특정 이벤트에 의해 검색량이 급등할 수 있음을 시사한다.
4. 데이터 품질관리의 미흡할 때 발생할 수 있는 문제에 대해 약술하고 이러한 문제가 발생한 (교재 외의) 실제 사례를 조사하여 기술하시오. (9점)
1) 데이터 품질관리 미흡 시 발생 문제
데이터 품질 관리가 부족할 경우 다양한 문제가 발생할 수 있다. 예를 들어, 알레르기 유발 제품의 성분 정보나 서비스 장소의 위생 상태에 대한 부정확한 정보가 의사결정에 반영된다면, 소비자의 불만을 초래할 뿐만 아니라 법적 소송으로까지 이어질 수 있다. 또한, 잘못된 데이터는 거래 시점의 오류나 판매 지연을 일으켜 재고가 쌓이거나, 반대로 공급 부족으로 인해 판매 기회를 놓치는 결과를 가져올 수 있다. 이러한 문제는 결국 소비자의 불만을 가중시키고, 판매 기회를 상실하게 만들 수 있다.
데이터 오류는 유통 과정에서도 문제를 일으킨다. 잘못된 거래 번호가 전달되면, 판매점과 유통센터에서 물품 수령에 차질이 발생할 수 있으며, 파손이 쉬운 제품에 대한 정보가 제대로 전달되지 않으면 큰 피해로 이어질 수 있다. 제품의 규격이나 중량에 대한 부정확한 정보는 과적 등으로 법적 제재를 초래할 수 있고, 이로 인해 유통 시간의 지연이 발생할 수 있다. 또한, 잘못된 제품 설명이나 측정치, 가격 오류는 고객의 불만을 일으키며, 이는 판매 기회 상실과 고객 이탈로 이어진다.
나아가 데이터 오류가 법적 규제와 관련된 부분에서 발생하면, 벌금이나 경영 활동에 대한 제재로 이어질 수 있다. 따라서 데이터 품질이 제대로 관리되지 않으면 기업 경영 전반에 심각한 제약을 초래할 수 있으며, 이를 예방하기 위해서는 철저한 데이터 품질 관리가 필수적이다.
2) 데이터 품질관리 미흡 시 발생 문제 교재 외의 실제 사례 3가지
① 8년 동안 2천300만 달러를 더 지불한 미국 시민
미국 연금 계산 오류로 인해 Nashvill 시민 일부는 8년 동안 2천300만 달러를 초과해 지불했으며, 반면에 다른 사람들은 동일 기간 동안에 2천600만 달러를 적게 낸 것으로 드러났다.
② 금융계좌 주민등록번호 오류 398만개
국내 금융회사의 고객 계좌 100개 중 1개 수준인 398만여 계좌가 잘못된 주민등록번호로 사용돼 온 것으로 확인되었다. 잘못된 주민등록번호를 가진 금융계좌의 경우 이자소득을 금융소득종합과세할 수 없거나, 다른 사람에게 과세됐을 수도 있기 때문에, 주민등록번호를 정정하는 과정에서 상당한 문제점이 노출될 것으로 보인다. 금융감독원은 2003년 11월말 기준 전 금융권 1314개 금융회사가 갖고 있는 3억7399만 계좌의 주민등록번호에 대해 행정자치부를 통해 오류여부를 문의한 결과, 1.1%인 398만3000개 계좌에서 주민등록번호 오류가 발견됐다고 밝혔다. 이는 지난 92~95년 행정전산화 과정에서 변경된 주민등록번호를 고객이 금융회사에 알려주지 않거나(176만여건), 금융회사 직원이 주민등록번호를 잘못 입력하고 정정하지 않아(221만여건) 주민등록번호 오류가 발생한 것이다.
③ 호적정보 10명중 1명 주민번호 오류
대법원이 관리하고 있는 호적정보시스템에 기록돼 있는 국민 10명 중 1명꼴로 주민등록번호가 잘못 기록돼 있었던 것으로 밝혀졌다. 2004년 7일 대법원에 따르면 2003년 5월 구축돼 가동 중인 이 시스템에 입력된 인구 5254만8493명 중 10.5%인 551만7646명의 주민등록번호가 잘못 기록됐던 것으로 집계됐다. 또 사망이나 분가 등으로 호적이 말소된 2040만4484명 중 20.6%인 419만6693명의 주민등록번호에 오류가 있었다. 이처럼 호적정보시스템의 주민등록번호 오류는 2001년부터 2년5개월 동안 7300만여명의 호적을 전산화하는 과정에서 지방자치단체 공무원들의 실수나, 1975년부터 주민등록번호를 기록하기 시작한 호적 원본 자체의 오류 때문으로 추측된다.
5. 참고문헌
장영재·유찬우 『데이터과학개론』 KNOU Press, 2022.
https://www.datanet.co.kr/news/articleView.html?idxno=36044
https://biz.chosun.com/site/data/html_dir/2004/01/06/2004010670373.html
https://www.donga.com/news/Politics/article/all/20040707/8080816/1
키워드
추천자료
빅데이터.ppt
[빅데이터의이해 공통] 맵리듀스, 빅데이터의 출현배경, ‘수집-분석-적용-피드백’의 관점에...
빅데이터를 활용한 공공정책 수립사례
빅데이터 활용 사례와 빅데이터 발전 방안 분석
[ 빅데이터 활용 아이디어를 빅데이터 활용 프로세스인 수집-저장-처리-분석-활용 순으로 제...
빅데이터 현황조사 레포트
2023년 2학기 방송통신대 빅데이터의이해와활용 중간과제물)데이터과학자 빅데이터 확산 배경...
데이터과학개론(출석)) 1범주형 데이터 및 수치형 데이터의 특징 및 종류를 기술하고 사례를 ...
[경영정보시스템] 5주차 2강에서는 빅데이터에 대해 학습하였습니다. 최근 빅데이터의 개념 ...
2024년 2학기 방송통신대 빅데이터의이해와활용 중간과제물)시계열 데이터를 분석하기 위한 ...
소개글