자전거 대여 수 추가수수료에 영향을 미치는 변수를 구하기위한 데이터마이닝
본 자료는 5페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
해당 자료는 5페이지 까지만 미리보기를 제공합니다.
5페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

자전거 대여 수 추가수수료에 영향을 미치는 변수를 구하기위한 데이터마이닝에 대한 보고서 자료입니다.

목차

요 약 문

제 1장 서론

제 2장 데이터 마이닝

(1) 데이터분석의 목적과 계획

(2) 사용자료 및 분석방법

3. 본론

(1) 변수선택 및 분석순서

(2) 의사결정나무, 신경망, 로지스틱 회귀 분석 및 SVM 분석

(3) 모델 비교를 통한 최적 모델 선정



4. 결론

본문내용

것을 볼 수 있다. 다음으로는 스코어 순위 노드를 보았다.
그림(2-3)
그림 (2-3)에서 보듯이 반응검출률이 누적반응률 80%지점까지 거의 10%대를 웃도는 것을 볼수 있다. 다음은 의사결정나무의 직접적인 결과를 통해 분석해 보았다.
그림 (2-4)
그림 (2-4)를 통해 0,1,2,3,4,5,6,10,22,23 시를 포함한 데이터는 97%가까운 데이터가 추가수수료를 지불하지 않아도 되는 것을 알 수 있었다. 이는 새벽시간대 자전거 대여 사용자가 거의 없음에 따른 결과라고 볼 수 있다.
그림 (2-5)
그림 (2-5) 에서는 계절에 의해 뿌리를 나누었는데 의외로 봄에 이용자가 줄어드는 모습을 보여준다. 이는 초봄에 영하의 날씨 때문에 야외활동이 힘들어 짐에 따른 것으로 보인다. 여름, 가을, 겨울 데이터는 다시 한 번 시간대를 바탕으로 구분된다.
그림 (2-6)
마지막으로 날씨에 따라 나뉜 그룹에 약 800개가 넘는 추가수수료 부여가 가능한 변수들이 포함 되어있다. 맑은 날씨에 더 많은 대여가 이루어짐을 알 수 있다.
로지스틱 회귀(Regression)
다음 분석으로는 로지스틱 회귀를 통한 예측을 했다. 모델 선택기준은 따로 없이 기존의 변수들을 모두 사용하였다. 회귀분석 결과는 다음과 같다.
그림 (2-7)
의사결정나무 보다는 더 빠르게 감소하는 누적 향상도를 확인 할 수 있으며 최초 반응검출률은 더 큰 모습을 보여주었다. 다음으로 적합통계량 노드는 다음과 같다.
그림 (2-8)
그림 (2-8)과 같이 대부분의 변수들이 기각하여 유의한 변수로써 통계적 근거가 있지만 Workingday는 기각하지 못하여 적합하지 못하다는 결과를 보여줬다. 추정값 또한 거의 다 기각을 하지 못하여 회귀식이 추정에 적합하지 않을 것 같다는 의심을 했다.
신경망 분석(Neural Network)
다음 실행한 분석은 신경망 분석이다. 신경망은 기본 값 그대로 실행하였다.
그림 (2-10)
누적 향상도를 확인한 결과 다른 결과들 보다 높은 향상도를 보여주고 있었고 깊이가 40이 넘어가는 순간부터 급격히 떨어지는 모습을 보여 다른 모델들 보다 효율이 좋은 것을 파악할 수 있었다.
그림 (2-9)
다음과 같이 첫 번째 반복에서 최저 평균제곱오차가 생김을 알 수 있다. 다음으로 적합통계량을 살펴보면
그림 (2-10)
약 97개의 Estimate 값이 산출되는 결과를 보여주었다. 다음 추가분석으로는 SVM 분석을 실행하였다.
SVM(Support Vector Machine)
추가분석으로는 SVM 모델을 사용하였는데 결정트리, 신경망 등의 분류 알고리즘보다 일반화 능력이 좋으며 성능(분류율)이 좋은 것으로 평가되고 있다. 기본설정으로 분석을 한 결과는 다음과 같다.
그림 (2-11)
다음과 같은 누적 향상도를 보여주며 신경망에 비해서는 효율이 떨어지는 모습을 확인 할 수 있었다. 다음은 모델비교를 통한 최적모델은 선정하였다.
모델 비교
다음은 앞서 한 모델들을 비교하여 최적의 모델을 선정, 그 모델을 통한 데이터 분석을 하기위한 과정이다. 처음으로는 모델간의 누적향상도를 비교해 보았다.
그림 (3-1)
다음과 같은 누적향상도 그래프를 통해 신경망이 가장 좋은 누적향상도를 보여주며 좋은 효율성을 가지는 것을 알 수 있다. 다음은 ROC 그래프를 비교해 보았다.
그림 (3-2)
ROC 그래프는 왼쪽으로 치우쳐 질수록 높은 효율을 보여주므로 여기서도 신경망 분석이 가장 좋은 모델임을 알 수 있다. 마지막으로는 적합통계량의 오분류 비율과 평균제곱오차를 보았다.
그림 (3-3)
최종적으로 적합통계량의 오분류 비율이 가장 낮고 평균제곱오차도 가장 작으며 다른 조건들에서도 신경망 분석이 적합 모델로 선정되었다. 다음은 대여수가 가장 많은 시간을 뽑아서 다시 분석해 본 결과이다.
그림 (3-4)
그림 (3-4)는 8시 시간의 신경망 근사 의사결정나무이다. 다른 변수들보다는 Workingday의 영향을 많이 받는 것으로 보여진다. 아무래도 출근시간이다 보니 대부분이 출근시간 이용자이다 보니 많은 차이가 있는 것으로 보인다. 다음으로는 17시 시간을 분석해 보았다.
그림 (3-5)
오후 5시 같은 경우는 workingday 보다는 체감온도와 계절에 영향을 많이 받는 것으로 나타났다. 이에 따라 앞의 전체분석을 통해 얻은 분석결과에서 대여수가 특히 많은 아침 8시와 오후 5시에는 일하는 날과 계절에 따른 새로운 추가수수료 방침이 필요해 보인다.
선택된 신경망 모델을 통해 선정된 반응검출률을 볼 때 약 70% 지점까지 향상도가 2이상으로 임의로 표본을 뽑았을 때 보다 추가 수수료를 지불해야하는 조건이 2배 이상 많이 선정이 됐다.
이에 따라 신경망 모델을 통해 선택된 상위 집단에 피크타임제를 도입하여 가격에 추가 수수료를 적용 함으로써 높은 효율을 보여줄 것이다.
자전거를 평균대여 수에 맞추어 공급을 하고 평균을 넘어가는 조건에서 추가 수수료를 받음으로써 무리한 자전거 공급을 막고 유지비 절감을 할 수 있다. 반대로 자전거 평균 대여수를 대부분 못 미치는 집단에는 할인을 적용하여 수요를 늘리는
이벤트를 진행 할 수 있다. 주의 할 점으로는 아침 8시와 오후 5시와 같은 특별한 시간대에는 일하는 날이나 계절, 체감온도에 따라 추가수수료를 적용해야 한다는 결과가 나왔다.
본 논문의 한계점으로는 시간의 영향이 워낙 크다보니 전체분석에서 세밀한 분석이 이루어지지 않을 수 있다는 것 이었다. 영향력을 살리기 위해서 0~23시 각각의 분석결과를 토대로 시간대별 적용방법을 연구해 보는 것이 좋은 모형선별에 도움이 될 것이다.
본 논문의 분석과정을 통해 데이터 마이닝의 다양한 기법을 익힐 수 있었고 데이터 분석과 목표를 정하는 방법에 있어 조금은 익숙해 질수 있었다. 다음은 데이터를 찾으면 방향과 분석기법을 더 활용할 수 있는 방법을 찾아서 더 좋은 판단을 내릴 수 있을 꺼라 생각된다.
참고문헌
[1] 강현철,한상태,최종후,이성건,김은석,엄익현(2014) 빅데이터 분석을 위한 데이터 마이닝 방법론, 서울:자유아카데미
[2] 정상화(2009), 교차판매를 위한 데이터마이닝 프로세스 사례를 , 석사학위논문 ,고려대학교 대학원.
  • 가격1,000
  • 페이지수16페이지
  • 등록일2019.02.26
  • 저작시기2011.3
  • 파일형식한글(hwp)
  • 자료번호#1082659
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니