weka를 통한 데이터마이닝분석(로지스틱회귀분석,의사결정나무,베이지안)

본 자료는 5페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 5페이지 까지만 미리보기를 제공합니다.
5페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

weka를 통한 데이터마이닝분석(로지스틱회귀분석,의사결정나무,베이지안)에 대한 보고서 자료입니다.

1. 자료를 분석하기 위해 전처리 하시오.

2.전처리한 자료를 이용하여 logistic regression, cart, bayesian을 실행하시오.

3. logistic regression

4.cart

5.Bayesian
(1)사전확률과 사후확률에 대해 설명한 후, 분석결과에서 tp rate와 fp rate에 대해 설명하여라.
(2)naive bayesian을 통한 자료의 설명력을 논하시오.

6.logistic regression 과 cart, bayesian 각각의 분석결과와 분석방법을 비교하시오.

본문내용

있다.
2.전처리한 자료를 이용하여 logistic regression, cart, bayesian을 실행하시오.
* logistic regression
(1) 전처리한 arff자료를 weka로 실행한다.
(2) classify의 functions 폴더에서 logistic을 실행한다.
(3)전체 자료 중 60%만 추출하여 trainning하기위하여 percentage split을 60으로 설정하여 start를 누르면 결과치가 나온다.
전체 768개 자료와 9개의 변수하에서 60%의 자료만을 추출하여 trainning하고 나머지는 test를 했다는 결과를 볼 수 있다.
(4)회귀계수들은 아래와 같다. 회귀계수를 토대로 회귀함수식을 도출할 수 있다.
(5) 정확하게 분류된 데이터가 239개이고 77.5974%의 정확한 분류와 나머지 22.4026%의 틀린 답이 나왔다.
(6) 이는 다시 아래의 a는 a라고 답한 179개와 b는 b라고 정답을 말한 60개의 합인 239개가 정확하게 나타 난 것이고, 24와 45는 틀린 답임을 알 수 있다.
*cart
(1)웨카를 실행하여 저장된 pima.arff 자료를 불러온다.
(2) classify에서 의사결정나무에서 두개로 나누어지는 j48을 실행한다.
뉴메릭자료일때는 실행이 안 되는 것을 볼 수 있다. 반드시 nominal 데이터만을 사용해야하기 때문에 명목자료인 cv자료를 실행한다.
전체 768개의 자료와 9개의 변수하에서 테스트모드는 50%는 실행하고 나머지는 테스트만 하였다.
(3)트리모형을 비쥬얼화하여 트리를 구성해 보면 다음과 같다.
PGC의 값이 127보다 작으면 BMI로 가고 BMI가 26.4보다 크면 AGE로 간다. 마찬가지로 AGE가 28보다 클 경우 PGC로 가고 28보다 작을 경우 0으로 같다.
같은 수행을 반복하면 원하는 값이 0인지 1인지 결과가 나올 것이다.
결과치를 보자면 약 74%의 정확한 답을 분류해낸 것을 확인 할 수 가 있다.
* bayesian
(1)전처리한 PIMA인디언의 당뇨병 데이터를 실행한다.
(2)연속형 자료를 실행할 경우 결과가 나오지 않는 것을 볼 수 있다.
반드시 nominal데이터를 사용하여야 한다.
(3)전체 768개의 데이터와 9개의 변수하에서 40의 folds를 수행하였다
값이 0일 경우의 사전확률이 35% 값이 1일 경우의 사전확률은 65%임을 알 수 있다.
(4)a를 a라고 답한 420개와 b를 b 라고 답한 64개를 합한 584개의 정확한 답을 도출해 냈으며, 76.0417% 정답률을 보였다.
3. logistic regression
-통계적으로 유의한 회귀식을 구하고 설명하시오.
y=a1x1+a2x2+a0 (a1,a2는 회귀계수, a0는 상수)
위의 회귀식은 x1과 x2의 값을 통해 y의 값을 추정할 수 있어야함을 의미한다
x1과 x2는 서로 독립적이어야 하고, x1과 x2의 성격이 연속형 변수여야 한다.
이때 y의 값은 true or false 의 두개의 값만을 갖는다.
실습한 pima 인디언의 당뇨병데이터로 회귀분석한 결과를 회귀식으로 나타난다면 다음과 같다.
Y=(-0.1232)*NTP+(-0.0352)*PGC+0.0133*DBP+(-0.0006)*TSF+0.0012*HIS+(-0.0879)*BMI+(-0.9452)*DPF+(-0.0149)*AGE
이때의 Y값이 0인지 1인지의 결과가 나오고,
그 결과가 의미가 있는 값인지는 WALD TEST를 통하여 확인할 수 있다.
4.cart
-적합한 모형을 찾아낸 후 규칙을 설명하시오
binary 하게 쪼개며 트리구조를 이룬다. 구분기준이 중요하다.
트리모형을 비쥬얼화하여 트리를 구성해 보면 다음과 같다.
PGC의 값이 127보다 작으면 BMI로 가고 BMI가 26.4보다 크면 AGE로 간다. 마찬가지로 AGE가 28보다 클 경우 PGC로 가고 28보다 작을 경우 0으로 같다.
같은 수행을 반복하면 원하는 값이 0인지 1인지 결과가 나올 것이다.
5.Bayesian
(1)사전확률과 사후확률에 대해 설명한 후, 분석결과에서 tp rate와 fp rate에 대해 설명하여라.
사전확률 - 특정정보가 주어지지 않았을때 사건이 일어날 확률
사후확률 - 특정정보가 주어진 후에 사건이 일어날 확률
위의 분석결과에서 정답을 말한 tp rate과 오답이 나온 fp rate를 구하면 다음과 같다.
tp rate= 실제값이 0혹은 1일 경우 정답을 말한 부분
즉, 예측자료인 420과 80중에 정답a를 말한 420의 비율인 0.84과,
104와 164중 정답b를 말한 164의 비율인 0.612 가 tp rate로 도출되었고
fp rate= 실제값을 0혹은 1이라고 말한 값중에서 틀린부분.
즉, 예측자료인 420과 80중에 오답b를 말한 80의 비율인 0.388과,
104와 164중 오답a를 말안 104의 비율인 0.16이 fp rate로 도출되었다.
(2)naive bayesian을 통한 자료의 설명력을 논하시오.
naive bayesian은 정규분포임을 가정한다. 전부 nominal 테이터이고, numeric 데이터를 nominal데이터로 바꿔도 상관없지만 정보손실을 감수해야 한다.
독립적인 가정에 위배될지라도 naive bayesian이 설명력이 좋다. 확실한 값을 갖지 않아도 둘 중 어떤 것이 큰지만 알아도 되기 때문이다.(이때 무시되는 값이더라도 최대값은 알아야 한다.) 그러나 쓸데없는 변수들이 너무 많이 들어가면 문제가 생기고 정규분포가 아닐지도 모른다는 인식을 갖아야 한다.
6.logistic regression 과 cart, bayesian 각각의 분석결과와 분석방법을 비교하시오.
logistic regression은 결과치가 함수형태로 나타나지만 cart는 decision tree형태로 나타나기 때문에 분석결과를 좀더 쉽게 알아 볼 수 가 있다. 한편, bayesian은 데이터를 분석을 할때 관측된 데이터만 가지고 분석을 하는 것이 아니고 과거에 이미 알려진 사실 또는 분석자의 주관적인 생각까지 넣어서 분석을 하기 때문에 일반적인 분석보다는 많이 복잡하고.. 따라서 그만큼 정확한 결론을 얻을 수 있다.

키워드

비지니스데이터마이닝, 데이터마이닝, 이건창, cart, bayesian, 웨카, weka, 의사결정나무

소개글

목차

본문내용

키워드

추천자료