목차
문1(10점). 교재 연습문제 2장(p.87-88) 1번, 4번, 5번 (SAS 이용)
문2(10점). 교재 연습문제 3장(p.127-128) 1번 (SPSS 이용)
문3(5점). 교재 연습문제 5장(p.208) 2번 (SPSS 이용)
문4(5점). 교재 연습문제 5장(p.210) 6번 (SAS 이용)
문2(10점). 교재 연습문제 3장(p.127-128) 1번 (SPSS 이용)
문3(5점). 교재 연습문제 5장(p.208) 2번 (SPSS 이용)
문4(5점). 교재 연습문제 5장(p.210) 6번 (SAS 이용)
본문내용
데이버 보기에서 데이터를 입력한다.
분석/기술통계량/데이터 탐색(E) 메뉴에서 기술통계량, 줄기-잎 그림, 상자그림을 그린다. (교재 P185 참고)
외국기업의 기술통계량을 보면, 관측값 수 11, 최솟값 111, 최댓값 235, 평균 154.73, 표준편차 32.45, 범위 124, 사범위수 범위(=3사분위수-1사분위수) 24, 제2사분위수(중위수) 150으로 확인된다. 줄기-잎 그림을 보면, 100의 자릿수를 줄기로 하여 140-150점대의 빈도가 4로 가장 많다. 다만, 이 줄기-잎 그림에서는 10자리까지의 값만 출력되고 1자리 값은 나타내지 않고 있다. 예를 들어, 외국기업의 줄기-잎 그림의 “1.00 1 . 1”에서 1.00은 빈도수를 의미하고, 그 다음의 1은 100자리를 나타내며, 소수점 다음의 1은 10을 의미한다. 따라서 이는 110대의 관측값이 1개 존재한다는 것을 의미한다. 140-150점대를 중심으로 다소 대칭성을 보이고 있다. 끝으로 줄기-잎 그림에서 235 이상의 값으로 이상치로 의심되는 관측값이 1개 표시되어 있다. 이 이상치는 상자그림을 통해 명확하게 확인된다. 박스의 폭을 볼 때 국내기업보다는 사분위수 범위가 조금 작다. 이는 그만큼 상대적으로 조밀하게 데이터가 집중되어 있다는 의미다.
국내기업의 기술통계량을 보면, 관측값 수 13, 최솟값 102, 최댓값 173, 평균 144.62, 표준편차 22.15, 제2사분위수(중위수) 145, 범위 71, 사분위수 범위 36으로 확인된다. 평균은 외국기업보다 작다. 분산도 외국기업보다 작아 상대적으로 분포의 퍼짐 정도가 낮다고 분석된다. 줄기-잎 그림을 보면, 주가가 높아질수록 빈도수가 증가하는 형태를 보인다는 점에서, 다소 대칭성을 보이는 외국기업과는 다른 모습임을 알 수 있다. 상자그림을 보면, 외국기업과는 달리 이상치는 보이지 않는다.
문4(5점). 교재 연습문제 5장(p.210) 6번 (SAS 이용)
다음 자료는 어느 회사의 직원 100명의 나이를 나열한 것이다. 이 자료를 회사의 특수성에 따른 나이의 적합도를 알기 위한 자료로 이용하고자 한다.
(1) 평균과 표준편차를 구하라.
① 코드
DATA employee_age;
INPUT age @@;
DATALINES;
23 31 34 44 58 50 46 21 21 30
26 55 63 38 17 35 29 43 29 23
33 36 26 26 24 25 30 34 25 51
26 32 39 45 25 18 25 20 34 35
42 40 38 45 53 31 33 33 28 32
34 36 37 41 39 43 36 30 30 28
29 22 22 57 40 39 43 33 33 25
32 30 24 21 30 31 34 36 45 51
60 38 31 28 25 33 32 33 35 41
26 52 25 48 27 49 34 40 35 34
;
RUN;
PROC MEANS DATA=employee_age MEAN STD;
VAR age;
RUN;
② 결과
(2) 중앙값 및 사분위수를 구하라.
① 코드
PROC UNIVARIATE DATA=employee_age;
VAR age;
OUTPUT OUT=stats MEDIAN=median Q1=q1 Q3=q3;
RUN;
PROC PRINT DATA=stats;
RUN;
② 결과
(3) 히스토그램과 상자그림, 줄기-잎 그림을 그리고 분석하라.
# 히스토그램
proc sgplot data=employee_age;
histogram age;
title \"직원 나이 히스토그램\";
run;
히스토그램에서 가장 빈도가 높은 구간은 30대 초중반 구간이다. 히스토그램의 모양을 보면 왼쪽(젊은 연령대)에서 오른쪽(고령)으로 감소하는 형태를 보인다. 대체로 무게중심이 왼쪽에 치우쳐(right-skewed) 있는 모양이다. 전체적으로 연령 분포가 40대 초반 이하가 다수를 차지하는 구성이다.
# 상자그림
proc sgplot data=employee_age;
vbox age;
title \"직원 나이 상자그림\";
run;
상자그림을 분석해 보면 중앙값과 평균은 30대 초중반으로 보이는데, 평균이 약간 더 큰 값으로 확인된다. 2사분위수와 3사분위수의 폭이 1사분위수와 2사분위수의 폭보다 약간 더 넓게 형성된 것으로 보면, 1사분위수와 2사분위수에 데이터가 더 집중적으로 분포되어 있다고 판단할 수 있다. 전체적으로 데이터는 10대 중후반에서 60대초까지 넓게 분포되어 있는데, 이상치가 2개 확인된다.
참고로 proc boxplot을 사용하기 위해서는 먼저 그룹 변수를 설정해야 한다.
/* 그룹 변수 추가 */
data employee_age;
set employee_age;
group = \'All\'; /* BOXPLOT에 필요한 그룹 변수 생성 */
run;
/* PROC BOXPLOT을 사용한 상자그림 */
proc boxplot data=employee_age;
plot age*group;
title \"직원 나이 상자그림\";
run;
# 줄기-잎 그림
# 줄기-잎 그림은 텍스트 기반이므로 그래픽 모드를 off 하지 않으면 출력되지 않는다.
ods graphics off; /* 그래픽 모드 비활성화 */
proc univariate data=employee_age plot;
var age;
run;
위 줄기-잎 그림은 scale을 2(줄기를 16, 18, 20... )로 하여 그린 것이다. 위 그림을 보면 16에서 18 미만의 값은 1개 존재하고, 18에서 20미만의 값도 1개 존재한다. 최빈도 구간은 32에서 34 미만, 34에서 36 미만 구간에서 각각 11개의 관측값이 존재한다. 그리고 31개의 데이터가 30에서 34 구간에 집중 분포되어 있다. 전체 모양은 좌우대칭형은 아니고 무게중심은 30대에 있어 보여 분포가 다소 치우쳐 있다고 할 수 있다. 60대의 값이 중심에서 멀리 떨어져 있는 것으로 보아 이 값은 이상치일 가능성이 높다. 이는 상자그림을 통해 명확히 확인할 수 있다.
*참고문헌
김성수 외 2인 공저(2018). 통계패키지. 방송통신대학교출판문화원.
과제 스트레스 싹~ 학점 쑥!
분석/기술통계량/데이터 탐색(E) 메뉴에서 기술통계량, 줄기-잎 그림, 상자그림을 그린다. (교재 P185 참고)
외국기업의 기술통계량을 보면, 관측값 수 11, 최솟값 111, 최댓값 235, 평균 154.73, 표준편차 32.45, 범위 124, 사범위수 범위(=3사분위수-1사분위수) 24, 제2사분위수(중위수) 150으로 확인된다. 줄기-잎 그림을 보면, 100의 자릿수를 줄기로 하여 140-150점대의 빈도가 4로 가장 많다. 다만, 이 줄기-잎 그림에서는 10자리까지의 값만 출력되고 1자리 값은 나타내지 않고 있다. 예를 들어, 외국기업의 줄기-잎 그림의 “1.00 1 . 1”에서 1.00은 빈도수를 의미하고, 그 다음의 1은 100자리를 나타내며, 소수점 다음의 1은 10을 의미한다. 따라서 이는 110대의 관측값이 1개 존재한다는 것을 의미한다. 140-150점대를 중심으로 다소 대칭성을 보이고 있다. 끝으로 줄기-잎 그림에서 235 이상의 값으로 이상치로 의심되는 관측값이 1개 표시되어 있다. 이 이상치는 상자그림을 통해 명확하게 확인된다. 박스의 폭을 볼 때 국내기업보다는 사분위수 범위가 조금 작다. 이는 그만큼 상대적으로 조밀하게 데이터가 집중되어 있다는 의미다.
국내기업의 기술통계량을 보면, 관측값 수 13, 최솟값 102, 최댓값 173, 평균 144.62, 표준편차 22.15, 제2사분위수(중위수) 145, 범위 71, 사분위수 범위 36으로 확인된다. 평균은 외국기업보다 작다. 분산도 외국기업보다 작아 상대적으로 분포의 퍼짐 정도가 낮다고 분석된다. 줄기-잎 그림을 보면, 주가가 높아질수록 빈도수가 증가하는 형태를 보인다는 점에서, 다소 대칭성을 보이는 외국기업과는 다른 모습임을 알 수 있다. 상자그림을 보면, 외국기업과는 달리 이상치는 보이지 않는다.
문4(5점). 교재 연습문제 5장(p.210) 6번 (SAS 이용)
다음 자료는 어느 회사의 직원 100명의 나이를 나열한 것이다. 이 자료를 회사의 특수성에 따른 나이의 적합도를 알기 위한 자료로 이용하고자 한다.
(1) 평균과 표준편차를 구하라.
① 코드
DATA employee_age;
INPUT age @@;
DATALINES;
23 31 34 44 58 50 46 21 21 30
26 55 63 38 17 35 29 43 29 23
33 36 26 26 24 25 30 34 25 51
26 32 39 45 25 18 25 20 34 35
42 40 38 45 53 31 33 33 28 32
34 36 37 41 39 43 36 30 30 28
29 22 22 57 40 39 43 33 33 25
32 30 24 21 30 31 34 36 45 51
60 38 31 28 25 33 32 33 35 41
26 52 25 48 27 49 34 40 35 34
;
RUN;
PROC MEANS DATA=employee_age MEAN STD;
VAR age;
RUN;
② 결과
(2) 중앙값 및 사분위수를 구하라.
① 코드
PROC UNIVARIATE DATA=employee_age;
VAR age;
OUTPUT OUT=stats MEDIAN=median Q1=q1 Q3=q3;
RUN;
PROC PRINT DATA=stats;
RUN;
② 결과
(3) 히스토그램과 상자그림, 줄기-잎 그림을 그리고 분석하라.
# 히스토그램
proc sgplot data=employee_age;
histogram age;
title \"직원 나이 히스토그램\";
run;
히스토그램에서 가장 빈도가 높은 구간은 30대 초중반 구간이다. 히스토그램의 모양을 보면 왼쪽(젊은 연령대)에서 오른쪽(고령)으로 감소하는 형태를 보인다. 대체로 무게중심이 왼쪽에 치우쳐(right-skewed) 있는 모양이다. 전체적으로 연령 분포가 40대 초반 이하가 다수를 차지하는 구성이다.
# 상자그림
proc sgplot data=employee_age;
vbox age;
title \"직원 나이 상자그림\";
run;
상자그림을 분석해 보면 중앙값과 평균은 30대 초중반으로 보이는데, 평균이 약간 더 큰 값으로 확인된다. 2사분위수와 3사분위수의 폭이 1사분위수와 2사분위수의 폭보다 약간 더 넓게 형성된 것으로 보면, 1사분위수와 2사분위수에 데이터가 더 집중적으로 분포되어 있다고 판단할 수 있다. 전체적으로 데이터는 10대 중후반에서 60대초까지 넓게 분포되어 있는데, 이상치가 2개 확인된다.
참고로 proc boxplot을 사용하기 위해서는 먼저 그룹 변수를 설정해야 한다.
/* 그룹 변수 추가 */
data employee_age;
set employee_age;
group = \'All\'; /* BOXPLOT에 필요한 그룹 변수 생성 */
run;
/* PROC BOXPLOT을 사용한 상자그림 */
proc boxplot data=employee_age;
plot age*group;
title \"직원 나이 상자그림\";
run;
# 줄기-잎 그림
# 줄기-잎 그림은 텍스트 기반이므로 그래픽 모드를 off 하지 않으면 출력되지 않는다.
ods graphics off; /* 그래픽 모드 비활성화 */
proc univariate data=employee_age plot;
var age;
run;
위 줄기-잎 그림은 scale을 2(줄기를 16, 18, 20... )로 하여 그린 것이다. 위 그림을 보면 16에서 18 미만의 값은 1개 존재하고, 18에서 20미만의 값도 1개 존재한다. 최빈도 구간은 32에서 34 미만, 34에서 36 미만 구간에서 각각 11개의 관측값이 존재한다. 그리고 31개의 데이터가 30에서 34 구간에 집중 분포되어 있다. 전체 모양은 좌우대칭형은 아니고 무게중심은 30대에 있어 보여 분포가 다소 치우쳐 있다고 할 수 있다. 60대의 값이 중심에서 멀리 떨어져 있는 것으로 보아 이 값은 이상치일 가능성이 높다. 이는 상자그림을 통해 명확히 확인할 수 있다.
*참고문헌
김성수 외 2인 공저(2018). 통계패키지. 방송통신대학교출판문화원.
과제 스트레스 싹~ 학점 쑥!
소개글