목차
기술통계 용어와 개념
기술통계량 : MEANS 와 UNIVARIATE
- MEANS 절차
- UNIVARIATE 절차
기술통계량 : MEANS 와 UNIVARIATE
- MEANS 절차
- UNIVARIATE 절차
본문내용
LDEF의 지정
UNIVARIATE절차에서는 모두 다섯 가지의 분위수정의를 지원한다.
분위수 정의는 PROC UNIVARIATE문장에서 PCTLDEF로 지정한다.
분위수 정의 1 : y 는 xnp
에서의 가중평균으로 정의
분위수 정의 2 : y 는 np 에 가장 가까운 관측
분위수 정의 3 : y 는 경험적 분포함수에서 결정
분위수 정의 4 : y x(n+1)p
에서의 가중평균으로 정의
분위수 정의 5 : y 는 경험적 분포함수로 결정되나, g 가 0 일때는 인접한 두 데이터 값의
평균을 사용한다. 디폴트 공식이다.
-- 출력된 것의 제목에 인쇄된 'Quantiles(Def=5)'는 분위수를 계산할 때 분위수 정의 제5번을
사용했다는 뜻이다.
(3) PLOT의 지정
PLOT가 지정되면, 줄기와 잎 그림, 상자 그림, 정규확률도가 출력된다.
줄기와 잎 그림 : 도수, 데이터 값 집중도, 분포의 모양 그리고 실제 데이터 값 등 전반적
인 자료의 변화 추이를 쉽게 알 수 있게 한다.
상자그림 : 아래 사분위값과 위 사분위값, 사분위 범위, 가장 큰 값과 가장 작은값 그리고
자료 분포의 대칭성, 또는 비대칭성을 쉽게 알 수 있다.
(4) FREQ 의 지정
FREQ는 자료에 대한 도수표를 출력시키고자 할 때 지정, 연속자료일 때는 지정하지 않는다.
(5) Schematic plot
Schematic plot은 비슷한 속성을 갖는 여러 자료를 동시에 비교하고자 할 때 사용되는 기법으로 자료마다 상자 그림을 동일 축적하에 나란히 그려 분포 형태등을 한 눈에 볼 수 있도록 하고 있다.
PROC UNIVARIATE 문장에 PLOT을 지정하고 BY문장을 사용하면 출력된다.
(6) PROC UNIVARIATE 문장
PROC UNIVARIATE DATA=sasdataset options ;
DATA = SASdataset
UNIVARIATE 절차로 처리할 SAS 자료의 이름이다. 생략되면 자동적으로 가장 최근에 생
성된 SAS자료를 처리한다.
NOPRINT
모든 출력이 정지된다. UNIVARIATE절차의 실행 목적이 계산된 통계량을 새로운 SAS자
료로 출력시키는 것일 때 지정한다.
PLOT
줄기와 잎 그림(또는, 수평막대그림), 상자그림, 정규 확률도가 출력된다.
FREQ
자료의 도수표가 출력된다.
NORMAL
자료의 정규성을 검정하는 통계량들이 출력된다.
PCTLDEF=[1|2|3|4|5]
분위수 정의 공식을 지정한다. 디폴트는 5 이다.
VARDEF=[DF|WEIGHT|N|EDF]
분산 계산에서 분모항을 지정한다. 디폴트는 DF이다.
ROUND=roundoffunit
자료를 반올림하여 통계량을 계산하고자 할 때 지정. 자료 값들은 반올림 단위의 짝수배
에 가깝게 반올림된다.
EX) PROC UNIVARIATE RUOND=1 0.5 10;
VAR x1 x2 x3;
변수 x1의 반올림 단위는 1, 변수 x2의 반올림단위는 0.5, 변수 x3의 반올림 단위는
10이 된다. 반올림 단위가 하나만 지정되면 VAR문장에 나열된 모든 변수들에 유효.
UNIVARIATE절차에서는 모두 다섯 가지의 분위수정의를 지원한다.
분위수 정의는 PROC UNIVARIATE문장에서 PCTLDEF로 지정한다.
분위수 정의 1 : y 는 xnp
에서의 가중평균으로 정의
분위수 정의 2 : y 는 np 에 가장 가까운 관측
분위수 정의 3 : y 는 경험적 분포함수에서 결정
분위수 정의 4 : y x(n+1)p
에서의 가중평균으로 정의
분위수 정의 5 : y 는 경험적 분포함수로 결정되나, g 가 0 일때는 인접한 두 데이터 값의
평균을 사용한다. 디폴트 공식이다.
-- 출력된 것의 제목에 인쇄된 'Quantiles(Def=5)'는 분위수를 계산할 때 분위수 정의 제5번을
사용했다는 뜻이다.
(3) PLOT의 지정
PLOT가 지정되면, 줄기와 잎 그림, 상자 그림, 정규확률도가 출력된다.
줄기와 잎 그림 : 도수, 데이터 값 집중도, 분포의 모양 그리고 실제 데이터 값 등 전반적
인 자료의 변화 추이를 쉽게 알 수 있게 한다.
상자그림 : 아래 사분위값과 위 사분위값, 사분위 범위, 가장 큰 값과 가장 작은값 그리고
자료 분포의 대칭성, 또는 비대칭성을 쉽게 알 수 있다.
(4) FREQ 의 지정
FREQ는 자료에 대한 도수표를 출력시키고자 할 때 지정, 연속자료일 때는 지정하지 않는다.
(5) Schematic plot
Schematic plot은 비슷한 속성을 갖는 여러 자료를 동시에 비교하고자 할 때 사용되는 기법으로 자료마다 상자 그림을 동일 축적하에 나란히 그려 분포 형태등을 한 눈에 볼 수 있도록 하고 있다.
PROC UNIVARIATE 문장에 PLOT을 지정하고 BY문장을 사용하면 출력된다.
(6) PROC UNIVARIATE 문장
PROC UNIVARIATE DATA=sasdataset options ;
DATA = SASdataset
UNIVARIATE 절차로 처리할 SAS 자료의 이름이다. 생략되면 자동적으로 가장 최근에 생
성된 SAS자료를 처리한다.
NOPRINT
모든 출력이 정지된다. UNIVARIATE절차의 실행 목적이 계산된 통계량을 새로운 SAS자
료로 출력시키는 것일 때 지정한다.
PLOT
줄기와 잎 그림(또는, 수평막대그림), 상자그림, 정규 확률도가 출력된다.
FREQ
자료의 도수표가 출력된다.
NORMAL
자료의 정규성을 검정하는 통계량들이 출력된다.
PCTLDEF=[1|2|3|4|5]
분위수 정의 공식을 지정한다. 디폴트는 5 이다.
VARDEF=[DF|WEIGHT|N|EDF]
분산 계산에서 분모항을 지정한다. 디폴트는 DF이다.
ROUND=roundoffunit
자료를 반올림하여 통계량을 계산하고자 할 때 지정. 자료 값들은 반올림 단위의 짝수배
에 가깝게 반올림된다.
EX) PROC UNIVARIATE RUOND=1 0.5 10;
VAR x1 x2 x3;
변수 x1의 반올림 단위는 1, 변수 x2의 반올림단위는 0.5, 변수 x3의 반올림 단위는
10이 된다. 반올림 단위가 하나만 지정되면 VAR문장에 나열된 모든 변수들에 유효.