목차
1. 「행정계량분석」 강의 전체를 통해 해결하기로 설정한 연구문제(제1장)
2. 무작위 표본추출의 방법 다섯 가지(제3장)
1) 추첨에 의한 표본추출
2) 난수표를 이용한 표본추출
3) 체계적 표본추출
4) 층화표본추출
5) 집락표본추출
3. 산술평균, 분산, 표준편차의 개념 및 의의, 특징 및 장단점, 산출방법(제4장 및 5장)
1) 산술평균
①개념 ②의의 ③특징 및 장단점 ④산출방법
2) 분산, 표준편차
①개념 ②의의 ③특징 및 장단점 ④산출방법
4. 참고문헌
2. 무작위 표본추출의 방법 다섯 가지(제3장)
1) 추첨에 의한 표본추출
2) 난수표를 이용한 표본추출
3) 체계적 표본추출
4) 층화표본추출
5) 집락표본추출
3. 산술평균, 분산, 표준편차의 개념 및 의의, 특징 및 장단점, 산출방법(제4장 및 5장)
1) 산술평균
①개념 ②의의 ③특징 및 장단점 ④산출방법
2) 분산, 표준편차
①개념 ②의의 ③특징 및 장단점 ④산출방법
4. 참고문헌
본문내용
방법
도수분포표 등으로 정리되지 않은 자료의 경우에는 각 관측치를 차례로 모두 합하여 그 자료의 총수로 나누면 산술평균을 구할 수 있다. 산술평균은 로 표시한다. 여기서 산술평균()은 표본의 평균을 뜻하고, 모집단의 평균은 로 표시한다.
첫 번째 관측치를 , 두 번째 관측치를 , 세 번째 관측치를 , , n번째 관측치를 이라 할 때, 산술평균 는 이 관측치들을 모두 합하여 관측된 자료의 수 n으로 나눈 값이다.
대부분의 자료는 모집단의 일부인 표본을 대상으로 관측된 것이고, 이것을 이용하여 모집단의 특성(평균 등)을 추정하게 된다. 모집단의 특성을 모수(parameter)라고 부른다. 평균과 분산이 대표적인 모수에 해당한다. 모집단의 산술평균은 다음과 같이 계산한다. 관측치의 총수는 표본에서는 n, 모집단에서는 N으로 표기한다.
2) 분산, 표준편차
①개념
분산도를 나타내는 수치 중 가장 많이 사용되는 것이 분산과 표준편차이다. 분산(variance)은 편차를 제곱하여 모두 합한 것을 관찰된 자료수로 나눈 것이다. 그리고 표준편차(standard deviation)은 분산의 제곱근이다.
②의의
대푯 값을 통해 집중화 경향, 즉 어떤 수치를 중심으로 그 관찰대상이 어느 정도 흩어져 있는가라는 하나의 측면을 짐작할 수 있다. 그러나 대푯값만으로는 분포의 특성을 충분히 분석하기는 쉽지 않다. 예를 들어 어떤 지역의 월평균 소득이 200만원이고 또 다른 지역의 월평균 소득도 200 만원이라고 할 때, 전자의 경우에는 그 분포가 평균을 중심으로 상당히 크게 퍼 져 있고, 후자는 그 분포가 평균에 많이 몰려 있다고 하면, 두 지역의 월소득 평균이 200만원으로 똑같다고 하여 두 지역의 소득 분포도 동일하다고 할 수는 없을 것이다. 따라서 관찰대상의 분포 특성을 충분히 이해하기 위해서는 집중화 경향에 더하여 관측된 자료가 얼마나 흩어져 있는가라는 정보도 파악해야 한다. 이 흩어짐(dispersion)의 정도를 재는 수치가 분산도이고, 범위, 사분편차, 분산, 표준편차, 변이계수 등이 분산도를 보여주는 대표적인 개념이다.
③특징 및 장단점
좀 더 보편적이고 정확하게 분포의 흩어짐의 정도를 재기 위해서는, 가장 대표적인 중심값인 산술평균으로부터 각각의 관측치가 얼마나 떨어져 있는가를 알려주는 편차(deviation)의 평균을 구하는 것이 논리적이다. 단, 각 편차를 모두 더하면 항상 0이 되므로, 단순히 편차를 더해서는 의미가 없어진다. 그러나 편차를 제곱하여 합하면, 편차가 커질수록 그 부호에 관계없이 편차 제곱의 합도 커진다. 결국 관측치들이 평균치로부터 멀리 떨어져 있을수록 편차 제곱의 합도 커지고, 따라서 분산도 커지고 표준편차도 커지게 된다. 따라서 편차제곱의 평균값인 분산과 그 제곱근인 표준편차를 이용하면, 관측값들의 분포 특성을 파악할 수 있게 된다.
그러나 관측값의 단위가 서로 다른 두 집단의 분포를 비교하는 경우에는 단위의 차이로 인해 두 집단의 분산을 그대로 비교하기는 어렵다. 예를 들면, 전국의 자장면 값을 조사한 데이터와 전국의 집값을 조사한 데이터의 분산을 그대로 비교하기는 어렵다. 자장면 값은 1만원이지만 집값을 수억 대에 이르기 때문이다. 자장면 분산이 1만원, 집값 분산이 1천만원이라고 하여 집값의 분포가 자장면보다 1천배 더 광범위하다고 할 수는 없는 것이다. 이러한 분산의 단점을 보완한 분산도가 변이계수이다. 변이계수(coefficient of variatiopn, C.V.)는 표준편차가 평균치에 비해서 얼마나 큰지를 알려주는 척도로 표본평균에 대한 표본표준편차의 비로 계산된다.
④산출방법
산술평균을 모집단의 평균()과 표본의 평균()으로 구별하였듯이, 분산과 표준편차도 모집단의 그것과 표본의 그것을 구분한다. 모집단의 관측치 N 개가 있다면, 모집단의 분산 은 다음과 같이 계산한다. 즉, 모집단의 분산은 편차의 제곱을 모두 합하여 관측치의 수로 나눈 것이다.
모집단의 표준편차는 모집단 분산의 제곱근이므로 다음과 같이 계산한다.
모집단의 모든 단위를 측정하는 경우는 드물기 때문에, 대부분의 경우 표본의 분산과 표준편차를 계산하여 이용한다. 표본의 분산과 표준편차도 모집단의 경우와 비슷한 방법으로 계산된다. 다만 모집단의 평균()을 모르기 때문에 표본의 평균()을 사용하고, 분모에는 표본의 단위수(n)에서 1을 뺀 값(자유도)을 사용하여 표본의 분산은 다음과 같이 계산한다.
표본의 분산과 표준편차를 구하는 식에서 n 대신에 자유도 (n-1)로 나누는 이유는 모집단에서는 모집단의 평균인 를 모르지만 표본에서는 그 산술평균인 를 미리 알 수 있기 때문이다. 즉, 미리 알 수 있는 정보의 수만큼의 자료를 사전에 알지 못하여도 분산과 표준편차를 구할 수 있기 때문인데, 이처럼 분산과 표준편차를 구하는 식에서n 대신에 n-1로 나누는 것이 타당하고, 이를 특별히 자유도(degree of freedom)라고 한다. 교재에는 “N 대신에 n-1로 .....”라고 표기되어 있는 N은 n의 오타로 판단된다. N은 모집단의 총수이고 n은 표본의 총수이기 때문이다.
사실 자유도 개념은 이해하기 쉽지 않은 개념이다. 자유도로 편차의 제곱합을 나누면 그렇지 않은 경우(n)보다 모집단의 분산에 더 가까운 값이 된다. 표본분산을 구하는 이유의 핵심은 표본분산으로 모집단의 분산을 추론하기 위함이므로, 모집단에 보다 가까운 표본분산을 구할 수 있도록 n-1로 나눈다고 생각하면 된다. 아울러 편차의 합=0 이기 때문에, n개의 데이터 중에서 n-1개의 값이 정해지면, 편차의 합이 0이라는 사실로부터 나머지 1개의 데이터 값은 저절로 결정된다. 따라서 n개의 데이터에서 마음대로 변할 수 있는 데이터는 n-1개가 되므로 자유도는 n-1이 된다고 이해할 수도 있다.
4. 참고문헌
문병기(2023), 행정계량분석, 한국방송통신대학교출판문화원.
문병기(2023). 「행정계량분석 워크북」, 개정판: 한국방송통신대학교출판문화원
배규한, 이기채(2017). 통계조사방법론. 한국방송통신대학교출판문화원.
박서영, 이기재, 이긍희, 장영재(2022). 통계학개론. 한국방송통신대학교출판문화원.
도수분포표 등으로 정리되지 않은 자료의 경우에는 각 관측치를 차례로 모두 합하여 그 자료의 총수로 나누면 산술평균을 구할 수 있다. 산술평균은 로 표시한다. 여기서 산술평균()은 표본의 평균을 뜻하고, 모집단의 평균은 로 표시한다.
첫 번째 관측치를 , 두 번째 관측치를 , 세 번째 관측치를 , , n번째 관측치를 이라 할 때, 산술평균 는 이 관측치들을 모두 합하여 관측된 자료의 수 n으로 나눈 값이다.
대부분의 자료는 모집단의 일부인 표본을 대상으로 관측된 것이고, 이것을 이용하여 모집단의 특성(평균 등)을 추정하게 된다. 모집단의 특성을 모수(parameter)라고 부른다. 평균과 분산이 대표적인 모수에 해당한다. 모집단의 산술평균은 다음과 같이 계산한다. 관측치의 총수는 표본에서는 n, 모집단에서는 N으로 표기한다.
2) 분산, 표준편차
①개념
분산도를 나타내는 수치 중 가장 많이 사용되는 것이 분산과 표준편차이다. 분산(variance)은 편차를 제곱하여 모두 합한 것을 관찰된 자료수로 나눈 것이다. 그리고 표준편차(standard deviation)은 분산의 제곱근이다.
②의의
대푯 값을 통해 집중화 경향, 즉 어떤 수치를 중심으로 그 관찰대상이 어느 정도 흩어져 있는가라는 하나의 측면을 짐작할 수 있다. 그러나 대푯값만으로는 분포의 특성을 충분히 분석하기는 쉽지 않다. 예를 들어 어떤 지역의 월평균 소득이 200만원이고 또 다른 지역의 월평균 소득도 200 만원이라고 할 때, 전자의 경우에는 그 분포가 평균을 중심으로 상당히 크게 퍼 져 있고, 후자는 그 분포가 평균에 많이 몰려 있다고 하면, 두 지역의 월소득 평균이 200만원으로 똑같다고 하여 두 지역의 소득 분포도 동일하다고 할 수는 없을 것이다. 따라서 관찰대상의 분포 특성을 충분히 이해하기 위해서는 집중화 경향에 더하여 관측된 자료가 얼마나 흩어져 있는가라는 정보도 파악해야 한다. 이 흩어짐(dispersion)의 정도를 재는 수치가 분산도이고, 범위, 사분편차, 분산, 표준편차, 변이계수 등이 분산도를 보여주는 대표적인 개념이다.
③특징 및 장단점
좀 더 보편적이고 정확하게 분포의 흩어짐의 정도를 재기 위해서는, 가장 대표적인 중심값인 산술평균으로부터 각각의 관측치가 얼마나 떨어져 있는가를 알려주는 편차(deviation)의 평균을 구하는 것이 논리적이다. 단, 각 편차를 모두 더하면 항상 0이 되므로, 단순히 편차를 더해서는 의미가 없어진다. 그러나 편차를 제곱하여 합하면, 편차가 커질수록 그 부호에 관계없이 편차 제곱의 합도 커진다. 결국 관측치들이 평균치로부터 멀리 떨어져 있을수록 편차 제곱의 합도 커지고, 따라서 분산도 커지고 표준편차도 커지게 된다. 따라서 편차제곱의 평균값인 분산과 그 제곱근인 표준편차를 이용하면, 관측값들의 분포 특성을 파악할 수 있게 된다.
그러나 관측값의 단위가 서로 다른 두 집단의 분포를 비교하는 경우에는 단위의 차이로 인해 두 집단의 분산을 그대로 비교하기는 어렵다. 예를 들면, 전국의 자장면 값을 조사한 데이터와 전국의 집값을 조사한 데이터의 분산을 그대로 비교하기는 어렵다. 자장면 값은 1만원이지만 집값을 수억 대에 이르기 때문이다. 자장면 분산이 1만원, 집값 분산이 1천만원이라고 하여 집값의 분포가 자장면보다 1천배 더 광범위하다고 할 수는 없는 것이다. 이러한 분산의 단점을 보완한 분산도가 변이계수이다. 변이계수(coefficient of variatiopn, C.V.)는 표준편차가 평균치에 비해서 얼마나 큰지를 알려주는 척도로 표본평균에 대한 표본표준편차의 비로 계산된다.
④산출방법
산술평균을 모집단의 평균()과 표본의 평균()으로 구별하였듯이, 분산과 표준편차도 모집단의 그것과 표본의 그것을 구분한다. 모집단의 관측치 N 개가 있다면, 모집단의 분산 은 다음과 같이 계산한다. 즉, 모집단의 분산은 편차의 제곱을 모두 합하여 관측치의 수로 나눈 것이다.
모집단의 표준편차는 모집단 분산의 제곱근이므로 다음과 같이 계산한다.
모집단의 모든 단위를 측정하는 경우는 드물기 때문에, 대부분의 경우 표본의 분산과 표준편차를 계산하여 이용한다. 표본의 분산과 표준편차도 모집단의 경우와 비슷한 방법으로 계산된다. 다만 모집단의 평균()을 모르기 때문에 표본의 평균()을 사용하고, 분모에는 표본의 단위수(n)에서 1을 뺀 값(자유도)을 사용하여 표본의 분산은 다음과 같이 계산한다.
표본의 분산과 표준편차를 구하는 식에서 n 대신에 자유도 (n-1)로 나누는 이유는 모집단에서는 모집단의 평균인 를 모르지만 표본에서는 그 산술평균인 를 미리 알 수 있기 때문이다. 즉, 미리 알 수 있는 정보의 수만큼의 자료를 사전에 알지 못하여도 분산과 표준편차를 구할 수 있기 때문인데, 이처럼 분산과 표준편차를 구하는 식에서n 대신에 n-1로 나누는 것이 타당하고, 이를 특별히 자유도(degree of freedom)라고 한다. 교재에는 “N 대신에 n-1로 .....”라고 표기되어 있는 N은 n의 오타로 판단된다. N은 모집단의 총수이고 n은 표본의 총수이기 때문이다.
사실 자유도 개념은 이해하기 쉽지 않은 개념이다. 자유도로 편차의 제곱합을 나누면 그렇지 않은 경우(n)보다 모집단의 분산에 더 가까운 값이 된다. 표본분산을 구하는 이유의 핵심은 표본분산으로 모집단의 분산을 추론하기 위함이므로, 모집단에 보다 가까운 표본분산을 구할 수 있도록 n-1로 나눈다고 생각하면 된다. 아울러 편차의 합=0 이기 때문에, n개의 데이터 중에서 n-1개의 값이 정해지면, 편차의 합이 0이라는 사실로부터 나머지 1개의 데이터 값은 저절로 결정된다. 따라서 n개의 데이터에서 마음대로 변할 수 있는 데이터는 n-1개가 되므로 자유도는 n-1이 된다고 이해할 수도 있다.
4. 참고문헌
문병기(2023), 행정계량분석, 한국방송통신대학교출판문화원.
문병기(2023). 「행정계량분석 워크북」, 개정판: 한국방송통신대학교출판문화원
배규한, 이기채(2017). 통계조사방법론. 한국방송통신대학교출판문화원.
박서영, 이기재, 이긍희, 장영재(2022). 통계학개론. 한국방송통신대학교출판문화원.
소개글