목차
Ⅰ. 서론
Ⅱ. 본론
1. 연관성
1) 연관성의 측도
2) 연관성의 방향
2. 공분산
1). 공분산(covariance)의 개요
2). 공분산의 특징
3). 변수의 독립과 공분산
4). 공분산 분석
5). 공분산의 한계
3. 상관계수
1). 상과계수의 개요
2). 상관계수의 범위
3). 상관계수(r)와 결정계수(r2)사이의 관계
4). 상관계수(r)에 미치는 척도변경의 효과
5). 모상관계수의 추론
4. 공분산과 상관계수와의 관계
Ⅲ. 결론
⊙ 참고문헌
Ⅱ. 본론
1. 연관성
1) 연관성의 측도
2) 연관성의 방향
2. 공분산
1). 공분산(covariance)의 개요
2). 공분산의 특징
3). 변수의 독립과 공분산
4). 공분산 분석
5). 공분산의 한계
3. 상관계수
1). 상과계수의 개요
2). 상관계수의 범위
3). 상관계수(r)와 결정계수(r2)사이의 관계
4). 상관계수(r)에 미치는 척도변경의 효과
5). 모상관계수의 추론
4. 공분산과 상관계수와의 관계
Ⅲ. 결론
⊙ 참고문헌
본문내용
ormal distribution)의 형태를 취한다고 가정한다.
모집단이 비록 이변량정규분포를 따른다고 가정해도, 모상관계수의 확률분포를 직접 구해내기는 어렵다. 이러한 사실을 감안하면 표본상관계수가 갖는 확률분포를 규명하는 일은 더욱 어려운 작업이 될 것임은 명백한 사실이다.
모집단의 분포를 이변량정규분포로 가정한 표본상관계수의 표본분포(sampling
distribution)는 표본의 크기 n뿐만 아니라 모상관계수
rho
의 값에 따라서 매우 복잡한 분포형태를 이룬다. 표본의 크기가 상대적으로 클 경우에만 r의 분포가 모상관계수에 접근하고 표본이 적을 때는 표본상관계수의 분포는 매우 다양하게 나타난다. 그래서 r을 일정한 분포를 갖는 새로운 변수로 변환하고 일단 그것을 사용하여 일련의 추정을 실시한 다음, 그 결과로 다시 모상관계수에 대한 추정을 실시하는 방법을 고안하였다.
피셔(R. A. Fisher)는 적어도 표본의 크기가 10보다 크다는 가정 하에 표본상관계수 r의 값을 변형시켜 정규분포를 따르는 새로운 변수를 제안하였다. 이를 피셔의 Zr 확률변수라 하고 다음과 같이 정의한다.
Z_r ~=~ 1 over 2 ln ( 1+r over 1-r )
(4.1)
위의 확률변수는 정규분포를 따르며, 평균과 분산은 다음과 같다.
&E(Z_r ) & = & 1 over 2 ln ( 1+rho over 1-rho ) #
&Var(Z_r ) & =& 1 over n-3
따라서
E(Z_r )
에 대한 100(1-
alpha
)%의 신뢰구간은 다음과 같다.
Z_r - z_alpha/2 cdot 1 over sqrt n-3
le ~E(Z_r ) ~le Z_r + z_alpha/2 cdot 1 over sqrt n-3
여기서 신뢰구간의 하한을 L로 상한을 U로 놓으면 다음과 같이
rho
의 신뢰구간을 구할 수 있다.
L~ le 1 over 2 ln ( 1+rho over 1-rho ) ~le ~U
,
{ e^2L - 1 } over { e^2L +1 } le ~rho ~le { e^2U -1} over
{ e^2U + 1}
.
3. 공분산과 상관계수와의 관계
기초통계학에서 두 변수간의 선형 연관성을 나타내는 도구인 공분산에 대해서 앞서 설명한 바와 같이 공분산은 다음과 같이 표현된다.
Cov(X,Y``) ~=~ E`(`X`- `mu_X `)( `Y`-`mu_Y `),
단,
mu_X =E`(X`),~mu_Y` = E`(Y`)
비록 공분산이 선형관계를 나타내준다 하여도, 그 크기가 변수의 단위나 범위에 영향을 받기 때문에 선형관계를 측정하는 적당한 통계량이라 할 수 없다. 이는 <그림 3>을 보면 명확해진다. 두 변수의 선형관계가 (1)에 비해 (2)가 더 밀접해 보이지만 공분산의 값은 (1)의 범위가 큰 이유로 해서 (1)이 더 크게 나올 것이다. 이를 해결하기 위해서 공분산을 각 변수의 표준편차로 나누어 표준화하여 준다.
y y
bar y
bar y
x x
bar x
bar x
(1) (2)
그림 3 범위가 다른 변수들의 비교
이와 같이 표준화된 공분산을 모상관계수(population correlation coefficient)라 하며, 다음과 같이 정의한다.
rho~=~ {Cov`(X,Y``)} over {sigma_X `sigma_Y}, ~단~sigma_X = sqrt{Var(X`)}
,~sigma_Y = sqrt{Var(Y`)}
그러나 현실적으로 두 모집단을 전부 고려하여 모상관계수를 산출할 수 있는 경우는 거의 드물다. 따라서 우리가 일반적으로 사용하게 되는 측도는 표본으로부터 산출된 표본상관계수(sample correlation coefficient)가 된다. 공분산과 편차의 추정량을 대입하여 얻은 표본상관계수(Pearson correlation coefficient)는 다음과 같다.
r~=~{smallsum( X_i - bar X `)(Y_i - bar Y `)} over sqrt {smallsum
(X_i - bar X` )^2 smallsum( Y_i - bar Y` )^2}
Ⅲ. 결론
통계적 방법은 매우 다양한 분야에서 광범위하게 이용되고 있다. 경영학이나 경제학 등의 사회과학에서 이용되고 있는 통계적 방법들과 자연과학에서 이용되는 방법들이 세부적인 기법 상에는 약간의 차이가 있을지라도 기본적인 접근방법은 동일하다. 즉, 어떤 분야에서는 특정한 통계적 방법들이 다른 분야에 비해 많이 이용되기도 하지만, 그 근본 목적이 불확실성 하에서의 의사결정에 필요한 정보의 수집과 분석이라는 점에서는 다를 수 없다.
위에서 살펴보았듯이 공분산은 두 변수의 관계를 나타내는 양으로서 하나의 평균의 개념이며 두 변수의 편차점수(deviation score)의 곱의 합을 사례수로 나눈 것이고 상관계수는 두 변수가 움직이는 방향간의 관계를 나타내는 지표로서 보통 -1에서 +1사이의 숫자로 표시되는데 +는 正의 상관관계를 -는 負의 상관관계를 나타내며 숫자가 1에 가까울수록 그 상관관계가 완전함을 의미한다는 것을 알 수 있었고 공분산과 상관계수 사이의 관계도 알아보았다.
공분산과 상관계수는 통계학에 있어서 매우 중요한 위치를 차지하고 있으며 이를 이헤하지 못하고서는 통계를 할 수가 없다.
공분산과 상관계수는 모든 제 분야의 현상에서 얻은 자료를 정리, 분석할 뿐만 아니라 그 분석을 토대로 현명하고 합리적인 의사결정을 하도록 하는 과학적 학문인 통계학의 이론을 습득하고, 그 응용에 관한 전문지식을 습득하는데 필요 불가결한 것이다.
⊙ 참고문헌
1. 통계용어사전, 한국통계학회, 자유아카데미. 1987
2. 현대통계학, 김우철 외, 영지문화사, 1999
3. 통계학, 류근관, 법문사, 2003
4. 현대 기초통계학의 이해와 적용(개정판), 성태제, 교육과학사 | 2001
5. 통계학 개론(3판), 박명섭 외 ,홍문사, 2000
6. 통계학의 기초, 송인섭, 학지사, 2001
7. 간추린 통계학, 유동선 외, 교우사, 2003
8. 경제경영통계학(제3판), 이종원, 박영사, 2003
9. 통계학개론, 김동욱 외, 박영사, 2003
10. 일반통계학, 고승곤 외, 교우사, 2003
모집단이 비록 이변량정규분포를 따른다고 가정해도, 모상관계수의 확률분포를 직접 구해내기는 어렵다. 이러한 사실을 감안하면 표본상관계수가 갖는 확률분포를 규명하는 일은 더욱 어려운 작업이 될 것임은 명백한 사실이다.
모집단의 분포를 이변량정규분포로 가정한 표본상관계수의 표본분포(sampling
distribution)는 표본의 크기 n뿐만 아니라 모상관계수
rho
의 값에 따라서 매우 복잡한 분포형태를 이룬다. 표본의 크기가 상대적으로 클 경우에만 r의 분포가 모상관계수에 접근하고 표본이 적을 때는 표본상관계수의 분포는 매우 다양하게 나타난다. 그래서 r을 일정한 분포를 갖는 새로운 변수로 변환하고 일단 그것을 사용하여 일련의 추정을 실시한 다음, 그 결과로 다시 모상관계수에 대한 추정을 실시하는 방법을 고안하였다.
피셔(R. A. Fisher)는 적어도 표본의 크기가 10보다 크다는 가정 하에 표본상관계수 r의 값을 변형시켜 정규분포를 따르는 새로운 변수를 제안하였다. 이를 피셔의 Zr 확률변수라 하고 다음과 같이 정의한다.
Z_r ~=~ 1 over 2 ln ( 1+r over 1-r )
(4.1)
위의 확률변수는 정규분포를 따르며, 평균과 분산은 다음과 같다.
&E(Z_r ) & = & 1 over 2 ln ( 1+rho over 1-rho ) #
&Var(Z_r ) & =& 1 over n-3
따라서
E(Z_r )
에 대한 100(1-
alpha
)%의 신뢰구간은 다음과 같다.
Z_r - z_alpha/2 cdot 1 over sqrt n-3
le ~E(Z_r ) ~le Z_r + z_alpha/2 cdot 1 over sqrt n-3
여기서 신뢰구간의 하한을 L로 상한을 U로 놓으면 다음과 같이
rho
의 신뢰구간을 구할 수 있다.
L~ le 1 over 2 ln ( 1+rho over 1-rho ) ~le ~U
,
{ e^2L - 1 } over { e^2L +1 } le ~rho ~le { e^2U -1} over
{ e^2U + 1}
.
3. 공분산과 상관계수와의 관계
기초통계학에서 두 변수간의 선형 연관성을 나타내는 도구인 공분산에 대해서 앞서 설명한 바와 같이 공분산은 다음과 같이 표현된다.
Cov(X,Y``) ~=~ E`(`X`- `mu_X `)( `Y`-`mu_Y `),
단,
mu_X =E`(X`),~mu_Y` = E`(Y`)
비록 공분산이 선형관계를 나타내준다 하여도, 그 크기가 변수의 단위나 범위에 영향을 받기 때문에 선형관계를 측정하는 적당한 통계량이라 할 수 없다. 이는 <그림 3>을 보면 명확해진다. 두 변수의 선형관계가 (1)에 비해 (2)가 더 밀접해 보이지만 공분산의 값은 (1)의 범위가 큰 이유로 해서 (1)이 더 크게 나올 것이다. 이를 해결하기 위해서 공분산을 각 변수의 표준편차로 나누어 표준화하여 준다.
y y
bar y
bar y
x x
bar x
bar x
(1) (2)
그림 3 범위가 다른 변수들의 비교
이와 같이 표준화된 공분산을 모상관계수(population correlation coefficient)라 하며, 다음과 같이 정의한다.
rho~=~ {Cov`(X,Y``)} over {sigma_X `sigma_Y}, ~단~sigma_X = sqrt{Var(X`)}
,~sigma_Y = sqrt{Var(Y`)}
그러나 현실적으로 두 모집단을 전부 고려하여 모상관계수를 산출할 수 있는 경우는 거의 드물다. 따라서 우리가 일반적으로 사용하게 되는 측도는 표본으로부터 산출된 표본상관계수(sample correlation coefficient)가 된다. 공분산과 편차의 추정량을 대입하여 얻은 표본상관계수(Pearson correlation coefficient)는 다음과 같다.
r~=~{smallsum( X_i - bar X `)(Y_i - bar Y `)} over sqrt {smallsum
(X_i - bar X` )^2 smallsum( Y_i - bar Y` )^2}
Ⅲ. 결론
통계적 방법은 매우 다양한 분야에서 광범위하게 이용되고 있다. 경영학이나 경제학 등의 사회과학에서 이용되고 있는 통계적 방법들과 자연과학에서 이용되는 방법들이 세부적인 기법 상에는 약간의 차이가 있을지라도 기본적인 접근방법은 동일하다. 즉, 어떤 분야에서는 특정한 통계적 방법들이 다른 분야에 비해 많이 이용되기도 하지만, 그 근본 목적이 불확실성 하에서의 의사결정에 필요한 정보의 수집과 분석이라는 점에서는 다를 수 없다.
위에서 살펴보았듯이 공분산은 두 변수의 관계를 나타내는 양으로서 하나의 평균의 개념이며 두 변수의 편차점수(deviation score)의 곱의 합을 사례수로 나눈 것이고 상관계수는 두 변수가 움직이는 방향간의 관계를 나타내는 지표로서 보통 -1에서 +1사이의 숫자로 표시되는데 +는 正의 상관관계를 -는 負의 상관관계를 나타내며 숫자가 1에 가까울수록 그 상관관계가 완전함을 의미한다는 것을 알 수 있었고 공분산과 상관계수 사이의 관계도 알아보았다.
공분산과 상관계수는 통계학에 있어서 매우 중요한 위치를 차지하고 있으며 이를 이헤하지 못하고서는 통계를 할 수가 없다.
공분산과 상관계수는 모든 제 분야의 현상에서 얻은 자료를 정리, 분석할 뿐만 아니라 그 분석을 토대로 현명하고 합리적인 의사결정을 하도록 하는 과학적 학문인 통계학의 이론을 습득하고, 그 응용에 관한 전문지식을 습득하는데 필요 불가결한 것이다.
⊙ 참고문헌
1. 통계용어사전, 한국통계학회, 자유아카데미. 1987
2. 현대통계학, 김우철 외, 영지문화사, 1999
3. 통계학, 류근관, 법문사, 2003
4. 현대 기초통계학의 이해와 적용(개정판), 성태제, 교육과학사 | 2001
5. 통계학 개론(3판), 박명섭 외 ,홍문사, 2000
6. 통계학의 기초, 송인섭, 학지사, 2001
7. 간추린 통계학, 유동선 외, 교우사, 2003
8. 경제경영통계학(제3판), 이종원, 박영사, 2003
9. 통계학개론, 김동욱 외, 박영사, 2003
10. 일반통계학, 고승곤 외, 교우사, 2003
추천자료
투자론 중간고사 모음
운동학습과 관련된 논문을 읽고 요약한 레포트 입니다.
[예비타당성분석][타당성조사]예비타당성조사의 필요성, 예비타당성조사의 요소와 예비타당성...
규칙적인 운동과 스트레스와의관계
[수치해석]C언어를 이용한 최소제곱회귀분석법
우석_중간_사회복지조사론
Reliability분석
ELISA
Template Match(템플릿매칭) 소개 및 Source(소스)
증권투자론 3차 과제 (3문제)
[통계학] 사스(SAS)정리
기후변화 적응 건강관리대책
신뢰도 평가방법 중 세 가지의 신뢰도 평가방법의 개념과 사례를 서술하고 장단점을 비교하시오.
[연세대] 일반물리실험 결과보고서A 자기력 측정
소개글