공분산과 상관분석에 대해 총망라
본 자료는 7페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
해당 자료는 7페이지 까지만 미리보기를 제공합니다.
7페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

공분산과 상관분석에 대해 총망라에 대한 보고서 자료입니다.

목차

공분산이란
상관계수란

상관분석
상관계수의 개념 및 정의
단순 상관분석
단순상관계수
표본상관계수
가설검정과 구간추정
다중상관분석(Multiple Correlation Analysis)
분석과 관련된 용어의 정의
다중상관계수
다중상관계수의 범위
다중상관계수의 성질
가설검정과 구간 추정
편상관(Partial Correlation)
정준 상관분석의 개념
분석에 사용되는 용어의 정의
정준 상관분석의 목적
표본정준상관계수
가설검정
일반화된 상관계수로의 정준 상관계수
상관계수의 주의할 점
공분산과 상관계수
공분산과 상관계수

본문내용

하다고 하더라도 두 변수가 선형적인 관계를 갖지 않으면, 대응되는 상관계수의 절대값이 크지 않게 될 것이다. 예를 들어 와 같이 완전히 2차곡선의 관계를 가질 때
의 자료로부터 구한 상관계수는 0이 된다. 그러나 두 변수 간에는 완벽한 함수관계가 존재한다. 따라서 상관계수의 계산에 앞서 먼저 산점도를 일차적으로 그려볼 것을 권장한다.
둘째, 얻어진 상관계수의 절대값이 크다는 사실이 곧 두 변수 간의 밀접한 인과관계를 뜻하지는 않는다는 점이다. 예를 들어, 교사의 월급여와 술소비액, 황새둥우리의 수와 태어나는 아기의 수, 혹은 종교집회의 수와 범죄율 등은 이런 의사상관(Spurious Correlation)의 상황을 설명하는 전형적인 예라고 하겠다.
셋째, 상관계수는 한 모집단 내에서 두 변수간의 연관성을 측정하고 있는 바, 만약 분석대상인 2변량 자료가 2개 이상의 모집단으로부터 얻어진 경우는 각각의 모집단에서 상관계수를 따로 따로 추정해야 한다. 따라서 상관계수를 구하기 전에 분석대상인 2변량 자료가 하나의 모집단에서 얻어졌는지, 2개 이상의 모집단에서 얻어졌는지를 확인할 필요가 있다.
공분산과 상관계수
이제 기대값이 각각 μ₁,μ₂인 두 확률변수 X, Y에 대하여, 확률변수 X의 증감에 따른 Y의 증감의 경향에 대한 척도로서의 ( X-μ₁)( Y-μ₂)
의 기대값을 X와 Y의 공분산(covariance)이라
하고, cov(X, Y)로 나타낸다.
만약 ( X-μ₁)과 ( Y-μ₂)가 동시에 \'+\'이거나 혹은 \'-\'라면 cov(X, Y)는 \'+\'의 값을 가질 것이다. 그러나, 두 부호가 서로 다른 경우에는 cov(X, Y)는\'-\'값을 가질 것이다. 따라서 우리는 cov(X, Y) 가 \'+\'인지 혹은 \'-\'인지에 따라 두 변수가 각각의 평균값으로부터 떨어져 있는 방향이 동일한지 아닌지를 식별할 수가 있다.
한편, 공분산은 X와 Y의 단위에 좌우되는 양이므로 단위와 무관한 척도로서 공분산을 X와 Y의 표준편차의 곱으로 나누어 얻을 값은 X와 Y의 상관계수(correlation coefficient)라 하며, corr(X, Y)로 나타낸다.
이러한 공분산과 상관계수에는 다음의 성질이 있다. a ,b, c, d가 상수일 때
예를들어, X와 Y의 결합확률분포가 다음으로 주어질 때 X와 Y의 공분산과 상관계수를 구해보자.
5
10
행의 합
0
1
0.2
0.3
0.3
0.1
0.5
0.5
열의 합
0.6
0.4
1.0
공분산의 간편식에 의하면
이므로,
를 구해야 한다
다음과 같이 X와 Y의 평균과 분산, 그리고 E[XY]를 차례로 구해보자. x
5
10

P(X=x)
0.6
0.4
1.0
xP(X=x)
3.0
4.0
7.0
x
15.0
40.0
55.0
μ₁= 7.0
Var(X) = 55 - 7²= 6.0
y
0
1

P(Y=y)
0.5
0.5
1.0
yP(X=x)
0
0.5
0.5
x²P(X=x)
0
0.5
0.5
μ₁= 0.5
Var(X) = 0.5 - 0.25 = 0.25
다음으로 E[XY]를 구하면 z=xy
0
5
10

P(Z=z)
0.5
0.4
0.1
1.0
zP(Z=z)
0
2.0
1.0
3.0
E[XY] = 3.0
따라서,
Cov (X,Y) = 3.0 - 3.5 = -0.5
Cov (X,Y) =
-0.5
=-0.408
2.45*0.5
앞서 우리는 두 확률변수가 서로 독립일 때
임을 보았다. 이를 이용하면 두 변수가 독립일 때
E[XY]=E[X]E[Y]
가 성립함을 확인할 수 있다. 따라서
cov(X, Y)
=E[XY]-E[X]E[Y]
=E[X]E[Y]-E[X]E[Y]
=0
으로서, 두 변수가 독립이면 공분산은 0이 됨을 볼 수 있다.
마찬가지로 cov(X, Y)=0이 성립하면 X와 Y는 서로 독립이라 할 수 있다.
기대값의 성질을 이용하면 두 확률변수의 합이나 차에 대한 분산에 대한 다음 식이 성립한다.
Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y)
이상의 결과로부터 두 확률변수가 독립인 경우 다음이 성립함을 정리할 수 있다.
1.E[XY]=E[X]E[Y]
2.Cov(X,Y)=0=Corr(X,Y)
3.Var(X±Y)=Var(X)+Var(Y)
공분산과 상관계수
두 변수간에 어떠한 관계가 있는지에 관심이 있을 때,
아이큐와 학교성적 간의 관계
내신성적과 대학성적 간의 관계 등.
공분산
공식
엑셀에서 \"=COVAR(C3:C25,D3:D25)\"를 입력하여 계산하거나
(X,Y)=E(XY)-E(X)×E(Y)를 이용한다.
E(XY)는 X와 Y를 곱하여 얻은 값의 평균이고
-E(X)는 X의 평균이며
-E(Y)는 Y의 평균임.
예제
중간고사와 기말고사 성적간에 어떠한 관계가 있는지 알아보기 위해 엑셀에서 함수를 이용한 공분산 계산을 할 수 있고,
E(XY)-E(X)×E(Y)를 이용하기 위하여, 중간고사와 기말고사 성적을 곱한 후 이의 평균을 계산하고, 중간고사 성적의 평균과 기말고사 성적의 평균을 계산하여 공분산을 계산함.
공분산의 의미
공분산이 + 이면 두 변수는 같은 방향으로 움직여 하나가 커지면 다른 하나가 커지는 것임.
즉 중간고사 성적이 좋으면 기말고사 성적이 좋은 경향이 있는 것을 보이며
공분산이 0이면 두 변수는 아무런 관계가 없으며
공분산이 - 이면 두 변수는 다른 방향으로 움직임.
예를 들어 인접한 두 술집의 매출액은 한 집이 좋으면 다른 집이 나쁠 수 있음.
주의사항
공분산에서 숫자는 의미가 없고 부호, 즉 음이냐, 양이냐, 또는 0인가가 중요함.
얼마나 밀접한 관계가 있는가를 알아보기 위해서는 상관계수를 이용함.
상관계수
개념
두 변수간 결합되어 있는 정도의 크기를 비교하기 위하여 만들어낸 개념
상관계수가 1이면 완전히 비례관계에 있으며
상관계수가 0이면 아무런 관계가 없으며
상관계수가 -1이면 완전히 반비례의 관계임
0과 1사이에서는 비례의 관계에 있고 숫자가 커질수록 비례의 정도가 높은, 즉 두 변수간에 결합되어 있는 정도가 많음을 시사하고 있음.
공식
XY= (X,Y)/{ (X)× (Y)}
는 \"로\"로 읽음
주의사항
XY= (X,Y)/{ (X)× (Y)}을 이용할 때,
(X)와 (Y)는 모집단에 대한 표준 편차를 이용하여야 함.
  • 가격1,000
  • 페이지수21페이지
  • 등록일2010.06.07
  • 저작시기2003.11
  • 파일형식한글(hwp)
  • 자료번호#5237249
본 자료는 최근 2주간 다운받은 회원이 없습니다.
다운로드 장바구니