목차
1. (교재 연습문제 1장 1번 문제)
2. (교재 연습문제 2장 1번 문제)
3. 중회귀모형을 행렬-벡터 표기로 표현하면 다음과 같다.
4. 참고문헌
2. (교재 연습문제 2장 1번 문제)
3. 중회귀모형을 행렬-벡터 표기로 표현하면 다음과 같다.
4. 참고문헌
본문내용
오차에 기인한 것이다.
6) 잔차들의 에 대한 가중합 를 구하시오. (2점)
①R코드
# 가중합 계산
weighted_sum <- sum(yearOfUse * residuals)
# 결과 출력
cat(\"잔차들의 x에 대한 가중합 (∑xe):\", weighted_sum, \"\\n\")
②결과
회귀계수가 최소제곱법에 의한 추정값이면 잔차들의 에 대한 가중합은 0이다. 위 결과는 정확히 0이 아니지만 0에 매우 가까운 값으로, 이는 R의 부동소수점 연산에 따른 오차에 기인한 것이다.
7) 잔차들의 에 대한 가중합 를 구하시오. (2점)
①R코드
# 예측값 구하기
y_hat <- fitted(model)
# 가중합 계산
sum_yhat_e <- sum(y_hat * residuals)
# 결과 출력
cat(\"∑ _i * e_i =\", sum_yhat_e, \"\\n\")
②결과
회귀계수가 최소제곱법에 의한 추정값이면 잔차들의 에 대한 가중합은 0이다. 위 결과는 정확히 0이 아니지만 0에 매우 가까운 값으로, 이는 R의 부동소수점 연산에 따른 오차에 기인한 것이다.
2. (교재 연습문제 2장 1번 문제) 어떤 공장에서 나오는 제품의 강도()가 그 공정의 온도와 압력에 어떠한 영향을 받는지를 조사하기 위하여 다음의 자료를 얻었다.
〈ex2-1.csv〉
1) 선형회귀모형 이 성립된다고 가정하고 자료로부터 회귀모형을 추정하고, 모형을 해석하시오. (2점)
①코드
library(readxl)
data <- read_excel(\"D:/strength.xlsx\")
model <- lm(Y ~ X1 + X2, data = data)
summary(model)
②결과
위 결과에 따라 회귀계수는 이다.
따라서 추정된 회귀모형은 다음과 같다.
③해석
이 모형에 대한 결정계수는 0.747, F값 7.383이고, 이에 대한 유의확률 p값은 0.03218로 유의수준 0.05보다 작으므로 적합된 중회귀모형이 이 자료를 설명하는 데 유의함을 알 수 있다. 결정계수 0.747은 중회구모형이 종속변수 Y(강도)의 총변동을 74.7% 정도 설명한다는 것을 의미한다. 그리고 변수 X1의 t값 -0.228에 대한 유의확률은 0.8285로 유의수준 0.05보다 매우 크므로 =0 이라는 귀무가설을 기각하지 못한다. 즉, X1(공정온도)은 Y(강도)를 설명하는 데 그리 큰 영향을 준다고 할 수 없다. 반면, X2(공정압력)의 t값 3.662에 대한 유의확률은 0.0146으로 유의수준 0.05보다 작으므로 =0 이라는 귀무가설을 기각시킨다. 즉, X2는 Y를 설명하는 데 유의한 변수임을 알 수 있다.
2) 오차분산 을 MSE로 추정하고, 의 추정값을 구하시오. (2점)
anova(model)
분산분석 결과에서 오차분산 의 추정치 MSE = 469.3605이다.
의 추정치는 회귀분석 결과에서 회귀계수의 표준오차(197.2264, 0.7636, 3.2342)를 제곱한 값이다. 따라서 의 추정치는 각각 38898.25, 0.5831, 10.46이다.
3) 이고 psi에서 평균 제품의 강도의 추정값 은 얼마인가? 이 의 분산을 추정하시오. (2점)
에 값을 대입하면 는 109.4515이다. 또한 “predict(model, int=\'c\', newdata=data.frame(X1=200, X2=59))“를 실행한 아래 결과에서 fit값이 추정치 이다. int=\'c\' 옵션을 추가하면, 각 예측값에 대한 신뢰구간이 함께 계산된다. 이 결과에서 lwr과 upr은 95% 신뢰구간에 해당하는 하한과 상한의 값이다. 따라서 이고 psi에서 추정값은 109.4515이고, 95% 신뢰구간은 (89.29545, 129.6407)가 된다.
의 분산 추정값은 다음 코드로 예측값의 표준오차를 구하여 제곱하면 된다.
predict(model, newdata=data.frame(X1=200, X2=59), se.fit=TRUE)
따라서 의 분산 추정값 = 7.852 = 61.6225 이다.
4) 분산분석표를 작성하고 -검정 결과를 해석하시오. (2점)
anova(model)의 결과로 분산분석표를 작성하면 다음과 같다.
분산분석표
요인
자유도
제곱합
평균제곱
F0
Pr(>F)
회귀
2
6930.53
3465.265
7.383
0.03218
잔차
5
2346.80
469.36
계
7
9277.33
독립변수의 자유도가 각각 1이므로 회귀의 자유도는 2가 된다. 회귀의 제곱합은 각 독립변수 제곱합의 합으로 계산한다. 평균제곱은 각 요인의 자유도로 나누고, F-값은 회귀 평균제곱을 잔차 평균제곱으로 나누면(3465.265/469.36) 분산분석표의 결과를 얻을 수 있다. F-값은 회귀분석 결과에서 F-statistic의 값으로도 알 수 있다.
회귀분석 결과에서 F-값 7.383에 대한 p-value은 0.03218이다. 따라서 유의확률(p-value)이 0.05보다 작으므로 적합된 중회귀모형이 이 데이터를 설명하는 데 유의하다고 할 수 있다.
5) 의 표준화된 중회귀방정식을 구하시고, 결과를 해석하시오. (2점)
# install.packages(\"lm.beta\") # lm.beta이 설치되어 있지 않을 경우.
library(lm.beta)
lm.beta(model)
위 결과에서 변수 (X1, X2)에 의한 표준화 계수는 (-0.0550, 0.8825)이 된다. 따라서 적합된 표준화 회귀계수 모형은 다음과 같이 구해진다.
위 표준화된 중회귀방정식에서 X2의 표준화 계수의 절대값이 X1의 표준화 계수의 절대값보다 크므로 종속변수 Y에 미치는 영향이 X2가 상대적으로 더 크다는 것을 알 수 있다.
3. 중회귀모형을 행렬-벡터 표기로 표현하면 다음과 같다.
여기서, SST, SSE, SSR을 행렬-벡터 표기로 표현할 수 있으며, SSR의 경우 다음과 같이 유도된다.
이때, 가 성립해야 마지막 식으로 유도가 가능한데, 절편이 있는 회귀모형의 경우 이것이 성립함이 알려져 있다. 인 경우는 다음과 같이 증명 가능하다.
절편이 있는 회귀모형에서 임을 보이시오. (6점)
4. 참고문헌
R을 이용한 회귀모형, KNOU PRESS, 2024
과제 스트레스 싹~ 학점 쑥!
6) 잔차들의 에 대한 가중합 를 구하시오. (2점)
①R코드
# 가중합 계산
weighted_sum <- sum(yearOfUse * residuals)
# 결과 출력
cat(\"잔차들의 x에 대한 가중합 (∑xe):\", weighted_sum, \"\\n\")
②결과
회귀계수가 최소제곱법에 의한 추정값이면 잔차들의 에 대한 가중합은 0이다. 위 결과는 정확히 0이 아니지만 0에 매우 가까운 값으로, 이는 R의 부동소수점 연산에 따른 오차에 기인한 것이다.
7) 잔차들의 에 대한 가중합 를 구하시오. (2점)
①R코드
# 예측값 구하기
y_hat <- fitted(model)
# 가중합 계산
sum_yhat_e <- sum(y_hat * residuals)
# 결과 출력
cat(\"∑ _i * e_i =\", sum_yhat_e, \"\\n\")
②결과
회귀계수가 최소제곱법에 의한 추정값이면 잔차들의 에 대한 가중합은 0이다. 위 결과는 정확히 0이 아니지만 0에 매우 가까운 값으로, 이는 R의 부동소수점 연산에 따른 오차에 기인한 것이다.
2. (교재 연습문제 2장 1번 문제) 어떤 공장에서 나오는 제품의 강도()가 그 공정의 온도와 압력에 어떠한 영향을 받는지를 조사하기 위하여 다음의 자료를 얻었다.
〈ex2-1.csv〉
1) 선형회귀모형 이 성립된다고 가정하고 자료로부터 회귀모형을 추정하고, 모형을 해석하시오. (2점)
①코드
library(readxl)
data <- read_excel(\"D:/strength.xlsx\")
model <- lm(Y ~ X1 + X2, data = data)
summary(model)
②결과
위 결과에 따라 회귀계수는 이다.
따라서 추정된 회귀모형은 다음과 같다.
③해석
이 모형에 대한 결정계수는 0.747, F값 7.383이고, 이에 대한 유의확률 p값은 0.03218로 유의수준 0.05보다 작으므로 적합된 중회귀모형이 이 자료를 설명하는 데 유의함을 알 수 있다. 결정계수 0.747은 중회구모형이 종속변수 Y(강도)의 총변동을 74.7% 정도 설명한다는 것을 의미한다. 그리고 변수 X1의 t값 -0.228에 대한 유의확률은 0.8285로 유의수준 0.05보다 매우 크므로 =0 이라는 귀무가설을 기각하지 못한다. 즉, X1(공정온도)은 Y(강도)를 설명하는 데 그리 큰 영향을 준다고 할 수 없다. 반면, X2(공정압력)의 t값 3.662에 대한 유의확률은 0.0146으로 유의수준 0.05보다 작으므로 =0 이라는 귀무가설을 기각시킨다. 즉, X2는 Y를 설명하는 데 유의한 변수임을 알 수 있다.
2) 오차분산 을 MSE로 추정하고, 의 추정값을 구하시오. (2점)
anova(model)
분산분석 결과에서 오차분산 의 추정치 MSE = 469.3605이다.
의 추정치는 회귀분석 결과에서 회귀계수의 표준오차(197.2264, 0.7636, 3.2342)를 제곱한 값이다. 따라서 의 추정치는 각각 38898.25, 0.5831, 10.46이다.
3) 이고 psi에서 평균 제품의 강도의 추정값 은 얼마인가? 이 의 분산을 추정하시오. (2점)
에 값을 대입하면 는 109.4515이다. 또한 “predict(model, int=\'c\', newdata=data.frame(X1=200, X2=59))“를 실행한 아래 결과에서 fit값이 추정치 이다. int=\'c\' 옵션을 추가하면, 각 예측값에 대한 신뢰구간이 함께 계산된다. 이 결과에서 lwr과 upr은 95% 신뢰구간에 해당하는 하한과 상한의 값이다. 따라서 이고 psi에서 추정값은 109.4515이고, 95% 신뢰구간은 (89.29545, 129.6407)가 된다.
의 분산 추정값은 다음 코드로 예측값의 표준오차를 구하여 제곱하면 된다.
predict(model, newdata=data.frame(X1=200, X2=59), se.fit=TRUE)
따라서 의 분산 추정값 = 7.852 = 61.6225 이다.
4) 분산분석표를 작성하고 -검정 결과를 해석하시오. (2점)
anova(model)의 결과로 분산분석표를 작성하면 다음과 같다.
분산분석표
요인
자유도
제곱합
평균제곱
F0
Pr(>F)
회귀
2
6930.53
3465.265
7.383
0.03218
잔차
5
2346.80
469.36
계
7
9277.33
독립변수의 자유도가 각각 1이므로 회귀의 자유도는 2가 된다. 회귀의 제곱합은 각 독립변수 제곱합의 합으로 계산한다. 평균제곱은 각 요인의 자유도로 나누고, F-값은 회귀 평균제곱을 잔차 평균제곱으로 나누면(3465.265/469.36) 분산분석표의 결과를 얻을 수 있다. F-값은 회귀분석 결과에서 F-statistic의 값으로도 알 수 있다.
회귀분석 결과에서 F-값 7.383에 대한 p-value은 0.03218이다. 따라서 유의확률(p-value)이 0.05보다 작으므로 적합된 중회귀모형이 이 데이터를 설명하는 데 유의하다고 할 수 있다.
5) 의 표준화된 중회귀방정식을 구하시고, 결과를 해석하시오. (2점)
# install.packages(\"lm.beta\") # lm.beta이 설치되어 있지 않을 경우.
library(lm.beta)
lm.beta(model)
위 결과에서 변수 (X1, X2)에 의한 표준화 계수는 (-0.0550, 0.8825)이 된다. 따라서 적합된 표준화 회귀계수 모형은 다음과 같이 구해진다.
위 표준화된 중회귀방정식에서 X2의 표준화 계수의 절대값이 X1의 표준화 계수의 절대값보다 크므로 종속변수 Y에 미치는 영향이 X2가 상대적으로 더 크다는 것을 알 수 있다.
3. 중회귀모형을 행렬-벡터 표기로 표현하면 다음과 같다.
여기서, SST, SSE, SSR을 행렬-벡터 표기로 표현할 수 있으며, SSR의 경우 다음과 같이 유도된다.
이때, 가 성립해야 마지막 식으로 유도가 가능한데, 절편이 있는 회귀모형의 경우 이것이 성립함이 알려져 있다. 인 경우는 다음과 같이 증명 가능하다.
절편이 있는 회귀모형에서 임을 보이시오. (6점)
4. 참고문헌
R을 이용한 회귀모형, KNOU PRESS, 2024
과제 스트레스 싹~ 학점 쑥!
추천자료
(2022년 방송통신대 다변량분석 출석과제물)연습문제 1장 p38 4번 연습문제 2장 p75 1번 연습...
2022년 2학기 방송통신대 파이썬과R 출석수업대체과제물)R을 사용하여 다음의 자료로 3개의 ...
자원봉사론 2024년 1학기 중간과제물 - 자원봉사란 무엇을 의미하는지 그 개념적 요소에 대해...
[생명과환경 2025년 1학기 방송통신대 중간과제물- 유튜버가 사망한 반려견을 복제 해서 다시...
컴퓨터의이해 2025년 1학기 방송통신대 중간과제물) 4차 산업혁명의 핵심기술 중의 하나인 사...
생명과환경 2025년 1학기 방송통신대 중간과제물) 유튜버가 사망한 반려견을 복제 해서 다시 ...
사회복지행정론 2025년 1학기 방송통신대 중간과제물) 한국 사회복지행정의 역사를 설명하시...
(학교사회복지론 2025년 1학기 중간과제물] 학교사회복지의 이론적 근거인 생태체계적 관점, ...
2025년 1학기 생명과환경 방송통신대 중간과제물, 유튜버가 사망한 반려견을 복제 해서 다시 ...
소개글