목차
(1) (10점) 현재 대한민국에서 코로나19 바이러스 보균자는 전체 인구의 5%라고 알려져 있다. A는 코로나19 진단 키트를 사용해서 테스트를 해보았더니 양성으로 나왔다. 사용한 진단 키트의 민감도는 99%이고 특이성은 95%이다. 이때 A가 실제로 코로나 바이러스 보균자일 확률은 얼마인가?
민감도(sensitivity)는 실제로 질병이 있는 사람들 중에서 검사가 양성으로 올바르게 진단된 비율로 진짜 양성 비율(true positive rate)이라고도 한다. 특이성(specificity)은 실제로 질병이 없는 사람들 중에서 검사가 음성으로 올바르게 진단된 비율로 진짜 음성 비율(true negative rate)이라고도 한다.
(2) (10점) 과거 8분기에서 우리나라의 GDP 성장률이 예상보다 높은 분기는 4개 분기였고, 예상보다 낮은 분기는 4개 분기였다. GDP 성장률이 예상보다 높은 분기의 코스피 증가율은
5.3, 10.2, 1.2, 15.2 (단위 %) 이고
GDP 성장률이 예상보다 낮은 분기의 코스피 증가율은
2.3, -5.5, 2.2, 10.1 (단위 %) 이었다.
(a) GDP 성장률이 예상보다 높은 분기의 코스피 지수의 증가율들이 를 서로 독립적으로 따르고 의 사전분포가 R에서 균등분포 U(R)일 때, 의 사후분포를 구하고, 의 사후평균과 사후 표준편차를 구하시오.
(b) GDP 성장률이 예상보다 낮은 분기의 코스피 지수의 증가율들이 를 서로 독립적으로 따르고 의 사전분포가 R에서 균등분포 U(R)일 때, 의 사후분포를 구하고, 의 사후평균과 사후 표준편차를 구하시오.
(3) (10점) 2번 문제를 고려한다.
(a) 의 사후표본을 R을 이용하여 1000개를 추출하라.
(b) 의 사후표본을 R을 이용하여 1000개를 추출하라.
(c) (a)와 (b)의 사후표본을 이용하여 의 크기가 1000개인 사후표본을 구하라.
(d) (c)에서 구한 의 사후표본으로 의 사후평균, 사후표준편차, 95% 신용집합을 구하라.
(e) (c)에서 구한 사후표본의 히스토그램을 구하라.
(4) 참고문헌
민감도(sensitivity)는 실제로 질병이 있는 사람들 중에서 검사가 양성으로 올바르게 진단된 비율로 진짜 양성 비율(true positive rate)이라고도 한다. 특이성(specificity)은 실제로 질병이 없는 사람들 중에서 검사가 음성으로 올바르게 진단된 비율로 진짜 음성 비율(true negative rate)이라고도 한다.
(2) (10점) 과거 8분기에서 우리나라의 GDP 성장률이 예상보다 높은 분기는 4개 분기였고, 예상보다 낮은 분기는 4개 분기였다. GDP 성장률이 예상보다 높은 분기의 코스피 증가율은
5.3, 10.2, 1.2, 15.2 (단위 %) 이고
GDP 성장률이 예상보다 낮은 분기의 코스피 증가율은
2.3, -5.5, 2.2, 10.1 (단위 %) 이었다.
(a) GDP 성장률이 예상보다 높은 분기의 코스피 지수의 증가율들이 를 서로 독립적으로 따르고 의 사전분포가 R에서 균등분포 U(R)일 때, 의 사후분포를 구하고, 의 사후평균과 사후 표준편차를 구하시오.
(b) GDP 성장률이 예상보다 낮은 분기의 코스피 지수의 증가율들이 를 서로 독립적으로 따르고 의 사전분포가 R에서 균등분포 U(R)일 때, 의 사후분포를 구하고, 의 사후평균과 사후 표준편차를 구하시오.
(3) (10점) 2번 문제를 고려한다.
(a) 의 사후표본을 R을 이용하여 1000개를 추출하라.
(b) 의 사후표본을 R을 이용하여 1000개를 추출하라.
(c) (a)와 (b)의 사후표본을 이용하여 의 크기가 1000개인 사후표본을 구하라.
(d) (c)에서 구한 의 사후표본으로 의 사후평균, 사후표준편차, 95% 신용집합을 구하라.
(e) (c)에서 구한 사후표본의 히스토그램을 구하라.
(4) 참고문헌
본문내용
같다.
사후표준편차 =
따라서 사후분포는 이다.
(b) GDP 성장률이 예상보다 낮은 분기의 코스피 지수의 증가율들이 를 서로 독립적으로 따르고 의 사전분포가 R에서 균등분포 U(R)일 때, 의 사후분포를 구하고, 의 사후평균과 사후 표준편차를 구하시오.
(a)문제와 동일한 형식이므로 의 사후분포와 사후평균, 사후표준편차를 구하는 과정과 결과는 (a) 문제와 동일하다. 단, 변수명을 과 대신, 와 를 사용한다.
n=4이므로 사후평균은 다음과 같다.
사후평균 = = (2.3-5.5+2.2+10.1)/4 = 2.275
코스피 지수 증가율들이 (a)와 동일한 정규분포를 따르고 n=4이므로 사후분포도 (a)의 결과와 동일하다.
따라서 사후분포는 이다.
(3) (10점) 2번 문제를 고려한다.
(a) 의 사후표본을 R을 이용하여 1000개를 추출하라.
# 사후분포의 평균과 표준편차
posterior_mean_1 <- 7.975
posterior_sd_1 <- 3.25
# 사후분포에서 1000개의 표본 추출
set.seed(123) # 결과 재현성 시드 설정
theta1_samples <- rnorm(1000, mean = posterior_mean_1, sd = posterior_sd_1)
(b) 의 사후표본을 R을 이용하여 1000개를 추출하라.
# 사후분포의 평균과 표준편차
posterior_mean_2 <- 2.275
posterior_sd_2 <- 3.25
# 사후분포에서 1000개의 표본 추출
set.seed(456) # 결과 재현성 시드 설정
theta2_samples <- rnorm(1000, mean = posterior_mean_2, sd = posterior_sd_2)
(c) (a)와 (b)의 사후표본을 이용하여 의 크기가 1000개인 사후표본을 구하라.
# d = θ1 - θ2의 사후표본
d_samples <- theta1_samples - theta2_samples
(d) (c)에서 구한 의 사후표본으로 의 사후평균, 사후표준편차, 95% 신용집합을 구하라.
신용집합에는 최고사후밀도(highest posterior density, HPD) 신용집합과 동일 꼬리 신용집합(equal tail credible set)이 많이 쓰인다. HPD 신용집합은 가장 작은 체적(혹은 길이)을 갖는다는 장점이 있지만, 계산이 복잡하여 동일 꼬리 신용집합이 많이 쓰인다. 예를 들어, 사후표본의 동일 꼬리 신용집합은 대칭적인 분포에서 사용하는데, 이 경우 분위수 함수로 쉽게 계산할 수 있다. 참고로 HPD 신용집합은 HDInterval 패키지의 hdi 함수[예: hdi(samples, prob=0.95)]로 구할 수 있다.
# d의 사후평균
posterior_mean_d <- mean(d_samples)
# d의 사후표준편차
posterior_sd_d <- sd(d_samples)
# d의 95% 신용집합 (2.5%와 97.5% 백분위수)
credibleSet_d <- quantile(d_samples, probs = c(0.025, 0.975))
위 코드의 결과는 다음과 같다.
사후평균 : 5.56882582768428
사후표준편차 : 4.50188188944618
95% 신용집합: 2.5% -3.58762661359262 97.5% 14.6092494737099
즉, 95% 신용집합은 [-3.588, 14.609] 이다.
(e) (c)에서 구한 사후표본의 히스토그램을 구하라.
(4) 참고문헌
이재용·이기재(2022), 베이즈 데이터 분석, 한국방송통신대학교출판문화원.
https://en.m.wikipedia.org/wiki/Credible_interval
사후표준편차 =
따라서 사후분포는 이다.
(b) GDP 성장률이 예상보다 낮은 분기의 코스피 지수의 증가율들이 를 서로 독립적으로 따르고 의 사전분포가 R에서 균등분포 U(R)일 때, 의 사후분포를 구하고, 의 사후평균과 사후 표준편차를 구하시오.
(a)문제와 동일한 형식이므로 의 사후분포와 사후평균, 사후표준편차를 구하는 과정과 결과는 (a) 문제와 동일하다. 단, 변수명을 과 대신, 와 를 사용한다.
n=4이므로 사후평균은 다음과 같다.
사후평균 = = (2.3-5.5+2.2+10.1)/4 = 2.275
코스피 지수 증가율들이 (a)와 동일한 정규분포를 따르고 n=4이므로 사후분포도 (a)의 결과와 동일하다.
따라서 사후분포는 이다.
(3) (10점) 2번 문제를 고려한다.
(a) 의 사후표본을 R을 이용하여 1000개를 추출하라.
# 사후분포의 평균과 표준편차
posterior_mean_1 <- 7.975
posterior_sd_1 <- 3.25
# 사후분포에서 1000개의 표본 추출
set.seed(123) # 결과 재현성 시드 설정
theta1_samples <- rnorm(1000, mean = posterior_mean_1, sd = posterior_sd_1)
(b) 의 사후표본을 R을 이용하여 1000개를 추출하라.
# 사후분포의 평균과 표준편차
posterior_mean_2 <- 2.275
posterior_sd_2 <- 3.25
# 사후분포에서 1000개의 표본 추출
set.seed(456) # 결과 재현성 시드 설정
theta2_samples <- rnorm(1000, mean = posterior_mean_2, sd = posterior_sd_2)
(c) (a)와 (b)의 사후표본을 이용하여 의 크기가 1000개인 사후표본을 구하라.
# d = θ1 - θ2의 사후표본
d_samples <- theta1_samples - theta2_samples
(d) (c)에서 구한 의 사후표본으로 의 사후평균, 사후표준편차, 95% 신용집합을 구하라.
신용집합에는 최고사후밀도(highest posterior density, HPD) 신용집합과 동일 꼬리 신용집합(equal tail credible set)이 많이 쓰인다. HPD 신용집합은 가장 작은 체적(혹은 길이)을 갖는다는 장점이 있지만, 계산이 복잡하여 동일 꼬리 신용집합이 많이 쓰인다. 예를 들어, 사후표본의 동일 꼬리 신용집합은 대칭적인 분포에서 사용하는데, 이 경우 분위수 함수로 쉽게 계산할 수 있다. 참고로 HPD 신용집합은 HDInterval 패키지의 hdi 함수[예: hdi(samples, prob=0.95)]로 구할 수 있다.
# d의 사후평균
posterior_mean_d <- mean(d_samples)
# d의 사후표준편차
posterior_sd_d <- sd(d_samples)
# d의 95% 신용집합 (2.5%와 97.5% 백분위수)
credibleSet_d <- quantile(d_samples, probs = c(0.025, 0.975))
위 코드의 결과는 다음과 같다.
사후평균 : 5.56882582768428
사후표준편차 : 4.50188188944618
95% 신용집합: 2.5% -3.58762661359262 97.5% 14.6092494737099
즉, 95% 신용집합은 [-3.588, 14.609] 이다.
(e) (c)에서 구한 사후표본의 히스토그램을 구하라.
(4) 참고문헌
이재용·이기재(2022), 베이즈 데이터 분석, 한국방송통신대학교출판문화원.
https://en.m.wikipedia.org/wiki/Credible_interval
소개글