(2022년 방송통신대 데이터시각화 기말과제물)런던 콜레라지도를 조사하고 데이터 시각화의 필요성을 설명 아름답고 의미 있는 데이터 시각화 사례 그 이유 R패키지 vcd에 내장된 Arthritis 데이터셋 R에 내장된 airquality 데이터셋
본 자료는 4페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.
닫기
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
해당 자료는 4페이지 까지만 미리보기를 제공합니다.
4페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

(2022년 방송통신대 데이터시각화 기말과제물)런던 콜레라지도를 조사하고 데이터 시각화의 필요성을 설명 아름답고 의미 있는 데이터 시각화 사례 그 이유 R패키지 vcd에 내장된 Arthritis 데이터셋 R에 내장된 airquality 데이터셋에 대한 보고서 자료입니다.

목차

1. 런던 콜레라지도(교재 p.4)를 조사하고 데이터 시각화의 필요성을 설명하시오.(7점)
1)런던 콜레라지도 2)데이터 시각화의 필요성

2. 아름답고 의미 있는 데이터 시각화 사례를 발굴하고 그 이유를 정리하시오.(7점)
1)사례1 2)사례2

3. R 패키지 “vcd”에 내장된 “Arthritis” 데이터셋은 류마티스 관절염 환자를 대상으로 한 임상시험 결과 데이터이다. 각 행은 각 환자를 나타내며, 변수 Treatment는 그룹(Treated = 새로운 치료제를 투약한 그룹, Placebo = 위약을 받은 그룹)을 나타낸다. 변수 Sex는 성별을, Improved는 치료 결과(None = 차도 없음, Some = 약간 좋아짐, Marked = 매우 좋아짐)를 나타낸다. 새로운 치료제 투약 여부가 치료 결과와 연관이 있는지, 성별과 치료 결과 간에 연관이 있는지를 데이터 시각화를 통해서 탐구하시오. (18점)

4. R에 내장된 “airquality” 데이터셋은 1973년 5월부터 9월까지 뉴욕의 대기질에 관한 데이터셋이다. 변수 Ozone은 대기 중 오존의 양, Solar.R은 태양방사선의 양, Wind는 풍속, Temp는 기온을 나타낸다. 이 네가지 변수(Ozone, Solar.R, Wind, Temp)에 대한 산점도 행렬을 그리고, 이 산점도 행렬에서 알 수 있는 변수들 간의 관계에 대하여 서술하시오. (18점)

5. 참고문헌

본문내용

해야 한다.
두 변수의 독립성 검정을 카이제곱으로 해보면 다음과 같다.
tItable <- xtabs(~ Treatment+Improved, data=Arthritis) # 분할표
sItable <- xtabs(~ Sex+Improved, data=Arthritis) # 분할표
chisq.test(tItable) # 카이제곱 검정(투약 여부와 치료 결과)
p-value가 0.001463이고 유의수준 0.05보다 작으므로 ‘치료제 투약 여부와 치료 결과가 독립이다’ 라는 귀무가설을 기각한다. 이때 통계량 X-squared는 13.055이고 자유도는 투약여부가 2개 레벨, 치료 결과가 3개 레벨이므로 (21)(31) = 2이다.
chisq.test(sItable) # 카이제곱 검정(성별과 치료 결과)
분할표를 카이 제곱에 적용할 때 표본수가 적거나 표본이 분할표의 셀에 매우 치우치게 분포되어 있다면 카이 제곱 검정의 결과가 부정확할 수 있다. chisq.test( )는 이 경우 경고 메시지를 출력하여 카이 제곱 검정이 부정확할 수 있음을 알린다.(위 Warning message 참고)
카이 제곱 검정이 부정확한 경우 피셔의 정확 검정을 사용한다.
fisher.test(sItable) # 피셔의 정확 검정
p-value가 0.1094로 유의수준 0.05보다 크므로 성별과 치료 결과가 독립이라는 귀무가설을 기각하지 못한다. 즉, 성별과 치료 결과는 무관하다
4. R에 내장된 “airquality” 데이터셋은 1973년 5월부터 9월까지 뉴욕의 대기질에 관한 데이터셋이다. 변수 Ozone은 대기 중 오존의 양, Solar.R은 태양방사선의 양, Wind는 풍속, Temp는 기온을 나타낸다. 이 네 가지 변수(Ozone, Solar.R, Wind, Temp)에 대한 산점도 행렬을 그리고, 이 산점도 행렬에서 알 수 있는 변수들 간의 관계에 대하여 서술하시오. (18점)
data <- subset(airquality, select=c(\'Ozone\', \'Solar.R\', \'Wind\', \'Temp\'))
pairs(data) # 산점도 행렬(\'Ozone\', \'Solar.R\', \'Wind\', \'Temp\')
panel.hist <- function(x, ...) # 대각선에 삽입할 히스토그램
{
usr <- par(\"usr\")
on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks
nB <- length(breaks)
y <- h$counts
y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = \"orange\", ...)
}
# cex는 산점도 심벌의 크기
pairs(data, panel=panel.smooth, cex = 1, bg = \"light blue\",
diag.panel = panel.hist, cex.labels = 2, font.labels = 2)
panel.lm <- function(x, y, col=par(\"col\"), bg=NA, pch=par(\"pch\"), cex=1, col.smoth=\"red\") {
points(x, y, pch=pch, col=col, bg=bg, cex=cex)
abline(stats::lm(y ~ x), col=col.smoth) # 회귀직선 삽입
}
panel.cor <- function(x, y, digits = 2, prefix = \"\", cex.cor)
{
usr <- par(\"usr\")
on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
# use = \'complete.obs\' 결측값이 모두 제거된 상태에서 상관계수를 계산
r <- abs(cor(x, y, use = \'complete.obs\'))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste(prefix, txt, sep = \"\")
if(missing(cex.cor)) cex <- 0.8 / strwidth(txt)
text(0.5, 0.5, txt, cex = cex *(1+r)/2, col=\'red\')
}
# gap은 패널 사이의 간격
pairs(data, gap = 2, lower.panel = panel.lm, diag.panel=panel.hist, upper.panel = panel.cor )
산점도 행렬을 보면, 오존과 바람은 역의 관계를 보이고 오존과 온도는 정의 관계를 보이고 있다. 그리고 온도와 바람도 약간의 상관관계가 있는 것으로 보인다. 그러나 산점도를 통해 시각적으로 분석하는 것으로는 부족하므로, 보다 정확한 상관관계를 확인하기 위해 산점도 행렬의 대각선을 중심으로 위쪽에 해당하는 상삼각패널에 변수 간의 상관계수를 나타낼 수 있다. 위 그림의 상관계수를 통해 오존과 바람, 오존과 온도는 어느 정도 상관관계를 보이고 있음을 알 수 있다. 상관계수가 0.5보다 크면 상관관계가 있다고 볼 때, 오존과 바람, 그리고 오존과 온도 외의 다른 변수들 간에는 높은 상관관계가 없는 것으로 판단된다.
5. 참고문헌
이태림, 허명회, 이정진, 이긍희(2015). 데이터시각화. 출판문화원.
유충현 , 홍성학(2015). R을 활용한 데이터 시각화. 인사이트.
https://www.erc.re.kr/webzine/vol33/sub24.jsp (데이터에서 콜레라 발생 원인을 찾다)
https://www.behance.net/gallery/100153201/Fossil-Fuels-Dataviz
https://informationisbeautiful.net/visualizations/methane-or-natural-gas-the-other-major-greenhouse-gas/
https://www.maptive.com/data-visualization-examples-2022/
https://careerfoundry.com/en/blog/data-analytics/data-visualization-examples/
  • 가격9,000
  • 페이지수12페이지
  • 등록일2022.05.07
  • 저작시기2022.05
  • 파일형식한글(hwp)
  • 자료번호#1168679
본 자료는 최근 2주간 다운받은 회원이 없습니다.
청소해
다운로드 장바구니