<70점 만점, A+> 2020학년도 파이썬과R 기말시험(온라인평가) 한국방송통신대학교 통계데이터과학과

본 자료는 10페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 10페이지 까지만 미리보기를 제공합니다.
10페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

<70점 만점, A+> 2020학년도 파이썬과R 기말시험(온라인평가) 한국방송통신대학교 통계데이터과학과에 대한 보고서 자료입니다.

본문내용

ing)
summary(downloading_fit)
TukeyHSD(downloading_fit)
tukey.test = TukeyHSD(downloading_fit)
plot(tukey.test)
【 Python 】
(1) 세 가지 시간대별로 다운로드에 걸리는 시간이 다른지 분석하시오.
Python 출력화면
결과설명 (R에서 수행한 결과와 같은 내용에 대한 언급은 생략)
시간대에 따라 파일을 다운로드하는 데 걸리는 시간의 평균에 차이가 있는지를 알아보기 위해서는 『pandas』모듈 외에도 『researchpy』모듈이 필요하다. 이를 위해 먼저 도스(Dos) 창에서 『C:\\> pip install researchpy』명령을 실행하여 설치한다.
『statsmodels』모듈의 『ols』함수를 사용하여 분산분석 모형을 적합하였다. coef의 값을 보면, 「Intercept=113.375, [T.Evening (5 875PM)]=159.9375, [T.Late Night (12 AM)]=79.5」가 나오는 것이 확인된다. Time_of_Day 중 Early (7AM)의 평균 113.375를 기준으로 하고, (273.3125-113.375, 193.0625-113.375) = (159.9375, 79.6875), 즉 Time_of_Day 중 Early (7AM) 그룹과의 평균차이를 의미한다. 분산분석 결과 aov_fit는 『sm.stats.anova_lm』함수를 이용하여 구할 수 있다.
분산분석 결과에 관한 설명은 R에서 수행한 결과와 동일하므로 생략한다.
Python 코드
import pandas as pd
import researchpy as rp
downloading = pd.read_csv(\"C:/rpython/downloading.csv\")
downloading.head(3)
rp.summary_cont(downloading[\'Time_Sec\'].groupby(downloading[\'Time_of_Day\']))
import statsmodels.api as sm
from statsmodels.formula.api import ols
fit = ols(\'downloading.Time_Sec ~ C(downloading.Time_of_Day)\', data=downloading).fit()
fit.summary()
aov_fit = sm.stats.anova_lm(fit, typ=2)
aov_fit
(2) 각 시간대별로 차이가 있는지 다중비교를 통해 분석하시오.
Python 출력화면
결과설명(R에서 수행한 결과와 같은 내용에 대한 언급은 생략)
위의 화면은 『ols』함수를 사용하여 분산분석 모형을 적합하고,『MultiComparison』, 『tukeyhsd』함수를 이용하여 Tukey의 다중비교 방법을 수행하는 절차를 보여준다.
group1과 group2의 평균 및 평균차이 신뢰구간을 제시하여 주었으며, 유의수준 0.05에서 통계적으로 유의미한 차이가 있으면 True가 표시되고, 반대의 경우 False가 표시된다.
분산분석 및 다중비교 수행 결과에 관한 설명은 R에서 수행한 결과와 동일하므로 생략한다.
Python 코드
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multicomp import MultiComparison
downloading = pd.read_csv(\"C:/rpython/downloading.csv\")
fit = ols(\'downloading.Time_Sec ~ C(downloading.Time_of_Day)\', data=downloading).fit()
mc = MultiComparison(downloading[\'Time_Sec\'], downloading[\'Time_of_Day\'])
mc_tukey = mc.tukeyhsd()
print(mc_tukey)
<참고문헌>
심송용, 이윤동, 김성수, 「파이썬과 R」, 한국방송통신대학교 출판문화원, 2020.
장영재, 최상범, 한승봉, 「R컴퓨팅」, 한국방송통신대학교 출판문화원, 2020.
이태림, 장영재, 이기재, 이긍희, 「통계학개론」, 한국방송통신대학교 출판문화원, 2015.
심송용, 이윤동, 이은경, 김성수, 「고급R활용」, 한국방송통신대학교 출판문화원, 2015.
김성수, 김현중, 정성석, 이용구, 「다변량분석」, 한국방송통신대학교 출판문화원, 2014.
윤인성,「혼자 공부하는 파이썬」, 한빛미디어, 2019.
[python] 파이썬 결측치 처리https://freedata.tistory.com/61
WorkingWithPython, pandas로 결측치 다루기https://workingwithpython.com/howtohandlemissingvaluewithpython/
[빅데이터 통계 R 프로그램(8)] 데이터분석 시작! (05) 연령대와 월급 https://goodthought.tistory.com/57
R 프로그래밍, 상호작용이 있는 다중회귀분석https://m.blog.naver.com/PostView.nhn?blogId=ilustion&logNo=220284437544&proxyReferer=https:%2F%2Fwww.google.com%2F
Kaggle에서 파이썬으로 데이터분석 시작하기, 02-데이터분석 라이브러리, 01-03-01 Data manipulationhttps://wikidocs.net/75113
#파이썬. 상관관계분석(피어슨 상관계수)https://m.blog.naver.com/PostView.nhn?blogId=nonamed0000&logNo=220908895209&proxyReferer=https:%2F%2Fwww.google.com%2F
[회귀분석] 6. 변수선택법(Variable Selection) with Pythonhttps://zephyrus1111.tistory.com/65

키워드

파이썬과R, python, R, 통계데이터과학과, 정보통계학과, 방송대, 방통대, 한국방송통신대학교

소개글

목차

본문내용

키워드

추천자료