통계·데이터과학과 4 데이터마이닝 1. 최근 생성형 AI에 관한 관심이 고조되고 있다. 생성형 AI는 많은 양의 데이터의 축적과 학습(learning)에 토대를 두고 있다. 생성형 AI의 발전과 데이터마이닝 기법의 연관성 유무를 판단하고 그 근거를 기술하시오. 단, 필자의 생각을

본 자료는 1페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 1페이지 까지만 미리보기를 제공합니다.
1페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

통계·데이터과학과 4 데이터마이닝 1. 최근 생성형 AI에 관한 관심이 고조되고 있다. 생성형 AI는 많은 양의 데이터의 축적과 학습(learning)에 토대를 두고 있다. 생성형 AI의 발전과 데이터마이닝 기법의 연관성 유무를 판단하고 그 근거를 기술하시오. 단, 필자의 생각을 에 대한 보고서 자료입니다.

1. 최근 생성형 AI에 관한 관심이 고조되고 있다. 생성형 AI는 많은 양의 데이터의 축적과 학습(learning)에 토대를 두고 있다. 생성형 AI의 발전과 데이터마이닝 기법의 연관성 유무를 판단하고 그 근거를 기술하시오. 단, 필자의 생각을 독창적으로 기술하시오. (6점)
2. 와인품질 데이터에 로지스틱 회귀모형을 적합하고자 한다. 과거의 분석 경험을 통해 alcohol 변수와 sulphates 두 변수가 매우 중요한 변수라는 것이 밝혀졌다고 하자. ① 이 두 변수만을 입력변수로 하여 와인 품질을 예측하는 로지스틱 회귀모형을 적합하시오. 또한, 이 적합 결과를 교재의 ② 전체 변수를 모두 넣고 분석한 결과 및 ③ 변수 선택을 하여 몇 개의 변수만 선택하고 분석한 결과와 비교하시오. (6점)
3. 입력변수와 목표변수가 모두 범주형인 어떤 데이터의 두 입력 변수 X1과 X2는 1, 2, 3 등 세 가지 값을 갖고, 목표변수는 Y=1, Y=2의 2개의 범주를 갖는다고 할 때, 각 집단별로 X1과 X2에 대하여 분할표를 아래와 같이 생성하였다. 물음에 답하시오. (목표변수가 범주형임에 유의)
Y=1 Y=2

① 분할표를 보고 이 데이터의 원형을 유추하여 생성하시오. 단, 데이터 세트의 첫째 줄에는 변수명 X1, X2, Y를 명시하시오. (2점)
② 지니지수를 이용하여 최초 분할 시 최적의 분리점을 찾으시오. (2점)
③ 뿌리노드가 한번 분할된 분류의사결정나무를 생성하고, 두 자식노드에서 관찰치들의 집단별 빈도를 밝히시오. (2점)
④ 위에서 생성된 분류의사결정나무(한 번만 분할)의 불순도 감소분을 계산하시오. (3점)
4. 배깅, 부스팅, 랜덤포레스트에 관하여 다음에 답하시오. (교재에 명시된 알고리즘(p.116∼122) 참조)
① 각 알고리즘을 쓰시오. (3점)
② 각 알고리즘에 명시되어 있는 수식을 비교하여 타 알고리즘과 구별되는 특징적인 부분을 지목하여 설명하시오. (4점)
③ 이를 바탕으로 극단값에 더 예민하게 반응할 수 있는 앙상블 방법이 무엇인지 쓰고, 그 근거를 밝히시오. (2점)

본문내용

할을 사용하여 한 번만 분할된 분류 의사결정나무를 생성하고, 두 자식 노드에서 관찰된 집단별 빈도를 밝히겠습니다. # 계속해서 지니지수를 계산하기 위해 코드를 완성합니다.
best_gini = split_values[best_split]
best_split, best_gini
한 번 분할된 분류 의사결정나무를 생성한 결과, 왼쪽 자식 노드(X1<2)에는 목표변수 Y=2인 관찰치가 8개 있습니다. 오른쪽 자식 노드(X1≥2)에는 목표변수 Y=1인 관찰치가 19개, Y=2인 관찰치가 18개 있습니다.
다음으로, 이 분할에 의한 불순도 감소분을 계산해야 합니다. 불순도 감소분은 부모 노드의 지니지수와 자식 노드들의 가중 평균된 지니지수의 차이를 통해 계산됩니다.
# 데이터를 X1=2를 기준으로 분할합니다.
left_node = df[df[\'X1\'] < best_split[1]]
right_node = df[df[\'X1\'] >= best_split[1]]
# 각 노드의 집단별 빈도를 계산합니다.
left_node_counts = left_node[\'Y\'].value_counts().to_dict()
right_node_counts = right_node[\'Y\'].value_counts().to_dict()
left_node_counts, right_node_counts
뿌리노드의 지니지수는 약 0.488이며, 왼쪽 자식노드(X1<2)의 지니지수는 0.0, 오른쪽 자식노드(X1≥2)의 지니지수는 약 0.500입니다. 이로부터 계산된 불순도 감소분은 약 0.077입니다. 이는 분할을 통해 달성한 불순도의 감소량을 나타내며, 모델이 데이터를 더 잘 분류할 수 있게 되었음을 의미합니다.
# 뿌리노드의 지니지수 계산
root_gini = calculate_gini([df.values], classes)
# 왼쪽 자식노드의 지니지수 계산
left_gini = calculate_gini([left_node.values], classes)
# 오른쪽 자식노드의 지니지수 계산
right_gini = calculate_gini([right_node.values], classes)
# 불순도 감소분을 계산
# 이는 뿌리노드의 지니지수와 자식노드들의 지니지수의 가중 평균의 차이입니다.
impurity_decrease = root_gini - (left_gini * len(left_node) + right_gini * len(right_node)) / len(df)
root_gini, left_gini, right_gini, impurity_decrease
4. 배깅, 부스팅, 랜덤포레스트에 관하여 다음에 답하시오. (교재에 명시된 알고리즘(p.116∼122) 참조)
① 각 알고리즘을 쓰시오. (3점)
① 각 알고리즘:
배깅(Bagging; Bootstrap Aggregating): 배깅은 원본 훈련 데이터셋의 부트스트랩 샘플(복원추출로 얻은 샘플)을 사용하여 여러 개의 분류기를 훈련시키는 앙상블 기법입니다. 모든 분류기의 예측을 집계(보통 투표 또는 평균을 사용)하여 최종 예측을 결정합니다. 대표적인 예로 랜덤포레스트가 있습니다.
부스팅(Boosting): 부스팅은 약한 분류기들을 순차적으로 훈련시키면서, 잘못 분류된 샘플에 더 높은 가중치를 부여하는 방식으로 성능을 향상시키는 기법입니다. 예측이 어려운 샘플에 집중하여 성능을 향상시키는 것이 특징입니다. 대표적인 예로 AdaBoost, Gradient Boosting이 있습니다.
랜덤포레스트(Random Forest): 랜덤포레스트는 배깅의 일종으로, 다수의 결정트리를 사용하여 모델을 구성합니다. 각 트리는 부트스트랩 샘플에서 훈련되고, 노드를 분할할 때는 무작위로 선택된 소수의 변수만을 고려합니다. 모든 트리의 예측을 통해 최종 결과를 집계합니다.
② 각 알고리즘에 명시되어 있는 수식을 비교하여 타 알고리즘과 구별되는 특징적인 부분을 지목하여 설명하시오. (4점)
③ 이를 바탕으로 극단값에 더 예민하게 반응할 수 있는 앙상블 방법이 무엇인지 쓰고, 그 근거를 밝히시오. (2점)
부스팅은 극단값에 대해 더 예민하게 반응하는 앙상블 방법입니다. 부스팅 기법은 잘못 분류된 데이터에 대해 가중치를 증가시키고, 이를 통해 모델은 이전에 잘못 분류된 케이스에 더욱 집중하게 됩니다. 따라서, 이상치나 극단값이 이전 단계에서 잘못 분류될 경우, 후속 모델들이 이들에 더 큰 가중치를 두게 되어 전체 모델이 이러한 극단값에 민감하게 반응하게 됩니다.

키워드

방송통신대, 방통대, 과제물, 출석대체, A+

소개글

목차

본문내용

키워드

추천자료