데이터마이닝 - 비즈니스/경제 레포트

본 자료는 3페이지 의 미리보기를 제공합니다. 이미지를 클릭하여 주세요.

해당 자료는 3페이지 까지만 미리보기를 제공합니다.
3페이지 이후부터 다운로드 후 확인할 수 있습니다.

소개글

데이터마이닝에 대한 보고서 자료입니다.

I. 데이터마이닝(Data Mining)
1. 데이터마이닝
2. 데이터마이닝의 수행과정
3. 데이터마이닝 기법
4.데이터마이닝의 활용분야

Ⅱ.시장바구니분석(Market Basket Analysis)
1.시장바구니분석
2.연관규칙 (Association rules)
3.측정기준
4.연관규칙의 예
5.시장바구니분석의 강점과 약점
6.패턴분석(Sequence)

Ⅲ.협업 필터링(collaborative filtering)
1.협동 필터링의 필요성
2.협업필터링
3.K-means 클러스터링 알고리즘
4.피어슨 상관 계수 기반 예측 기법
5.협업필터링 기술의 한계점
6.Item-to-Item Collaborative Filtering

본문내용

개인화(Anonymous Personalization) 추세에도 잘 맞는 방법이다 .이 방법은 고객이 좋아할 만한 상품을 예측하기 위하여 비슷한 선호도를 가지는 다른 고객들의 상품에 대한 평가에 근거하여 추천하는 방법이므로 높은 예측력과 추천 능력을 가지는 장점이 있다. 그러나 이런 장점에도 불구하고 이 방법은 상품의 속성에 대한 개인의 선호도를 직접적으로 반영하지는 못하는 단점을 가지고 있다. 협업 필터링 기술에서 지적되는 가장 큰 문제점은 고객의 선호도 간의 유사성을 평가하기 위해 사용하는 피어슨상관 계수로부터 야기된다. 두 고객이 모두 평가를 한 상품이 있어야 하고 오직 두 고객 사이에서만 상관관계를 구할 수 있으므로 예측의 정확성이 떨어질 가능성이 있다.
3.K-means 클러스터링 알고리즘
K-means 클러스터링 알고리즘은 군집 영역에 속하는 모든 점으로부터 군집 중심까지의 거리의 제곱의 합으로 정의되는 성능 지표를 최소화하는데 바탕을 둔 방법이다
이 방법은 다음과 같은 단계로 구성 된다.
- 단계 1 : 군집의 수 k를 정한 후, k개의 초기 군집 중심을 선택한다. 일반적으로 주어진 표본 집합의 처음 k개의표본을 임의로 선택한다.
- 단계 2 : 각 관찰치를 거리 기법을 이용하여 그 중심과 가장 가까운 거리에 있는 군집영 역에 분배한다.
- 단계 3 : 단계2의 결과로부터, 모든 군집에 대하여 해당군집에 포함된 모든 점들로부터 새로운 군집 중심을 계산한다.
- 단계 4 : 모든 군집에 대하여 기존의 중심과 새로운 중심의 차이가 없으면 알고리즘은 수 렴하며 종료 되고,그렇지 않으면 단계2로 간다.
영화A
영화B
영화C
영화D
사용자1
2
5
1
4
사용자2
4
1
3
3
사용자3
3
4
2
4
유사도를 두 점수 벡터 사이의 각도에 대한 코사인 값으로 계산할 때
유사도 (사용자1, 사용자2) = 0.70
유사도 (사용자2, 사용자3) = 0.86
유사도 (사용자1, 사용자3) = 0.97
사용자1과 사용자3 사이의 유사도 값이 가장 크기 때문에 두 사용자의 영화에 대한 취향이 비슷하다고 판단한다.
4.피어슨 상관 계수 기반 예측 기법
협업 필터링 기술은 특정 고객의 상품에 대한 선호도를 예측하기 위하여 대부분의 경우식(2)에 나타나 있는 피어슨 상관 계수를 이용하여 유사한 선호도를 가지는 이웃을 정하고 식(1)에 의해 예측 선호도 값을 계산한다.
(2) U x 는 상품 x 에 대한 고객 U 의 예측된 선호도이고 r UJ 는 고객 U 와 J 의 상관관계를 나타내며 두 사용자 모두 선호도를 표시한 아이템에 대해서만 계산된다. Raters는 테스트 상품에 대해 선호도를 표시한 고객들을 나타낸다.
6.협업필터링 기술의 한계점
기존의 협업 필터링 기술에서 사용한 피어슨 상관 계수 기반 예측 기법의 단점은 다음 세 가지로 요약할 수 있다.
첫째, 두 고객사이의 상관관계는 오직 두 고객 모두 선호도를 표시한 상품에 대해서만 계산 되므로 만약 상품의 수가 많으면 일반적으로 같은 상품에 대하여 두 고객 모두 선호도를 표시할 확률은 매우 적게 된다.
둘째, 비록 두 고객이 선호도에 따른 상관관계가 높지 않더라도 다른 고객의 선호도 예측에 좋은 자료가 될 수 있으나 상관관계가 높지 않다는 이유로 이 정보는 활용되지 못한다.
마지막으로, 상관관계가 오직 두 고객 사이에서만 계산 된다는 것이다. 예를 들어 사용자 갑과 을이 아주 높은 상관관계에 있고, 을과 병도 그렇다고 가정하면 갑과 병도 상관관계가 높다고 할 수 있다. 그러나 만약에 갑과 병이 공통된 상품 어느 것에도 선호도를 표시하지 않았다면 상관관계를 구할 수 없다.
5.Item-to-Item Collaborative Filtering
전통적인 Collaborative Filtering과 Clustering Models가 사용자와 유사한 사용자를 찾아 그의 과거 아이템들에 기반 한 추천을 하는 반면 이 방법은 사용자가 선택한 아이템과 유사한 아이템들을 찾아 추천하는 것이다. 여기에 핵심이 아이템들 간의 유사도를 나타내는 Item-to-Item matrix로서 이것은 과거의 판매정보에서 함께 구매된 아이템들을 분석함으로써 구축할 수 있다. 이 과정은 복잡하고 계산량이 많으나 오프라인에서 가능하기 때문에 확장성이 좋다고 할 수 있다. 또한 자신과 유사한(함께 구매된) 모든 다른 아이템들을 비교하므로 추천의 질 역시 뛰어나다. Amazon.com이 방법을 제안하고 사용하고 있다.

키워드

데이터마이닝, 바구니분석, 장바구니분석, 협업필터링, Data mining

소개글

목차

본문내용

키워드

추천자료