본문내용
1. Dataset 에 대한 설명 (1)
Age (나이) : continuous (연속형 변수)
Workclass(직업) : private (자영업),
Self-emp-not-inc (법인이 없는 개인사업가),
Self-emp-inc ( 법인이 있는 개인사업가)….
fnlwgt(미지의 변수) : continuous(연속형 변수)
Education(교육) : Bachelors (학사),
Some-college (전문대)…
Marital – status(결혼유무) : Married-civ-spouse(기혼),
Divorced (이혼), Never-married (미혼)
Ooccupation : Tech-support(기술자)Craft-repair (기능공), Other-service (제3서비스업)
Relationship : Wife (아내), Own-child (자녀)
Husband (남편)
Race(인종) : Asian-Pac-Islander (아시아계), White (백인)
Class ( Target변수 ) : 1 (소득 50000$ 이상), 0 (50000$ 이하)
2. 프로젝트 노드 흐름도
3. 변수들의 변환 과정
4. Sampling, Partition, Replacement
총자료의 개수가 32563이므로,그 의 10%인 3256개의 샘플을 뽑는다.
Data의 수가 많으므로(32562개) 데이터 파티션의 비율을 4:3:3 으로 하여 나눈다.
imputation method를 tree imputation with surrogates 로 선택한다.
5. Adult 데이터의 분석
Age (나이) : continuous (연속형 변수)
Workclass(직업) : private (자영업),
Self-emp-not-inc (법인이 없는 개인사업가),
Self-emp-inc ( 법인이 있는 개인사업가)….
fnlwgt(미지의 변수) : continuous(연속형 변수)
Education(교육) : Bachelors (학사),
Some-college (전문대)…
Marital – status(결혼유무) : Married-civ-spouse(기혼),
Divorced (이혼), Never-married (미혼)
Ooccupation : Tech-support(기술자)Craft-repair (기능공), Other-service (제3서비스업)
Relationship : Wife (아내), Own-child (자녀)
Husband (남편)
Race(인종) : Asian-Pac-Islander (아시아계), White (백인)
Class ( Target변수 ) : 1 (소득 50000$ 이상), 0 (50000$ 이하)
2. 프로젝트 노드 흐름도
3. 변수들의 변환 과정
4. Sampling, Partition, Replacement
총자료의 개수가 32563이므로,그 의 10%인 3256개의 샘플을 뽑는다.
Data의 수가 많으므로(32562개) 데이터 파티션의 비율을 4:3:3 으로 하여 나눈다.
imputation method를 tree imputation with surrogates 로 선택한다.
5. Adult 데이터의 분석
소개글