교차검증, 하이퍼파라미터 튜닝
라이브러리 임포트 및 변수 설정
- 변수 설정
- features : 특성
- target : 타겟변수
- 출력
# 필요한 라이브러리 임포트
import pandas as pd # 데이터 처리를 위한 pandas
import numpy as np # 수치 계산을 위한 numpy
from sklearn.ensemble import RandomForestClassifier # 랜덤 포레스트 분류기
from sklearn.svm import SVC # 서포트 벡터 머신
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀
from sklearn.model_selection import train_test_split, cross_val_score # 데이터 분할 및 교차 검증
from sklearn.metrics import accuracy_score # 정확도 평가 지표
# 데이터 가져오기
data = pd.read_csv("train.csv")
data.head()
# 모델링에 사용할 특성(feature)과 타겟(taarget) 변수 선택
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] # 승객 등급, 성별, 나이, 동반자 수, 요금, 탑승 항구
target = 'Survived' # 생존 여부 (0: 사망, 1: 생존)
data['Survived'].value_counts() # 비율이 5:5 (x) ==> 클래스 불균형, Class Imbalanced

결측치 확인
data.info()

데이터 전처리
# data['Sex'].unique()
data['Sex'] = data['Sex'].map({'male':0, 'female':1})
data['Embarked'] = data['Embarked'].map({'C':0, 'Q':1, 'S':2})
확인
data['Sex'], data['Embarked']

data['Embarked'].value_counts()
