교차검증, 하이퍼파라미터 튜닝

라이브러리 임포트 및 변수 설정

변수 설정
- features : 특성
- target : 타겟변수
출력
- survived인 값만 카운트

# 필요한 라이브러리 임포트
import pandas as pd  # 데이터 처리를 위한 pandas
import numpy as np   # 수치 계산을 위한 numpy
from sklearn.ensemble import RandomForestClassifier  # 랜덤 포레스트 분류기
from sklearn.svm import SVC  # 서포트 벡터 머신
from sklearn.linear_model import LogisticRegression  # 로지스틱 회귀
from sklearn.model_selection import train_test_split, cross_val_score  # 데이터 분할 및 교차 검증
from sklearn.metrics import accuracy_score  # 정확도 평가 지표

# 데이터 가져오기
data = pd.read_csv("train.csv")
data.head()

# 모델링에 사용할 특성(feature)과 타겟(taarget) 변수 선택
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']  # 승객 등급, 성별, 나이, 동반자 수, 요금, 탑승 항구
target = 'Survived'  # 생존 여부 (0: 사망, 1: 생존)
data['Survived'].value_counts() # 비율이 5:5 (x) ==> 클래스 불균형, Class Imbalanced

결측치 확인

data.info()

데이터 전처리

map함수 이용 → 0,1,2로 값 변환

# data['Sex'].unique()
data['Sex'] = data['Sex'].map({'male':0, 'female':1}) 
data['Embarked'] = data['Embarked'].map({'C':0, 'Q':1, 'S':2})

확인

data['Sex'], data['Embarked']

data['Embarked'].value_counts()