이론
-
평가지표 : RMSLE 사용
- 차이(실제값 - 예측값) / N
- 차이의 제곱, 차이의 절대값, 차이 로그변환, etc
- 공통 원리 : 평가지표의 값은 낮으면 낮을 수록 좋은 모델
-
프로세스 (순서)
- 데이터 수집
- 데이터 가공, 탐색적 분석
- 데이터셋 분리
- 모델링
- 평가지표
- 모델 선정
- test.csv에 적용
- submission 파일로 내보내기 => 웹서비스 구현
- kaggle 업로드
데이터 가공 및 탐색적 분석
train.isnull().sum() # 데이터 가공 == 결측치 확인

Feature Enginnering
- 수치데이터를 처리하는 방식 (Min-Max 정규화, z 점수 표준화) ⇒ 스케일링
- 수치 데이터마다 단위가 다름 -> 단위 통일성 필요
- 범주데이터를 처리하는 방식 (Sex:female, male) ⇒ 인코딩
- one-hot encoding (여기서 이것만)
- ordinal encoding (서열 척도: 등급)
예시
- 시도 : 강원도 ~ 제주도
- 연구통계-사회과학 관점에서는 one-hot encoding
- 경제학 관점에서는 ordinal encoding
인코딩 변환
# Sex 컬럼을 one-hot encoding, pandas method 존재
sex_encoded = pd.get_dummies(train['Sex'], prefix = 'Sex') # 범주형 데이터에서 더미형태의 데이터로 변환
train = pd.concat([train, sex_encoded], axis = 1) # 데이터셋 합치기
train.head(1)

train = train.drop('Sex', axis = 1)
train.head(1)