캐글(Kaggle) 타이타닉 생존자 예측하기 -2
Feature engineering Feature 는 측량된 값, Column 을 말합니다. Feature engineering 이란 데이터 컬럼을 생성하거나 선택하는 작업, 주어진 초기 데이터로부터 특징을 가공하고 생성하는 전체 과정을 의미합니다. 거의 모든 머신러닝 Classifier 는 숫자 데이터를 사용하기 때문에 Feature engineering 을 통해 텍스트 데이터는 숫자 데이터로 만들어 Feature Vector 로 구성해주고, 결측 데이터(NaN)도 알맞은 값으로 넣어주는 작업을 해보겠습니다. Name 컬럼을 보면 호칭 정보가 있습니다. Ms 성인 여성, Miss 미혼 여성, Mrs 기혼 여성, Mr 남성 등 이러한 정보를 Title 컬럼으로 빼내고 맵핑을 해주었습니다. train_te..