본문으로 바로가기

캐글(Kaggle) 타이타닉 생존자 예측하기 -1

category AI/ML 2020. 8. 22. 05:08
728x90

 

 

데이터 다운로드

 

아래 링크에 들어가시면 데이터셋을 다운로드할 수 있습니다.

 

Titanic: Machine Learning from Disaster

Start here! Predict survival on the Titanic and get familiar with ML basics

www.kaggle.com

 

데이터 분석

 

데이터를 확인해봅니다.

훈련 데이터는 테스트 데이터보다 Survived(생사) 컬럼이 하나 더 많습니다.

 

 

 

결측 데이터 확인

 

 

 

Bar 그래프를 그리는 함수를 작성하고 생사에 영향을 미치는 컬럼을 확인합니다.

import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set()

def bar_chart(feature):
    survived = train[train['Survived'] == 1][feature].value_counts()
    dead = train[train['Survived'] == 0][feature].value_counts()
    df = pd.DataFrame([survived, dead])
    df.index = ['Survived', 'Dead']
    df.plot(kind='bar', stacked=True, figsize=(10, 5))

 

 

성별 컬럼으로 그래프를 보시면 남성 사망자가 많습니다.

기본적으로 여성과 아이가 먼저 탈 확률이 높기 때문이라고 생각됩니다.

 

 

 

Pclass 컬럼은 좌석 등급을 나타내며 3등급의 사망이 높은 것을 확인할 수 있습니다.

 

 

 

SibSp 컬럼은 동승한 형제 수이며 0 은 홀로탄 승객입니다.

혼자일수록 사망률이 높은 것으로 보여집니다.

 

 

 

Parch 컬럼은 동승한 부모 수를 나타냅니다.

위와 비슷한 결과가 나타납니다.

 

 

Embarked 컬럼은 선착장을 나타냅니다.

C 선착장과 Q 선착장에서 차이가 나타나고 있습니다.

 

 

 

참고