728x90
데이터 다운로드
아래 링크에 들어가시면 데이터셋을 다운로드할 수 있습니다.
데이터 분석
데이터를 확인해봅니다.
훈련 데이터는 테스트 데이터보다 Survived(생사) 컬럼이 하나 더 많습니다.
결측 데이터 확인
Bar 그래프를 그리는 함수를 작성하고 생사에 영향을 미치는 컬럼을 확인합니다.
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set()
def bar_chart(feature):
survived = train[train['Survived'] == 1][feature].value_counts()
dead = train[train['Survived'] == 0][feature].value_counts()
df = pd.DataFrame([survived, dead])
df.index = ['Survived', 'Dead']
df.plot(kind='bar', stacked=True, figsize=(10, 5))
성별 컬럼으로 그래프를 보시면 남성 사망자가 많습니다.
기본적으로 여성과 아이가 먼저 탈 확률이 높기 때문이라고 생각됩니다.
Pclass 컬럼은 좌석 등급을 나타내며 3등급의 사망이 높은 것을 확인할 수 있습니다.
SibSp 컬럼은 동승한 형제 수이며 0 은 홀로탄 승객입니다.
혼자일수록 사망률이 높은 것으로 보여집니다.
Parch 컬럼은 동승한 부모 수를 나타냅니다.
위와 비슷한 결과가 나타납니다.
Embarked 컬럼은 선착장을 나타냅니다.
C 선착장과 Q 선착장에서 차이가 나타나고 있습니다.
참고
'AI > ML' 카테고리의 다른 글
캐글(Kaggle) 자전거 수요 예측 -1 (0) | 2020.08.23 |
---|---|
캐글(Kaggle) 타이타닉 생존자 예측하기 -3 (0) | 2020.08.22 |
캐글(Kaggle) 타이타닉 생존자 예측하기 -2 (0) | 2020.08.22 |