-
kaggle 데이터(2019 Corona)시각화 따라하기카테고리 없음 2020. 3. 5. 21:20
요즘 코로나 바이러스19에 대한 위험 단계가 '심각' 🤢 에 이르면서, 우리 회사에서도 재택근무를 시행하고 있을 만큼 다들 주의를 기울이고 있는듯 하다.
오늘 준비한 kaggle 데이터는 바로 Coronavirus-covid-19에 대한 자료이다.
https://www.kaggle.com/brendaso/2019-coronavirus-dataset-01212020-01262020
2020년 1월부터 2월까지 코로나 바이러스에 대한 감염 이력 데이터이다. 지역과 발병 여부에 대한 정보가 담겨 있어, 지도를 이용한 시각화를 효과적으로 할 수 있다.
import numpy as np
import pandas as pd # visualization
import matplotlib.pyplot as plt
import seaborn as sns import folium
conf_df = pd.read_csv('C:/Users/User/hwao/time_series_2019-ncov-Confirmed.csv')
deaths_df = pd.read_csv('C:/Users/User/hwao//time_series_2019-ncov-Deaths.csv')
recv_df = pd.read_csv('C:/Users/User/hwao//time_series_2019-ncov-Recovered.csv')
여기서 melt라는 함수가 나오는데, 굉장히 유용하게 사용하였다. id_vars를 통해, 인덱스 컬럼들을 유지시키고 value_vars=dates 로 설정하여, date (이전에 컬럼 명을 뽑아 놓은 리스트) 날짜의 경우 하나의 column으로 재구조화한다. 이때, 기존에 date가 가지고 있었던 value의 경우, 따로 열을 만들게 된다.
이후 지역별로 확진자, 사망, 완치된 사람들의 수를 groupby.sum()으로 합산하였고 확진자를 기준으로 확진자 중 사망과 완치의 확률을 따로 열로 만들었다.
다음은 위치 값에 대한 지도 시각화 라이브러리 이다. folium에서는 html상 웹화면 지도를 반환하여, 한눈에 확진자와 사망, 완치자의 위치 정보를 파악하는 데 용이하다. 한국의 경우도 지도를 제공하고 있다고 하니, 한국 데이터에 위치값이 있을 경우, 사용해보는 것도 좋을 것 같다.