COVID-19(DS4C)的数据科学
DS4C:韩国COVID-19的数据科学
COVID-19已在韩国感染了10,000多人。韩国疾病预防控制中心(KCDC)迅速透明地宣布了COVID-19的信息。
我们根据KCDC和地方政府的报告材料制作结构化的数据集。
此外,我们使用各种数据挖掘或可视化技术来分析和可视化数据。
1.数据表清单
1)案例数据
病例:韩国COVID-19感染病例数据
2)患者资料
PatientInfo:韩国COVID-19患者的流行病学数据
PatientRoute:韩国COVID-19患者的路线数据(当前不可用)
3)时间序列数据
时间:韩国COVID-19状态的时间序列数据
TimeAge:按韩国年龄划分的COVID-19状态的时间序列数据
TimeGender:韩国按性别划分的COVID-19状态的时间序列数据
TimeProvince:以韩国省为单位的COVID-19状态的时间序列数据
4)附加数据
地区:韩国地区的位置和统计数据
天气:韩国地区的天气数据
SearchTrend:在NAVER(韩国最大的门户网站之一)中搜索的关键字的趋势数据
首尔流动人口:韩国首尔的流动人口数据(来自SK Telecom Big Data Hub)
政策:韩国针对COVID-19的政府政策数据
2.我们数据集的结构
颜色的意思是它们具有相似的属性。
如果在列之间连接了一条线,则意味着列的值被部分共享。
虚线表示相关性较弱.db_0701
3.每个数据表的详细说明
案例= p_info = pd.read_csv(path +'Case.csv')
p_info = pd.read_csv(path +'PatientInfo.csv')
#p_route = pd.read_csv(路径+'PatientRoute.csv')
时间= pd.read_csv(路径+'Time.csv')
t_age = pd.read_csv(path +'TimeAge.csv')
t_gender = pd.read_csv(path +'TimeGender.csv')
t_provin = pd.read_csv(path +'TimeProvince.csv')
区域= pd.read_csv(路径+'Region.csv')
天气= pd.read_csv(路径+'Weather.csv')
搜索= pd.read_csv(路径+'SearchTrend.csv')
浮动= pd.read_csv(路径+'SeoulFloating.csv')
策略= pd.read_csv(路径+'Policy.csv')
我们根据KCDC和地方政府的报告材料制作结构化的数据集。
在韩国,我们使用术语“ -do”,“-si”,“-gun”和“ -gu”
它们的含义解释如下。
韩国行政区划的级别
上级(省级师)
特殊城市:首尔
大城市:釜山/大邱/大田/光州/仁川/蔚山
省份:京畿道/江原道/忠清北道/忠清南道/全罗北道/全罗南道/庆尚北道/庆尚南道
下级(市级师)
City(-si)韩国城市列表
国家(郡)韩国县列表
District(-gu)韩国地区列表
1)案例
韩国COVID-19感染病例数据
case_id:感染病例的ID
case_id(7)= region_code(5)+ case_number(2)
您可以在“ Region.csv”中检查region_code
省:特殊城市/大城市/省(-做)
城市:城市(-si)/国家(-gun)/地区(-gu)
“来自其他城市”的值表示团体感染开始的地方是其他城市。
组:TRUE:组感染/ FALSE:非组
如果此列中的值为“ TRUE”,则“ infection_cases”的值表示组的名称。
名为“与患者联系”,“海外流入”和“等”的值不是组感染。
fection_case:感染病例(组名或其他病例)
“海外流入”是指感染来自其他国家。
“等”值包括个别案件,调查后仍在进行关联分类的案件以及正在调查的案件。
确认:已确认的累计数量
纬度:组的纬度(WGS84)
经度:组的经度(WGS)