针对新冠病毒疫情数据的清洗脚本和清洗后的数据。 在原有基础上增加对全世界各国的数据处理。
源数据使用 /~https://github.com/BlankerL 的 /~https://github.com/BlankerL/DXY-COVID-19-Data/blob/master/csv/DXYArea.csv 其定时从丁香园网站抓取的原始各地区上报数据
原始数据格式如下
continentName | continentEnglishName | countryName | ountryEnglishName | provinceName | provinceEnglishName | province_zipCode | province_confirmedCount | province_suspectedCount | province_curedCount | province_deadCount | updateTime | cityName | cityEnglishName | city_zipCode | city_confirmedCount | city_suspectedCount | city_curedCount | city_deadCount |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
亚洲 | Asia | 中国 | China | 重庆市 | Chongqing | 500000 | 573 | 0 | 328 | 6 | 2020-02-23 07:18:21 | 渝中区 | Yuzhong District | 500103 | 20 | 0 | 15 | 0 |
欧洲 | Europe | 卢森堡 | Luxembourg | 卢森堡 | Luxembourg | 961004 | 335 | 0 | 0 | 4 | 2020-03-20 12:33:45 | NA | NA | NA | NA | NA | NA | NA |
针对数据的改进:
1.原始数据每天都会多次抓取数据,同一个地区每天存在多条记录,因为原始统计数据并不是连续时效性的,各地区并不是按小时的时间段发布,因此每天只需要一条数据
2.源数据不能直观的看出中国的累计数量,只能看出各个省份的信息。
因此需要对中国与其他国家数据分开处理,通过累加各个省份的人数来得到中国的累计信息。其中境外输入数据也包含在中国的累计信息当中。
- world_data.py 对于中国,统计每个城市的信息和;对于其他国家,保留各个国家每天最新的一条数据
- data_step1.py 第一步处理 本脚本将各省市每天的数据进行去重处理,每个省市只保留最新的一条数据 (也可选择保留当天最大数值)
- data_step2.py 第二步处理 基于data_step1.py的输出文件, 计算每天的新增数据,通过当天数据减去前一天数据的方式,计算出每天新增数据
说明:各地区数据质量不同,同时存在后面修正前期数据,进行核销的处理,因此有时候当天数据会比前一天还少,新增数据为负
data 目录存放了清洗出的数据。
nCov_china_0312 是3月12日中国的数据。
nCov_world_0516 是5月16日全世界的数据。
输出数据格式如下
国家 | 确诊 | 治愈 | 死亡 | 日期 |
---|---|---|---|---|
阿曼 | 19 | 2 | 0 | 2020-03-13 |
2020.2.16 cz
由于原始数据有一些缺陷,导致之前计算新增数据时存在不准确,新增数据和累计数据对不齐得问题
这两天修改脚本,增加了对原始数据不完整的问题进行动态修正,基本解决了数据的问题
同时这两天原始数据质量也在提升
今天更新了脚本,同时更新了我清洗后的数据,以及excel表格,excel表格现在调整为修改原始数据表单后,所有图表和数据可动态更新,数据表单更新后,只要对数据透视表的分析菜单手动操作一次全部刷新即可
excel文件增加了全国及湖北疑似病例的数据,这个数据是手动收集,原始数据没有
脚本增加了直接数据写入excel文件的代码,我设置了开关,但现在将其屏蔽了,因为发现用py库操作excel文件,数据是正确的,但有些图表样式会丢失
借这个项目也熟悉了PY的数据分析方法,后续可能考虑尝试透视图及图表也用python脚本来做
最近excel文件中增加了一些手动维护的数据,湖北省,武汉市,全国的疑似数据,武汉市内各区的数据。并做了预测模型
原始数据格式变化,增加了国外数据,导致城市字段出现空值。调整脚本后可以处理,但是本脚本仅处理中国数据。 海外数据的渠道来源很多,源数据中的海外数据其实信息很少,老实说没必要加入海外数据,或者另外做一个文件才好。
格式变化后,源数据膨胀很多,建议运行脚本处理前删除不必要的列,仅保留 provinceName,cityName,province_confirmedCount,province_curedCount,province_deadCount,city_confirmedCount,city_curedCount,city_deadCount,updateTime
这些字段,处理速度可以快不少
由于raw.githubusercontent.com 被DNS污染,部分地区不能下载。大家可以试试我的百度云链接,数据更新到5月16号。 链接:https://pan.baidu.com/s/1QRaTV1OCTDDpLtuZ3JDtBA 提取码:u2d1
合并了 tiffanyXiaoqing 提交的修改,支持世界数据筛选脚本