一、2012年的出生人口莫名其妙增加了20.7%
今天打开百度,被推送了一则百家号的文章《过去十年出生人口修订数据盘点:2012年增加最多》,文章核心内容有两点:
1、根据我国现行的统计调查制度,大面积人口普查每10年进行一次,两次普查之间的年份开展抽样调查,非普查年份出生人口主要是通过抽样调查数据推算的。由于抽样调查误差的存在,在利用抽样比推算人口总体时会存在一定的差异,反映在数据上就是部分年份公布的出生人口偏低。因此本次人口普查之后会对两次普查之间的抽样推算数据进行修订,这将消除目前抽样推算的数据和人口普查获得的新数据之间的差异。
2、第一财经记者根据近期公布的《中国统计年鉴2021》里的人口出生率与历年人口数据,对过去十年出生人口数据推算梳理显示,修订后,两次普查期间,我国出生人口比修订之前增加了约1015万人,每年的具体情况如下:
看到这里,管老师感觉真的是离了大谱。原因在于,2015、2018、2019年几乎没有误差,2012年统计出生1635万,修订成了1973万,误差何以达到20.7%?样本量如此庞大,竟有这等误差,这在统计学上不科学。于是管老师耐心翻了最近12年的《中国统计年鉴》及第六次人口普查数据,发现了一个非常有趣的事情。
二、2020年及以前的中国统计年鉴还算靠谱
首先我们知道,人口不是凭空产生的,也不是凭空消失的,而且每一个人都会随着时间的流逝增加年龄。比方说,你是1995年生人,那么在第六次人口普查(2010年11月1日),你会被统计为“15岁”,在《中国统计年鉴2016》(2015年12月31日),你会被统计为“20岁”,在《中国统计年鉴2021》(2020年12月31日),你会被统计为“25岁”。
有了这个前提,各年份的《中国统计年鉴》就不是彼此独立的了,而是其中有内在联系的。用列表简单说明:
先注明:
1、2010年和2020年大普查是几乎全覆盖,2015年小普查的覆盖率是1.55%,其他年份的覆盖率是万分之八左右,存在数量级的差别。
2、表上2019年15-19岁的数据是怎么来的呢?答:2019年15-19岁的登记人数是55822人,抽样率是0.78‰,所以55822÷0.78‰=71566667人。
2010年“5-9岁”人口,是2001-2005年这5年间出生的,到了2015年则被统计为“10-14岁”人口,到了2020年则被统计为“15-19岁”人口,这三组数据即“同一拨人在不同年份的被统计数量”,在图中都给标蓝了。我们下文中简称为“孪生数”。照理说,2020年的“15-19岁”人口应该少于2010年“5-9岁”人口,因为后者中有一部分在这10年间死亡。但由于只统计30岁以下的人口,这部分人死亡率并不高,10年死亡率也到不了1%,相比于统计局动辄20.7%的“误差”,是完全可以忽略的。
透过这个数据初步处理的表,我们可以去分析一件事,普通年份的年鉴,数据真的不靠谱吗?真的会对推算当年出生人口造成如此大的误差吗?我们先排除2020年的数据,拿2010年-2019年的数据做个偏差分析。比如2019年5-9岁的人口相比2014年0-4岁的人口偏差有多少,即统计孪生数的偏差,就这样我们能够列出25组数据:
其中22组孪生数的偏差不到1%,1组孪生数的偏差在1%-2%,2组孪生数的偏差在5%左右。具体如下图:
这个图怎么理解,就是说2019年5-9岁的人数,和2014年0-4岁的人数基本一致。像这样基本一致的有22组,略微有偏差的有1组,偏差相对较大的有1组。至此,基本可以说明2020年及以前的中国统计年鉴,起码在人口年龄的统计中,还算靠谱。
三、《中国统计年鉴2021》离了大谱
之前的那个表,管老师把2020年的数据排除了,是因为那个2020年的数据相当令人震惊,现在让它回归:
也许你仍然不理解这些百分比,那咱们放之前的图:
标橙色部分:2010年0-4岁的7553万→2015年5-9岁的7579万,这个属于统计误差,可以理解,但是→2020年,DUANG!10-14岁的8526万?比之前活活多了1000万?
标红色部分:2015年0-4岁的8023万→2020年,DUANG!5-9岁的9024万?又比之前活活多了1000万?
标黄色部分:2010年15-19岁的9989万→2015年20-24岁的10031万,这个属于统计误差,可以理解,但是→2020年,DUANG!25-29岁的9185万?比之前活活少了800万?这800万人是怎么没的?
奇怪的并不是2021年的数据偏差这么大,奇怪的是:
1、如果说统计基础薄弱,方法不得当,你可以有这么大的偏差。然!鹅!你过去十年非常正常,已经证明了,你的统计基础非常强大,你的方法非常得当,你的抽样非常科学。
2、如果说往年的数据都不准,唯独2021的准。那么2021年的数据应该没有任何延续性,你怎么解释2021年15-19岁(标蓝色部分)、20-24岁(标绿色部分)的统计相对准确?
那么为什么唯独2021年这么不正常?为什么会这么离谱?管老师想只有一种原因,但是基于这个号还想要的理由,就不多说了。
另外再说一点,就是一个人说谎只有0次和无数次。比如说管老师跟妹子吹牛说“我有十套别墅、三个游艇和一个飞机”,妹子去求证发现这货实际只有一套公寓,那游艇和飞机十有八九是没有的了。同理,现在《中国统计年鉴2021》说,“2020年0-4岁人口7788万人,5-9岁人口9024万人,10-14岁人口8526万人”,现在你已经知道它说的5-9岁人口、10-14岁人口有问题,那你还能相信他说的0-4岁人口数据吗?更进一步,你无法相信5年的出生人口数据,就能够相信1年的出生人口数据吗?
依管老师看,2020年的出生人口数据,虽然数量很低,但是同时也是今后数量最高的一年;虽然可信度也很低,但是同时也是今后可信度最高的一年。结论就是,你恐怕再也无法通过官方口径得知未来中国每年的出生人口了。
参考资料:
1、中国统计年鉴:
http://www.stats.gov.cn/tjsj/ndsj/
1.1、2021年(统计2020年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2021/indexch.htm
表2-17 按年龄和性别分人口数(2020年)
1.2、2020年(统计2019年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2020/indexch.htm
表2-9 按年龄和性别分人口数(2019年)
1.3、2019年(统计2018年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2019/indexch.htm
表2-9 按年龄和性别分人口数(2018年)
1.4、2018年(统计2017年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2018/indexch.htm
表2-9 按年龄和性别分人口数(2017年)
1.5、2017年(统计2016年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2017/indexch.htm
表2-9 按年龄和性别分人口数(2016年)
1.6、2016年(统计2015年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2016/indexch.htm
表2-9 按年龄和性别分人口数(2015年)
1.7、2015年(统计2014年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2015/indexch.htm
表2-8 按年龄和性别分人口数(2014年)
1.8、2014年(统计2013年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2014/indexch.htm
表2-8 按年龄和性别分人口数(2013年)
1.9、2013年(统计2012年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2013/indexch.htm
表3-10 按年龄和性别分人口数(2012年)
1.10、2012年(统计2011年年末人口):
http://www.stats.gov.cn/tjsj/ndsj/2012/indexch.htm
表3-8 按年龄和性别分人口数 (2011年)
2、第六次人口普查数据:(统计2010年11月1日人口):
http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm
表3-1 全国分年龄、性别的人口
发送给作者