- clou
-
我的专业方向在写论文的时候用的大都是省级或者地级市的经济数据,一般这些数据都是从年鉴、国民经济社会发展统计公报、各类统计年报或者政府网站上获取,但是总会遇到统计不全导致的数据缺失问题。比如环境污染相关指标、专利申请授权数等,对于这些缺失数据,我的补齐方法一般是以下几种:
一、合并不同来源的数据
结合几个不同的数据来源,选取数据的并集。对于重复数据优先选择来源较为权威的数据,或者结合前后年份和变化趋势选择较为合理的一个。
找数据真的很艰难,经常找着找着心态就崩溃了,但这是做经济实证中势必要面对的问题。作为一个学生,自己的文章要自己动手去找数据,为了得到较为准确的结果、为了这批数据以后的可重复使用性,每一个数据的准确性都要让自己安心。
二、简单计算
如果几个指标之间有明确的计算关系(比如:第二产业产值、地区生产总值、第二产业产值占地区生产总值比重),任何一个缺失都可以用另外两个计算补齐。
如果公报中连续统计了几年的地区生产总值,后来突然改为统计人均地区生产总值,同时报告了人口数据。可以验证一下地区生产总值(是否大致)=人均地区生产总值×人口。一般来说数值会有出入,但当数据实在找不到时,不要嫌麻烦,可以作为一种补齐的参考。
建议将原始数据(含有缺失值的数据)保存一下,补齐后的数据另存。因为补齐的方式有好多种,如果实证结果不理想,想从补齐数据开始重做,这样会比较方便。
三、取中间值
该方法适合于:某项指标下,前后年份均有数值,中间年份缺失。
用线性插值法补齐(年份距离比较近,可以将其变化近似看作线性以简化计算)。比如图1的专利缺失数据可以取均值,然后取整数。
图1.png
四、类似样本填补
找该指标数据类似的其他地级市来对缺失个体进行补齐。
假设想要补齐的原始数据为“地级市2002-2016年的专利申请授权数”,比较该指标下的非缺失值序列,选择非缺失年份下专利申请授权数大致相同或者有趋势关系的地级市,用它的数据直接填补或者作简单的倍数计算填补缺失的数据。
有时会找经济发展类似的其它地级市的数据进行填充,基于经济发展与专利申请授权数具有正向线性关系的假设(不太严谨)。如果用基于该假设补齐的数据做“经济发展与专利授权数关系”的研究,就是不合理的
- 真可
-
我的专业方向在写论文的时候用的大都是省级或者地级市的经济数据,一般这些数据都是从年鉴、国民经济社会发展统计公报、各类统计年报或者政府网站上获取,但是总会遇到统计不全导致的数据缺失问题。比如环境污染相关指标、专利申请授权数等,对于这些缺失数据,我的补齐方法一般是以下几种:
一、合并不同来源的数据
结合几个不同的数据来源,选取数据的并集。对于重复数据优先选择来源较为权威的数据,或者结合前后年份和变化趋势选择较为合理的一个。
找数据真的很艰难,经常找着找着心态就崩溃了,但这是做经济实证中势必要面对的问题。作为一个学生,自己的文章要自己动手去找数据,为了得到较为准确的结果、为了这批数据以后的可重复使用性,每一个数据的准确性都要让自己安心。
二、简单计算
如果几个指标之间有明确的计算关系(比如:第二产业产值、地区生产总值、第二产业产值占地区生产总值比重),任何一个缺失都可以用另外两个计算补齐。
如果公报中连续统计了几年的地区生产总值,后来突然改为统计人均地区生产总值,同时报告了人口数据。可以验证一下地区生产总值(是否大致)=人均地区生产总值×人口。一般来说数值会有出入,但当数据实在找不到时,不要嫌麻烦,可以作为一种补齐的参考。
建议将原始数据(含有缺失值的数据)保存一下,补齐后的数据另存。因为补齐的方式有好多种,如果实证结果不理想,想从补齐数据开始重做,这样会比较方便。
三、取中间值
该方法适合于:某项指标下,前后年份均有数值,中间年份缺失。
用线性插值法补齐(年份距离比较近,可以将其变化近似看作线性以简化计算)。比如图1的专利缺失数据可以取均值,然后取整数。
图1.png
四、类似样本填补
找该指标数据类似的其他地级市来对缺失个体进行补齐。
假设想要补齐的原始数据为“地级市2002-2016年的专利申请授权数”,比较该指标下的非缺失值序列,选择非缺失年份下专利申请授权数大致相同或者有趋势关系的地级市,用它的数据直接填补或者作简单的倍数计算填补缺失的数据。
有时会找经济发展类似的其它地级市的数据进行填充,基于经济发展与专利申请授权数具有正向线性关系的假设(不太严谨)。如果用基于该假设补齐的数据做“经济发展与专利授权数关系”的研究,就是不合理的
- nicehost
-
地方统计年鉴数据少了可以用别的年鉴有的数据补充吗:
地方统计年鉴数据少了不可以用别的年鉴有的数据补充。
《中国城市统计年鉴》是国家统计局城市社会经济调查司主办的、全面反映中国城市经济和社会发展情况的资料性年刊。从1985年开始,每年12月国家统计局城市社会经济调查司会收录并出版发布全国656个建制城市(含地级及以上城市和县级城市)上一年的社会经济发展和城市建设等各方面的统计数据年鉴。
- meira
-
如果你的数据是年为单位,只有6年数据,这个量不足,需要谨慎。