什么是统计调查误差

2025/05/22 10:00

|

Aa

字体:
|

减少统计调查误差、把误差控制在科学合理范围,是调查理论研究的重要内容,也是统计实践的重要方面。在统计调查过程中,减少各个环节误差,对确保调查数据真实准确、提高统计数据质量至关重要。

一、基本概念

统计数据的生产过程主要包括统计设计、统计调查、数据整理、统计分析和数据发布等环节。统计调查误差是统计调查过程中实际获取数据结果与相应客观真值之间的差异,也可称为统计调查数据误差或调查误差。按照调查误差的表示形式不同,统计调查误差可分为绝对误差与相对误差。

二、统计调查误差的来源

按照统计调查误差产生的原因,统计调查误差可分为抽样误差和非抽样误差。抽样误差是采用随机原则从总体中抽取部分个体组成样本研究总体时,样本估计值与总体真值之间的差异;非抽样误差是指调查过程中与样本抽取无关的其他各类误差的统称。

抽样误差是由样本抽取随机性导致的,而不是调查错误的结果,只要采用抽样调查,抽样误差就不可避免。全国大型抽样调查的抽样误差需要控制在一定精度范围以内,才能保证调查结果的可靠性。例如,第五次全国经济普查个体经营户抽样调查主要调查指标相对标准误控制在5%以内。

非抽样误差是相对于抽样误差而言的,指除了抽样随机性以外,由于其他多种原因引起的调查结果与总体真值之间的差异。在抽样调查和全面调查(普查)中都可能存在非抽样误差,具体产生的原因包括:(1)全面调查中由于统计指标、统计分组、调查方法设计不周、调查对象范围界定不清而产生的涵盖误差;(2)抽样调查构造抽样框时,目标总体与抽样总体不一致所导致的抽样框误差;(3)由于被调查对象无回答造成的无回答误差;(4)统计人员填写调查表错误,以及数据录入、整理、处理等环节中存在错误所产生的测量误差。实践中,非抽样误差通常是上述全部或部分原因综合作用结果。例如,第七次全国人口普查事后质量抽查结果显示普查人口漏登率为0.05%,这主要是普查中各种非抽样误差的综合影响结果。

三、如何正确理解统计调查误差

统计调查误差是反映调查数据质量的重要指标。调查误差越大,准确性越低,调查数据质量越差;调查误差越小,准确性越高,调查数据质量越好。

首先,统计调查误差可以作为评判一项调查结果是否准确可靠的重要依据。当调查误差被控制在可接受范围内时,统计推断的结果才有意义。我国2016年“公众生态环境满意度”抽样调查在省级层面的绝对误差低于3%的控制目标,据此可认为抽样方案设计科学、合理,样本具有良好的代表性,估计精度能够同时满足全国和省级层面的数据使用需要。

其次,统计调查误差可以作为对比调查数据质量的重要依据。全国农业普查公报显示,数据填报综合差错率已经由1996年第一次普查的4.9‰下降为2016年第三次普查的3.3‰。这说明我国农业普查经过20年的实践探索,数据质量在稳步提高。

四、如何测量统计调查误差

均方误差模型可表示统计调查误差,令总体参数真值为,统计调查值为,调查值的数学期望为,则均方误差。其中,为调查方差,用来测量多种误差因素对调查结果产生的方差总和;为净偏差,用来测量多种误差因素对调查结果产生的偏差总和。如图1所示,均方误差模型可用直角三角形的三边表示,从理论上描述了统计调查误差的数量关系,实践中统计调查误差的测量具体体现为对抽样误差和非抽样误差的测量。

1 均方误差、偏差及方差的数量关系

(一)抽样误差的测量

调查指标估计量的方差是抽样误差的具体形式。以简单随机抽样为例,若从某个包含200户的居委会中采用不重复简单随机抽样抽取10户家庭估计该居委会家庭户均人口规模为4.3人,10户样本家庭户均规模的方差为2.23。该调查的抽样误差为:

(二)非抽样误差的测量

令总体参数真值为,统计调查值为,统计调查数据的绝对误差是,相对误差是。在实际工作中,可将数据质量相对较高的事后重复调查数据作为推算统计误差的真值标准。例如,人口普查中某普查小区调查登记的人口是1005人,在事后质量抽查中被抽中为复查点,经过重新调查登记核对,最终确定该普查小区人口为1000人。那么,该小区普查登记的人口统计数据的绝对误差是5人,相对误差是5‰。对于全面调查(普查)而言,非抽样误差是各种误差因素综合作用的结果,一般可通过事后重复调查进行推算,以绝对误差或相对误差的偏差形式予以表现,例如,第七次全国人口普查事后质量抽查估计的普查人口漏登率为0.05%,即以普查登记的31个省、自治区、直辖市和现役军人的人口共1411778724人为基础,根据事后抽查测算结果,此次人口普查大约漏登了705890人。

五、如何控制统计调查误差

对于非抽样误差,主要控制措施有:(1)提高统计设计的科学性。(2)加强培训,提高调查员素质。(3)降低被调查者的不回答率和回答误差。(4)采用先进的信息处理技术,降低数据汇总整理过程中的误差。例如,第三次全国农业普查前制定了周全细致的试点方案,普查中开展广泛的培训与动员宣传、采用遥感信息技术和手持电子设备,普查登记后采用先进的计算机处理技术,切实防范和降低各种统计误差,有效地保证农业普查的数据质量。第三次全国农业普查公报显示农业普查登记户的漏报率为0.19%,普查指标数据差异率为0.4%。

对于抽样误差,主要控制措施有:(1)设计科学合理的抽样方案。全国大型抽样调查的抽样方案通常是多种抽样方法的组合,保证从总体中抽取出有代表性的样本。(2)适当增加样本量。如图2所示,在其他条件相同的情况下,样本量越大,抽样误差越小,在确定最终样本量时还要考虑可承受的调查成本。

图2 抽样误差与样本量的关系

减少统计调查误差、把误差控制在科学合理范围,是调查理论研究的重要内容,也是统计实践的重要方面。在统计调查过程中,减少各个环节误差,对确保调查数据真实准确、提高统计数据质量至关重要。

一、基本概念

统计数据的生产过程主要包括统计设计、统计调查、数据整理、统计分析和数据发布等环节。统计调查误差是统计调查过程中实际获取数据结果与相应客观真值之间的差异,也可称为统计调查数据误差或调查误差。按照调查误差的表示形式不同,统计调查误差可分为绝对误差与相对误差。

二、统计调查误差的来源

按照统计调查误差产生的原因,统计调查误差可分为抽样误差和非抽样误差。抽样误差是采用随机原则从总体中抽取部分个体组成样本研究总体时,样本估计值与总体真值之间的差异;非抽样误差是指调查过程中与样本抽取无关的其他各类误差的统称。

抽样误差是由样本抽取随机性导致的,而不是调查错误的结果,只要采用抽样调查,抽样误差就不可避免。全国大型抽样调查的抽样误差需要控制在一定精度范围以内,才能保证调查结果的可靠性。例如,第五次全国经济普查个体经营户抽样调查主要调查指标相对标准误控制在5%以内。

非抽样误差是相对于抽样误差而言的,指除了抽样随机性以外,由于其他多种原因引起的调查结果与总体真值之间的差异。在抽样调查和全面调查(普查)中都可能存在非抽样误差,具体产生的原因包括:(1)全面调查中由于统计指标、统计分组、调查方法设计不周、调查对象范围界定不清而产生的涵盖误差;(2)抽样调查构造抽样框时,目标总体与抽样总体不一致所导致的抽样框误差;(3)由于被调查对象无回答造成的无回答误差;(4)统计人员填写调查表错误,以及数据录入、整理、处理等环节中存在错误所产生的测量误差。实践中,非抽样误差通常是上述全部或部分原因综合作用结果。例如,第七次全国人口普查事后质量抽查结果显示普查人口漏登率为0.05%,这主要是普查中各种非抽样误差的综合影响结果。

三、如何正确理解统计调查误差

统计调查误差是反映调查数据质量的重要指标。调查误差越大,准确性越低,调查数据质量越差;调查误差越小,准确性越高,调查数据质量越好。

首先,统计调查误差可以作为评判一项调查结果是否准确可靠的重要依据。当调查误差被控制在可接受范围内时,统计推断的结果才有意义。我国2016年“公众生态环境满意度”抽样调查在省级层面的绝对误差低于3%的控制目标,据此可认为抽样方案设计科学、合理,样本具有良好的代表性,估计精度能够同时满足全国和省级层面的数据使用需要。

其次,统计调查误差可以作为对比调查数据质量的重要依据。全国农业普查公报显示,数据填报综合差错率已经由1996年第一次普查的4.9‰下降为2016年第三次普查的3.3‰。这说明我国农业普查经过20年的实践探索,数据质量在稳步提高。

四、如何测量统计调查误差

均方误差模型可表示统计调查误差,令总体参数真值为,统计调查值为,调查值的数学期望为,则均方误差。其中,为调查方差,用来测量多种误差因素对调查结果产生的方差总和;为净偏差,用来测量多种误差因素对调查结果产生的偏差总和。如图1所示,均方误差模型可用直角三角形的三边表示,从理论上描述了统计调查误差的数量关系,实践中统计调查误差的测量具体体现为对抽样误差和非抽样误差的测量。

1 均方误差、偏差及方差的数量关系

(一)抽样误差的测量

调查指标估计量的方差是抽样误差的具体形式。以简单随机抽样为例,若从某个包含200户的居委会中采用不重复简单随机抽样抽取10户家庭估计该居委会家庭户均人口规模为4.3人,10户样本家庭户均规模的方差为2.23。该调查的抽样误差为:

(二)非抽样误差的测量

令总体参数真值为,统计调查值为,统计调查数据的绝对误差是,相对误差是。在实际工作中,可将数据质量相对较高的事后重复调查数据作为推算统计误差的真值标准。例如,人口普查中某普查小区调查登记的人口是1005人,在事后质量抽查中被抽中为复查点,经过重新调查登记核对,最终确定该普查小区人口为1000人。那么,该小区普查登记的人口统计数据的绝对误差是5人,相对误差是5‰。对于全面调查(普查)而言,非抽样误差是各种误差因素综合作用的结果,一般可通过事后重复调查进行推算,以绝对误差或相对误差的偏差形式予以表现,例如,第七次全国人口普查事后质量抽查估计的普查人口漏登率为0.05%,即以普查登记的31个省、自治区、直辖市和现役军人的人口共1411778724人为基础,根据事后抽查测算结果,此次人口普查大约漏登了705890人。

五、如何控制统计调查误差

对于非抽样误差,主要控制措施有:(1)提高统计设计的科学性。(2)加强培训,提高调查员素质。(3)降低被调查者的不回答率和回答误差。(4)采用先进的信息处理技术,降低数据汇总整理过程中的误差。例如,第三次全国农业普查前制定了周全细致的试点方案,普查中开展广泛的培训与动员宣传、采用遥感信息技术和手持电子设备,普查登记后采用先进的计算机处理技术,切实防范和降低各种统计误差,有效地保证农业普查的数据质量。第三次全国农业普查公报显示农业普查登记户的漏报率为0.19%,普查指标数据差异率为0.4%。

对于抽样误差,主要控制措施有:(1)设计科学合理的抽样方案。全国大型抽样调查的抽样方案通常是多种抽样方法的组合,保证从总体中抽取出有代表性的样本。(2)适当增加样本量。如图2所示,在其他条件相同的情况下,样本量越大,抽样误差越小,在确定最终样本量时还要考虑可承受的调查成本。

图2 抽样误差与样本量的关系