中国抽样调查应用中的若干问题

来源：吉趣旅游网

中国抽样调查应用中的若干问题

一、若干问题

近年来,我国抽样调查的应用有了很大的发展，但也存在不少问题。如果我们不重视这些问题，将成为今后发展的严重障碍。以下提出一些我国抽样调查应用中的若干主要问题，并简要地提出相应的对策。（一）对样本代表性的片面认识

抽样调查作为一种非全面调查方法，需要根据样本对总体进行推断，它在发展的一开始就围绕所抽取的样本对总体的代表性展开过一系的争论。所谓对总体有代表性的样本是指样本的结构及样本均值等重要指标应与总体结构及总体均值等相应指标基本保持一致。早在 19 3 4年奈曼已指出概率样本能够用来对总体进行推断。换言之，根据概率抽样获得的样本就能保证对总体的代表性。因此，现在通常的理解样本代表性主要用于非概率样本，而不针对一个具体的概率样本。但在我国，许多统计工作者，甚至一些教科书中还经常对根据概率抽样得到的样本对总体的代表性提出质疑。在一些抽样方案中甚至包括所谓“样本代表性检验”的程序。其中一种常用的方法是比较某种辅助变量的样本均值（或分布）与总体的一致性。这种检验既不科学，也不必要。对代表性检验结果若是不满意（即样本对总体代表性不好），一般采用调整或重抽的方法。这就破坏了样本的随机性。实际上，对于这种所谓代表性不好或差的样本，可以根据其他方法，例如上面提到的利用辅助变量，采用适当的估计以提高估计量的精度。因此可认为：理论与实际都已表明“代表性抽样”早已过时，而“代表性检验”则是不科学的。（二）对某些抽样方法，特别是按有关标识排队的系统抽样方法的滥用系统抽样，即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低，实施也比较简单。更为重要的是，如果有某种与调查指标相关的辅助变量可供使用，总体单元按辅助变量的大小顺序排队的话，使用系统抽样可以大大提高估计精度。正因为这一点，按有关标识排队的系统抽样（包括对称系统抽样）得到我国许多统计工作者的欢迎，而且确实在诸如农产量调查等一系列调查中取得很好的效果。一时此种抽样方法风行全国，使得一部分抽样工作者甚至到了不管什么场合都只采用这种抽样方法的地步。实际上，每一种抽样方法都不可能是万能的。作为系统抽样的一种，这种抽样的方差估计特别困难，而且它不能用于多指标调查。许多实际工作者常问起：如何设计多指标问题的抽样？因为根据一个指标（历史数值）排队显然不能满足其它指标的需要。实际上有许多其他抽样方法可以替代按有关标识排队的系统抽样。例如可将标识（如果与单元大小相关）作为辅助变量，使用 PPS抽样，或对简单随机样本使用比估计、回归估计等。后者的情况还可适用于多指标问题。

（三）抽样调查如何满足多层次需要

中国各级都要管经济，各级行政长官特别关心本地区经济、社会发展情况，需要掌握有关统计数据，这是中国的国情。既然抽样调查可以用来获得所需要的统计数据，因此很自然的许多项目要求抽样调查能够满足多层次推断的需要。从统计理论上讲，要解决这个问题，简单但可行的方法是将需要进行的层次（省、县、乡等）作为子总体进行分层抽样。但实际上，用分层抽样来满足每个层次抽样推断的需要，从经济上是不可行的。这与采用抽样调查方法的本意相违背。当然，也可采用一些包括事后（抽样后）分层等域估计方法，不过这对原先的抽样设计有严格的。

经过研究，我们就这个问题提出一种新的理论，称为样本追加策略。这种方法的思想是在为估计上一层（例如全国）目标量为目的而抽取的样本基础上，通过样本追加，来满足估计下一层（例如省）目标量的需要。（当然这里是指不准备以下一级作为层进行分层抽样的情况）。两级样本相互兼容，当估计下一级（省）目标量时，同时用到上一级（全国）落在本省的样本与本省的追加样本。追加样本的目的不仅仅是因为需要增加样本量，而主要是因为全国样本中落在本省的这些样本对本省并没有代表性。样本追加策略的另一个优点是利用下级追加样本，还可以进一步提高上级目标量的估计精度。这中间有一些需要解决的关键技术问题。对于某些追加方法，我们已经解决。而且已将它用于中国妇女社会地位调查等一些实际项目中。

（四）总体目标量估计中存在的问题

从样本对总体目标量参数（例如总量、均值、比例等）进行估计以及对估计量的精度（例如方差）估计是一项调查，特别是数据处理过程中的一项重要内容。估计方法必须与抽样方法相匹配。但遗憾的是，在我们所见到的抽样方案中，不恰当的估计方法并不少见。常见的惰况有：不是自加权的样本采用了自加权（也即不加权）的处理；不等概率抽样使用了等概率抽样的简单估计；不是随机排列的系统抽样的方差估计使用简单随机抽样的方差估计等等。抽样设计者一定要记住：一个抽样方案（或称抽样策略）包括抽样方法和估计方法两个不可分割的部分，是一个整体。在确定抽样方法时，必须同时考虑到获得样本后的目标量的估计方法。

（五）非抽样误差及其处理

在抽样调查两大误差来源——抽样误差与非抽样误差中，后者情况比较复杂，对它的研究也不够充分。众所周知、非抽样误差又包括抽样框误差、无回答误差与计量误差三类。当抽样框不完善，特别是当总体单元不断在变化（新生或消亡），或不断在流动难以与其接触时，抽样框误差就不能忽视。无回答误差取决于无回答率的高低以及无回答是否是随机的。虽然前面己提到，在我国部门（包括统计部门）组织的调查中一般回答率尚高，但也应看到其中不少情况是在允许样本进行替换情况下达到的。实际上当抽中的样本单元由于各种原因（拒绝访问或找不到），调查无法进行造成无回答时，进行样本替换并不总是一个好方法。即使允许替换，也应该有一个严格的程序。反过来，像许多国际上比较通行的处理无回答的技术，例如插补与加权调整，在我国抽样调查中应用的并不多。

计量误差是非抽样误差中最难处理的，它会对调查结果造成相当严重的偏倚，这也就是我们常说的源头数据不准的问题。造成计量误差的原因也有许多。其中有方面的原因。典型的有：由于我国城调队与农调队的市、县选点已经固定、由于编制的原因不便变更，随着使用时间的延长，原先对省及全国有代表性的样本点，其代表性会愈来愈差。所产生的偏倚也就愈来愈大，对此如何进行调整？此外，原始数据或在汇总过程中的一些数据也会受到一些人为干预，从而使调查获得的数据及由此得到的推断严重失真。如何对由于各种原因产生的计量误差进行检测和度量，对这方面的研究都还很不够。二、若干研究课题与建议

针对前面指出的我国抽样调查应用中存在的问题，以下简单地提出若干研究课题及建议，供主管部门及抽样研究工作者参考。（一）若干研究课题

1、适用于特殊总体。例如不断变化中的总体的抽样方法； 2、适用于特定总体的有效分层技术 3、各种系统抽样的方差估计及其性质； 4、样本轮换方法；

5、适合多层次推断的抽样及估计方法；

6、对各种非抽样误差特别是计量误差的分析及其调整。（二）若干建议

1、加强对统计干部的专业培训与知识更新（包括教材更新） 2、完善现有的抽样调查制度。 3、加强调查数据质量的控制与检验

4、组织人力，加大投入，重视抽样方法与理论的研究。

上文摘自《中国统计》2001年第1期，作者为中国科学院数学与系统科学研究院冯士雍研究员

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文