【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《滚雪球抽样方法的文献综述》,欢迎阅读!
滚雪球抽样方法的文献综述
雪球抽样被广泛地应用于定性的社会学研究中。而就目前来看,国内学者利用滚雪球抽样进行的研究少之又少,而国外学者已经对滚雪球抽样进行了十分细致的研究。国外学者对滚雪球抽样的研究较为丰富,其研究内容大体可以分为以下三类:
一、滚雪球抽样的理论研究
滚雪球抽样的概念最早是由coleman[1]在1958年提出的,他认为传统的调查方法忽视了个体之间的社会结构和联系,即社会成员是独立的个体,因此提出重视个体间关系的滚雪球抽样。随后,goodman[2]在1961针对隐藏人口提出同伴驱动的滚雪球抽样,在文中他详细地介绍了S阶段K推荐滚雪球抽样的定义,并讨论了如何通过抽样样本对总体的一些特征做出推断,他指出,在对隐藏人群进行抽样时,滚雪球抽样比简单随机抽样更具效率。
二、结合具体案例对滚雪球抽样进行实证性研究
Frank和Snijders提出基于伯努利概率模型使用一波滚雪球抽样对隐藏人口规模进行估计的方法,并在此基础上对格罗宁根的海洛因使用者展开实证研究,通过提供仿真结果来比较极大似然估计量、基于模型估计量、基于设计估计量以的优缺点。结果表明,使用一波的滚雪球样本估计总体规模是可行的,但前提是假设初始样本即种子符合伯努利概率模型。Thompson研究了滚雪球抽样的一个特例,采用图形设置和空间设置的适应性种群抽样对隐藏人群进行研究,指出图形设置是指通过边缘(如社交链接或地理邻近度)连接的节点(例如,人物),选择节点或边缘为初始样本,然后跟随边缘以使其他节点纳入样本。Chow提出在估计隐藏人口和难以接近的人口规模时,使用滚雪球抽样技术才可以获得足够大的样本,以此进行有效的研究,并提出利用贝叶斯估计方法能够有效的结合先验信息,得到未知参数的一个后验分布,可以提高估计的有效性。当可用信息模糊时,可以使用非信息先验并进行敏感性分析。并用此方法对科罗拉多州的毒品使用者所占的比例进行了实证研究,研究发现估计量对指定的先验信息并不敏感。Spreen从一部分人口的现有抽样框中抽取初始的简单随机样本,然后通过雪球抽样技术估计在抽样框之外的人口规模。使用这种抽样技术,可以估计注册人群之间,注册人群与非注册人群之间以及非注册人群之间的平均接触率。Christian在研究隐藏人口大小的估计问题时,发现在小样本的情况下,基于渐近理论的经典模型推导置信度的准确性是存在问题的,研究表明采用贝叶斯的方法能够提高估计的精确度。他采用滚雪球的抽样方法,利用贝叶斯估计分别对格罗宁根以及帕克斯塔博的三种毒品使用者的规模进行估计,结果表明当先验分布设定为截断的伽马分布时,贝叶斯的估计结果具有较小的方差。Vincenty等利用实证研究表明,在低收入、种族化的社区采用滚雪球抽样进行大规模调查的研究方案是可行的,并表明通过适当的激励措施,可以是目标人群达到足够的参与程度。研究发现增加参与者与研究人员之间的信任程度,可以提高参与度。Thompson引入了一种新的策略来估计网络化人口特征。抽样方法是基于贝叶斯数据增强过
程的单波滚雪球抽样设计,以此方法对隐藏人群进行模拟研究,结果表明,这种新的推理策略可以有效地估计人口属性,如人口数量和与网络拓扑相关的人口属性,并且可以实现群体的大小和分布的有效估计。研究表明初始服从伯努利分布的样本选择程序中具有一定程度的稳健性,以此降低偏离程度。
三、滚雪球抽样与其他非概率抽样的比较
Magnani等在研究如何对隐藏人群抽样时,详细介绍了滚雪球抽样、目标抽样、时间空间抽样以及同伴驱动抽样等抽样方法,并分别说明了每个方法的优劣。他认为,对于滚雪球抽样,初始种子的选择对样本组成的影响很大,并且所获得的样本是有偏的,并指出诸如雪球抽样之类的非概率抽样方法在开发性研究和问题定义中是有用的,但并不适合在较大群体中使用。而对于目标抽样来说,由于该方法的非随机性,在抽样过程中会存在选择性偏差 ,而这种偏差取决于对种群分层的界定。对于时间空间抽样,他认为抽样框是随着时间而变化的,但更新抽样框的成本是高昂的,若在调查时缺少一些抽样单位,会导致无法具体估计的偏差。同伴驱动抽样是对滚雪球抽样方法进行了修正,同伴驱动抽样方法减少初始种子对最终样本的影响,并且由于其的激励制度,降低样本偏差。Heckathorn比较了滚雪球抽样和同伴推动抽样的不同点,提出由于个人隐私等原因,滚雪球抽样常常难以进行下去,而且滚雪球抽样得到的样本常常是有偏的,在合理假设的情况下,同伴驱动抽样对总体作出的估计是渐近无偏的。同伴驱动抽样由于引入了二次激励机制在一定程度上可以解决有偏问题。Sadler等以作者个人研究为例,展示如何使用修改的滾雪球抽样技术来改善卫生教育计划的推广工作和评估健康教育干预措施的研究。并且探讨了滚雪球抽样在招募隐藏人群时的优缺点,研究表明滚雪球抽样技术具有省时、高效、节省成本等优点,但其也存在估计结果有偏、没有可靠的统计方法来估计样本的“饱和度”是否达到等缺点,并提出可以结合概率抽样与非概率抽样的方法,来弥补非概率抽样的缺点。
滚雪球抽样虽然应用广泛,它也存在一些缺点。比如,初始样本的选择不是随机的,随着抽样过程的进行,无法得到无偏估计;抽样过程倾向于一些愿意合作的对象,较为排斥的对象自然参与度较低;一些敏感度较高的问题,也会导致抽样过程难以进行下去。滚雪球抽样方法还需要不断的探索与推广。
参考文献
[1] Coleman James S. Relational Analysis:The Study of Social Organizations with Survey Methods [J].Human Organization,1958(17):28-36.
[2] Goodman leo A. Snowball Sampling [J].Annals of Mathematical Statistics,1961, 32(1) : 148-170.
本文来源:https://www.wddqxz.cn/c5ba1b42ce22bcd126fff705cc17552706225e4c.html