如何获得高质量的数据(黑若琳)
(2018-11-19 20:45:13)测量思维是社会科学研究方法中的重要思维之一,在实证社会科学中,一个优秀的研究设计和实践依赖于测量思维的运用。同时,社会科学中可以测量的内容是多种多样的,对有些变量的测量相较于自然科学来说又是不易进行的。那么在社会科学的测量中,什么样的数据是高质量的数据?我们又该怎样获得高质量的数据呢?
一、刻画数据质量的指标与影响数据质量的误差
要想在测量中获得高质量的数据,就要首先回答什么是高质量的数据这一问题。在社会科学中,研究者们常采用以下四个指标来刻画数据的质量:
1)
2)
3)
4)
在以上的四个概念中,信度和效度是最常用来衡量数据质量的指标。我们所追求的高质量数据意味着更高信度、更高效度和更高的准确度,但精度越高并不意味着数据的质量越高。
测量过程中的误差也会对数据的质量产生影响。在社会科学中,误差可以分为两大类:测量性误差和代表性误差。测量性误差是概念操作化和选取测量工具的结果,它是理想的测量与实际测量之间的可观察差距。代表性误差产生于从总体中抽取个体作为样本进行研究的过程,是用样本统计量去推断总体统计量时产生的非可观察差距。
综上,当我们对测量数据进行评估时,可以用信度、效度、精度和准确度来表明数据的特征的质量高低。而当测量过程中产生测量性误差或代表性误差时,数据的质量则会受到消极的影响。
二、搜集数据之前的准备工作
影响数据质量的因素不仅在于数据搜集方法的选择和实施,测量和搜集数据之前的过程同样重要。只有首先明确研究的分析单位和测量对象,准确把握测量目的,将理论假设涉及的属性特征进行适当的概念化和操作化,在测量过程中才有可能和保障获得高质量的数据。
分析单位是用来考察和总结同类事物特征,解释其中差异的单位。不同的实证研究关注不同的分析单位,不同的分析单位决定着我们要观察和测量的对象也不相同。分析单位和测量对象的一致是数据质量的基础,如果测量得到的数据根本不是来自你想要分析的对象,这些数据的可用性就值得怀疑,更不论数据质量的高低与否。例如,研究想要分析的是地区经济发展水平与故意杀人行为之间的关系,而研究者却对不同地区监狱中犯故意杀人的罪犯进行测量,理想的分析单位是犯罪行为,但测量单位却是罪犯,这时就存在分析单位与测量单位之间的错位,数据的质量就值得怀疑。
由于社会科学自身所具有的特殊性,其测量目的往往是测量到社会现象的差异性,因为差异性是我们进行社会分组和排除误差的基础,差异性中也往往隐藏着变量之间的可能关系。因此,在进行具体的数据搜集工作前,要明确想要探究的差异性,并以此为引导在数据搜集过程中关注这种差异是否明显存在以及受到何种因素影响。
理论假设中的变量仍然是抽象和不可实际操作的,它们需要经历概念化和操作化的过程,变成一个或一组可以实际测量的指标。概念化和操作化的结果便是直接指明需要测量的数据类型,例如智力水平概念化和操作化后的结果可能就是智力测试得分,因此,对抽象概念进行合适且准确的概念化和操作化对于获得高质量的数据至关重要。
在社会科学研究中,不能将数据搜集和测量看作是单一断裂的过程。从确定研究对象,提出理论假设,对变量属性进行概念化与操作化,到数据的搜集与测量,再到数据质量的控制与检验,这是完整连续、彼此相关的研究过程,这一过程的任意环节都关乎所获数据的质量与品质。因此,要获得高质量的数据,研究的起始阶段,也就是在搜集数据前的工作需要审慎且认真的对待。
三、选择合适的数据搜集方法
在社会科学中,数据的搜集方法是多种多样的,主要有二手数据法、案例法、抽样调查法、实验法和大数据法。针对不同的研究目的和分析对象,应该采用不同的数据搜集方法,以保证数据的可靠和质量。
二手数据包括一切我们可及的现有文献、研究成果、数据库等,具有体量大,成本低,且使用方便的优点。二手数据法一般应用于对一些常见传统数据的搜集,例如各地区的经济发展水平,人口数量,生育率,死亡率等,这些数据往往是社会科学经典议题中的组成部分,来源广泛且可信,政府或相关机构也会定期组织对这些数据的更新或重新搜集。但二手数据法的缺点在于变量定义未必能与当前研究较好契合,缺乏检验其准确性的信息,还有可能涉及到伦理、责任与隐私保护问题。
案例研究方法作为一种常用的定性研究方法,要求研究者直接深入到所要观察的社会生活中,客观地收集社会现象资料,并从这些经验性的资料中抽象概括出具有一般性的结论。由于它要求研究者的直接参与或观察,案例研究一般适用于在相对有限的时空中发生的需要深入了解和探究的社会现象,例如一个特定贫民区内人们的日常生活。但深入体验可能导致研究者对现实信息的提炼和分析带有一定的随意性和主观性,因此其内在效度往往无法验证。案例研究也多数应用于探索和描述性研究中,在解释性研究面前,案例研究显得力不从心。
抽样调查法适用于面对规模较大的研究总体时,从总体中随机抽取样本,通过结构化的问卷等形式收集数据资料。抽样调查的核心在于保证抽取样本对总体的代表性和问卷的结构化,因此,抽样调查发展出一系列的概率抽样方法和不同的量表类型,研究者可以结合具体的研究目的和研究情境,采用不同的量表和抽样方法。
当研究假设是明确的因果关系,以及自变量需要人为控制或操纵时,研究者常采用实验或准实验的方法。在社会科学中,实验者很难将现场的各种状况都严格控制在标准的实验条件下,这种灵活运用实验思维进行的实验设计就是准实验方法。控制干预变量从而进行实验组和对照组的比较是实验思维的核心。诸如霍桑实验,小世界实验,回音壁实验等,这些都是社会科学研究中曾采用的经典实验。
伴随互联网和信息化的发展,大数据的方法已越来越频繁地被社会科学领域的学者所采用,大数据也凭借其体量大、增速快、类型多、真实性高、和有效避免反思性等特点获得研究者们的青睐。凡是在网络上留下痕迹或需要借助计算机进行计算的大规模复杂数据,例如搜索指数、社会关系、空间分析等,都可以利用大数据法搜集数据。研究者也可以根据具体的研究目的和研究对象,在大数据分析方法中选取网络爬虫、网络文本分析、视频音频分析、时间空间分析、可视化或自然语言过程等具体方法或这些方法的结合进行数据的搜集。
以上不同的数据搜集方法具有各自的优缺点和典型的适用范围,而高质量数据的获得依赖于合适恰当的数据搜集方法。因此,要在综合考虑精度和成本的基础上,依据研究目的、数据的可测量性和可获得性选择适宜的、混合的数据搜集方法。
四、对数据进行质量检验
要想保证数据的高质量,在获得数据之后,研究者还需要对数据质量进行全面的评估与检测。在诸多的数据搜集方法中,以抽样调查法在社会科学研究中最为常用,因此,在以下的介绍中也会以各种检验抽样调查所得数据的方法为主,其中对信效度的检测是基本且重要的。
对信度评估的方法是多样的,可以采用前测-后测法,对于同样的研究对象或受访者先后进行两次调查,观察前后测的调查结论是否具有一致性和稳定性。或采用复本法,使受访人在接受原有问卷的调查后,再接受与这份问卷内容、结构、顺序均相同,只在文法和措辞上发生变化的副本调查。折半法对所得数据信度的检验也是可行的,这种方法是将全部题目分成两半,由这两半题目所得答案计算出的相关系数便可以用来估计信度。
对于效度的检验则要根据不同的效度类型采取不同的检验方法。表面效度和内容效度的检验都要依靠科学共同体的主观判断,而判断的主要标准在于测量的全部项目是否都在概念的内容范围中,且项目之间的分布、比例是否与概念内容的结构一致。当要检验准则效度和建构效度时,可以把应答与其他在理论上具有效度的调查应答做相关分析,比较二者的相关性和一致性。
值得一提的是,不只是在获得数据之后,在抽样进行问卷调查的过程中,也有对数据质量加以控制的有效方法。例如当采取纸笔问卷面访的形式时,督导可以采用现场控制、电话复核和实地复核相结合的方法进行质控。当采取质控数据更加丰富的计算机面访方式时,则可以利用对答题时长、拒答率、奇异值等数据核查、录音核查、电话核查和实地核查相结合的质控方法。在调查过程中运用质控方法,要注意及时上传复核数据和对访员提供指导,还要对调查中替换样本、访员臆答、追问不足、轻易接受拒答等各种可能情况带来的误差做出全面的掌控。
可知,在进行抽样调查搜集数据时,检验数据质量的方法是多种多样的。而我们就要根据具体的研究内容和进程情形选择合适的检验方法并及时调整,对所得数据进行全面且严格的检验。
综上,在明确衡量数据质量的指标和可能影响数据质量的误差的基础上,获得高质量的数据不仅需要在进行正式的搜集工作前确定研究对象和研究目标,对研究假设进行高质量的概念化和操作化,还要综合考虑,选择适宜的、混合的数据搜集方法,并对所得数据进行全方位的质量检验。于是,社会科学的测量思维不仅体现在具体的测量过程中,还贯穿于整个研究链条里,成为社会科学研究的重要基石。

加载中…