科学的方法
好奇心、怀疑精神和谦逊三者相结合的科学态度是所有科学的基础。心理学家们用科学的方法来武装他们的科学态度,这是一个通过观察和分析来评估观点的自我修正过程。心理科学欢迎直觉和听起来很有道理的理论,并对它们进行检验。如果一个理论是有效的,即数据支持其预测,那对这个理论来说就更好了;如果预测失败,该理论就会被修改或否定。研究人员向科学期刊提交研究成果时,同行评审员(该领域的其他科学家)会对其研究的理论、原创性和准确性进行匿名评估。有了这些反馈,期刊编辑才能决定该研究是否值得发表。
构建理论
学习目标问题 1-3 理论如何推动心理科学的发展?
日常对话中,我们常用“理论”这个词来表示“单纯的直觉”。例如,有人可能认为进化论“只是一种理论”,好像它只是一种猜测。在科学领域,理论(theory)会提供一套想法来组织观察结果,从而解释行为或事件。理论通过运用更深层次的原理整合零散的事实,起到归纳和简化的作用。当我们将观察到的数据点联系在一起时,一个连贯的画面便呈现出来。
理论:一种解释,使用一套整合原则来组织观察结果并预测行为或事件。
例如,一个关于睡眠影响记忆的理论,能够帮助我们将无数与睡眠有关的观察结果整合为数条简短的原则。假如我们通过多次观察得知,睡眠习惯良好的人在课堂上通常表现优异,在考试时也能发挥良好,那么我们可能会推断:睡眠可以提高记忆力。到目前为止,这一理论运用的效果还不错,我们巧妙地总结了一系列关于良好睡眠的观察结果。
然而,无论一个理论听起来多么合理(例如良好睡眠能提高记忆力似乎很合理),我们都必须对它加以检验。一个好的理论做出的预测是可检验的,这种预测也被称为假设(hypothesis)。这种预测会指明哪些结果能够支撑该理论,哪些结果会否定它。为检验睡眠影响记忆的理论,我们可以假设睡眠不足时,人们对前一天的记忆会下降。为了验证这一假设,我们可以评估人们在睡眠良好或睡眠不足的情况下对所学教材的记忆程度(图1.2)。检验结果要么支持这一理论,要么会让我们对其进行修改或否定。
假设:一个可检验的预测,通常由某个理论产生。
图1.2 科学的方法
一个提出问题和观察结果的自我修正过程。
理论会使观察结果产生偏差。当我们推断良好的睡眠会改善记忆效果时,我们可能只看得到自己所期望看到的,从而判定犯困的人说的话不太准确。无论是在实验室内还是实验室外,我们都强烈地想要看到自己所期望的东西,正如人们对气候变化的看法影响了他们对当地天气的解释。
操作性定义:对于一项研究所使用的确切程序(操作)措辞严谨的声明。例如,人的智力可以被操作性定义为智力测试所衡量的东西(也称为操作化)。
心理学家们在报告研究时,对研究程序和概念给予了精确且可度量的操作性定义 (operational definition),以此作为对自己偏见的检查手段。例如,可以将睡眠不足定义为比该个体的自然睡眠时间“至少少两小时”。(同理,对“攻击性”的研究可以观察你在象征实验伙伴的玩偶娃娃上扎了多少针,或者对“助人为乐”的研究可以记录你的捐款数额。)通过这些措辞严谨的表述,其他人可以用不同的参与者、材料和环境来复制(replicate)原始观察。如果他们能够取得类似结果,那么人们对该发现可靠性的信心就会大大增加。例如,对后视偏差的首次研究引起了心理学家的好奇。而现在,在不同的人身上针对不同的问题进行了多次成功的复制实验后,人们证实了后视偏差。复制是进行确认的手段。
复制:对研究的本质进行重复,通常是在不同情况下选用不同参与者,以验证该基本发现是否可以被复制。
复制是科学的重要组成部分。心理学曾经历过一场“可复制危机”,即多个实验室对多达100项研究进行复制,产生了不同的结果,各个研究的可复制率从36%到85%不等(Camerer et al., 2018a; Klein et al., 2014, 2018; Open Science Collaboration, 2015)(本书并未呈现这些不可复制的研究结果)。研究样本较小时,结果往往很难复制,所以心理学家们越来越多地使用大样本研究(Camerer et al., 2018b; Sassenberg & Ditrich, 2019; Stanley et al., 2018)。样本更大,结果可复制的可能性也更大。
如今的心理学研究受益于更高的可复制率、更多的研究数据共享,以及更加严格的研究方法(Dougherty et al., 2018; Smaldino & McElreath, 2016; Zwaan et al., 2018)。越来越多心理学家通过预注册(preregistration)来公开交流自己计划的研究设计、假设、数据采集和分析方法(Nosek et al., 2018)。(这种公开透明的制度也防止了后期修改,如改变假设来适应数据。)而探索性研究仍有一席之地,调查人员可以收集数据,并寻找可以激发理论的模式,然后通过确认性研究(预注册的假设和预计划的分析)来对理论进行测试。
预注册:公开交流计划的研究设计、假设、数据采集和分析方法。
探索、复制、预注册和原始数据的开放共享正在实现一场改善科学实践的“心理学的文艺复兴”(Motyl et al., 2017; Nelson et al., 2018)。
心理学和医学也利用了元分析的力量。元分析(meta-analysis)是一种用统计学方法综合大量科学证据的程序。通过综合许多研究的结果,研究人员避免了样本小的问题,并得出了最终结论。
元分析:对多项研究结果进行分析以得出总体结论的一种统计程序。
“复制失败不是错误,而是一项壮举,正是它引导我们走上奇妙曲折的科学发现之路。”
——丽莎·费尔德曼·巴雷特
最后,如果我们的理论能够(1)整合观察结果和(2)给出任何人都能用来检验理论或推导实际应用的假设,那么它将是有用的(例如,是否能根据人们的睡眠状况预测他们的记忆保持程度呢?),最终我们的研究可能还会(3)刺激进一步的研究,从而得出能够更好地组织和预测的修正后的理论。
接下来,我们将会学习通过描述法(通常通过案例研究、调查或自然观察来描述行为)、相关法(将不同因素联系起来)和实验法(控制因素以发现其影响)对假设进行检验,并对理论加以完善。为了对流行的心理学主张进行批判性思考,我们需要了解这些方法,以及它们所能得出的结论。
检索练习
RP-2 一个好的理论能够做到什么?
RP-3 为什么复制很重要?
答案见附录D
描述
学习目标问题 1-4 心理学家如何通过案例研究、自然观察和调查来观察和描述行为?为什么随机抽样很重要?
任何科学的出发点都是描述。在日常生活中,我们常会观察和描述他人,总结他们为什么会有这样的想法、感觉和行为。心理学家也是如此,只不过是通过以下方式更加客观系统地进行的:
• 案例研究(深入分析个人或群体)。
• 自然观察(记录许多人的自然行为)。
• 调查和访谈(向人们提问)。
案例研究:一种描述性技术,该技术对个体或群体进行深入研究,旨在揭示出普遍原理。
案例研究 作为最古老的研究方法之一,案例研究(case study)对个人或群体进行深入研究,希望能揭示所有人的真实情况。请看下列例子:
弗洛伊德和小汉斯
对5岁的汉斯极度怕马的案例的研究,令西格蒙德·弗洛伊德得出了他的儿童性行为理论。他推测,汉斯对母亲存在无意识的欲望,害怕被父亲这一竞争者阉割,于是将这种恐惧转变成害怕被马咬的恐惧症。正如本书第14章的解释,今天的心理科学不认可弗洛伊德的儿童性行为理论,但确实同意人类的大部分思维都在我们的意识之外运作。
• 脑损伤。我们对大脑的早期认识大多来自对某一脑区遭受特殊损伤的人的案例研究。
• 儿童的思维。让·皮亚杰(Jean Piaget)仅在仔细观察和询问了几个孩子后,就向我们揭示了儿童的思维方式。
• 动物的智力。对各种动物(如黑猩猩)的研究,揭示了它们的理解能力和语言能力。
细致的案例研究有时非常具有启发性,它们往往为进一步研究指引了方向。
但非典型的个案可能会对我们造成误导。无论是在日常生活中,还是在科学领域中,非代表性信息会导致误判和错误结论。事实上,只要研究人员提到一项发现(如吸烟者会死得更早:85岁以上的男性有95%不吸烟),肯定会有人提供一则相反的逸事(噢,我有一个叔叔每天抽两包烟,还活到了89岁)。
戏剧性的故事和个人经历(甚至是心理学案例)会引起我们的注意,并且很容易被记住。记者们最清楚这一点,因此常以重大事件作为他们文章的开头。故事会令人触动,但也会产生误导。下列句子中,你觉得哪句话更难忘呢?(1)“一项对1300个与儿童被绑架有关的梦境报告的研究中,只有5%的人准确预见了孩子的死亡”(Murray & Wheeler, 1937);(2)“我认识一个人,他梦见他的妹妹出了车祸,两天后她就被车迎面撞死了”。数字是令人麻木的,但逸事并不能作为证据。一个据称某人从同性恋转为异性恋的故事并不能证明性取向是可选择的。正如心理学家戈登·奥尔波特(Gordon Allport, 1954, p.9)所说:“只要有一丁点儿(戏剧性)的事实,我们就急于做出像浴缸一样大的概括。”
要记住的一点:个案可以得出富有成效的想法。适用于我们所有人的真理,在我们中的任何人身上都可以窥见,但要找到这些普遍真理,我们必须采用其他研究方法。
检索练习
RP-4 为什么我们不能假设案例研究总能揭示出适用于所有人的一般原则呢?
答案见附录D
自然观察 第二种描述性方法是记录自然环境中的各种反应。自然观察(naturalistic observation)的范围包括观察丛林中的黑猩猩社会,摄录和分析不同文化中的亲子互动,记录学校午餐室里学生坐姿的种族差异。在数字时代,自然观察的范围有所扩大,这得归功于从社交媒体和谷歌搜索等收集的“大数据”。
自然观察:一种描述性技术,在自然发生的情境下观察和记录行为,而不试图操纵和控制情境。
直到最近,自然观察大多仍只是“小科学”,可以用笔和纸来完成,而不需要花哨的设备和大笔的预算(Provine, 2012)。但是,如今的数字技术已经将自然观察升级为大科学。只需要使用人们手机的全球定位系统(GPS),就能调查人们去健身房、咖啡馆或图书馆的频率(Harari et al., 2016)。而一些新技术,如可穿戴式相机和健身传感器,以及连接互联网的智能家居传感器等,为人们提供了越来越多的可能性,使人们得以准确记录自己的活动、关系、睡眠和压力(Nelson & Allen, 2018; Yokum et al.,2019)。
数十亿人在网上输入个人信息,也使大数据观察(不披露任何人的身份信息)成为可能。一个研究小组曾通过计算来自84个国家的5.04亿条推特信息中的各种积极和消极词汇,来研究人类情绪的起伏(Golder & Macy, 2011)。如文前彩图1.3所示,人们在周末、起床后不久和晚上似乎会更快乐。(周六晚上通常都很快乐,不是吗?)另一项研究发现,来自美国1347个县的1.48亿条推文中的消极情绪(尤其是与愤怒有关的)词语在预测该县的心脏病发病率方面比吸烟率和肥胖率更准确(Eichstaedt et al.,2015)。谷歌帮助我们了解这个世界,而人们对谷歌的使用能够帮助我们了解他们。例如,通过人们搜索的词语和查询的问题可以确定一个地区种族主义的程度和抑郁症患者的人口占比。但谷歌搜索也揭示了我们人类的普遍相似性,正如不同国家的人在搜索“怀孕”这个词时,都有着相同的对食物的渴望(Stephens-Davidowitz, 2017)。全球各地的人,内在都是相似的。
和案例研究一样,自然观察并不能解释行为,只是描述行为。尽管如此,描述仍可能揭示问题。例如,我们曾经认为只有人类才会使用工具,而自然观察发现,黑猩猩有时会先把棍子插入白蚁堆中,然后抽出,吃掉棍子上的白蚁。这种不引人注意的自然观察为后来对动物思维、语言和情绪的研究铺平了道路,进而扩大了人们对动物伙伴的了解。通过研究人员的观察,我们了解到黑猩猩和狒狒也会使用欺骗的手段——心理学家多次看到一只小狒狒假装被另一只狒狒攻击,以此作为一种诱骗母亲把那只狒狒从食物边赶走的策略(Whiten & Byrne, 1988)。
自然观察也能阐明人类的行为。这里有两个你可能会喜欢的发现:
• 一个有趣的发现。人们在社交场合发出的笑声比独处时的笑声多30倍(你有没有注意到自己在独处时很少笑?)(Provine, 2001)。
• 文化和生活节奏。罗伯特·莱文(Robert Levine)和阿兰·洛伦萨杨(Ara Norenzayan)在1999年通过自然观察比较了31个国家的生活节奏,包括步行速度、公共时钟的准确性等。他们的结论是:日本和西欧的生活节奏最快,而经济欠发达国家的生活节奏较慢。
自然观察提供了许多有趣的日常生活快照,但这一方法是在没有控制所有可能影响行为的因素的情况下施行的。观察不同地区的生活节奏是一回事,但要理解一些人比其他人走得更快的原因是另一回事。然而,描述也具有启发性:任何科学的出发点都是描述。
检索练习
RP-5 自然观察的优势和劣势是什么?
答案见附录D
调查:一种描述性技术,用于获取特定群体自述的态度或行为,通常通过询问该群体具有代表性的随机样本来实施。
调查 调查(survey)着眼于许多情况,要求人们述说自己的行为或意见,其研究范围包括从性行为到政治见解的方方面面。下列是最近的一些调查结果:
• 与20世纪60年代和70年代出生的人相比,20世纪90年代出生的人报告自18岁以来没有性伴侣的人数是前者的两倍(Twenge et al., 2017)。如今这些依恋程度较低的年轻人正在经历一位作家所说的“性衰退”(Julian, 2018)。
• 在24个国家中,每两个人中就有一个人表示相信“宇宙中存在外星智慧文明”(Lampert, 2017)。
• 68%的人类(约52亿人)称宗教在他们的日常生活中很重要(Diener et al.,2011)。
但是,如何提出问题是个棘手的难题。人们可能会掩饰自己的答案,使之更符合社会期望,比如少报告香烟消费或多报告投票行为。而答案往往取决于问题的措辞和对被调查者的选择。
措辞的影响 即使是提问顺序或措辞的微小变化都会令调查结果产生很大的差异(表1.1)。美国福音派白人基督徒被问及(1)“人类是否随着时间的推移而进化”或(2)“人类从一开始就以其目前的形式存在”时,只有32%的人表示相信进化论(Funk, 2019)。但被问及是否相信(1)“人类随着时间的推移,由于自然选择等过程而进化,上帝或更高的力量没有参与这个过程”,(2)“人类随着时间的推移而进化,在这个过程中有上帝或更高的力量引导或允许”或(3)“人类从一开始就以其目前的形式存在”,超过两倍的人(68%)表示相信进化论。措辞是一个非常微妙的问题,批判性思维者会思考问题的措辞如何影响人们的意见表达。
表1.1 调查措辞的影响
随机抽样 日常思考中,我们倾向对基于观察得到的样本进行归纳,尤其是一些生动的案例。学校管理人员在阅读(1)学生对某个教授评价的统计汇总,以及(2)两个愤怒的学生对某个教授鲜明生动的评论时,受到偏倚样本(2)的影响可能跟受到统计汇总中许多有利评价的影响一样大,并因此基于几个生动但不具代表性的案例进行归纳总结。这种屈从于偏倚样本的诱惑几乎无法抗拒。
随机样本:能够公平代表某一群体的样本,因为每个成员被纳入样本的机会是均等的。
总体:被研究群体的总人数,可从中抽取随机样本(注:除全国性研究外,该术语指的不是国家人口总数)。
那么,如何才能获得代表性样本呢?假如你想了解你所在学院或大学的学生对增加学费的提议有什么看法,通常对整个群体进行调查是不可能的。那么,如何才能挑选出一个能代表所有学生的群体呢?一般情况下,你可以使用随机样本(random sample),这样总体(population)中每个人都有均等的机会被纳入样本。你可以对学生名单进行编号,并使用随机数字生成器来挑选调查参与者(给每位学生都发问卷行不通,因为那些自觉交回问卷的人并非随机样本)。大型代表性样本要优于小型代表性样本,但100个小型代表性样本要优于500个非代表性大型样本。简单地增加样本人数无法弥补样本代表性不足的缺陷。
在全美范围的选举调查中,政治民意调查员就是这样对选民进行抽样的。如果不进行随机抽样,如各种网站的民意调查之类的大型样本产生的结果往往极具误导性。但是,只需从一个国家所有地区随机抽取大约1500人,就能非常准确地反映出全国性意见。此外,民意调查员还可以询问一些不相关的问题,如受访者是单身还是已婚等,并以政府统计数据为基准评估抽样的准确性(Bialik, 2018)。如果调查样本分布能够与全国人口分类匹配就更好了。
有了大型样本的帮助,预测结果会相当可靠。字母E占了梅尔维尔《白鲸》中925 141个字母的12.3%、狄更斯《双城记》中586 747个字母的12.4%,以及马克·吐温的12部作品中3 901 021个字母的12.1%。据此估计,字母E约占书面英语中字母总数的12.7%(Chance News, 1997)。
考虑到民意调查的误差幅度和最后时刻的选民波动,政治民意调查对可能的结果有一定预测作用,但并不完全准确。2016年美国总统大选前夕,民调分析网站“五三八”预测候选人希拉里·克林顿有71%的胜算。而唐纳德·特朗普当选后,许多人都认为这一预测失败了。但是,预测模型估计一个候选人有71%的胜算时,该候选人也有近三分之一的概率会输(试想一下,天气预报预测有70%的可能性会下雨时,当天一直下雨,这一预测也是有瑕疵的)。一项对1942年至2017年间45个国家的3万个大选预测的总结是:大选结果与流行看法相反,民意调查结果则相当准确(Jennings & Wlezien, 2018)。
要记住的一点:接受调查结果之前,要批判性思考样本的代表性。代表性随机样本是归纳总结的最佳基础。
检索练习
RP-6 什么是非代表性样本?研究人员如何避免这类样本?
答案见附录D
相关关系:两个因素共同变化的程度,也意味着其中任一因素能够预测另一个因素的程度。
相关系数:两个事物之间关系的统计指数(从-1.00到 +1.00)。
变量:任何可变的、可测量的,并且对其的测量符合伦理要求的事物。
相关关系
学习目标问题 1-5 我们所说的两件事情相关是什么意思?什么是正相关和负相关?
描述行为是预测行为的第一步。我们常会从自然观察和调查中得知,一种特征或行为往往与另一种特征或行为同时出现。在这种情况下,我们会说这两者是相关关系(correlate)。统计指标相关系数(correlation coefficient)能够帮助我们弄清两个事物共同变化的程度,从而了解其中任一事物能在多大程度上预测另一事物。知道考试分数与学业进步的相关关系,我们就可以知道分数能在多大程度上预测学业进步。
在本书中,我们常会问道,两个变量(variable)间的相关有多强?例如,同卵双胞胎的性格测试分数间有什么关联?智力测试分数对职业成就的预测程度如何?抑郁症状能在多大程度上预测人们的焦虑?对于这类情况,散点图(scatterplot)可以很好地揭示答案。
散点图:一个由点组成的图形群,其中每个点代表两个变量的值。点的斜率表明两个变量之间关系的方向。散点的分布表明相关的程度(散点越集中,表示相关性越高)。
散点图里的每个点代表两个变量的值。图1.4展示了从完全正相关到完全负相关的相关关系散点图(现实世界中,完全相关非常少见)。如果两组分数(如身高和体重)总是一起上升或下降,则为正相关。
说一个相关关系为“负”,并不能说明其相关的程度。如果两组分数变化方向相反,一组分数上升时,另一组分数下降,则其相关关系为负。例如,人们的身高和其头顶到天花板的距离之间的相关关系是完全负相关。
图1.4 显示相关关系的散点图
相关性(r)的范围从+1.00(一个变量的分数随另一个变量的分数增加而增加),到0.00(不相关),到-1.00(一个变量的分数随另一个变量的分数增加而减少)。
统计能够帮助人们了解随意观察中可能遗漏的东西。为证明这一点,雅库布·波拉克(Jakub Polák et al., 2019)和同事收集了2291名捷克和斯洛伐克参与者的问卷,要求参与者们用1~7分的量表来评价他们对24种动物的恐惧和厌恶程度。浏览表1.2的数据,你认为参与者对动物的恐惧和厌恶之间的相关关系是正相关、负相关,还是接近于零?
表1.2 参与者对各种动物的恐惧和厌恶程度
在对表1.2各栏进行比较时,大多数人都没有发现恐惧和厌恶程度之间的关系。事实上,这一假想案例中的相关关系是正相关(r=+0.72),将数据以散点图(图1.5)形式展示,我们就能看到这一点。
如果数据像表1.2一样系统性地呈现时,我们都很难认识到其中的相关关系,那么在日常生活中,我们注意到它们的可能性有多大?为了看清眼前的事物,我们有时需要统计的指引。得到有关岗位级别、资历、业绩、性别和工资的统计汇总信息时,我们能够轻易看出有关性别歧视的证据。但是,相同的信息逐一出现时,我们往往看不到歧视(Twiss et al., 1989)。像心理学家一样思考能够帮助我们平等地看待每个人,而不仅仅是那些引起我们注意的人。
图1.5 对24种动物的恐惧和厌恶程度散点图
本图展示了参与者自述的恐惧和厌恶程度的平均值(每个平均值都由一个数据点表示),图中显示出上升斜率,表明两者之间属于正相关。图中数据相当分散,表明相关性远低于+1.00。
要记住的一点:相关系数体现了两件事物的关联程度,能够帮助我们更清楚地理解这个世界。
检索练习
RP-7 指出下列相关关系是正相关还是负相关。
1.丈夫浏览网络色情内容越多,婚姻关系越差(Muusses et al., 2015)。_______
2.少女花在网络社交媒体上的时间越多,患抑郁症和自杀倾向的风险就越大(Kelly et al., 2018; Twenge & Campbell, 2019)。_______
3.儿童接受母乳喂养的时间越长,后来的学习成绩越好(Horwood & Fergusson, 1998)。_______
4.老年人吃的绿叶蔬菜越多,之后5年的智力下降越少(Morris et al., 2018)。_______
答案见附录D
错觉相关和均值回归
学习目标问题 1-6 什么是错觉相关?什么是均值回归?
相关性不仅会帮助我们清楚看到可能遗漏的关系,还会令我们避免错误地观察到不存在的关系。认为两件事物之间存在关系时,我们可能会注意到并回忆起一些能够证实这一观点的例子。若是相信梦境内容能够预示现实事件,我们可能注意到并回忆起的相符事例会多于不相符的事例。这正是错觉相关(illusory correlation)。
错觉相关:认为无关联的两者有关系,或认为两者之间存在比实际更紧密的关系。
均值回归:极端或不寻常的分数或事件向平均值回落(回归)的趋势。
错觉相关会产生一种控制错觉,令人认为偶然事件受到个人掌控。赌徒回想自己玩幸运骰子的经历,可能会认为自己能够影响骰子的滚动,轻抛骰子就能得到较小的数字,而重抛骰子结果则相反。这种不可控事件与个人行为相关的错觉也受均值回归(regression toward the mean)的统计现象的影响。平均结果比极端结果更为典型。因此,在不寻常事件之后,事态往往会向其平均水平回归:不寻常事件往往会被更多寻常事件取代。如果学生在测试时的成绩比平时低得多或高得多,那么在重测时,他们很可能会回到自己的平均水平。在第一次测试时表现超出随机水平的超感官知觉(ESP)测试对象,在重新测试时,几乎都失去了他们所谓的“精神力”。
未能发现这一回归是许多迷信和无效做法的根源所在,在体育训练和工作场所中常会发生这样的事。经理在斥责了表现比平时差的员工(或运动员)后,当该员工恢复正常水平时,可能会对其“进步”感到欣慰;而在对员工的出色表现大加赞扬后,当该员工再次向平均水平回归时,则可能会对其感到失望。讽刺的是,回归平均水平会误导我们,令我们在批评他人后感到欣慰(“那次批评真的让他更努力了!”),在赞扬他人后却感到自责(“那些赞美之词让她懈怠了!”)(Tversky & Kahneman, 1974)。
“一旦你对它变得敏感,你会发现回归无处不在。”
——心理学家丹尼尔·卡尼曼
要记住的一点:波动变化的行为恢复正常时,关于其变化的花哨解释往往是错误的,可能是均值回归在发挥作用。此外,相关研究尽管能够揭示各种关系,却并不能解释它们。如果青少年使用社交媒体与其抑郁风险相关(预测),这可能意味着使用社交媒体有抑郁风险,但也可能不是这样,也可能有其他解释(见“批判性思考:相关关系与因果关系”)。
检索练习
RP-8 学校篮球教练跟朋友说,上半场比赛,球队表现非常糟糕,她对球员大喊大叫才保住了球队的连胜纪录。球队表现变好的另一种解释是什么?
RP-9 婚龄与男性脱发呈正相关,是否意味着婚姻会导致男性脱发或者秃顶的男性会成为更好的丈夫?
答案见附录D
实验
学习目标问题 1-7 实验的什么特征使它可以厘清因果关系?
罗马诗人维吉尔(Virgil)曾说:“能够察觉事物原因的人是幸福的。”心理学家如何观察到相关研究中的因果关系,比如未成年少女使用社交媒体与她们患抑郁症和自我伤害的风险之间小的相关?
实验操作 我们的工作从两个简单的事实开始:
1. 2010年开始,全球智能手机和社交媒体的用户激增。
2. 同时,加拿大、美国和英国未成年少女患抑郁症、焦虑症,自我伤害和自杀的概率也急剧上升(Mercado et al., 2017; Morgan, 2017; Statistics Canada, 2016)。
这样的发现意味着什么?两者之间是否存在因果关系?如果是这样,父母应不应该限制他们上初中的子女使用照片墙(Instagram)或色拉布(Snapchat)的时间?即使是来自一百万青少年的超大样本得出的相关关系也无法回答我们。答案仍在争论之中,数据得出的结果也不一致。除了简单的相关关系外,一份研究摘要指出,在八项纵向研究(研究随时间推移的变化)中有六项研究表明,当前青少年对社交媒体的使用预示了其未来的心理健康问题(Haidt, 2019)。即便如此,为确定原因和结果,研究人员也必须进行实验(experiment)。在实验中,研究人员能够通过操纵感兴趣的因素和保持其他因素不变(即“控制”)来分离出一个或多个因素的影响。为达到这一目的,他们通常会建立一个实验组(experimental group),让人们接受操纵,如减少屏幕使用时间,并建立一个人们不接受操纵的对照组(control group),以进行对比。
批判性思考:
相关关系与因果关系
学习目标问题1-8 为什么相关关系能够预测却无法解释因果关系?
1. Belluck, 2013。2. Fielder et al., 2013; Willoughby et al., 2014。3. Resnick et al., 1997。4. 答案:(1)父母的爱可能会让青少年更健康。(2)表现良好的青少年可能会更多地感受到父母的爱和认可。(3)某些其他因素可能会影响父母的爱和青少年的行为,如家庭收入或社区环境。
实验:一种研究方法,研究人员通过操纵一个或多个因素(自变量)来观察其对某些行为或心理(因变量)的影响。研究人员旨在通过随机分配参与者控制其他相关因素。
实验组:在一个实验中接受操纵,即改变某种自变量的组。
对照组:在一个实验中没有接受操纵,与实验组形成对比,作为评价操纵效果的比较组。
随机分配:通过将参与者分配到实验组和对照组,从而使不同组之间预先存在的差异最小化。
为使两组之间预先存在的差异最小化,研究人员将人们随机分配(randomlyassign)到两个组中。无论是用随机数字表还是抛掷硬币,随机分配都能有效地使两组人是等效的。在一个实验中,如果有三分之一的参与者可以让耳朵扭动起来,那么每组中都有大约三分之一的参与者可以做到。年龄、态度和其他特征在实验组和对照组中也是相似的。因此,如果在实验结束时两组人有差异,我们就可以推测出操纵有效果(注意随机抽样和随机分配的区别,前者创造了一个代表性调查样本,后者则使实验组和对照组更加均衡)。
那么,关于未成年少女使用社交媒体与她们患抑郁症和自我伤害风险之间的关系的实验表明了什么?尽管真正改变社交媒体使用的实验很少,但在另一个实验中,有近1700人同意停用他们的脸书(Facebook)账户四周时间(Allcott, 2019)。与对照组的人相比,那些被随机分配到停用账户组的人花了更多时间看电视和与家人朋友互动,他们报告的抑郁症数量较低,对生活的幸福感和满意度更高,而且实验后也更少使用脸书。少玩会儿脸书,生活更加幸福。
人们对长期使用社交媒体的影响争论不休。目前,大多数研究人员都认为青少年无限制地使用社交媒体会带来一定程度的心理健康风险。随着进行更多大规模的相关研究和纵向研究,以及进一步的实验,研究人员将逐渐完善这一暂定结论。
要记住的一点:相关研究揭示了自然发生的关系,实验通过操纵一个因素来确定其影响。
程序和安慰剂效应 那么,考虑一下我们如何评估治疗中的干预措施呢?在生病或情绪低落时,我们倾向于寻求新的治疗办法,而这可能会产生误导性的证据。如果我们在感冒三天后开始服用锌片,发现感冒症状减轻了,我们可能会认为是药物的功劳,而不是感冒的自然缓解。在18世纪,放血疗法似乎很有效,人们有时在接受该疗法后会有所好转;如果他们没有好转,医生就会推断疾病已经到了无法逆转的程度。因此,无论一种疗法是否真正有效,使用者都有可能认可它。为了确定其疗效,我们必须控制其他因素。
而这正是对新药和新的心理治疗方法进行评估的方式(见第16章)。研究人员将这些研究的参与者随机分配到各研究小组。一组接受假性治疗——使用无药效的安慰剂(一种外观相同但不含药物成分的片剂),而另一组接受真正的治疗,如服用抗抑郁药物。参与者对于他们所接受的治疗通常都是“盲目的”,即不知情的。如果该研究采用双盲测试(double-blind procedure),则参与者、药物管理者和数据收集者都不知道哪一组在接受治疗。
双盲测试:一种实验测试,在测试过程中,研究参与者和研究人员对研究参与者是否接受了治疗或安慰剂都一无所知(盲目)。常用于药物评价研究。
安慰剂效应:(pluh- SEE-bo;拉丁文,意思是“我将取悦”)仅由期望引起的实验结果;使用无效的物质或引入无效的条件,参与者由于误将其当作有效因素而导致的对行为的任何影响。
自变量:在一个实验中,被操纵的因素;实验是为研究其变化产生的影响。混淆变量:除被研究的因素外,可能影响研究结果的因素。
因变量:实验中被测量的结果;当自变量被操纵时,可能发生变化的变量。
在双盲测试中,研究人员检查的是治疗的实际效果,而非参与者和研究人员对其疗效的信念。只要想到自己正在接受治疗,就能让人精神振奋,身体放松,症状得到缓解。这种安慰剂效应(placebo effect)在减少精神分裂症患者的疼痛、抑郁、焦虑和听觉幻觉方面有大量记录(Dollfus et al., 2016; Kirsch, 2010)。运动员服用所谓可提高表现的药物后跑得更快(McClung & Collins, 2007);喝无咖啡因咖啡的人报告称,在他们觉得饮品中含有咖啡因时,他们的活力和警觉性提高了(Dawkins et al., 2011)。人们服用虚假的情绪改善药物后感觉更好(Michael et al., 2012)。安慰剂越贵,对我们来说就越“真实”,价格为2.5美元的假药比10美分的假药效果更好(Waber et al., 2008)。要真正了解一种疗法的有效性,研究人员必须控制可能会出现的安慰剂效应。
检索练习
RP-10 研究人员采取了什么措施来防止安慰剂效应混淆研究结果?
答案见附录D
自变量和因变量 我们接下来看一个更有说服力的例子:药物万艾可(俗称伟哥)在经过21次临床试验后获批使用。其中一项试验是研究人员将329名患有勃起障碍的男性随机分配到实验组(服用伟哥)或对照组(服用安慰剂)。这个过程是双盲的,服药者和发药者都不知道参与者服用的是什么。结果显示:在峰值剂量下,有伟哥协助的成功案例占69%,而服用安慰剂的成功案例只有22%(Goldstein et al., 1998)。
这个简单的实验只操纵了一个因素:药物(服用伟哥与未服用伟哥)。我们把这个实验因素称为自变量(independent variable),因为我们可以单独改变它而不影响其他因素,如男性的年龄、体重和个性。其他有可能影响研究结果的因素被称为混淆变量(confounding variable)。随机分配控制了可能的混淆变量。
自变量:在一个实验中,被操纵的因素;实验是为研究其变化产生的影响。
混淆变量:除被研究的因素外,可能影响研究结果的因素。
因变量:实验中被测量的结果;当自变量被操纵时,可能发生变化的变量。
实验研究了一个或多个自变量对某些可测量行为的影响,并称其为因变量(dependent variable),这种变量可以根据实验中发生的情况而变化。自变量和因变量都有精确的操作定义,其中规定了操纵自变量(即本研究中确切的药物剂量和时间)或测量因变量(即男子对其性表现问题的反应)的程序。这些定义提供了一定程度的准确性,以便其他人能够重复这项研究(见图1.6中的脸书实验设计)。
随机分配(控制其他混淆变量,例如人格和环境)
图1.6 脸书实验
为了辨别因果关系,研究人员通过随机分配一些参与者到实验组,另一些参与者到对照组来控制混淆变量。测量因变量(抑郁症测试分数)以确定自变量(社交媒体接触)的影响。
让我们暂停一下,做一个简单的心理学实验,确保你理解了内容。为了测试房东对租房者种族的感知对其邀请租房者看房的影响,阿德里安·卡普索(Adrian Carpusor)和威廉·罗格斯(William Loges)在2006年的研究中向洛杉矶地区1115名房东发送了措辞相同的询问电子邮件。研究人员改变了发件人姓名中包含的种族身份信息,并跟踪研究了积极答复(即邀请他们亲自去看房)的百分比。其中,“帕特里克·麦克杜格尔”(Patrick McDougall)、“赛义德·拉赫曼”(Said Al-Rahman)和“泰瑞尔·杰克逊”(Tyrell Jackson)分别收到89%、66%和56%的邀请。在这个实验中,什么因素是自变量?什么因素是因变量呢?[3]
实验也可以帮助我们评估社会项目。早期儿童教育计划能否提高贫困儿童的成功机会?各种反吸烟运动有什么效果?学校的性教育计划能否减少青少年怀孕的情况?为了回答这些问题,我们可以进行实验。如果一项干预措施效果极佳,但资源有限时,我们可以用抽签的方式,随机分配一些人或地区体验新的项目,而其他的人则作为对照组。如果后来这两组人有差异,那么干预的效果就有据可依(Passell, 1993)。
“(我们必须防范的)不仅是种族诽谤,而且要…… 防范微妙的冲动,例如给强尼工作面试机会,而不给贾马尔。”[4]
——美国前总统贝拉克·奥巴马
让我们来回顾学过的内容。变量是任何可以变化的东西,如婴儿营养、智力、社交媒体接触等任何在可行和道德的范围内可以测量的东西。实验的目的是操纵自变量,测量因变量,并控制混淆变量。一个实验至少有两个不同的组:一个实验组和一个对照或控制组。随机分配的作用是在任何操纵效果发生之前,尽量减少各组之间预先存在的差异。这样,一个实验至少可以测试一个自变量(我们操纵的因素)对至少一个因变量(我们测量的结果)的影响。
检索练习
RP-11 通过随机分配,研究人员能够控制______,这是除自变量以外可能会影响研究结果的因素。
RP-12 将左边的术语(i—iii)与右边的描述(a—c)相匹配。
RP-13 为什么在测试一种控制血压的新药时,在1000名参与者中,给一半人服用药物会比给所有参与者都服用药物更能了解其效果?
答案见附录D
研究设计
学习目标问题 1-9 你如何知道要使用哪种研究设计?
在本书中,你将学习到心理科学相关的各种神奇发现。但是,为得到有意义的结果,心理学家们会如何选择研究方法并设计他们的研究呢?了解研究如何进行,即如何开发和研究可检验的问题,是理解整个心理学的关键。表1.3比较了心理学各种主要研究方法的特点。在后面的章节中,你将学习到其他研究设计,包括双生子研究(第4章)以及横断研究和纵向研究(第10章)。
表1.3 研究方法的比较
在心理学研究中,除了无法检验(或不道德)的问题外,如自由意志是否存在、人是否生来邪恶以及来世是否存在等,没有任何问题是不允许研究的。尽管心理学家们无法检验这些问题,但他们可以测试自由意志观点、攻击性人格以及来世的观点是否影响人们的思考、感受和行为(Dechesne et al., 2003; Shariff et al., 2014; Webster et al.,2014)。
选定研究问题后,心理学家会选择最合适的研究设计,如实验研究、相关研究、案例研究、自然观察、双生子研究、纵向研究或横断研究,并决定如何最有效地对其进行设置。他们会考虑可用的资金和时间、伦理问题以及其他限制。例如,研究儿童成长的研究人员采用实验法将儿童随机分配到温馨的家庭或严厉的家庭中,这种做法是不道德的。
接下来,心理学家会决定如何衡量所研究的行为或心理过程。例如,研究攻击性行为的研究人员可以衡量参与者是否愿意用所谓的强烈噪声轰击陌生人。
研究人员希望对研究结果更自信,所以还会仔细考虑混淆变量。
心理学研究是一种创造性的冒险。研究人员要设计每项研究,测量目标行为,阐释所得结果,并在此过程中进一步了解行为和心理过程的迷人世界。
自问
你会选择哪个心理学问题进行研究?你将如何设计此项研究?
预测日常行为
学习目标问题 1-10 简化的实验室条件能阐明日常生活吗?
在看到或听到心理学研究时,你是否会好奇,人们在实验室里的行为能否预示他们在日常生活中的行为?在黑暗的房间里探测微弱的红光闪烁,是否可以应用于飞机夜间飞行?观看了暴力色情片后,男性更愿意朝女性按下所谓的播放噪声按钮,这是否真的说明观看暴力色情片增加了男性虐待女性的可能?
回答上述问题之前,我们需要了解,研究人员意图将实验室环境打造为简化的现实环境,从而模拟和控制日常生活的重要特征。正如风洞能够让飞机设计师在控制条件下再现气流的力量,实验室实验能够让心理学家在控制条件下再现心理力量。
实验的目的不是精确地复制日常生活中的行为,而是检验理论原理(Mook, 1983)。在攻击性研究中,决定是否按下噪声按钮与打人耳光可能不一样,但原理是一样的。有助于解释日常行为的正是由此得出的原理,而非具体的发现。
心理学家在将有关攻击性的实验室研究应用于实际暴力事件时,采用的是攻击性行为的理论原理,这些原理是他们从许许多多的实验中提炼出来的。同样,研究人员也会将从实验室环境的实验(如在黑暗中看红灯)中得到的视觉系统原理应用于更复杂的行为,如夜间飞行等。许多调查表明,实验室中得出的原理通常可以推广到日常生活中(Mitchell, 2012)。
要记住的一点:心理科学关注的不是特定的行为,而是揭示有助于解释许多行为的一般原理。