第6章 让一切置于控制之下——聪明汉斯的故事
这一章开始前,咱们先来做一个小测验。噢,别担心,不是考你前几章所学的内容。问题其实很简单,是有关现实世界中常见的物体运动方面的知识,问题只有三个。
首先,你需要一张纸。想象如下场景:一个人拿着一根细绳在他的头顶上绕圈,绳子的另一端系着一个球。画一个圆来代表从上方俯瞰这个球的运动轨迹。在这个圈的一处画一个点,然后用一条线把这个点和此圆的圆心连接起来。这条线就代表那根细绳,那个点就代表特定时刻的球。想象在某一旋转瞬间,细绳断了。你的第一项任务是用笔画出这个球飞出后的运行轨迹。
第二个问题,假设你是一个轰炸机的飞行员,现在正以每小时500英里的速度在20000英尺的高空飞向目标,为了简单起见,假设没有空气阻力。问题是:什么地方是投掷炸弹的最佳位置,是在到达目标地点之前,还是目标的正上方,或者是在你经过目标之后?无论你选择的是目标之前、目标正上方,还是飞越了目标之后,都请你指出投放点与目标的具体距离。
最后,想象你正拿着一把来复枪从肩膀高度开火,假设没有空气阻力,且步枪与地面是平行的。如果子弹从与枪相同的高度落地需要1.5秒钟的时间,那么假设你现在由枪管中射出一发子弹,初速度是每秒2000英尺,那么子弹落地需要多长时间?
答案——对了,还有答案这档子事儿。答案会在本章的后面揭晓。但在此之前,为了便于理解掌握这些运动方面的知识与心理学有什么关系,我们需要先探入地探讨实验逻辑的本质,这些实验逻辑经常被科学家们所使用。在本章,我们将要讨论实验控制和操纵的一些原理。
斯诺与霍乱
在前一章我们讲到,约瑟夫·戈德伯格对糙皮病的研究,一定程度上是受“糙皮病是不会传染的”这种预感的指引。但是比戈德伯格早70年,约翰·斯诺(John Snow)在对霍乱起因的研究过程中,则将病因放在相反的猜想上,但同样获得了成功(Goldstein & Goldstein, 1987; Tufte, 1977)。早在19世纪50年代的伦敦,人们对不断暴发的霍乱提出了许多理论,并且彼此争论不休。很多医生认为霍乱病人呼出的气体会将此疾病传染给别人,此理论被称为“秽气理论”。但是,斯诺却提出,该疾病是通过被病人排泄物污染的供水系统传播出去的。
斯诺开始着手验证他的理论。幸运的是,当时伦敦有许多不同的供水源,每个供水源给不同的地区供水,所以不同供水系统受感染的程度不同,霍乱的发生率应该因供水源受污染程度的不同而存在差别。但是斯诺发现,这种比较会出现严重的选择性偏差(请回想一下第5章的讨论)。在伦敦,不同地区的贫富差距非常大,因此,供水系统和各地区患病率之间的任何相关都会受到其他能够影响健康的、与该地区的经济发展水平相关的变量的影响,如饮食、压力、工作危机或生活质量。简而言之,获得虚假相关的可能性很大,这和第5章所讨论的糙皮病和污水的关系类似。但是斯诺非常机敏地注意到了一种已经出现过的特殊条件,并利用这一点解决了问题。
在伦敦的一个市区,碰巧有两家自来水公司对同一个社区供水,但从供水布局上来说是杂乱无章、毫无规划的。在某条街道上,一部分住宅是由其中一家自来水公司供水,一部分是由另外一家自来水公司负责供水,这种情况发生的原因是由于最初两家公司存在竞争。甚至有这样的情况,一栋房子由一家公司供水,而与它毗邻的房子却是由另一家公司供水。因此斯诺找到了几个由两家公司分别供水的家庭,并且这些家庭的社会经济地位基本相同,或至少是非常接近的。如果两家自来水公司都受到污染,那么这种选择仍旧是没有任何意义的,因为这样斯诺就不能发现水污染与霍乱的发病率有什么关系了。所幸的是,这种情况并没有发生,这两家公司的水并未同时受到污染。
在一波霍乱流行过后,兰姆博斯(Lambeth)公司为了避免水污染,将公司迁到泰晤士河的上游,而南沃克-沃克斯霍尔(SouthwarkScVauxhall)公司却仍然固守在下游。因此,兰姆博斯公司的水系统受污染的可能性比南沃克-沃克斯霍尔公司要小得多。斯诺通过化学检验也证明了这一点。剩下的工作就是统计由两家不同公司供水的家庭的霍乱发病率:兰姆博斯公司供水的每10000个家庭里有37人死亡,南沃克-沃克斯霍尔公司供水的每10000个家庭里有315人死亡。
在这一章我们要讨论的是,斯诺和戈德伯格的故事是如何体现科学思维的逻辑性的。如果不能理解这种逻辑性,科学家们的所作所为看上去就会显得很神秘、怪异或是荒唐透顶。
比较、控制和操纵
尽管市面上关于科学方法论的书已经汗牛充栋,但是对于从未做过实验的外行人士来说,这些书可能都如同浮云一般,因为外行人只想知道一个大概,并不想搞清楚实验设计的所有复杂细节。科学思维最重要的特点很容易掌握,那就是科学思维所基于的理念是比较、控制和操纵。要想获得对一个现象更为深入的了解,科学家就要比较世界上存在的各种情况。没有这种比较,我们所观察到的都是一些孤立的事件,并且对这些孤立的观察结果也解释不清,就像我们第4章所讨论的见证叙述和个案研究一样。
科学家通过比较在不同条件下得到的结果,可以排除一些错误的解释,并证实正确的解释。通过比较,科学家可以排除许多先前被当作既定答案的理论。也就是说,他们试图在一个实验设计中尽可能多地排除错误解释。他们这么做的途径无外乎两种:要么是在实验条件下直接进行控制;要么在自然情境下观察,以便比较各种可能的解释。
后一种情形在霍乱这个例子中得到了很好的诠释。斯诺并不是简单地随意选择两家自来水公司,他清楚自来水公司可能给不同地区供水,并且这些地区的社会经济水平会有很大差异,这种社会经济水平的差异很有可能会影晌人们的健康水平。仅仅观察不同地区霍乱的发病率,难以避免“同时存在许多不同解释”的问题。斯诺清楚地知道,科学的不断发展需要尽量减少对一个问题的各种不同解释(请回想一下第2章所讨论的可证伪性),因此他不断寻找并且最终找到一种比较方式,此方式可以排除一大堆解释,这类解释都是与健康有关的社会经济地位方面的因素。
斯诺幸运地找到了一种自然情境,这种情境使得他能够排除其他的可能性。这种在自然情况下产生的“比较”条件并不多见。让科学家坐在那里等待这类情况发生是十分荒谬的。事实上正相反,很多科学家都试图以一种区分各种不同假设的方式来重构世界。为实现这一目的,他们必须操纵被认为是诱因的变量(在斯诺的实验里是被污染的供水系统),然后在保持其他所有相关变量不变的情况下,观察是否会有不同的结果(霍乱的发病率)。被操纵的变量称为自变量,随着自变量变化而变化的变量称为因变量。
因此,一个好的实验设计应该是这样的:科学家能够操纵他感兴趣的变量,并对其他可能影响实验的无关变量进行控制。需要注意的是,斯诺并没有这么做。他不可能操纵供水系统的污染程度,但是他找到了这样一种条件,即供水系统受污染的程度是不同的,并且与社会经济水平有关的其他变量侥幸得到了控制。可是这种自然发生的情境不仅很少见,而且也不如直接的实验操纵那么有说服力。
约瑟夫·戈德伯格就是直接操纵变量,他假设这个变量就是引起某种特别现象的原因。戈德伯格不仅对与糙皮病相关的变量进行观察和记录,他还在一系列研究中直接操纵了其他两个变量。回想一下,他安排了低蛋白饮食的囚犯组来诱发糙皮病,同时安排吞食糙皮病患者排泄物的志愿者,其中还包括他妻子和他自己。因此,戈德伯格不仅观察了自然发生的情境,还创设了特殊条件组,从而排除一系列其他可能性并获得实验结果,这种推论要比斯诺的方法更具说服力。这也正是为什么科学家要试图操纵一个变量并保持其他所有的变量不变的原因:为了排除其他的可能性。
随机分配与操纵共同定义了真实验
我们这里并不是说斯诺的方法毫无可取之处。但科学家们的确愿意更为直接地操纵实验变量,因为直接操纵变量能够产生更具说服力的推论。细想斯诺的两组被试:一组由兰姆博斯公司供水,另一组由南沃克-沃克斯霍尔公司供水。由于处在同一个地区,可能保证了两组被试的社会地位几乎相同。但是类似斯诺这类实验设计的缺陷是:它是由被试决定自己属于哪一个组的。因为他们早在几年前已与两家自来水公司签订了供水合同。我们还必须考虑为什么一些人与这家公司签约,而另外一些人与那家公司签约。是不是一家公司比另外一家公司的口碑好?是由于这家的价钱比较便宜,还是广告说这家的水有很好的药用价值?我们不得而知。关键的问题是:这些人选择其中一家公司是不是因为该公司做广告说他们的产品质量优于另外一家,特别是对人的健康有益处?而或许这些因素才是低发病率的真正原因。这是有可能的。
类似斯诺这样的实验设计就无法排除那些更为微妙的虚假相关,这类虚假相关不像其他与社会经济地位有关的相关那样容易被看出来。这就是科学家倾向于直接操纵他们感兴趣的变量的原因。当操纵变量与一种叫做随机分配的程序(在随机分配中被试不能决定自己进入哪种实验条件,而是被随机分配到某一个实验组)相结合时,科学家们就能够排除那些可以归因为被试本身特征的解释了。随机分配确保被试在对比实验条件下的所有变量基本保持一致,随着样本数量的增加,它还能平衡掉一些偶然因素。这是因为被试的分配是由不带偏见的随机方法实施的,而不是由某个人的选择决定的。请注意这里的随机分配与随机样本不是一回事,这两者的区别我们将会在第7章进行讨论。
随机分配是一种将被试分配到实验组和控制组的方法,以保证每个被试有同样的几率被分到其中一个组。掷硬币就是一种决定某一被试分到哪一组的手段。实际实验中往往采用电脑生成的随机数字表。通过使用随机分配,研究者在研究之前就试图平衡两组的所有行为变量和生理变量,甚至是那些研究者没有进行专门测量或考虑到的变量。
随机分配的效果如何,取决于实验中被试的数量。也许你会认为被试越多越好,也就是说,分配到实验组和控制组的被试的数量越多,两组间除了自变量以外的其他所有变量就越接近。但幸运的是,对于研究者来说,其实每组只需要一个相当少的人数(例如15-20人),随机分配就可以起到很好的效果。
使用随机分配能有效避免由于分组方式所导致的系统误差。这两组被试在所有变量上均得到匹配,但即使存在一定程度的不匹配,随机分配也消除了实验组或控制组之间的偏差。如果我们了解一下“重复”这个概念,对于随机分配如何去除系统误差这个问题就比较好理解了,所谓的重复是指在各种环境下重复一个实验,看还能否得到同样的实验结果。
设想一下,一个发展心理学家想要做一个关于早期丰富体验对学前儿童的影响的实验,在日托期间,随机分配到实验组的儿童每天接触心理学家设计的大量丰富活动,随机分配到控制组的儿童在同样的时间里只是参加一些比较传统的游戏活动。因变量是儿童上学一年后的期末成绩,通过成绩考察实验组儿童的表现是否优于控制组儿童。
像这样的实验就会用到随机分配,以确保两组在实验之初,所有能够影响因变量的无关变量都基本保持一致。这些无关变量有时被称为干扰变量。这个实验中的干扰变量可能会是儿童的智力测验成绩和他们的家庭环境。随机分配将会在大体上使两组间在这些变量上保持平衡。但也有例外,尤其当被试人数很少时,两组仍然有可能存在差异。例如,如果随机分配之后,实验组儿童的智力测验的成绩是105.6,控制组的是101.9(尽管恰当地使用了随机分配,这种差异还是有可能发生),我们就会担心实验组的学业成就的任何变化缘于该组儿童的智力测验成绩高,而不是由于他们经受了丰富的体验。这里就能看出重复验证的重要性了。后续研究进行随机分配之后,两组仍然可能存在智商差异,但是随机分配程序避免了系统误差,这就能够保证这种差异不会总是出现在实验组。事实上,无系统误差这一点所确保的是,在一定数量的类似研究中,智商差异出现在实验组和出现在控制组的概率是相等的。在第8章我们将会讨论如何使用这种多重的实验来提高结论的聚合效度。
因此,随机分配程序有两个优点。一个是在任何实验中,样本的数量越大,随机分配越能平衡两组所有其他的无关变量。而即使在一些匹配得不是特别好的实验里,由于随机分配克服了系统误差,仍然可以让我们得出令人信服的结论——只要研究可以被重复。所以,尽管随机分配不能保证被试在任何实验中都保持完全的匹配,但它仍然是能够用来确保达到某种平衡的最好方法。
控制组的重要性
科学研究中不乏由于缺乏真实验的完全控制而得出错误结论的例子。罗斯和尼斯贝特(Ross & Nisbett, 1991)提到一个发生在20世纪60年代中期的案例:门腔静脉分流术一度是一种非常流行的治疗肝硬化的方法。1966年人们开始对此疗法进行大量研究,并且发现了一种令人感兴趣的现象。在96.9%的不包含控制组的研究中,医生判断这种治疗方法的效果至少在中等程度以上。在有控制组但没有使用随机分配的研究中(因此不属于真实验设计),86.7%的研究显示同样的结论。但是,在有随机分配的控制组的研究中,只有25%的研究显示同样的结论。因此在今天,这种特殊治疗方法被认为是无效的,但在当时,由于没有进行完全的实验控制,治疗效果被夸大了。罗斯和尼斯贝特(1991)指出,“没有使用较为正式的实验程序所获得的积极效果,要么是‘安慰剂效应’的产物,要么是由于没有使用随机分配而产生的偏差”(p.207)。罗斯和尼斯贝特还继续探讨了“当没有使用随机分配的时候,选择性偏差是如何产生虚假相关的”这一问题。例如,如果一些病人被选作某种治疗方法的研究被试,他们可能会努力做一名好的参与者,或者他们拥有家庭的支持、积极的态度或者他们的家人对其病情更为关心,这些都可能影响实验组与控制组的差别,而这与治疗方法的效果没有任何关系。
在下结论之前必须获得“比较信息”,这种思维倾向并不是与生俱来的,这就是为什么所有科学研究都要经过训练。这些训练包括强调控制组的重要性的研究方法课程。控制组和实验组很像,只不过缺少一种重要因素的影响。控制组的这种“非鲜明性”很难让人发现它的重要性,心理学家们做了大量的研究来说明人们为什么忽视重要的比较(控制组)信息。例如,在一个研究范式中(Fiedler & Freytag, 2004; Novick & Cheng, 2004; Stanovich & West, 1998),我们给被试呈现一个2X2的实验数据矩阵:
表格中的数字代表每种情况的人数。具体来说,200人在接受了治疗后表现出病情好转,75人接受治疗但没有任何好转,50人没有接受治疗但仍有好转,15人没有接受治疗也没有任何好转。研究者让看过这一矩阵的被试指出治疗是否有效,很多被试认为测试中的治疗方法是有效的,相当多的被试甚至认为治疗是很有效的。这是因为他们首先关注的是200个接受了治疗且好转的那一组,其次,他们关注这样一个事实,即接受治疗且好转的人数(200)要远远多于没有好转的人数(75)。
事实上,这个实验所检测的疗法是完全无效的。为了理解为什么这个疗法是无效的,有必要关注一下表示没有接受治疗的控制组(没有接受特殊疗法的组)的两格数据。我们可以看出,控制组的65人中有50个人,即76.9%的人即使没有接受特殊治疗还是有所好转。这与275中200人(72.7%)接受治疗且有所好转形成了对比。因此,控制组中病情好转者的比例实际上更大,这说明这种疗法是完全没有效果的。只关注实验组的结果而忽视控制组的结果,会诱使许多人认为这种疗法有效。简而言之,它很容易让人们忽略这一事实,即当我们对治疗效果进行解释时,控制组的结果是背景信息中极为关键的一环。
聪明汉斯——神马的故事
用实验控制来排除某种现象的各种不同解释,这么做是极为必要的。这种必要性可以通过行为科学中一个非常著名的故事来说明。故事的主人公叫聪明汉斯(Clever Hans)——一匹会算术的马。80多年前,一名德国教师向大家展示了一匹马,它的名字叫聪明汉斯,它好像知道如何算术。训练员无论给汉斯出加法、减法还是乘法题,汉斯都能用它的蹄子敲出答案,并且它的回答完全正确。
许多人对于聪明汉斯的表现都感到惊讶和迷惑。难道这匹马真的证明人们低估了这个物种的实际能力吗?人们无疑会有这样的疑问。对汉斯特殊能力的有力见证被德国媒体广泛报道。柏林的一家报社记者写道:“这匹会思考的马将会使科学家对很多问题做很长时间的思考”(Fernald, 1984, p.30),这个预言后来被证明是正确的——尽管与记者所期望的有所不同。一组“专家”对汉斯进行了观察,并且证明了它的能力。因此每个人对此都感到很困惑。这个困惑一直困扰人们,因为这个现象总是被孤立地观察到,也没有进行任何的控制。但这个谜团很快被一位叫奥斯卡·芬斯特(Oskar Pfungst)的心理学家解开了,他对汉斯的能力进行了系统的研究(Spitz, 1997)。
芬斯特继承了实验设计的优良传统,系统地对动物表演的环境进行操纵,创设了一种“人为”情境(见第7章),这种情境可以用来检验关于马的表现的各种不同说法。在一系列小心谨慎的测试之后,芬斯特发现,这匹马的确具有一种特殊能力,但不是计算能力。事实上,这匹马更像是一位行为科学家,而不是数学家。你看,汉斯是一个非常细心的人类行为的观察者,当它正在敲出答案的时候,它会观察训练员或者出题者的头部。当汉斯接近答案的时候,训练员会下意识地稍微歪一下他的头,然后汉斯就会停下来。芬斯特发现这匹马对视觉线索极其敏感,它能察觉头部的细微动作。于是芬斯特想出了另外一个方法来测试马的能力:就是让不知道答案的提问者向这匹马提问,或者让提问者在马的视线范围以外呈现问题,而在这些情况下,汉斯就失去了它的“数学能力”。
汉斯的例子很好地揭示了仔细区分“对现象的描述”和“对现象的解释”是何等重要。这匹马能够正确敲出训练员呈现给它的数学问题的答案,这是毋庸置疑的,训练员也没有撒谎,而且许多观察者也都证明了这匹马能够做到这一点。问题出现在下一步:即推论这匹马能敲出正确答案是因为它具有数学能力。推断马具有数学能力只是这一现象的一种“假设的解释”。从“马能敲出正确答案”就得出“马具有数学能力”的结论是不符合逻辑的。别忘了,马具有数学能力只是针对马的表现的诸多解释中的一种,而这种解释是可以通过实证方法来检验的。当放在这样一种实验情境下,这个解释就被证伪了。
在芬斯特涉足此事之前,那些见过这匹马的专家们都犯了一个根本性的错误:他们没有想到,对于马的表现还可能存在其他的解释。这些专家认为,只要证明训练员没有撒谎,并且这匹马真的能敲出正确答案,就能够推论出这匹马具有数学能力。然而芬斯特想得更科学一些,他意识到这只不过是众多可能性中的一种,有必要设立控制条件来区分这些可能性。于是芬斯特设计了一个情境,让训练员站在隔板的后面把问题呈现给这匹马,通过这种方式,芬斯特就可以对两种可能性进行区分:是这匹马真的具有数学能力,还是它能对视觉线索做出反应?如果这匹马真的具有数学能力,让训练员站在隔板后面就不会对马的表现产生任何影响。而如果这匹马是对视觉线索做出反应,那么就会影响马的表现。当后者出现的时候,芬斯特就能够排除“这匹马具有数学能力”这种错误的解释(Splkz, 1997)。
这里可以同第3章中讨论过的节省原则联系起来,所谓的节省原则就是说,当两种理论拥有同样的解释效力时,我们倾向于选择那个比较简单的理论(涉及较少的概念和概念之间的关系)。此处有两种理论,一种认为这匹马具有数学能力,另一种则认为这匹马是在辨别行为线索,这两种理论在节省原则上的差异是很大的。后者不需要对先前任何心理学和大脑方面的理论做出大幅度调整,它只需要我们将“马对行为线索具有敏感性”的看法稍加调整即可(现在已经广为人知)。而前一种认为马真的能学习算术的理论,则需要我们修改进化论、认知科学、比较心理学和脑科学中的很多概念。这可是相当麻烦的,因为它与其他这些科学缺乏一致性,因此如果它是真的,就需要我们更改这些科学中的很多概念才行(我们将会在第8章讨论所谓的关联原则)。
20世纪90年代的聪明汉斯
聪明汉斯的故事只是一个历史案例,很多年来,在研究方法课上,这个例子都被用来说明实验控制的必要性。没有人认为聪明汉斯的事情会再次发生,但却真的发生了。在20世纪90年代初,全世界的研究者们都在惊恐中观望,就像用慢镜头的方式观察一场车祸一样,眼看着现代版的聪明汉斯的悲剧又一次展现在他们眼前(Gardner, 2001; Hines, 2003; Twachtman-Cullen, 1997)。
自闭症是一种严重的发展性障碍,其表现是社交缺陷、语言发展的滞后及异常,以及活动和兴趣范围狭窄等等(Frith, 2003)。许多自闭症患外表看起来都很正常,只是极度缺乏与人的交流,这让家长们很难接受。因此20世纪80年代末期和90年代初期,在澳大利亚有人发明了一种技术,能让自闭的孩子从不说话到自由交流,很难想象这些自闭症患儿的家长们听到这个消息时该是多么激动。这种能让自闭症患者与人交流的技术被称为“辅助沟通疗法”,被一些很有知名度的媒体如《60分钟》、《大观》杂志和《华盛顿邮报》等拿来大肆宣扬(见Dillon, 1993; Jacobson, Muiick, & Schwartz, 1995, 1996; Mulick, Jacobson, & Kobe, 1993; Twachtman Cullenf 1997),据此技术的发明者称,自闭症患者以及其他因发展不良导致言语缺失的儿童,只要把手和胳膊放在这台善解人意的“辅助器”上,就可以在其辅助下,在键盘上敲出相当有文采的句子来。自闭的孩子从之前有限的语言行为到能够交流表达,这种惊人的表现无疑给沮丧的家长们带来了无限希望。这个发明者还宣称,这种技术对于那些有严重智力障碍的失语儿童也同样有效。
尽管家长们的激动心情是可以理解的,但专业人员的轻信盲从就让人不能原谅了。更为糟糕的是,在没有进行控制实验的研究之前,这些媒体节目就开始向抱有无限期望的家长们大肆宣扬这种辅助沟通疗法多么有效。要是这些专业人员在实验控制原则方面受过哪怕一丁点儿训练,他们就能立刻看出这不过是“聪明汉斯”事件的翻版。那些辅助器可以说是一个永远关注孩子成功的、富有同情心的“人”,在辅助过程中有许多机会有意或无意地指导孩子触碰键盘上的按键。另外一项观察发现,孩子们有时即使不看键盘也能打出复杂的信息,这说明辅助器给了孩子某种暗示。甚至连没学过字母的孩子也能用英语创作出优美的散文。
许多有控制的研究报告称,他们通过适当的实验控制检验了这种辅助沟通疗法。每项研究都明确地说明了同样一件事:自闭症患儿的表现依赖于辅助器发出的不易被觉察的提示(Burgess,Kirsch, Shane, Niederauer, Graham, & Bacon, 1998; Cummins & Prior, 1992; Hudson, Melita, & Arnold, 1993; Jacobsonet al 1995,1996; Jacobson, Foxx, & Muiick, 2004; Mostertf, 2001; Shane, 1993; Spitz, 1997; Wegner, Fuller, & Sparrow, 2003)。在这些研究中使用的控制方法与聪明汉斯的经典案例是相似的。研究人员设置了一种实验情境,给孩子和辅助器各自呈现一个物体的图案,但是他们彼此看不到呈现给对方的图案是什么。当孩子和辅助器看到的是相同图案的时候,孩子能正确地打出图案的名字,但是当孩子和辅助器看到的图案不同时,孩子打出的是辅助器看到的图案的名字,而不是孩子自己看到的那个图案。因此,答案是由辅助器而不是孩子决定的。实验结论是,辅助沟通疗法只不过是一种“聪明汉斯”现象,绝非治疗方法上的重大突破,也没有给研究人员带来任何欣喜。心理学家罗伯特·康明斯(Robert Cummins)与马戈特·普莱尔(Margot Prior)总结道,“这证明了一些助理人员通过利用触觉/视觉线索或是自身的动作姿态等来操纵客户的反应。目前研究证据所给我们的结论是令人不快的,也是不可逆转的”(p.240)。
但悲剧后面紧跟着更大的悲剧。在一些治疗中心,有当事人在接受辅助器帮助的沟通过程中,讲出过去他们曾受到父亲或母亲的性虐待(Dillon,1993; Sdigmann & Chideya, 1992; Spitz, 1997; Twachtman-Cullen, 1997)。于是这些孩子们被迫从家里搬出来,直到这场指控被证明是毫无根据之后,孩子们才被接回来:“许多法院的诉讼案件,皆因接受辅助沟通疗法所引起,其中最引人注目的是关于控告虐待罪名的案例。法院下令的查证都证实是辅助器不适当地影响了交流,这些指控就都被撤销了(Smith & Belcher,1993, p.176)。”哈德森(Hudson, 1993)等人报告了一个实验测试:一个和父母住在一起的29岁女子被认为有严重的智力障碍。在接受辅助治疗期间,这个女子报告说曾经受到生活中重要人物的性侵犯。在进入法律程序时,哈德森等人通过使用芬斯特在聪明汉斯案例中用到的逻辑方法,在接受辅助疗法治疗时对这个女人的交流能力进行了测试。通过两个不同的耳机,分别对这个女人和辅助器进行提问。当两者被问到相同问题的时候,这个女人每次都能回答正确,当问到不同问题的时候,这个女人的答案都是错的,有40%的答案是在回答辅助器被问到的问题。
由于这些研究结果,专家的意见终于穿透媒体的喧闹浮出水面。重要的是,大家越发认识到,这些缺乏实证基础的疗法并非无害(“哦,它有作用,那么它要是没有作用呢?”),将未经证实的疗法投入使用是要付出代价的。波士顿儿童医院的沟通促进中心的负责人霍华德·施恩(Howard Shane, 1993)直截了当地指出:
所有科学证据都表明,辅助沟通疗法是没有用的……由于这种方法存在潜在的伤害性,所以不应被继续使用下去了。譬如,辅助沟通会导致错误的性虐待指控、人们对教育资源配置的不当要求,并且大量的训练和研究经费被投入到无用的技术里。(p.11)
俄亥俄州立大学儿科及心理学教授詹姆斯·姆里克(见Mulick,Jacobson, & Kobe, 1993)更是一针见血地指出了这种教育手段风行一时所付出的代价:
如果没有对辅助沟通疗法的大力宣传,我们可能就会把更多的人力和金钱用于发展基于更有实证基础的、更可行的长远策略,来解决困扰儿童的这一问题。辅助沟通疗法的支持者为研究和专业文献所带来的理论上的混乱,对能力缺陷及其成因方面知识的积累造成了极大的损害。将辅助沟通疗法与其他成功治愈残疾人的非语言交流系统混为一谈,会使真正有效的方法也失去公众的支持……根据我们的经验,残疾人能够成为他们家庭和社区里有价值的成员,他们无需求助于神奇的治疗方法。他们可以寻求现有的有效帮助,这种帮助是有科学意义的。受过科学训练且富有同情心的专业人员的努力胜过所有流行的治疗方法,而且始终如此。治疗的进步和对于治疗的理解是建立在严格的训练、精确的科学标准以及对各种治疗理论的客观证明之上的。(pp.278-279)
上述这个例子再次证明,仅仅相信见证叙述或者认为流行的治疗方法和伪科学无害,最终会带来危害(见第4章)。由此我们还能发现,当我们想要正确解释某种行为的时候,实验控制和操纵是不可替代的。这里需要再次强调一下节省原则。自闭症儿童严重的语言障碍居然能够通过一种“神奇子弹”式(见第9章)的干预方法得到治愈,而这种干预方法推翻了几十年来关于自闭症儿童的认知、神经心理和脑特征的研究成果(Baron-Cohen,2005; Frith, 2003; Leslie, 2000; Sigman & Ruskin, 1999; Wellman,Cross, & Watson, 2001)。这需要我们修改很多关于认知和神经科学方面已取得的知识。辅助沟通疗法的现状表明,它与其他科学研究成果没有关联性和一致性(见第8章)。
对变量分开考察:特殊条件
戈德伯格与糙皮病的例子给我们上了重要的一课,对于我们澄清有关科学进步的一些错误概念有很大的帮助,尤其是当其运用到心理学中的时候。世界上发生的任何事情通常都与其他许多因素有关联。为了对许多同时发生的事件所造成的因果影响分别进行考察,我们必须创设一些通常情况下不会出现的条件。科学实验将世界上原有的相关分割开来,以此来使单一变量的影响显现出来。
心理学家采取的也是同样的方法:通过操纵和控制来分离变量。例如,认知心理学家们对阅读的过程很感兴趣,他们对促进或阻碍文字识别的因素进行了研究。毫无疑问,他们发现较长的单词比较短的单词更难识别。乍一看,我们会认为单词长度的影响是很容易测量的:简单地设置两组单词,一组长的,一组短的,然后测量两组读者识别速度的差异。不幸的是,事情远没有那么简单。长度较长的词,其使用频率可能也较低,而使用频率本身也会影响识别。因此,长词与短词之间的任何差别都可能是由于长度、使用频率或两个因素共同作用而造成的。为了明确到底词的长度能否独立地对词的识别造成影响,研究者必须创造一些特殊的词,它们的长度与使用频率不是同时变化的。
与之类似,戈德伯格之所以能够做出强有力的原因推断,是由于他设置了一组非自然发生的特殊条件(想一下他的一个实验操纵是要被试吃下人体的排泄物,这是何等的“不自然”啊!)。回想一下奥斯卡.芬斯特设置的一些测试“聪明汉斯”的实验条件,其中包括一些提问者也不知道答案。那些仅仅观察马在自然条件下(提问者知道答案)回答问题的人,非但永远不可能发现那匹马是如何做到这一切的,反而会得出错误的结论,认为那匹马真的具有数学知识。
同样,在检验“辅助沟通疗法”的疗效时,研究者也必须设计一些特殊的条件。呈现给辅助器和儿童的刺激必须分离,这样任何一方都不知道呈现给对方的刺激是什么。为了测试某种现象的不同假设,这类不同寻常的条件是很必要的。
心理学上的很多经典实验都需要将现实世界的自然关系分开考察,通过这样一种逻辑,就能看出哪个变量是决定因素。心理学家哈里·哈洛(HarryHarlow)的著名实验(Anderson & Anderson,1996; Harlow, 1958)就是个很好的例子。哈洛想要测试一种关于亲子依恋的假设:依恋的产生是由于母亲为婴儿提供食物。然而,问题是母亲提供的不仅仅是食物(还有舒适、温暧、爱抚以及刺激等)。哈洛创设了一种条件,在这种条件下只有一个变量与依恋有关——他让刚出生的短尾猴只能在“人造的”母亲之间选择,并测查了小猴子在这种条件下的行为。例如,他发现,小猴子喜欢厚绒布做成的“母亲”所提供的接触舒适感,甚于喜欢铁丝网做成的“母亲”。出生两周之后,小猴子更喜欢冰冷的厚绒布“母亲”,而不是温暧的铁丝“母亲”,这说明接触上的舒适感比温暧更吸引小猴子(Harlow & Suomi, 1970)。最后,哈洛还发现,即使当食物仅来自于铁丝“母亲”的时候,小猴子仍然更喜欢厚绒布母亲。因此,“依恋仅是由于母亲提供食物”的这种假设是错误的。正是因为哈洛能够对现实世界里同时发生的变量分开进行考察,才会有这样的发现。
创设特殊条件来验证是否存在真正的因果关系,这种方法可以防止错误观念像病毒一样侵袭我们(Dawkin, 1993; Distin, 2005; Stanovich, 2004)。让我们看一下关于治疗性触摸的案例,治疗性触摸是在20世纪90年代北美地区十分流行的一种护理方式。使用治疗性触摸法的医生按摩的不是病人的身体,而是病人身上所谓的“能量区”。也就是说,医生的手在病人身体上方游移,但不做真正的按摩。医生说这是在“感觉”病人的能量区。你会发现,这种感应能量区的能力可以通过创设类似于“聪明汉斯”和“辅助沟通疗法”中的特殊条件来进行验证。也就是说,测试这些医生在看不见的情况下,是否还能感觉出他们的手正接近人的身体。研究结果与聪明汉斯和辅助沟通疗法的案例一样,当视线被挡住之后,这种对距离的感觉能力和随机水平差不多。
简而言之,科学家们用创设特殊条件的方法来验证某种现象的假设是十分必要的。仅观察自然情境还远远不够,人们对下落的和移动的物体观察了几个世纪,却没有人得出关于运动和重力的正确原理和规律。直到伽利略和其他科学家们通过创设人工的条件来观察物体的运动之后,才得到了正确的运动规律。在伽利略的时代,几乎没有人看到过光滑的铜球从光滑的斜面上滚下来。世界上有很多运动发生,但这种运动却非常罕见。这是一种非常规的情境,和其他类似情境一样,使我们第一次得出运动和重力的定律。说到运动定律,在本章最开始的时候,你不是做过一个小测验吗?
直觉物理学
本章开头出现的三个问题实际上是引自约翰·霍普金斯大学的心理学家迈克尔·麦克科劳斯基(Michael Mc Closkey)的一本书。麦克科劳斯基研究的主题被他自己称之为“直觉物理学”。所谓直觉物理学就是普通人对物体运动的观念。有趣的是,这些观念通常与物体运动的实际情况恰恰相反(Catrambone, Jones, Jonides, & Seifert, 1995; Riener, Proffitt, & Salthouse, 2005)。
例如,第一个问题里,当细绳被剪断后,小球会向与细绳垂直的方向直着飞出去(即圆的切线)。麦克科劳斯基发现三分之一的大学生都回答错了,他们认为小球会沿抛物线飞出去。当麦克科劳斯基的被试被问到类似于轰炸机飞行员的那个问题时,有大约一半的人认为应在目标的正上方投掷炸弹,这就表现出他们不理解物体的初始运动决定其后来的运动轨迹,实际上应该在飞机到达目标之前五英里的地方投弹。被试的错误不是因为问题的抽象性质所导致的。当要求被试从房间的一头走到另一头,在走的时候把一个高尔夫球丢在地板上的一个位置时,超过—半人的表现说明,他们不知道高尔夫球下落的时候还会继续向前运动。最后一道题,许多人不知道从步枪射出的子弹落地的时间与子弹垂直落到地面的时间是相同的。
你可以算一下自己在这个小测验中的成绩如何。如果最近你没有学习物理课的话,那么你很有可能至少会错一道题。“物理课!”你可能会提出抗议,“我最近当然没上过物理课,这个测验不公平!”但是请等一下,你为什么需要上物理课才知道这些题目的答案呢?从小到大,你肯定无数次地见过下落的物体。你看到过它们在自然情境中下落的过程。每天你都能看见运动的物体,你看到的是它们“自然发生”的状态。你当然不能说你对于物体运动毫无经验。当然,你没见过类似子弹的这种运动。但是我们中的大多数人都见过孩子放开旋转的物体,并且多数人也都见过物体从飞机上落下来。此外,很难说你没见过这些真实的情境。既然你有这么多年关于物体运动和下落的经验,当和真实情境略有不同的时候,为什么你不能准确地预测会发生什么呢?
麦克科劳斯基的工作很好地说明,理解科学家这一做法有多么重要。尽管人们有大量关于物体运动和下落的经验,但对于运动的直觉理论都是相当不靠谱的。我们需要明白的是,外行人观念的不准确是因为他的观察是“自然的”,而不是像科学家那样进行实验控制。因此,如果你在本章开头的测验中错了一道题,不要觉得是自己无知或知识匮乏。要知道几个世纪以前,这个世界上一些伟大人物观察下落的物体后得出的有关运动的物理知识不比现代的高中二年级的学生准确到哪去。在《科学美国人》(Scientific American)杂志上的一篇文章中,麦克科劳斯基指出,他观察过的被试中很多人都对物体运动持有一种错误的观念,并且这些错误的观念与在牛顿之前三个世纪的理念不谋而合。麦克科劳斯基的当代被试和中世纪哲学家有共通之处:两组人在现实世界里都有很多有关物体运动的经验,但是没有人特意创设一种条件,进行科学的操纵、控制和比较。
再多的个人经验也不足以阻止人们产生关于物理运动的错误概念。飞行员威廉·兰格威斯基在阐述关于飞行中转弯角度这一知识的发展史的时候指出,他发现飞行员在20世纪早期的时候拒绝使用陀螺仪这类装置,因为他们相信“平衡本能”。但是,这些“直觉”不能使飞行员在云中感觉出飞机旋转的角度。一些坠机事件和险些坠机的事件发生之后,飞行员终于清醒地认识到:没有什么直觉能够代替真实的飞行物理学知识(Langewiesche, 1993)。
直觉心理学
哲学家保罗·丘奇兰德(Churchland, 1988)曾指出,如果我们关于物体运动的直觉(或世俗)理论都是不准确的,因此,也很难相信我们在人类行为这类更为复杂领域中的世俗理论会是正确的:
我们最初关于运动的世俗理论是相当混乱的,而且最终将会被更成熟的理论完全取代。早期我们关于宇宙结构和活动的世俗理论也十分离谱,它们之所以依然存留下来,只不过是作为一些历史教训,提醒我们自己可以荒谬到什么程度。我们关于火的本质、生命本质的世俗理论也都是十分荒唐的。由于我们大部分的世俗理论都被推翻了,所以你可以一直列举下去……但是与刚才列出的内容相比,人类的心智活动是一种更复杂和难以理解的现象。目前为止才算有了一些准确的认识,而当我们在其他方面都犯了错误的时候,想要在一开始就能正确地认识心理学知识,简直就是天方夜谭(p.46)。
生物学家E.O.威尔逊(E.O.Wason, 1998)道出了丘奇兰德的推测为什么可能是正确的,原因在于:“大脑这部机器构造出来是用于生存的,而不是用来理解它自己的。因为这两个目的完全不同,大脑在没有接受科学知识时观看这个世界是零散的,它必须把注意力放在它所必须知道的世界的一隅,以便于能够生存下去。这也就是为什么甚至到今天人类了解汽车远胜于了解他们自己的大脑。”(pp.96-97)。
当我们审视有关人类行为理论的文献时,会发现丘奇兰德的思考是对的。在第1章,我们证明了有关人类行为的许多常识是错误的,这不过是个小的例证而已。例如,没有证据显示有宗教信仰的人比没有宗教信仰的人更无私(Paloutzian, 1983; Smith, Wheeler, & Diener, 1975)。许多研究显示,笃信宗教的程度与参加慈善活动、帮助贫困的人或是不欺骗其他人这些行为之间没有直接关系。并且,在很多研究文献中,没有证据证明很虔诚的人比那些自认为是无神论者的人更慈善,或是更愿意帮助别人。
假如列出所有错误的世俗观念,那么这个清单会很长。例如,很多人认为“月亮盈亏会影响人的行为”,其实并非如此(见Byrnes & Kelly, 1992; Culver, Rotton, & Kelly, 1988; Rotton & Kelly, 1985)。—些人认为“性格互补的人相互吸引”,他们也错了(见Buss, 1985; Buss & Barnes, 1986)。一些人认为“亲生厌,熟生蔑”,实际没有这回事(见Bomstein,1989)。一些人认为盲人幸运地拥有超灵敏的听觉,但事实上他们没有(见Niemeyer & Starlinger, 1981; Stankov Spilsbury, 1978)。类似这样的例子还有很多很多。
人类关于行为的直觉理论是有缺陷的,这就说明了为什么我们的心理学研究需要实验控制。只有这样,我们才能把我们关于人类行为的粗浅概念上升为准确的科学概念和体系。
小结
实验方法的核心就是操纵与控制。在相关研究中,研究者仅仅观察两个变量的自然变动是否显示某种联系,而在真实验中,研究者要对被假设为原因的变量进行操纵,通过实验控制和随机分配来保持其他所有变量不变,然后来看这个假设变量是否会产生影响。这种方法排除了相关研究中出现的第三变量的问题。第三变量出现的原因是,在自然倩境下,很多不同的事物都是相互联系的。实验方法就是用来分开考察这些自然存在的关联。它之所以能实现这一目的,是因为它以操纵一个变量(被假设是原因的变量)的方式分离出该变量,并保持其他所有变量不变。但是,为了区分这些自然的关联,科学家们经常要创设自然世界里不会出现的特殊条件。