您当前的位置:首页 > 外国名著 > 六论自发性

碎片二十四 缺乏效力,并且最终导致腐化

碎片二十四 缺乏效力,并且最终导致腐化

这类量化测量的首要且最明显的问题是它们常常不够准确。也就是说,它们很少能够准确地测出我们关注的质量。

科学引文索引由尤金·加菲尔德(Eugene Garfield)创立于1963年,是所有引文索引系统的鼻祖。它通过观测已发表的特定研究文献被其他科学家引用的频率,来测量文献的科学影响力,并被推而广之用来测量特定学者、实验室的影响力。作为衡量影响力的办法,引用数当然比其他一些东西,包括非正式的名声、研究经费、嵌在现有机构中的默会的等级体系,当然还有单纯的学者文献产量更可靠。毕竟,所有公开的科学文献中有超过一半一经发表就被湮没。有些论文从未被引用,一次都没有!80%的文献只被引用过一次。科学引文索引似乎为学者对后续研究的影响提供了一个中立、准确、透明、客观、价值无涉的测量标准。这是美德的伟大胜利!它确实是;至少相较于它最初意欲取代的特权和地位体系而言,科学引文索引是一套了不起的标准。

刚创立时,科学引文索引非常成功,这至少部分归因于强力的推广普及措施。我们不要忘了,它是一桩追求收益的生意!它很快被广泛应用:终身教职评审、刊物级别评审、学者和学术机构排名、技术分析和政府调研。不久后,社会科学引文索引也来了,那么艺术和人文科学引文索引还会远吗?

科学引文索引衡量的究竟是什么?首先需要注意的是,它如机器一般缺乏头脑,并且在资料收集过程中显得过度抽象。自我引述可以算引用,这使得本来就孤芳自赏的学术界更加自恋了。负面引证也算引用。“甲先生的文章是我看过的最烂的研究,”这也能算。给甲先生加一分!正如梅·韦斯特(Mae West)所说:“从没有不受欢迎的曝光,但要记得把我的名字写对!”书里的引用不像论文中的引用那样被认真检查。一个更严肃的问题是,如果一部作品被引用数次,而引用它的那些文献全部无人问津(这是常事),这要如何看待?此事涉及一种狭隘的地域主义。引文索引大体上是一个英语的把戏,从而是一场英美主导的游戏。加菲尔德曾声称,法国科学界的狭隘地域主义正体现在它不接受英语作为科学的语言。在社会科学领域,令人不可思议却又千真万确的情况是,你的作品通过翻译被卖给了百十万名中国、巴西、印度尼西亚的学者,但这不会给你的SSCI加一分,除非他们在一本英文刊物或者被这个神奇的圈子认可的少数外文刊物中表达了他们的感谢。

我们同样要注意,引文索引作为一套数据统计,必然偏向交流最为频繁、最活跃的专业,或者套用库恩的术语,它偏向“常规科学”。最后一个值得注意之处是“实现主观的客观化”的SSCI数据其实也在极大程度上被局限于当下。要是当前的探究思路再过三年就被证明是一条死路呢?当前的研究掀起的影响力波浪以及它在文献检索中产生的数据,足以让幸运的研究者赢得学术界中的种种好处,哪怕他的研究终将失败。没有必要再赘述SSCI的缺点了。列举这些缺点无非为了显示这种系统的测量结果和它们意图测量的品质之间存在着难以弥合的鸿沟。令人遗憾的现实是,许多这类缺陷可以通过改革或细化相关数据的生成机制来修正。不过在实践中,设计上更抽象、运算上更简单的测量方式往往因为使用方便、成本低廉而受到青睐。可是,在看似客观的引用数统计之下,暗藏着一套被夹带进该审计体系的“统计惯例”,它具有深层次的政治意义和现实后果。

我开的关于SSCI的玩笑也许荒诞不经,不过我论证的观点适用于任何生搬硬套的量化标准。就拿耶鲁大学的“两本书”准则来说,它是耶鲁一些院系在决定是否授予教职时的常用标准。多少学者的单篇文章或者单本著作产生的学术能量,比那些数量上更“多产”的学者的所有作品加起来都还要大呀!那个叫作“卷尺”的测量工具能告诉我们一幅维米尔的室内场景画和一坨牛粪都有20英寸宽;不过,相似性也就到此为止了。

量化标准的第二个致命缺陷是,即使在刚被设计出来时它是有效的,其存在本身也会引发一系列损害其有效性的事件。我们可以称这一过程为“标准对行为的殖民”,它导致最初的有效性被消解了。我听说存在一些“引用圈”,圈中人约定要经常性地引用圈内其他人的作品,以便互相拉高引用数!这种赤裸裸的不轨行为是一种更重要的普遍现象的最恶劣形式。既然人人都意识到引用数据可以成就或者毁灭一段学术生涯,它对人们的学术行为就产生了难以忽视的影响。例如,主流方法论和盛行学科分支对学者的普遍吸引力、期刊的挑选、学科著名人物的程式性列举,这些都是由增加引用数方面的动机引发的现象。我们不能将其简单地视为马基雅维利主义或为达目的不择手段的行为;我意在指出一种持续性的“为了引用数精打细算”的边际压力。这一现象的长期后果是一种(达尔文主义意义上的)自然选择式的压力,只有达到或者超过引用数标准的人才能生存。

引文索引不仅是一种观测数据,还是一种真实存在的力量,能够反过来让人服从于它。社会理论家曾深受这种殖民的震撼,他们曾尝试以古德哈特定律(Goodhart’s law)来赋予这一现象一个定律性的表述:“一旦一种测量标准成了目的,它便不再是一种好的测量标准。”[11]马修·莱特(Matthew Light)解释道:“一个权威规定了某种量化准则来测量特定的成绩;那些以达标为己任的人确实做到了,但是用的并不是该准则期望的途径。”

一个历史案例可以说明我想表达的意思。法国专制主义君主的官员决定根据王国臣民的房子大小来征税。他们采用了一个巧妙的方法——查住宅的门窗数量。这一办法最开始实施的时候,窗户和门的数量可以完美代表房子的大小。不过,在接下来的两个世纪中,所谓的“门窗税”促使人们改建或者重建房屋,通过减少房屋开口的数量来避税。想象一下,世世代代的法国人在他们通风不良的“避税小屋”里面困难地呼吸。最初有效的测量标准后来却失去了效力。

不过,这种政策不只和门窗有关,也不只存在于革命时代的法国。方式类似的测验与质量控制已经盛行于世界各地的教育体系。在美国,SAT考试成为负责分配高等教育机会的一套量化标准。在其他很多国家也是一样:想要接受改变人生的高等教育,就必须先通过一场地狱般的考试。

我们单就教育而论:如果说中学教育是一条狗,SAT考试是狗的尾巴,那么实际的状况并非狗摇尾巴,而是狗被尾巴给摇了。不仅如此,这尾巴还重塑了狗的品种、口味、生活环境,以及所有那些照管和喂养这条狗的人。这是“标准对行为的殖民”最令人震撼的一个例子。一套强力的量化观测创造了海森堡原理[12]在社会领域的对等物,对令人满意的量化结果的争夺完全改变了被观测的领域。西奥多·波特(Theodore Porter)提醒我们:“这是量化技术的强项,即按它们自己的样子重塑那个它们本想描述的世界。”[13]把这句漂亮话说得朴实一点,就是SAT考试按它自己那副单调的样子让教育变得面目全非,以至于它所观测的基本上是它自己对教育领域的改造成果。

所以,靠标准化考试来测量智力质量的需求,以及用这些考试来给学生、教师和学校分配奖励的做法,产生了广泛的殖民效应。据称考试是无法通过策略来提高成绩的,但是填鸭式教学和提高应试技巧的培训形成了名副其实拥有数千万美元规模的产业和市场。斯坦利·凯普兰(Stanley Kaplan)的考试培训帝国提供的课程和教材建立在一个观念前提之上:人们可以通过训练来通过相应的考试,进入高等教育院校、法律学院、医学院等。如此一来,强大的测验标准倒转并且殖民了生活世界中的教育;测量数据逾越了单纯的评估者角色,取代了它评估的那种质量。由此产生了某种军备竞赛:模拟考试的出题人努力想战胜真实考试的命题人。而当一位常青藤盟校的成功申请者的“简历”流出后,“下有对策”的做法就可能升级。富有的家庭雇用教育顾问来指导他们的孩子,参考来自藤校的简历,从而确定什么课外活动是最受欢迎的,哪些志愿者工作又是最有利于申请的。用来判别质量的本意良好的举措成了家长帮孩子“摆好位置”的策略。面对这些被测量标准腐化的教育行为,我们几乎不可能评估它们的意义和真实效用。

采用量化的、客观的、非人格化的绩效测量方式的欲求,显然也是“神童”罗伯特·麦克纳马拉从福特汽车公司引进五角大楼的管理方式的题中之义,这套管理方式随后被用在了越南战争中。在一场没有划定清晰战线的战争中,要如何衡量战事的进展状况?麦克纳马拉对威斯特摩兰将军(General Westmoreland)说:“将军,给我一些能看出我们在越南是赢还是输的数据。”结果将军提供的数据至少有两组。其中一组是最为臭名昭著的消耗数据,里面表示敌军士兵死亡数的“尸体统计数字”在不断增长。美军将士承受着展示进展的巨大压力,同时他们知道这些数字影响着关于晋升、记功、修整与娱乐机会的决定,因此,负责统计和核算尸体数字的人力图增大这一数字。平民伤亡和军人伤亡之间存在的疑问被忽视,所有的尸体在实际操作中都成了敌方军事人员的尸体。很快,敌军死亡人数超过了越共和北越军力的总数。但在战场上,敌人没有一点败退的迹象。

第二组数据是“攻心行动”(Win Hearts and Minds,WHAM)用来测量越南民间对美军认同度的数据。村落评估体系(Hamlet Evaluation System)是其中的核心参考项:南越的所有12000个村落都按照“平定”“争夺中”“敌对”三个等级分类。在这个问题上,展示进展的压力依然是严峻的。下面的人找到了对策:伪造数据、在纸面上成立村民自卫队(足以让叶卡捷琳娜女皇的大臣格里高利·波将金自愧弗如的做法[14])、在数据上忽略村庄起义,以此保证相应数据在不断向好。直接伪造数据的情况尽管并不少见,但是更常见的趋势是为获得有利评估结果和军衔晋升而摆平数据疑问。表面上看,越南的农村渐渐被平定了。

麦克纳马拉创造的这个可恶的数据审计体系不仅产生了一种“取得可见进展”的幻象,一场“指挥官的表演”,还阻碍了战事之中真正可能体现进展的更宽频的数据的上达。也许可以用一位真正的科学家的话来警醒他们。爱因斯坦曾说:“不是所有算得上数的东西都能计算,也不是所有能计算的东西都算数。”

最后,这一现象的一个更晚近的例子——对很多美国投资者来说它是刻骨铭心的记忆——来自安然公司的破产案。20世纪60年代,一个困扰着各大商学院的难题是如何“规训”集团经理人,保证他们不会为了一己私利损害公司所有人(即股东)的利益。他们设计的解决方案是将高管薪酬同公司表现挂钩,而公司表现的衡量标准是股东价值(即股价)。高管们以股票期权的形式收到的回报取决于股价(通常是季度平均水平),所以他们很快开始同会计和审计人员合作,共同谋划如何让每季度的股价达标,从而赢得奖金。为了使公司股价上升,他们夸大收入数字并隐瞒损失,以此诱骗投资者抬高股票价格。所以说,将作为报酬付给劳动者和专业工作者的工资大比例替换为股票期权的管理规划,其本意虽然是让管理者的表现完全透明化,但适得其反地造成了更多的欺诈。在2008年世界金融崩溃的期间,将房屋债权捆绑形成复杂金融工具的做法中也存在一种类似的“对策逻辑”。债券评级机构除了同债权发行方交易之外,也出于透明性的考量让投资公司获知了自己的评级公式。知道了评级流程,或者干脆雇来一位评级师,就可以依据评级公式反向为风险极高的金融产品争取最高评级(AAA级)。计量方式的有效性又一次变得名存实亡。

上一章 封面 书架 下一章