五千年(敝帚自珍)

主题:294- 谷歌、测谎与人心之争 -- 万年看客

共:💬2 🌺11
全看树展主题 · 分页首页 上页
/ 1
下页 末页
家园 294- 谷歌、测谎与人心之争

294- Seth Stephens-Davidowitz:谷歌、测谎与人心之争

https://www.youtube.com/watch?v=1gBViHUDYD0&list=PL4i9YSoIJiPfAq5TCk7xdVrJlxRAMbay-&index=6&t=612s

我今天想讨论我的新书数据《谎言与真相》,因为我相信数据能帮助我们理解我们究竟是谁。在过去将近八十年里,如果你想了解人们想要什么,人们想干什么,人们将会干什么,那么只有一种主要方法,那就是通过民调直接问他们。无论是盖洛普民调还是皮尤民调还是昆尼皮亚克民调。问题在于有证据表明人们会在接受民调时撒谎,尤其是在涉及敏感话题的时候。为了保全自己的形象,受访者会告诉民调人员他们想听的话,而未必一定是事实。最典型的例子:假如在选举之前你问人们:“本次选举你会不会投票?”压倒性多数的美国人都会声称“是的,我将会尽到我的公民责任,我将会投票。”但是选举结束之后的数据表明美国人的投票率只有55%,可见有很多人不愿公开承认自己不打算投票。

我本人最喜欢的一个例子是一般社会调查询问人们性生活的频率以及使用安全套的频率。根据女性受访者提供的数据,美国女性平均每周进行一次性生活,有20%的时候会使用安全套,折算下来每年美国的异性恋性行为要消耗11亿个安全套。然后他们又向男性询问了同一套问题,根据男性给出的答案,美国每年异性恋性行为要消耗16亿避孕套——我提醒大家注意一下,这两个数字理论上来说应该一致才对,因此肯定有人在涉及个人性生活的问题上撒了谎。然后我又联系上了尼尔森公司,他们一直在追踪美国每一个避孕套的销路。他们的数据表明,美国每年只能售出6亿个避孕套。换句话说,在涉及性生活的问题上,所有人嘴里基本都没实话,只不过男性比女性更没实话。当然这里人们可能仅仅是在带不带套的问题上撒谎,而未必一定是在性生活的频率上撒谎。但是假如美国的育龄女性进行的无套性行为真的有她们自己声称的那么多,那么美国的怀孕人数肯定要比目前多得多。我认为我国痴迷性爱的文化向男性与女性都施加了极大压力,迫使他们声称自己的性行为频率要比实际上更高。

谷歌是数据化的吐真剂,这是我本书的主题,也是我过去五年研究的成果。人们在使用谷歌的时候是他们最诚实的时候,他们往往非常放心地将他们不会告诉任何其他人的阴私之事输入谷歌搜索框。当然这些数据都是匿名的,积累式的,因此我们并不知道某一个具体的个人搜索了什么。但是通过将这些数据聚集起来,我们就能看出人类行为与需求的不同模式。平均来说,利用谷歌Trends搜索色情片的人数要比搜索天气预报的人数更多,但是公开民调的结果显示只有20%的男性和4%的女性承认自己会观看色情片。由此可见,有些话人们不愿向民调说,但却很乐意告诉谷歌。人们为什么在面对谷歌时如此诚实?一方面因为他们上网时往往只有一个人,这使得他们更加倾向诚实;另外一方面,他们也有像谷歌说实话的动机。人们并没有动机诚实地告诉民调人员他们究竟会不会投票,但是如果你并不经常投票,或者你是一名边缘选民并且在某一次选举当中打算投票,那么你很可能不知道离你最近的投票站在哪里。这样一来你必须询问谷歌去哪里投票,该怎么投票。尽管具体数据在美国各地高低不一,但是在“如何投票”“去哪投票”之类的搜索结果出现次数较多的地区,实际投票率也确实比较高。同理,假如你的性生活频率比较低,你也没有理由告诉民调人员,但是你很有理由上谷歌搜索。目前为止谷歌搜索结果表明,在所有针对婚姻的不满当中,排名第一的不满就是“无性婚姻”,比起“无爱婚姻”或者“婚姻不幸福”要多得多。我们还遇到了很多反直觉的、令人意外的数据。例如谷歌上关于男朋友、女朋友、丈夫、妻子之类伴侣的搜索结果,排名第一的抱怨就是“我的另一半不愿与我做爱”,这个结果远远超过了排名第二的搜索结果“我的另一半不回我的短信”。另外谷歌数据表明,“我男朋友不愿与我做爱”的搜索数量是“我女朋友不愿与我做爱”的一倍。这个结果与人们一般认为谁更不愿意做爱的传统看法大相径庭。

我们还可以用这些数据来回答很多让研究人员大或不解的大问题。我本人着力研究的课题之一是种族主义。这是一个难以依靠民意调查来获得事实的领域。比方说2008年选举之后人们关心的一个问题是美国选民是否在意巴拉克.奥巴马——美国主要政党推举出来的候选人——是一名非裔美国人?他们究竟在不在乎奥巴马是黑人?民调结果显示98%到99%的美国人声称自己并不关心奥巴马是黑人,这一点并没有影响到他们的投票决策。但是这个结果当然很可能具有误导性,因为人们很可能在接受民调时撒谎,不愿公开承认自己确实在乎奥巴马是不是黑人。因此我在开始研究时着手的第一个课题就是人们在谷歌上进行的种族主义搜索。这项研究很令人坐立不安,因为我研究的是有多少美国人会搜索那个非常难听的、用来指代非裔美国人的词,有多少人会搜索将非裔美国人当成笑料的地狱笑话。我首先注意到的第一点在于这些搜索出现的多么频繁。在我开展调查期间,那个词的搜索频率相当于“湖人队”、“《经济学人》”、“偏头痛”与“每日秀”,因此无论如何都算不上小众搜索。我第一次看到相关数据时注意到这些数据形成的地图与我心目当中的地图相差甚远。在本次研究开始之前,假如你问我美国种族主义最严重的地区是哪里,我肯定会说是在南方各州。考虑到我国的历史,你大概会想到密西西比州、路易斯安纳州、阿拉巴马州与南卡罗莱纳州。的确,这几个州的排名都很靠前,但是同样靠前的地区还包括弗吉尼亚州西部,宾西法尼亚州西部,俄亥俄州东部,纽约州北部,密歇根州工业区与伊利诺伊州的农村。这张种族主义数据地图揭示的事实如下:在今天的美国,种族主义程度的差异并非按照南方洲与北方洲来分布,而是按照东边与西边来分布,密西西比河以东的种族主义要比密西西比河以西更加严重。

那么种族主义对在多大程度上拖了奥巴马的后腿?我将奥巴马与此前的民主党候选人进行比较,例如身为白人的约翰.克里,或者其他此前选举当中抱有类似奥巴马那样的自由派立场的民主党白人候选人。只需略一比较就能发现很强的关联性。在种族主义搜索结果出现频率最高的美国地区——例如宾西法尼亚西部,或者俄亥俄州东部,或者密歇根州西部——我们可以看到奥巴马的选情要比此前其他民主党候选人更糟糕。任何其他变量都无法解释两者之间的差异,只有种族主义才说得通。因此无论美国人嘴上怎么说,我都认为种族主义让奥巴马失去了将近4%的美国人的支持,或者说将近10%的白人拒绝支持一位民主党候选人,仅仅因为他是黑人。

学术界往往并不特别在意这种研究,一般人也并不特别关心。但是在最近的一场选举当中,唐纳德.特朗普说了很多关于黑人的很难听的话,但是依然获得了大量支持。很多人对此大惑不解,他们原以为在今天的美国里不能再说这种话了。《纽约时报》的内特科想看一看关于种族主义的数据。我手里掌握着特朗普在美国各地的初选当中的表现,我想看看这些数据与你的种族主义数据是否存在相关性。结果发现特朗普初选表现与种族主义数据的相关性要高于年龄、受教育程度,经济条件、职业、政治立场、是否拥枪等等。所有这些变量都不如种族主义那样更能解释特朗普在初选当中的出色表现。因此我认为曾经伤害过奥巴马、但是未能在官方数据当中体现出来的种族主义这次也为特朗普助了一臂之力。

如果你直接问人们“你是个什么人”,他们给出的答案大概会偏向积极正面,而他们本人的真实情况往往没那么积极。我的书中谈到了种族主义,谈到了虐待儿童,谈到了自行流产——自行流产危机尤其没有得到传统数据来源的反应——总之我的书中确实包含许多黑暗、骇人、令人不安的内容。好在我在书中还插入了很多笑话调节气氛。我认为了解事实很有价值,哪怕这些事实令人沮丧不安。我接下来举几个例子。我的研究之一对比了关于儿子与女儿的谷歌搜索。我原本以为在今天的美国,父母对待儿子与女儿的态度应当一致。但是如果将所有人的搜索结果整合起来,就会看到儿子与女儿各自对应的搜索模式很不相同。当美国家长在谷歌搜索框当中输入“我的儿子是不是”这个开头时,这个句子以“天才”或者“神童”来结尾的可能性要比“我的女儿是不是”高出一倍。当他们以“我的女儿是不是”作为句子开头的时候,这个句子更的结尾更有可能是“超重”甚至“难看”。总体来看,父母们更容易因为儿子的智力潜能而感到高兴,也更容易因为女儿的外貌而感到担心。就像刚才的种族主义搜索一样,这些数据并不能说明某一个个人搜索了哪些内容。假如你向他们指明的话,他们大概会说:“好吧,我没想到这也算种族主义。那行,以后我再也不搜这些地狱笑话了。”而在父母搜索的案例当中,我认为很多父母甚至没有意识到自己正在干什么。我认为获得信息有助于改变人们的行为。我们可以这样告诉父母:“你可能没有意识到自己正在干什么,但是我们总结了全美国的数据,说明目前在美国依然存在这样的偏见。好好想想吧,你对女儿的成绩单的关心程度是否与儿子一致?你是否足够关心你女儿在智识方面的兴趣?”很多父母都告诉我,我的研究成果确实让他们反思了自己常问的问题以及对待儿子与女儿的不同方式。

再举一个关于恐伊斯兰教的例子。2015年12月,发生了圣桑迪诺袭击事件。两个起着穆斯林式姓名的人枪击了其中一人的同事,很多人丧命,一时间得到了新闻的热门报道。袭击事件之后,恐伊情绪出现了爆炸式增长。在袭击事件之后不久,谷歌搜索“穆斯林”排名第一的搜索结果是“杀死穆斯林”。当然,搜索这一词条的人显然并不是社会当中理智最健全的人们。他们很生气,很想做些坏事。其他出现次数很高的搜索结果,包括“我恨穆斯林”、“穆斯林去死”等等。而我们则可以根据这些搜索结果的分布来预测美国的哪些地区将会出现针对穆斯林的仇恨犯罪。尽管这些搜索结果很诡异,但是依然包含着有用的信息。

圣博尼奥袭击之后几天,奥巴马发表了全国讲话。讲话主题一方面承认我们必须保护自己免受恐怖主义侵袭,另一方面又呼吁人们对抗恐伊思潮,不能放任仇恨的泛滥,不能听任最危险的一小撮人带坏社会风气。这段讲话得到了全国范围内的电视转播,在奥巴马的所有演讲中算是水平较高的一篇,超出了他的一般水准。他呼吁人们不要向恐惧让步,呼吁人们珍视自由的价值,不要仅仅因为某人所信奉的宗教而排斥他们。所有严肃的新闻媒体都对这场演说给予了高度评价。《纽约时报》、《洛杉矶时报》、《波士顿环球报》等等所有的常规看法都认为奥巴马的表现非常好,阐明了我们应当善待邻居的理念,而谷歌则分析了演讲播出时每一分钟的搜索词条数据。我想看看这场演讲有没有起到预期的作用,是否确实平息了反伊情绪。数据表明,之前提到的所有那些疯狂的搜索词条——“我恨穆斯林”、“穆斯林去死”、“杀死穆斯林”等等——非但数量没有下降,甚至都没有持平,反而显著增长。奥巴马这段优美宣讲似乎完全起到了反作用。

但是在这场演讲当中确实有一句话似乎起到了其他所有语句都没有起到的效果。奥巴马说:“我们要记得,美国的穆斯林是我们的朋友与邻居,是我们的体育明星,是为国捐躯的男女士兵。”就在他说出这句话之后,谷歌搜索数据出现了五年以来都未曾出现过的变化——包含“穆斯林”一词的排名最高的搜索结果五年以来首次不再是“穆斯林恐怖分子”,而是变成了“穆斯林运动员”,紧随其后排名第二的是“穆斯林士兵”。这两个搜索词条在第一第二的位置待了大约有一周左右。在互联网上到处都有人在讨论“大鲨鱼奥尼尔也是穆斯林吗?我都不知道!”我们可以比较一下这句话与演讲的其他部分有什么区别。演讲的其他内容说的都是人们早已听过太多遍的东西,完全不新鲜,这套说教似乎完全起到了反作用。但是关于运动员和士兵的说法却显然挑起了人们的好奇心,因为这句话包含着全新的信息,因此看上去似乎起到了更好的效果。

我将这一发现刊登在了《纽约时报》的专栏文章板块,我觉得如果在《纽约时报》发表专栏文章,位高权重的人们肯定能读到。几周之后,奥巴马在巴尔蒂摩的一座清真寺发表了另一篇演讲。这场演讲同样得到了全国电视转播,同样吸引了大量关注。这场演讲的内容与上一场相比可谓大不相同,这一次没有说教,没有布道,没有承担社会责任的呼吁。相反,他下了两倍乃至四倍的力气来挑动听众的好奇:“美国穆斯林不只是体育明星与战士,他们还是农夫,是商人,托马斯.杰克逊收藏过《古兰经》,穆斯林建筑工人建起了芝加哥的摩天大楼……”总而言之,这篇演讲里充满了以前我们从未听说过的关于美国穆斯林的全新形象。这一次我又跟踪关注了演讲期间以及演讲结束后几小时内的谷歌搜索数据。这一次“我恨穆斯林”与“杀死穆斯林”之类的搜索词条数量确实下降了。

当然说到底这也只是两场演讲而已,我不敢宣称我们已经解决了仇恨的问题。但是我确实认为网络数据是一件极其新颖的工具,人们还没有完全意识到这件工具的效率。这件工具让我们得以窥见愤怒群氓的内心,并将其转化为一门科学。民调并不能帮我们意识到这些人的存在,这些人也不可能自愿参与普林斯顿或者哈佛大学的实验。但是由于谷歌搜索包含所有人的数据,那么自然也会包含这些人的数据,而我们可以清楚看到这些人在重大国家事件之后的反应。这样我们可以发现哪些我们以为有效的手段其实无效,哪些出乎我们意料的手段其实有效。这种观察人们内心活动的工具可以为有益的目的服务。了解事实是改善世界的第一步。

通宝推:审度,
家园 控制下节奏呀,一天三发

忘情也没这样,他文章还短

按我的恶趣味,本来想写成:他的短(文章),怕被打😜

咱能不能不卷,能不能节奏放慢一点,让懒惰好学的头脑跟得上你的文章😄

全看树展主题 · 分页首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河