小心,别被“大数据”忽悠了
发稿时间:2022-04-06 10:30:00 作者:爱研 来源: 羊城晚报
图/视觉中国
《拆穿数据胡扯》
爱研 整理
我们已身处一个快速发展的信息时代,这也是一个大数据时代,是一个算法时代。各种信息应接不暇,我们称之为“信息爆炸”。只要一打开手机或者电脑,甚至电视机,几乎立刻就会被各种信息淹没,而大部分的信息对于我们来说,都可以用“噪声”来形容,种种问题也随之产生。
美国华盛顿大学的两位教授——生物学系教授卡尔·伯格斯特龙和信息学院副教授杰文·韦斯特,共同开了一门公共课程,专门讲授“在大数据时代如何摒弃信息噪声”。该课程信息一发出,就反响强烈。中信出版集团引进的《拆穿数据胡扯》一书,内容正源自这门课程。书中提出了一个有趣的词“数据胡扯”,并教导我们如何识破这种“数据胡扯”的把戏,同时提醒大家,学会拆穿“数据胡扯”应是现代人的基本生活技能。
什么是“数据胡扯”?
你可能没想到,“胡扯”可不是什么现代发明,它竟源于螳螂虾。
古希腊时代,那些被称为诡辩家的哲学家对事实漠不关心,只对赢得辩论感兴趣,于是,他们被认为是早期的“胡扯艺术家”。
但追溯起来,“胡扯”似乎起源于更广泛意义上的“欺骗”,而动物之间的互相欺骗已有上亿年。比如,海洋生物螳螂虾专吃有坚硬厚壳保护的海螺,为此它们长了一只巨大的甚至可以击穿厚厚玻璃墙的钳。但这种钳的打击能力其实就是一种“胡扯”——或者说是“虚张声势”。在捕食者面前,螳螂虾这只有力的大钳爪也并没有多大作用,就只是一种进化中留下来的本能反应。这可谓是一种极致的“胡扯”,其实就是为了分散注意力、迷惑或者误导他人的伎俩。
但可以看出,这种“胡扯”其实是需要提前预设一种心理预测模型来了解自己的行为对旁观者的影响力的,“胡扯”之前,需要知道自己的行为是否足以震慑对方,不让人产生怀疑。对于那些需要用数据作为伪装来“胡扯”的人来说,数据就像螳螂虾的大钳,看上去还是必须带有科学的、严谨的属性,才足以震慑对方,让人不产生怀疑。
这就是“数据胡扯”。在数据信息泛滥的今天,我们就是这样被“数据胡扯”操控的。
诸如TED演讲中的数据、《纽约时报》《华盛顿邮报》报道的最新发明的分析大数据的算法、医学期刊中的诊断数据……你能分辨其中哪些是有效数据,哪些是属于“数据胡扯”范畴吗?
这可能需要我们在信息世界中去有效地分析海量数据和观点,分辨科学的信号与噪声,并培养摒弃信息噪声的本能。但这并不是件容易的事,因为那些打着“科学”幌子的信息总是会把自己包装成“大数据”或“神奇算法”的模样,用量化信息来震慑我们。
拆穿这种“胡扯”,才能做个“明白人”
有句话说“科技让生活更美好”。不过,《拆穿数据胡扯》一书的作者认为,技术的进步并没有消除“胡扯”的问题,反而使现状恶化了。信息爆炸的时代,其实我们都见识到了误导性信息的危害,尤其是那种表面上看起来是在摆数据、讲道理的误导性信息。
比如在社交媒体大行其道的时代,“标题党”就是某种意义上的“胡扯”,它是一种“空热量”,不去阐述事实,只是承诺一种“情感体验”。缺乏这种情感体验的人,估计都会忍不住去阅读这种“吸睛”标题背后的内容。紧接着,就会出现一种“算法”,显示这种信息传播的活跃度——这是很多平台赖以获取用户黏性的利器,这样的“算法”结果,并不是为了帮我们了解更多信息,而是让我们在平台上保持活跃度。这会导致“过滤器泡泡”和“回音壁效应”的出现,从而又出现一种现象:“胡扯在点击率驱动的大规模网络化社交媒体世界中,比在以前任何社会环境中更容易传播。”因而,大数据中的各种“数字”,就成了“胡扯者的撒手锏”。
我们所在的世界已经被量化了,一切事物都可以计数、测量、分析和评估。互联网公司正在利用“算法”预测我们要购买什么。比如智能手机在计算我们的步数,记录我们的通话,追踪我们全天的活动;“智能家电”可以监测我们如何使用它们,并了解我们的生活习惯……而我们甚至还不知道自己“遭到了监视”。
用数据说话,是我们这个时代的通用思维方式。数据可以帮助我们在确凿证据的基础上理解世界,但冷冰冰的数字远没有我们以为的那么可靠,或者说并没有那么有意义。
比如,我们会看到某项研究结果称,某靶向治疗肿瘤的临床研究显示,“其治疗结果将五年生存率比提升了1.3倍,对当前的治疗模式提出了挑战”。但或许我们应该对它质疑:如果没有得出具体的治疗方法,讨论它的临床治疗生存率又有什么意义呢?如果仅仅是五年生存率有所提高,那么如果大多数患者在3年内便死亡了,又怎么认为这项研究“对当前的治疗模式提出了挑战”呢?只是我们中的大多数人还是会觉得,自己并没有资格去质疑这种以“数量形式”呈现的信息,而且可能因为关心这个研究中提到的内容,就选择了相信——但我们并没有发现这些数据对于我们来说可能毫无意义。
而且在大众媒体的报道中,往往会基于相关性就认为存在因果关系,并没有证据证明其间存在因果关系。就算是在科学研究领域的报道中,人们也很少或者说并不会发表负面(用科学术语来说是“阴性的”)的研究结果。这就会导致读者的偏倚。而媒体报道中,常常不会有后续的报道去提到之前报道过的研究后来并没有成功的消息。于是,公众便常常会被那些不能确定的研究结果搅得晕头转向。
如果我们能够及时准确地分辨什么是“数据胡扯”,可能在海量信息的冲击中,我们便能做个更加“游刃有余的明白人”。
大数据时代,更要学会质疑
如何拆穿那些振振有词的“数据胡扯”?《拆穿数据胡扯》的作者给我们的建议是:只要掌握基本的逻辑推理,我们就完全可以规避这些信息,只获取自己想要的信息。
我们不用成为统计学家,也不用看懂复杂的算法,只需要换一个简捷易行的思路:培养摒弃信息噪声的本能,进行批判性思考。
具体来说,就是这样几种做法:
一、质疑信息来源。在遇到任何一条信息时,不要盲从,先问自己三个问题:这个消息是谁告诉我的?他或她是怎么知道的?他们想向我兜售什么东西?问完你可能知道这条信息对你是否有意义了。
二、当心不公平的比较。人们总是喜欢排名,在点击流经济中,页面浏览量可能就是钱。但是,排名只有在被比较的实体具有直接可比性时才有意义。所以不能轻信。
三、如果好得或差得离谱,那就该怀疑它。日常生活中,我们其实已经经常运用这条经验法则。我们要做的很简单,就是尝试去挖掘源头。在社交媒体主宰的世界里,我们收到的任何信息都已经被重写、重新整理和再处理过了,培养挖掘信息来源的习惯很重要。
四、从数量级去考虑。哲学家哈里·法兰克福曾对胡扯和谎言进行了区分,认为谎言是为了使人远离真相,胡扯则对真相漠不关心。所以,当我们辨别胡扯时,会发现有人在用胡扯的数字来支持他们的论点时,这些数字往往与事实相差太远,我们基本上凭直觉就能辨别甚至反驳它。
五、避免证真偏差。证真偏差是指人们往往会注意、相信和分享与我们已有信念相一致的信息。如果某个言论与我们相信的东西相一致,我们更倾向于接受它,而不太可能怀疑它的真实性。但有时候我们就是错了。
看到这里,我们心里应该都有谱了。
不过,要解决当前“数据胡扯”泛滥的问题,需要的不仅仅是我们能学会看清它的本质,还要积极地增加这种胡扯传播的难度,勇于指斥胡扯。这对社会群体的健康运转至关重要,无论这个社会群体是朋友圈、学术圈,还是其他任何团体。比如:你可以学会辨别胡扯,避免自己受到误导;你可以学会约束自己,不再制造胡扯;你还可以学着避免分享胡扯。
当然,我们也要注意到这样一个问题:我们在指斥对方在“数据胡扯”时,针对的目标应该只是想法,而不是人。
2022年清明小长假落下帷幕,但对影院来说,疫情的“倒春寒”仍在继续。截至假期结束,拿下票...
2022-04-06 10:30:00基于北斗应用需求和产业基础条件,着力突破一批关键技术,打造龙头企业带动牵引、产学研用深...
2022-04-06 10:30:00美国财富杂志《福布斯》(Forbes)当地时间5日公布2022年全球亿万富豪榜,美国太空探索技术公司...
2022-04-06 10:09:00据应急管理部网站消息,清明假期期间,全国安全形势总体平稳,未发生重大以上生产安全事故和...
2022-04-06 09:48:00据国家邮政局网站消息,国家邮政局监测数据显示,清明节放假期间(4月3日-5日),全国邮政快递...
2022-04-06 09:39:00今天早上,河北晋州市应对新型冠状病毒感染的肺炎疫情工作领导小组办公室发布通告称,2022年4...
2022-04-06 09:39:00据韩联社报道,5日,韩国候任总统尹锡悦派遣的韩美政策协商代表团访问美国白宫,团长朴振同白...
2022-04-06 09:33:00”近期,有关网红电商预售的话题引发了大量讨论,网友纷纷表示对随处可见的预售已逐渐失去耐...
2022-04-06 09:12:00现在正值大学应届毕业生的求职旺季,而互联网大厂历来是许多大学生极为青睐的求职目标。广大...
2022-04-06 09:10:00清明时节,中国电影痛失一位“铁铮铮的独臂大侠”。4月5日,著名歌手王馨平在个人社交账号公...
2022-04-06 09:10:00在疫情冲击和通胀持续的背景下,美媒一项最新调查显示,超八成美国民众担心该国经济在2022年...
2022-04-06 08:33:00据太原市疫情防控领导小组办公室消息,结合当前太原市防控疫情形势,经市新冠肺炎疫情防控工...
2022-04-06 08:09:004月5日晚,山西省太原市小店区疫情防控领导小组发布公告,鉴于目前该区疫情防控形势的复杂性...
2022-04-06 08:09:00民进党籍“立委”林楚茵近日在对台湾安全部门负责人陈明通提出质询时声称,大陆通过抖音、小...
2022-04-06 07:21:00根据国家和省关于应对新冠肺炎疫情分区分级防控工作要求,经专家组研判,南京市新型冠状病毒...
2022-04-06 07:18:00当地时间4月5日,世界银行宣布,受俄乌冲突影响,将亚太地区2022年度经济增长预期从去年10月...
2022-04-06 07:00:00关系是动态发展的,若想让情感维持,双方需要不断成长。—————————— 最近,电视...
2022-04-06 06:00:003月初以来,上海遭遇新一轮疫情袭击。最近一周,上海每日新增本土确诊病例和无症状感染者一直...
2022-04-05 18:18:00清明节是我国四大传统节日之一,又称“踏青节”“行清节”“祭祖节”。
2022-04-05 17:39:00近日,记者探访了位于北京市昌平区的北京市公安局公交总队警犬工作大队,该队成立于2006年,...
2022-04-05 17:31:00北京4月4日通报一例确诊病例乘坐高铁返京。根据通报,感染者87:现住大兴区新媒体产业基地天...
2022-04-05 17:33:004月5日,在北京市新型冠状病毒肺炎疫情防控工作第300场新闻发布会上,市疾控中心副主任、全国...
2022-04-05 17:09:00当地时间4月4日,中国裁军大使李松率团出席《禁止生物武器公约》第九次审议大会第二次筹备会...
2022-04-05 09:14:00据吉林卫健委网站消息,4月4日0-24时,吉林省新增本地确诊病例792例(轻型781例、普通型6例、...
2022-04-05 09:09:00今起(4月5日)三天,我国中东部大部地区仍将维持晴天多,雨雪少的天气格局,华北等地午后多大...
2022-04-05 08:39:00据辽宁省卫健委消息,4月4日0-24时,辽宁省新增3例本土新冠肺炎确诊病例,为鞍山市报告;新增...
2022-04-05 08:36:00中国驻欧盟使团4日回应欧盟反虚假信息机构涉华文章,强调文章刻意歪曲中国立场主张,中方对此...
2022-04-05 06:00:00根据世卫组织最新实时统计数据,截至欧洲中部夏令时间4月4日20时11分(北京时间4月5日2时11分)...
2022-04-05 04:33:004日是清明节假期第二天。5日是清明节假期的最后一天,也是清明节当日,预计各地仍有许多群众...
2022-04-04 19:11:00进入四月,随着气温持续回升,浙江省杭州市桐庐县钟山乡蜜梨基地的万亩梨花渐次开放。通过近...
2022-04-04 17:48:00应急管理部消防救援局日前通报,今年一季度,全国共接报火灾21.9万起,共有625人因火灾死亡、...
2022-04-04 16:00:00通过给烈士墓碑描红的这种祭奠方式,让大家更能够深切地感受到,革命烈士为祖国、为人民牺牲...
2022-04-04 15:46:00