小心，别被“大数据”忽悠了_科技频道

科技

首页 >> 文字列表 >> 正文

小心，别被“大数据”忽悠了

发稿时间：2022-04-06 10:30:00 作者：爱研来源：羊城晚报

——会拆穿“数据胡扯”应是信息时代基本生活技能

图/视觉中国

《拆穿数据胡扯》

　　爱研整理

　　我们已身处一个快速发展的信息时代，这也是一个大数据时代，是一个算法时代。各种信息应接不暇，我们称之为“信息爆炸”。只要一打开手机或者电脑，甚至电视机，几乎立刻就会被各种信息淹没，而大部分的信息对于我们来说，都可以用“噪声”来形容，种种问题也随之产生。

　　美国华盛顿大学的两位教授——生物学系教授卡尔·伯格斯特龙和信息学院副教授杰文·韦斯特，共同开了一门公共课程，专门讲授“在大数据时代如何摒弃信息噪声”。该课程信息一发出，就反响强烈。中信出版集团引进的《拆穿数据胡扯》一书，内容正源自这门课程。书中提出了一个有趣的词“数据胡扯”，并教导我们如何识破这种“数据胡扯”的把戏，同时提醒大家，学会拆穿“数据胡扯”应是现代人的基本生活技能。

　　什么是“数据胡扯”？

　　你可能没想到，“胡扯”可不是什么现代发明，它竟源于螳螂虾。

　　古希腊时代，那些被称为诡辩家的哲学家对事实漠不关心，只对赢得辩论感兴趣，于是，他们被认为是早期的“胡扯艺术家”。

　　但追溯起来，“胡扯”似乎起源于更广泛意义上的“欺骗”，而动物之间的互相欺骗已有上亿年。比如，海洋生物螳螂虾专吃有坚硬厚壳保护的海螺，为此它们长了一只巨大的甚至可以击穿厚厚玻璃墙的钳。但这种钳的打击能力其实就是一种“胡扯”——或者说是“虚张声势”。在捕食者面前，螳螂虾这只有力的大钳爪也并没有多大作用，就只是一种进化中留下来的本能反应。这可谓是一种极致的“胡扯”，其实就是为了分散注意力、迷惑或者误导他人的伎俩。

　　但可以看出，这种“胡扯”其实是需要提前预设一种心理预测模型来了解自己的行为对旁观者的影响力的，“胡扯”之前，需要知道自己的行为是否足以震慑对方，不让人产生怀疑。对于那些需要用数据作为伪装来“胡扯”的人来说，数据就像螳螂虾的大钳，看上去还是必须带有科学的、严谨的属性，才足以震慑对方，让人不产生怀疑。

　　这就是“数据胡扯”。在数据信息泛滥的今天，我们就是这样被“数据胡扯”操控的。

　　诸如TED演讲中的数据、《纽约时报》《华盛顿邮报》报道的最新发明的分析大数据的算法、医学期刊中的诊断数据……你能分辨其中哪些是有效数据，哪些是属于“数据胡扯”范畴吗？

　　这可能需要我们在信息世界中去有效地分析海量数据和观点，分辨科学的信号与噪声，并培养摒弃信息噪声的本能。但这并不是件容易的事，因为那些打着“科学”幌子的信息总是会把自己包装成“大数据”或“神奇算法”的模样，用量化信息来震慑我们。

　　拆穿这种“胡扯”，才能做个“明白人”

　　有句话说“科技让生活更美好”。不过，《拆穿数据胡扯》一书的作者认为，技术的进步并没有消除“胡扯”的问题，反而使现状恶化了。信息爆炸的时代，其实我们都见识到了误导性信息的危害，尤其是那种表面上看起来是在摆数据、讲道理的误导性信息。

　　比如在社交媒体大行其道的时代，“标题党”就是某种意义上的“胡扯”，它是一种“空热量”，不去阐述事实，只是承诺一种“情感体验”。缺乏这种情感体验的人，估计都会忍不住去阅读这种“吸睛”标题背后的内容。紧接着，就会出现一种“算法”，显示这种信息传播的活跃度——这是很多平台赖以获取用户黏性的利器，这样的“算法”结果，并不是为了帮我们了解更多信息，而是让我们在平台上保持活跃度。这会导致“过滤器泡泡”和“回音壁效应”的出现，从而又出现一种现象：“胡扯在点击率驱动的大规模网络化社交媒体世界中，比在以前任何社会环境中更容易传播。”因而，大数据中的各种“数字”，就成了“胡扯者的撒手锏”。

　　我们所在的世界已经被量化了，一切事物都可以计数、测量、分析和评估。互联网公司正在利用“算法”预测我们要购买什么。比如智能手机在计算我们的步数，记录我们的通话，追踪我们全天的活动；“智能家电”可以监测我们如何使用它们，并了解我们的生活习惯……而我们甚至还不知道自己“遭到了监视”。

　　用数据说话，是我们这个时代的通用思维方式。数据可以帮助我们在确凿证据的基础上理解世界，但冷冰冰的数字远没有我们以为的那么可靠，或者说并没有那么有意义。

　　比如，我们会看到某项研究结果称，某靶向治疗肿瘤的临床研究显示，“其治疗结果将五年生存率比提升了1.3倍，对当前的治疗模式提出了挑战”。但或许我们应该对它质疑：如果没有得出具体的治疗方法，讨论它的临床治疗生存率又有什么意义呢？如果仅仅是五年生存率有所提高，那么如果大多数患者在3年内便死亡了，又怎么认为这项研究“对当前的治疗模式提出了挑战”呢？只是我们中的大多数人还是会觉得，自己并没有资格去质疑这种以“数量形式”呈现的信息，而且可能因为关心这个研究中提到的内容，就选择了相信——但我们并没有发现这些数据对于我们来说可能毫无意义。

　　而且在大众媒体的报道中，往往会基于相关性就认为存在因果关系，并没有证据证明其间存在因果关系。就算是在科学研究领域的报道中，人们也很少或者说并不会发表负面（用科学术语来说是“阴性的”）的研究结果。这就会导致读者的偏倚。而媒体报道中，常常不会有后续的报道去提到之前报道过的研究后来并没有成功的消息。于是，公众便常常会被那些不能确定的研究结果搅得晕头转向。

　　如果我们能够及时准确地分辨什么是“数据胡扯”，可能在海量信息的冲击中，我们便能做个更加“游刃有余的明白人”。

　　大数据时代，更要学会质疑

　　如何拆穿那些振振有词的“数据胡扯”？《拆穿数据胡扯》的作者给我们的建议是：只要掌握基本的逻辑推理，我们就完全可以规避这些信息，只获取自己想要的信息。

　　我们不用成为统计学家，也不用看懂复杂的算法，只需要换一个简捷易行的思路：培养摒弃信息噪声的本能，进行批判性思考。

　　具体来说，就是这样几种做法：

　　一、质疑信息来源。在遇到任何一条信息时，不要盲从，先问自己三个问题：这个消息是谁告诉我的？他或她是怎么知道的？他们想向我兜售什么东西？问完你可能知道这条信息对你是否有意义了。

　　二、当心不公平的比较。人们总是喜欢排名，在点击流经济中，页面浏览量可能就是钱。但是，排名只有在被比较的实体具有直接可比性时才有意义。所以不能轻信。

　　三、如果好得或差得离谱，那就该怀疑它。日常生活中，我们其实已经经常运用这条经验法则。我们要做的很简单，就是尝试去挖掘源头。在社交媒体主宰的世界里，我们收到的任何信息都已经被重写、重新整理和再处理过了，培养挖掘信息来源的习惯很重要。

　　四、从数量级去考虑。哲学家哈里·法兰克福曾对胡扯和谎言进行了区分，认为谎言是为了使人远离真相，胡扯则对真相漠不关心。所以，当我们辨别胡扯时，会发现有人在用胡扯的数字来支持他们的论点时，这些数字往往与事实相差太远，我们基本上凭直觉就能辨别甚至反驳它。

　　五、避免证真偏差。证真偏差是指人们往往会注意、相信和分享与我们已有信念相一致的信息。如果某个言论与我们相信的东西相一致，我们更倾向于接受它，而不太可能怀疑它的真实性。但有时候我们就是错了。

　　看到这里，我们心里应该都有谱了。

　　不过，要解决当前“数据胡扯”泛滥的问题，需要的不仅仅是我们能学会看清它的本质，还要积极地增加这种胡扯传播的难度，勇于指斥胡扯。这对社会群体的健康运转至关重要，无论这个社会群体是朋友圈、学术圈，还是其他任何团体。比如：你可以学会辨别胡扯，避免自己受到误导；你可以学会约束自己，不再制造胡扯；你还可以学着避免分享胡扯。

　　当然，我们也要注意到这样一个问题：我们在指斥对方在“数据胡扯”时，针对的目标应该只是想法，而不是人。

责任编辑：李丹萍

2022清明档总票房1.2亿，下一个爆款在哪里？

国家发改委：以市场化方式推动北斗全面应用

净资产2190亿美元马斯克登顶福布斯全球亿万富豪榜

清明假期全国安全形势总体平稳未发生重大以上灾害事故

清明假期全国邮政快递业揽投快递包裹13.5亿件

河北晋州新增4例无症状感染者系援建廊坊方舱医院人员

韩国候任总统致拜登亲笔信冀坚定发展韩美同盟

奇葩预售：“请君入瓮”

“求职私教”都是什么“成色”？

世间再无“独臂刀” 一代武侠巨星王羽病逝

美媒民调：超八成民众担心2022年美国经济继续衰退

4月6日太原市小店区实施临时交通管制

太原市小店区4月6日起开展全员核酸检测

民进党“反中”骗术又穿帮了

自4月6日起，江苏南京市全域调整为低风险地区

世界银行下调亚太地区经济增长预期至5%

做好这三点，一起许下“余生请多指教”的誓言

疫情下的上海：艰难与温情并存

原来这些体育活动，也是清明节的传统！

探访全国最大的警犬基地：这里别有一番“警色”

北京疾控：乘高铁返京病例在京外候车期间感染可能性较大

朝阳区一地降级！北京全市均为低风险地区

中国裁军大使：禁止生物武器美国应作表率不能成为例外

吉林新增本土确诊病例792例、本土无症状感染者1680例

我国中东部大部晴朗升温江南多地将恍如初夏

辽宁4月4日新增本土感染者“3+54”

中方回应欧盟反虚假信息机构涉华文章：有关人士勿选择性失明

世卫组织：全球累计新冠肺炎确诊病例超4.8977亿例

清明节假期第二天各地共接待现场祭扫群众573万人次

从“弃果果”到“香饽饽” 万亩梨花如何开出产业“香” ？

警惕！一季度发生电动自行车火灾3777起

跨越七十年的传承，他们为革命烈士墓碑描红