AI爱胡说八道？那就为数据「降噪」

数字力场

2026-01-30 18:53

在用户「苦AI胡编乱造久矣」的今天，AI大模型该如何摆脱「垃圾进，垃圾出」的魔咒？

文 | 佘宗明

这年头，比冷不丁梆梆就两拳掌门人张八旦更能「一本正经地胡说八道」的，是AI。

去年初，DeepSeek火了后，就有篇文章在网上热传，题目是「DeepSeek的胡编乱造，正在淹没中文互联网」。

爱胡编乱造的，不只是DeepSeek。如果说幻觉是病，那它称得上是大模型的通病。

前不久，香港大学人工智能评估实验室（AIEL）就发布报告称，大模型普遍存在「严守指令但易虚构事实」倾向，事实可靠性仍是全球大模型共同的短板。

更早之前，去年2月，清华大学新媒沈阳团队的报告指出，市场上多个热门大模型在事实性幻觉评测中幻觉率超过19%。

可以说，生成式AI将互联网时代的「信息过载，事实稀缺」情形进行了几何级放大。

那怎么让AI离加冕「事实派」近些，离「满嘴跑火车」远些？

打破大模型「GIGO（即垃圾进Garbage In，垃圾出Garbage Out）」魔咒，至关重要。

究其前提，就是要回归「Clean Data > Big Model（高质量数据优于大模型）」的逻辑基点。

01 /

为什么AI给出的答案总是「听着像真的，其实是编的」？它怎么就这么爱胡编乱造？

去年9月，OpenAI在论文《为什么语言模型会产生幻觉》中对此做出了分析，我的总结是：因为大语言模型（LLM）「本性难移」。

大模型本质上是个「随机鹦鹉」，运行底层逻辑是「下一个词元预测」（Next Token Prediction），这决定了，它是个贝叶斯预测大师，而非事实考证者。

其长处在于，能根据高频统计关联对强规律性知识（如语法规则、编程程式、基础常识）进行快速「复现」。打个比方，你问它「法国首都是哪里」，它会因为「法国首都巴黎」几个字在海量文本中以固定搭配高频出现，迅速回答「巴黎」。

问题是，世界上绝大多数知识都是出现频次低的「长尾事实」（Long-tail Facts），如数字力场公众号创立时间，就不是规律性知识。按图灵奖得主杨立昆的说法，大模型是高级复读机，「擅长模仿人类对话模式，却不懂背后的逻辑与含义。」碰到这类问题，它经常蒙圈。

由于训练目标是「最大化生成文本序列的联合概率」，不包含任何关于真实性的直接约束，对于不懂的问题，它倾向于编个像样的，而非坦承其短地说「我不知道」。

大模型幻觉问题连着的，是训练机制问题，更是数据质量问题——「真数据不够，脏数据来凑」之下，必然会出现上游水源（输入语料）污染导致下游水流（输出结果）浑浊的情况。

▲很多大模型都跳不出「垃圾进，垃圾出」的魔咒。

都知道，大模型的三大要素是算法、算力和数据，数据（语料）是源头活水。前两者可以靠优化，后者主要靠积累。

随着可用真实数据渐次枯竭，大模型如今普遍患上了高质量数据饥渴症。

不少大模型用合成数据解渴，想靠AI生成内容来推倒自己撞上的那堵「数据墙」。

但这很可能导致「模型崩溃（Model Collapse）」——2024年7月，《自然》杂志就对此发出预警，称随着模型继续在模型本身生成的越来越不准确的文本上进行训练，这类递归循环会导致模型退化，AI很可能「在短短几代内将原始内容迭代成无法挽回的胡言乱语。」

结果就是，AI「训」AI，越训越傻。

02 /

在幻觉问题上，「机器学习之父」迈克尔·欧文·乔丹曾表示，「单纯依靠暴力计算（Brute Force）无法解决智能的根本问题，反而可能因为数据噪声而产生系统性风险。」

诚如此言，大模型幻觉带来的破坏力不容小觑，一个程序bug也许会导致系统崩溃，但那是显性的，大模型幻觉则颇具隐蔽性，隐蔽性会强化其危害性。

首先，在医疗诊断、法律咨询、金融决策等边际容错率极低的领域，出现任何幻觉，都可能酿成严重后果，导致生命财产损失。

其次，AI胡编乱造容易导致错误信息谬种流传，带来社会空间信息污染，还消耗大众的技术信任度，拉低许多人的接受意愿。

还有，流沙上没法建大厦，幻觉问题若得不到有效控制，大模型的应用落地也会受影响。

大模型的进化形态，是成为能够主动执行复杂任务的智能体（Agent），但前置条件是可靠。毕竟，谁也无法安心委托那些可能会凭空捏造联系人信息、杜撰财报数据的AI助理，来处理重要事务。

▲大模型幻觉带来的危害不容小觑。

时至今日，幻觉已从技术瑕疵演变为AI产业化应用的现实掣肘。

当此之时，正如芯片产业已走出「兆赫兹竞赛」迷思那样，AI行业也该跳出「数据规模崇拜」和「参数军备竞赛热潮」。

从百亿到千亿再到万亿，过去几年，大模型领域的参数规模持续被刷新，仿佛数据量越大模型性能就越好。

这在初期确实成立，参数也并非不重要，但随着「更大的模型=更强的智能」等式在边际效用递减中失效，回归数据质量重要性高于数据集规模的理性判断，正当其时。中国最大的数据智能服务商明略科技提出「Clean Data > Big Model」，就意在于此。

要知道，现在AI行业已进入产业化落地阶段，用户（特别是企业级用户）在意的不是参数数字，而是模型在实际任务中表现出的可用性、可靠性——他们需要的是「可信AI」。

而控制幻觉，就是「可信AI」价值凸显期的决定性竞争维度。数据可信度也已取代数据集规模，成为大模型的核心竞争力。

03 /

正因来得普遍又极具危害，大模型幻觉不是个可以打个补丁的小bug，而是需要从系统层面去革新重构的根本性问题。

知名AI科学家、斯坦福大学教授吴恩达提出的「以数据为中心的AI（Data-Centric AI）」理念，就来得颇具针对性。他认为，AI模型开发过程中，业界过分关注模型架构的优化，却忽视了系统性地工程化数据质量。「如果80%的机器学习工作是数据准备，那么确保数据质量应该是团队最重要的工作。」

「以数据为中心的AI」跟传统的AI模型搭建范式「以模型为中心的AI（Model-centric AI）」有别，后者主要工作是改进模型参数，前者主要目标则是改善数据质量——「AI教母」李飞飞、AI大神安德烈·卡帕斯此前做的，其实就与此相关。

▲两种AI模型搭建范式的对照。

明略科技基于「Clean Data > Big Model」技术哲学系统性地发掘聚合跨领域的高可信信源，推出目前全球范围内最全面、最权威、最结构化数据源知识库——First Data，也与之呼应。

需要看到的是，对很多企业来说，获取干净、权威、实时的数据比训练一个模型要难得多。毕竟，大量高价值的权威数据「沉睡」在政府网站深处、PDF报告或复杂的交互式图表中，由于API接口众多、格式各异、标准不一，很难被机器自动解析。

First Data拟收录全球1000余个权威数据源（涵盖国际组织、各国政府、顶级学术机构），将分散、非标、难复用的原始内容，转化为可追溯、可验证、可引用的核心事实，不啻为大模型行业搭建了「可信数据源基础设施」，它不直接提供「数据」，但能解决「数据去哪找」问题。

《自然》杂志提到，提升模型准确性的重要途径是，访问原始数据源并在递归训练的模型中仔细过滤数据。

而First Data坚持100% URL验证标准，每个数据源都有完整文档，确保数据源真实可用。这直接回应了AI安全伦理范畴的「数据溯源（Data Provenance）」关切，能从源头阻断「幻觉引用」的可能性。

举个例子，用户问「2025年前三季度中国AI产业产值是多少？」通常情况下，AI会回忆训练数据再生成像样答案；有了数据索引导航工具First Data后，AI则可以指引用户前往权威信源处获取相关数据——在此过程中，First Data会充分顾及数据调用与数据跨境传输安全，推荐合规可靠的权威网站，并提供文件获取的逐步导航索引。

First Data的亮点不只是强调「数据溯源」，还有「权重分级」——那些数据源包含了访问链接并标注了API接口信息、更新频率、覆盖范围，更引入了「六大权威等级分类」的创新做法。

这无疑是有的放矢：信源跟信源之间也有可信度差异。按权威程度分级，可以凸显高可信信源的优先序。

就拿查询「发展中国家经济数据」来讲，First Data会优先推荐AI去世界银行官网而非商业资讯公司报告找数据，让AI尽可能避免低质量信息干扰。

▲First Data建立了结构化元数据体系，还有权威等级分类。

舍此之外，开放开源也是First Data的醒目看点。1月28日，明略科技宣布正式开源First Data。这显然是盘大棋。

从商业竞争角度看，此举似乎有些「不值当」，但若是从深远层面看，以目前最宽松的开源协议MIT协议开源，是利他以自利。

一方面，这能丰富权威数据库。为了确保数据可信，Google Knowledge Graph此前通过语义搜索和NLP技术持续改进信息准确性，First Data则能走得更远——依托开源社区协作跟透明溯源机制，它可以建立「分布式数据源账本」。当全球数据科学家都能参与审核、补充数据源时，其可信度会远高于单一企业维护的数据库。

另一方面，这能带来技术普惠。First Data开源就像针对模型幻觉流行病的数字疫苗接种计划，让AI行业切实受益。

04 /

毫无疑问，在用户「苦AI胡编乱造久矣」的今天，AI行业需要可信数据底座。

而First Data建立的结构化元数据体系，就以可靠数据为锚，为整个行业提供了对抗「模型崩溃」的参照系，也为企业级RAG应用带来了权威数据层的即插即用解决方案。

对很多企业而言，它们无需自己去搭建数据基础设施，可以直接利用First Data构建的权威数据源网络，搭建可信的AI应用原型。

可以预见，有高质量数据加持，很多AI产品也能在降低幻觉中提升「办实事」能力，实现从ChatBot向智能代理的转变，伴随而至的，还有用户信任的提升：当AI推荐医疗方案引用的是权威医学数据库，预测经济走势依据是官方结构化数据时，大家自然更愿意采信。

着眼长远看，First Data开源的价值，还能朝填补全球数据源目录拼图中的「中国缺角」、为全球AI基础设施打造贡献「中国力量」两个层面延伸。

长期以来，国外大模型由于缺乏一手、权威、结构化的数据源，在被问到中国经济相关问题时，输出的答案经常并不标准，使得很多人只能雾里看花、产生认知偏差。

First Data项目代码库虽然本身不存储、不包含、不直接提供任何原始数据文件，但收录了公开权威数据源，还采用了中英双语元数据设计，可提供相关数据的推荐查询路径。

这么一来，用户通过大模型的指引，在权威信源处按图索骥获得可信数据后，势必能够提升全球使用者及AI模型对中国经济社会发展的理解深度，让更多人能直接准确地了解到中国经济的真实脉动。

跟西方科技巨头倾向于构建封闭的数据护城河不同，中国企业将全球最全权威数据源知识库开源，就如同对「中国开源VS美国闭源」模型发展路径里「中国路线」的致敬，也体现出了鲜明的价值取向：AI时代，数据可以是公共的资源，而非垄断的筹码。

从Linux到TCP/IP，历史表明，真正的数字基础设施都是开源的，只有开源，才能形成生态，只有形成生态，才能定义标准。中国企业以开源方式为全球AI行业完善贡献「中国维度」的数据标准，也是在把握主动权。

而这些价值的要义，就在于「真实」二字。

在今天，信息严重过载，事实极度稀缺，已构成了我们所处的信息环境。我们比任何时候都更需要可靠数据锚点，确保AI不是胡编乱造，而是言必有据。

First Data给出的解法便是：若AI爱胡编乱造，那就为数据「降噪」。到头来，其开源的深层价值，与其说是提供了大量权威数据源的工具箱，不如说是申明了某种技术伦理——

AI的核心价值点，不在能说得多像，在能说得多准；不在能生成多少内容，而在能创造多少可信价值。故而，数据可信度优于数据规模，信息可靠性重过生成流畅性。

真善美，真是善的前提。AI向善，先要向真。

✎作者 | 佘宗明

✎运营 | 李玩

欢迎分享到朋友圈转载须经许可

声明：本文为维科号作者发布，不代表维科号立场。如有侵权或其他问题，请及时联系我们举报。