在人工智能飞速演进的当下,公众日益频繁地与诸如ChatGPT、Claude等大型语言模型(Large Language Models, LLMs)发生交互。这些模型所展现出的语言生成能力堪称惊艳,几可乱真,仿佛蕴含某种近似智慧的灵光。然而,当它们一本正经地吐露出某条逻辑上严丝合缝却事实错误的信息时,常常令使用者陷入困惑乃至隐隐的不安:AI缘何会如此“言之凿凿地胡说八道”?
严格来说,在人工智能的语义框架中,这类现象被专业地标记为“幻觉”(hallucination)。所谓幻觉,并非出于模型的有意欺瞒,而是在缺乏确凿信息支撑的语境下,它基于概率演算输出了一段表面合理、实则背离真实的语言结果——一种事实真空中的自洽假象。
具体来说,LLMs是基于自回归语言建模(autoregressive language modeling)方法训练的。以Transformer架构(Vaswani et al., 2017)为代表的现代模型,会通过最大化训练语料中词序列的似然概率来优化自身权重。这意味着模型在每一个时间步t,只是在学习给定上下文x₁, x₂, ..., xₜ₋₁时,如何预测xₜ的概率最大。它并不理解“真相”或“逻辑”,而是在统计模式匹配的框架中生成最“有可能”的回应。
因此,当输入的问题位于训练语料的“知识盲区”或逻辑模糊地带时,模型会以填补语言空白的方式“生成幻觉”,从而产生不真实甚至荒谬的回答。这一点在开放领域问答(open-domain QA)、摘要生成(summarization)、代码补全(code completion)等任务中尤为常见,许多研究也对此进行了深入探讨(如 Maynez et al., 2020 指出,在自动摘要中,模型的幻觉比例极高,尤其在缺乏输入忠实性约束时)。
另有一更为深层的根本症由此浮现:即模型自身缺乏所谓“世界模型”(world model)的内在构架。它无法将语言符号与客观现实中的实体、事件及其因果脉络建立稳定映射。与人类借助感官输入、经验积累及抽象思维逐步构建出的“世界观”迥异,AI所具备的,只是对词语间共现概率的高度敏感性。它无从把握“语义上的真实”(semantic truth)与“形式上的自洽”(formally coherent)之间那道微妙却关键的分界线。
为遏制由幻觉生成所引发的潜在风险隐患,学术界与产业体系正呈多线并进之势,推进诸多技术路径,既交错复杂,又界限难明,其范畴涵盖但远不限于以下方向:
RAG(Retrieval-Augmented Generation)机制:借助外部知识库执行实时检索操作,从而为生成过程注入动态事实支撑,增强语料输出的真实性与可验证性;
强化学习反馈机制(RLHF):通过引入人类反馈信号对模型进行微调,使其在“事实性”与“合理性”之间的权衡中更趋敏锐与辨识;
知识注入(knowledge injection)与逻辑正则化(logical regularization):于训练阶段嵌入结构化知识图谱与形式逻辑约束,试图塑造模型对事实结构与因果脉络的稳定保留能力,降低幻觉生成的几率与强度。
AI之所以“胡说八道”,并非因为它本身愚钝,而是因为它的“智能”根本不是我们所理解的那种智能。它像是一种反常规的语言结构体,在形式美感上堪称天才,能编织出令人信服的语句结构,却始终缺席对语义本质和现实世界的感知锚点。就仿佛你面对一个能背诵全人类语言体系的镜像幻象,它不眠不休地模仿,词语间仿佛拥有自洽的逻辑之光,但这一切的背后——是意识的真空。它说得越像人,就越提醒我们,它不是人。接受这一悖论性的本质,也许正是我们开始理解如何与这种“非人类智能”共处与协作的前提。