防止AI胡说八道！OpenAI公布最新大模型训练方法，监督AI像人类一样思考

2023-06-07 14:04 143 0

整理 | 凌敏、核子可乐

当 AI 一本正经地胡说八道时，需要用“魔法”打败“魔法”。

OpenAI 正寻求新方法对抗“AI 幻觉”

据 CNBC 报道，本周三，OpenAI 宣布计划采取一种新的 AI 模型训练方法，以解决“AI 幻觉”难题。

“AI 幻觉”指的是聊天机器人用编造的信息进行回应，这是 AI 的自信反应。当模型有“幻觉”（输出欺骗性数据的倾向）时，其使用的的训练数据并不能证明输出的合理性。比如，ChatGPT 或 Bard 等模型有时看似在滔滔不绝陈述事实，但实际内容却是“一本正经胡说八道”。

OpenAI 研究人员在报道中写道，“即使是最先进的模型也很容易生成虚假信息——在不确定情况时，它们往往表现出捏造事实的倾向。 这种幻觉在需要多步推理的领域尤其严重，其中一个环节上的逻辑错误就足以破坏整个解答过程。”

OpenAI 为幻觉问题提出了新的策略：在 AI 模型训练当中设置新的奖励机制，不仅奖励其获得正确的最终结论，更要奖励它们在得出答案的过程中做出的每个正确推理步骤。

研究人员表示，这种方法被称为 “过程监督”，而非“结果监督”。由于能够鼓励模型更多遵循人类的“思维”方法链，所以过程监督方法也许能提高 AI 输出的可解释性。

OpenAI 公司数学生成（mathgen）研究员 Karl Cobbe 在采访中指出，“检测和缓解模型中的逻辑错误或者幻觉，将是构建高一致性 AGI（通用人工智能）的关键一步。”虽然 OpenAI 之前没有发明出过程监督方法，但如今亡羊补牢，为时未晚。“这项研究的动机在于解决幻觉问题，使得模型具备解决挑战性推理问题的强大能力。”

Cobbe 还提到，OpenAI 已经发布一套附带数据集，其中包含 80 万个人类标注，用于训练研究论文中描述的这套模型。

解决“AI 幻觉”难题任重道远

随着 AI 技术得到广泛应用，“AI 幻觉”带来的潜在问题也开始浮现，并引发大众担忧。

以谷歌 2 月发布 Bard 时的宣传为例，这款聊天机器人对詹姆斯·韦伯太空望远镜做出了错误描述。最近，ChatGPT 又在纽约联邦法院一份文件中引述了“不存在的”案件，涉案律师可能因此面临处罚。

美国律师 Steven A. Schwartz 向 ChatGPT 求助，想要为自己诉哥伦比亚国家航空一案找点支持案例，ChatGPT 却给出了根本不存在的判例建议。Schwartz 声称他“没有意识到 ChatGPT 给出的内容可能是假的”。但从他跟机器人的聊天记录来看，他还是保持了一丝怀疑，想要进一步检查这些信息。但很遗憾，他选择询问 ChatGPT 来确认内容真实性，系统则再次做出误导，向他保证这些虚构判例完全真实合法。

此前在接受《纽约时报》采访时，OpenAI 的联合创始人 Ilya Stutskever 曾坦言 AI 幻觉是个大问题，但很有可能被“治愈”：我们现在的做法是雇人教会 ChatGPT 如何表现。你只需要与它互动，它就能从你的反应中推断出你想要的东西，比如，你对输出结果不满意。因此，它应该在下一次做些不同的事情。我认为这种方法很有可能（a quite a high chance）完全解决幻觉的问题。

随着 OpenAI 最新 AI 模型训练方法的公布，如何解决“AI 幻觉”难题再次引发讨论。

电子隐私信息中心高级顾问兼 AI 与人权项目负责人 Ben Winters 对 OpenAI 的训练方法表示怀疑，称实际效果要在检查了完整的数据集和随附示例后才能确定。

Winters 强调，“我只是觉得单凭这一种措施，不足以在实际应用场景当中显著降低 AI 生成错误信息和不正确结果的问题……另外，他们会不会把研究成果全面纳入产品也非常重要。如果不是，这反而会引发其他严重问题，比如操纵模型有选择地向公众发布信息。”

考虑到还不清楚 OpenAI 论文有没有经过同行评审或者其他形式的评审，布朗大学技术责任中心主任 Suresh Venkatasubramanian 认为这项研究的意义更多在于初步观察，而非实际应用。

Venkatasubramanian 指出，“在对此给予肯定之前，首先得等待这项成果在研究领域得到证实。这个世界上，很多结果总会定期出现。因为大语言模型的工作方式总体上并不稳定，所以在某一种设置、模型和上下文中起效的东西，很可能在另一种设置、模型和上下文中毫无作用。人们最担心的「幻觉」，其实是模型可能捏造的引用和参考资料。但文中没有能解决这个问题的证据。……我不是说一定解决不了，只是说这篇论文缺乏相关证据。”

在强调 ChatGPT 局限性方面，

OpenAI 做得还不够

OpenAI 能够意识 ChatGPT 的“AI 幻觉”问题，但在强调 ChatGPT 局限性方面，OpenAI 做得还不够。

在 ChatGPT 的主页上，OpenAI 发布的一条警告内容称“可能偶尔会产生不正确信息”，这也是其系统功能和局限性部分的九条须知之一。但这条警告内容放在任何信息源上都同样适用，对于 ChatGPT 这样一种强大、身处炒作大潮的风口浪尖且容易被严重误解的技术成果，OpenAI 在引导用户方面做得还远远不够，OpenAI 应该投入更多精力，明确强调 ChatGPT 无法稳定区分事实和“幻觉”。

据 The Verge 报道，过去几个月间，很多人都被 ChatGPT 的“胡说八道”所愚弄和影响。值得庆幸的是，大多数案例都微不足道，几乎没有造成负面冲击，ChatGPT 最多也就是捏造了一篇新闻报道、一篇学术论文或者一本不存在的书。但在个别案例中，ChatGPT 的错误信息确实可能引发严重后果。

今年 5 月，得克萨斯州农工大学的一位教授就使用聊天机器人检查学生是不是在靠 AI 写水文章。ChatGPT 倒是非常热情，表示所有论文都是由 AI 生成的，但却拿不出什么真凭实据。教授深信不疑而且大为光火，威胁要让学生们挂科甚至毕不了业，好在最终大家发现了这个错误。

这些事件并不会彻底毁掉人们对于 ChatGPT 等聊天机器人的期待和认可。只要配合正确的场景和适当的保护措施，这些 AI 工具仍然能在信息检索等任务中发挥巨大作用。目前也有各种有趣的研究正在推进，表明此类系统也许能在未来更好地尊重客观事实。

但当下，这类 AI 产品的局限性需要引起人们足够的重视。企业需要向大众强调 AI 产品的局限性，媒体也需要承担相应的报道责任。

干预措施并不需要特别复杂，但必须得有。比如，为什么 ChatGPT 无法识别用户想要的是事实性依据，并提醒对方“请注意检查信息来源”？在用户要求它判断特定文本是否由 AI 生成时，ChatGPT 为什么就不能明确表示“对不起，我没有能力做出判断”？

当然，OpenAI 一直在努力改进这些问题。自 ChatGPT 推出以来，它已经变得越来越坦率、会直言自己存在局限性。最经典的表述就是“作为一个 AI 语言模型，我……”。但不一致问题仍然存在，比如，当问它“你能检测出 AI 生成的文本吗？”它回答说“检测结果不一定准确。”但向它输入了一大段内容，并提出同样的问题时，它只是简单回答“是的，这段文字是由 AI 生成的。”

此外，当要求 ChatGPT 提供一份测量专业书籍推荐清单时，它给出的答案共有 10 本书，其中不少质量很高，但有 2 本则是完全虚构的。如果不是在刻意检查，可能根本就不会注意到这个问题。当用户和 ChatGPT 交流多了，并且验证后就会发现，ChatGPT 这类 AI 产品经常“胡说八道”。

面对这样的现状，“可能偶尔会产生不正确信息”之类的免责声明显然远远不够。

参考链接：

https://www.cnbc.com/2023/05/31/openai-is-pursuing-a-new-way-to-fight-ai-hallucinations.html

https://www.theverge.com/2023/5/30/23741996/openai-chatgpt-false-information-misinformation-responsibility