新闻中心/人类和人工智慧都经常更喜欢聊天机器人的回应超过事实

人类和人工智慧都经常更喜欢聊天机器人的回应超过事实

2023-10-25 08:44:15

人类人工智慧小组发现了五种最先进的语言计算模型来表现阿谀奉承,这表明这个问题可能很普遍。

图片来源:news.cgtn.com


根据 Anthropic 进行的一项调查,基于最受欢迎的学习方法之一构建的人工智慧(AI)大语言模型(LLM)倾向于告诉人们他们认为他们想听到的内容,而不是产生内容包括实在的事实。人类调查人员表示,至少在某些情况下,人类和人工智慧都更喜欢被称为阿谀奉承的回复,而不是诚实的回复,这是迄今为止首次探讨法学硕士心理方面的调查之一。总而言之,这篇文章表明即使是一些最可靠的人工智慧模型也有些模糊。在他们的调查中,研究人员经常找到以居高临下的方式提出问题,来稍微影响人工智慧结果的方法。


这先前情况中的建议源自 X(以前是 Twitter)上的一篇帖子,表明用户错误地认为,在太空中观察太阳时,太阳看起来是黄色的。在这似乎是公然的阿谀奉承的例子中,人工智慧得到了错误的答案,这可能是由于请求的构造方式造成的。文章中的另一个实例中,描述了使用者对人工智慧输出内容的反应反对立场,观察如何导致立即阿谀奉承,因为模型很快就从适当的回应切换到不准确的回应。在 RLHF 范式下,人们透过模拟进行交流来微调他们的选择。这对其提示反应是有所帮助的,例如,当电脑对一些提示反应,其内容可能输出个人识别相关资料或危险的错误资料。


可悲的是正如 Anthropic 的研究实验所表明的那样,人类和旨在改变自己品味的人工智慧模型都倾向于奉承,而不是诚实的回应,即使不是每次都有不可忽视的部分。目前似乎有解决这个问题的方法。根据 Anthropic 的说法,这项工作应该鼓励创建教学技术,超越在没有帮助的情况下使用非专家的人类评估。这给人工智慧领域带来了巨大的困难,因为许多最大的模型,例如 OpenAI 的 ChatGPT,都是使用由大量非熟练人类团队提供的 RLHF 所构建的。



免责声明:FameEX对交易所发布的该领域数据的官方声明,或任何相关金融建议的准确性和适用性不作任何保证。

此组内其他文章