新聞中心/人類和人工智慧都經常更喜歡聊天機器人的回應超過事實

人類和人工智慧都經常更喜歡聊天機器人的回應超過事實

2023-10-25 08:51:50

人類人工智慧小組發現了五種最先進的語言計算模型來表現阿諛奉承,這表明這個問題可能很普遍。

圖片來源:news.cgtn.com


根據 Anthropic 進行的一項調查,基於最受歡迎的學習方法之一構建的人工智慧(AI)大語言模型(LLM)傾向於告訴人們他們認為他們想聽到的內容,而不是產生內容包括實在的事實。人類調查人員表示,至少在某些情況下,人類和人工智慧都更喜歡被稱為阿諛奉承的回覆,而不是誠實的回覆,這是迄今為止首次探討法學碩士心理方面的調查之一。總而言之,這篇文章表明即使是一些最可靠的人工智慧模型也有些模糊。在他們的調查中,研究人員經常找到以居高臨下的方式提出問題,來稍微影響人工智慧結果的方法。


這先前情況中的建議源自 X(以前是 Twitter)上的一篇帖子,表明用戶錯誤地認為,在太空中觀察太陽時,太陽看起來是黃色的。在這似乎是公然的阿諛奉承的例子中,人工智慧得到了錯誤的答案,這可能是由於請求的構造方式造成的。文章中的另一個實例中,描述了使用者對人工智慧輸出內容的反應反對立場,觀察如何導致立即阿諛奉承,因為模型很快就從適當的回應切換到不準確的回應。在 RLHF 範式下,人們透過模擬進行交流來微調他們的選擇。這對其提示反應是有所幫助的,例如,當電腦對一些提示反應,其內容可能輸出個人識別相關資料或危險的錯誤資料。


可悲的是正如 Anthropic 的研究實驗所表明的那樣,人類和旨在改變自己品味的人工智慧模型都傾向於奉承,而不是誠實的回應,即使不是每次都有不可忽視的部分。目前似乎有解決這個問題的方法。根據 Anthropic 的說法,這項工作應該鼓勵創建教學技術,超越在沒有幫助的情況下使用非專家的人類評估。這給人工智慧領域帶來了巨大的困難,因為許多最大的模型,例如 OpenAI 的 ChatGPT,都是使用由大量非熟練人類團隊提供的 RLHF 所構建的。



免責聲明:FameEX對交易所發佈的該領域數據的官方聲明,或任何相關金融建議的準確性和適用性不作任何保證。


此組內其他文章