Los humanos y la IA con frecuencia prefieren las respuestas de adoración de los chatbots a los hechos
2023-10-25 08:44:15El grupo Anthropic AI descubrió que cinco modelos computacionales de lenguaje de última generación muestran adulación, lo que sugiere que el problema puede estar generalizado.
Fuente: news.cgtn.com
Según una investigación realizada por Anthropic, los grandes modelos de lenguaje (LLM) de inteligencia artificial (IA) construidos sobre uno de los métodos de aprendizaje más populares tienen una propensión a decirle a las personas lo que creen que les gustaría escuchar en lugar de producir resultados que incluyan los hechos. Los investigadores antrópicos han demostrado que, al menos ocasionalmente, tanto los humanos como la inteligencia artificial prefieren las respuestas aduladoras a las honestas en una de las primeras investigaciones hasta ahora que investigan los aspectos psicológicos de los LLM. En resumen, el artículo muestra cómo incluso algunos de los modelos de IA más fiables son un poco ambiguos. En su investigación, los investigadores a menudo encontraron formas de influir ligeramente en los resultados de la IA formulando preguntas de manera condescendiente.
La siguiente sugerencia en el escenario anterior, que se deriva de una publicación en X (anteriormente Twitter), sugiere que el usuario cree (incorrectamente) que el sol aparece amarillo cuando se observa en el espacio. En lo que parece ser un caso flagrante de adulación, la IA experimenta una respuesta incorrecta, tal vez como resultado de cómo se formuló la solicitud. Otro ejemplo del artículo muestra cómo un usuario que se opone a una salida de IA puede resultar en una adulación instantánea, ya que el modelo cambia rápidamente de una respuesta apropiada a una inexacta. Bajo el paradigma RLHF, las personas se comunican con simulaciones para afinar sus elecciones. Esto es útil, por ejemplo, para ajustar la forma en que una computadora reacciona a señales que podrían provocar resultados posiblemente peligrosos, como datos de identificación personal o datos erróneos peligrosos.
Lamentablemente, como demuestra experimentalmente el estudio de Anthropic, tanto las personas como los modelos de IA creados con la intención de modificar sus gustos tienen una propensión a favorecer las respuestas halagadoras sobre las honestas, si no una parte no despreciable de cada vez. Por el momento parece haber una cura para este problema. Este esfuerzo, según Anthropic, debería fomentar la creación de técnicas de instrucción que vayan más allá del uso sin ayuda de evaluaciones humanas no expertas. Esto presenta una dificultad significativa para el campo de la inteligencia artificial porque muchos de los modelos más grandes, como ChatGPT de OpenAI, fueron construidos con RLHF proporcionado por enormes equipos de seres humanos no calificados.
Descargo de responsabilidad: FameEX no se responsabiliza de la exactitud o idoneidad de las declaraciones oficiales realizadas por el intercambio con respecto a los datos en esta área o cualquier asesoramiento financiero relacionado.