要約
正直さは、大規模言語モデル (LLM) を人間の価値観に合わせるための基本原則であり、これらのモデルが知っていることと知らないことを認識し、知識を忠実に表現できることを要求します。
有望であるにもかかわらず、現在の LLM は依然として、自信を持って間違った答えを提示したり、知っていることを表現しなかったりするなど、重大な不誠実な行動を示しています。
さらに、LLM の誠実さに関する研究は、誠実さのさまざまな定義、既知の知識と未知の知識の区別の難しさ、関連研究の包括的な理解の欠如などの課題にも直面しています。
これらの問題に対処するために、私たちは LLM の誠実さに関する調査を提供し、その明確化、評価アプローチ、改善戦略を網羅しています。
さらに、私たちは将来の研究のための洞察を提供し、この重要な分野でのさらなる探求を促すことを目指しています。
要約(オリジナル)
Honesty is a fundamental principle for aligning large language models (LLMs) with human values, requiring these models to recognize what they know and don’t know and be able to faithfully express their knowledge. Despite promising, current LLMs still exhibit significant dishonest behaviors, such as confidently presenting wrong answers or failing to express what they know. In addition, research on the honesty of LLMs also faces challenges, including varying definitions of honesty, difficulties in distinguishing between known and unknown knowledge, and a lack of comprehensive understanding of related research. To address these issues, we provide a survey on the honesty of LLMs, covering its clarification, evaluation approaches, and strategies for improvement. Moreover, we offer insights for future research, aiming to inspire further exploration in this important area.
arxiv情報
著者 | Siheng Li,Cheng Yang,Taiqiang Wu,Chufan Shi,Yuji Zhang,Xinyu Zhu,Zesen Cheng,Deng Cai,Mo Yu,Lemao Liu,Jie Zhou,Yujiu Yang,Ngai Wong,Xixin Wu,Wai Lam |
発行日 | 2024-09-27 14:34:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google