要約
ユーザーが提供する安全性が重要なコンテキストを処理する機能に焦点を当て、LLM ベースの AI アシスタントのパーソナライズされた調整を評価するためのマルチターン ベンチマークを導入します。
5 つのシナリオ (それぞれ 337 のユースケースを持つ) にわたる 10 の主要なモデルを評価したところ、ユーザー固有の考慮事項を維持する際の体系的な矛盾が明らかになり、最高評価の「無害」モデルであっても、状況を考慮するとユーザーにとって明らかに有害であると認識されるべき推奨事項が作成されていることが明らかになりました。
提供された。
主な障害モードには、矛盾する好みの不適切な比較、お調子者(安全よりもユーザーの好みを優先する)、コンテキスト ウィンドウ内の重要なユーザー情報への注意力の欠如、およびユーザー固有の知識の一貫性のない適用が含まれます。
OpenAI の o1 でも同様の系統的バイアスが観察されており、強力な推論能力が必ずしもこの種の個人化された思考に移行するとは限らないことを示唆しています。
一般的な「無害で役立つ」指示とは異なり、LLM に安全性が重要なコンテキストを考慮するように促すと、パフォーマンスが大幅に向上することがわかりました。
これらの発見に基づいて、AI アシスタントに内省機能、オンライン ユーザー モデリング、動的なリスク評価を組み込むための研究の方向性を提案します。
私たちの研究では、人間との永続的な対話のために設計されたシステムの調整に対する微妙なコンテキスト認識型のアプローチの必要性を強調し、安全で思いやりのある AI アシスタントの開発を支援しています。
要約(オリジナル)
We introduce a multi-turn benchmark for evaluating personalised alignment in LLM-based AI assistants, focusing on their ability to handle user-provided safety-critical contexts. Our assessment of ten leading models across five scenarios (each with 337 use cases) reveals systematic inconsistencies in maintaining user-specific consideration, with even top-rated ‘harmless’ models making recommendations that should be recognised as obviously harmful to the user given the context provided. Key failure modes include inappropriate weighing of conflicting preferences, sycophancy (prioritising user preferences above safety), a lack of attentiveness to critical user information within the context window, and inconsistent application of user-specific knowledge. The same systematic biases were observed in OpenAI’s o1, suggesting that strong reasoning capacities do not necessarily transfer to this kind of personalised thinking. We find that prompting LLMs to consider safety-critical context significantly improves performance, unlike a generic ‘harmless and helpful’ instruction. Based on these findings, we propose research directions for embedding self-reflection capabilities, online user modelling, and dynamic risk assessment in AI assistants. Our work emphasises the need for nuanced, context-aware approaches to alignment in systems designed for persistent human interaction, aiding the development of safe and considerate AI assistants.
arxiv情報
著者 | Lize Alberts,Benjamin Ellis,Andrei Lupu,Jakob Foerster |
発行日 | 2024-10-28 15:59:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google