Retrospective Learning from Interactions

要約

大規模言語モデル (LLM) とユーザーの間の複数ターンの対話には、当然、暗黙的なフィードバック信号が含まれます。
LLM が指示に対して予期しない方法で応答した場合、ユーザーは要求を言い換えたり、不満を表明したり、別のタスクに切り替えたりすることで、それを知らせる可能性があります。
このような信号はタスクに依存せず、言語の比較的制限された部分空間を占めるため、LLM は実際のタスクで失敗した場合でも信号を識別できます。
これにより、追加の注釈なしでインタラクションから継続的に学習する手段が生まれます。
過去のインタラクションにおけるそのようなシグナルを振り返りを通じて学習する方法である ReSpect を紹介します。
ReSpect を新しいマルチモーダル インタラクション シナリオに導入します。このシナリオでは、人間が LLM に、組み合わせ解法空間を使用して抽象推論タスクを解決するように指示します。
人間との何千もの対話を通じて、ReSpect が外部からの注釈なしでタスク完了率を 31% から 82% まで徐々に向上させる様子を示します。

要約(オリジナル)

Multi-turn interactions between large language models (LLMs) and users naturally include implicit feedback signals. If an LLM responds in an unexpected way to an instruction, the user is likely to signal it by rephrasing the request, expressing frustration, or pivoting to an alternative task. Such signals are task-independent and occupy a relatively constrained subspace of language, allowing the LLM to identify them even if it fails on the actual task. This creates an avenue for continually learning from interactions without additional annotations. We introduce ReSpect, a method to learn from such signals in past interactions via retrospection. We deploy ReSpect in a new multimodal interaction scenario, where humans instruct an LLM to solve an abstract reasoning task with a combinatorial solution space. Through thousands of interactions with humans, we show how ReSpect gradually improves task completion rate from 31% to 82%, all without any external annotation.

arxiv情報

著者 Zizhao Chen,Mustafa Omer Gul,Yiwei Chen,Gloria Geng,Anne Wu,Yoav Artzi
発行日 2024-10-17 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク