Tools Fail: Detecting Silent Errors in Faulty Tools

要約

ツールは LLM の主力となっており、ツールでは重要ではない知識を取得したり、Web 上でタスクを実行したり、ロボットを制御したりすることもできます。
しかし、ほとんどのオントロジーやツール使用に関する調査では、LLM にとっての中心的な課題はツールの選択であると想定されています。
代わりに、「サイレント」ツール エラーを検出するモデルの能力を調査し、計画の立て方を検討するための、より広範なツールのフレームワークを導入します。
これは、モデルをツールとして使用することがますます一般的になっていることとより直接的に一致しています。
当社は、管理された計算機設定と具体的なエージェント計画の両方で有望な結果をもたらす、障害回復への初期アプローチを提供します。

要約(オリジナル)

Tools have become a mainstay of LLMs, allowing them to retrieve knowledge not in their weights, to perform tasks on the web, and even to control robots. However, most ontologies and surveys of tool-use have assumed the core challenge for LLMs is choosing the tool. Instead, we introduce a framework for tools more broadly which guides us to explore a model’s ability to detect ‘silent’ tool errors, and reflect on how to plan. This more directly aligns with the increasingly popular use of models as tools. We provide an initial approach to failure recovery with promising results both on a controlled calculator setting and embodied agent planning.

arxiv情報

著者 Jimin Sun,So Yeon Min,Yingshan Chang,Yonatan Bisk
発行日 2024-06-27 14:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク