Learning To Guide Human Decision Makers With Vision-Language Models

要約

意思決定の質を向上させ、認知的負担を軽減することを目的として、医療診断などの \textit{一か八かの}タスクにおける人間の意思決定を支援する AI の開発への関心が高まっています。
% 主流のアプローチでは、専門家が機械学習モデルとチームを組み、より安全な意思決定がオフロードされるため、前者は注意が必要なケースに集中できるようになります。
% ただし、この \textit{責任の分離} 設定は、一か八かのシナリオには不十分です。
一方で、専門家は \textit{アンカリング バイアス} により機械の決定に過度に依存することになり、信頼できる AI を確保するために規制当局によってますます求められている人間の監視を失う可能性があります。
一方、専門家は、モデルが棄権した (通常は最も難しい) 決定についてはまったく支援を受けられません。
% 解決策として、\textit{ガイドする学習} (LTG) を導入します。これは、人間の専門家から制御を奪うのではなく、機械が意思決定に役立つ \textit{ガイダンス} を提供する代替フレームワークです。
決断を下す全責任は人間にあります。
% ガイダンスが \textit{解釈可能}かつ \textit{タスク固有}であることを保証するために、\textit{任意の} ビジョン言語モデルを、わずかな手段を活用してテキスト ガイダンスの有能なジェネレーターに変えるアプローチである \method を開発します。
人間のフィードバックのこと。
% 私たちの経験的評価は、困難な現実世界の医療診断タスクに対する \ メソッドの有望性を強調しています。

要約(オリジナル)

There is increasing interest in developing AIs for assisting human decision making in \textit{high-stakes} tasks, such as medical diagnosis, for the purpose of improving decision quality and reducing cognitive strain. % Mainstream approaches team up an expert with a machine learning model to which safer decisions are offloaded, thus letting the former focus on cases that demand their attention. % This \textit{separation of responsibilities} setup, however, is inadequate for high-stakes scenarios. On the one hand, the expert may end up over-relying on the machine’s decisions due to \textit{anchoring bias}, thus losing the human oversight that is increasingly being required by regulatory agencies to ensure trustworthy AI. On the other hand, the expert is left entirely unassisted on the (typically hardest) decisions on which the model abstained. % As a remedy, we introduce \textit{learning to guide} (LTG), an alternative framework in which — rather than taking control from the human expert — the machine provides \textit{guidance} useful for decision making, and the human is entirely responsible for coming up with a decision. % In order to ensure guidance is \textit{interpretable} and \textit{task-specific}, we develop \method, an approach for turning \textit{any} vision-language model into a capable generator of textual guidance by leveraging a modicum of human feedback. % Our empirical evaluation highlights the promise of \method on a challenging, real-world medical diagnosis task.

arxiv情報

著者 Debodeep Banerjee,Stefano Teso,Burcu Sayin Grunel,Andrea Passerini
発行日 2024-03-25 07:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク