要約
強力な言語モデルと思考連鎖プロンプトの出現により、自動化がますます普及してきましたが、長期的または複数ステップの論理的推論において自動化の弱点が露呈することがあります。
たとえば、複雑な数学的問題に対して、人間の介入なしにユーザーが望ましい答えを常に得られるとは限りません。
このような背景に対して、我々は手動修正システム (MCS) を紹介します。これは、思考連鎖プロンプトによって強化された人間参加型システムであり、論理的根拠のサブロジックを手動で修正することで LLM の推論パフォーマンスがどのように向上するかを調査します。
一歩前進して、人間参加型のシステムを検討すると、人間がパフォーマンスを向上させるだけでなく、コストの管理も必要になります。
したがって、古典的な経済理論に基づいて、効用とそれに対応するコストを分析、定量化し、バランスをとるために、ヒューマンインザループ システムのコスト効用分析モデル (CAMLOP) を投稿します。
12のデータセットを使用してMCSとCAMLOPの実験を行います。
コストと実用性に関する大きな利点は、強力なベースラインよりも優れていることを証明しています。
要約(オリジナル)
While the emergence of powerful language models along with Chain-of-thought prompting has made automation more and more omnipresent, it sometimes demonstrates its weakness in long-term or multi-step logical reasoning. For example, users don’t always get desirable answers for complex mathematical problems without human involvement. Against this background, we present the Manual Correction System (MCS) — a human-in-the-loop system enhanced by Chain-of-Thought prompting, which explores how manual correction of sub-logics in rationales can improve LLM’s reasoning performance. Moving one step forward, considering a system with human-in-the-loop involves more than having humans improve performance but also controlling the cost. Therefore, we post a Cost-utility Analysis Model for Human-in-the-Loop systems (CAMLOP) based on classical economics theory to analyze, quantify and balance the utility and the corresponding cost. We conduct experiments of MCS and CAMLOP with twelve datasets. A significant advantage w.r.t cost and utility proves its superiority over strong baselines.
arxiv情報
著者 | Zefan Cai,Baobao Chang,Wenjuan Han |
発行日 | 2023-06-23 05:56:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google