VDebugger: Harnessing Execution Feedback for Debugging Visual Programs

要約

ビジュアル プログラムは、視覚的な推論の問題に対処するために大規模な言語モデルによって生成される実行可能なコードです。
彼らは複雑な質問を複数の推論ステップに分解し、各ステップで特殊なモデルを呼び出して問題を解決します。
ただし、これらのプログラムはロジック エラーを起こしやすく、私たちの予備評価では、エラー全体の 58% がプログラム ロジック エラーによって引き起こされていることが示されています。
複雑なビジュアル プログラムのデバッグは、ビジュアル推論にとって依然として大きなボトルネックとなっています。
これに対処するために、実行を段階的に追跡することでビジュアル プログラムをローカライズしてデバッグするように訓練された新しい批評家絞り込みフレームワークである VDebugger を紹介します。
VDebugger は、詳細な実行フィードバックを活用してプログラム エラーを特定して修正し、解釈性と精度を向上させます。
トレーニング データは、新しいマスクベスト デコード技術を使用して正しいビジュアル プログラムにエラーを挿入する自動パイプラインを通じて生成されます。
6 つのデータセットの評価では VDebugger の有効性が実証され、ダウンストリーム タスクの精度において最大 3.2% のパフォーマンス向上が示されています。
さらなる研究では、VDebugger が目に見えないタスクに一般化できる能力を示し、目に見えない COVR タスクで 2.3% の顕著な改善をもたらしました。
コード、データ、モデルは https://github.com/shirley-wu/vdebugger/ で公開されています。

要約(オリジナル)

Visual programs are executable code generated by large language models to address visual reasoning problems. They decompose complex questions into multiple reasoning steps and invoke specialized models for each step to solve the problems. However, these programs are prone to logic errors, with our preliminary evaluation showing that 58% of the total errors are caused by program logic errors. Debugging complex visual programs remains a major bottleneck for visual reasoning. To address this, we introduce VDebugger, a novel critic-refiner framework trained to localize and debug visual programs by tracking execution step by step. VDebugger identifies and corrects program errors leveraging detailed execution feedback, improving interpretability and accuracy. The training data is generated through an automated pipeline that injects errors into correct visual programs using a novel mask-best decoding technique. Evaluations on six datasets demonstrate VDebugger’s effectiveness, showing performance improvements of up to 3.2% in downstream task accuracy. Further studies show VDebugger’s ability to generalize to unseen tasks, bringing a notable improvement of 2.3% on the unseen COVR task. Code, data and models are made publicly available at https://github.com/shirley-wu/vdebugger/

arxiv情報

著者 Xueqing Wu,Zongyu Lin,Songyan Zhao,Te-Lin Wu,Pan Lu,Nanyun Peng,Kai-Wei Chang
発行日 2024-06-27 17:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク