CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

要約

安定した拡散やDalle-3などのテキストから画像から画像へのモデルは、マルチターン画像編集に依然として苦労しています。
さまざまなコストのAIツールによる一連のサブタスクに対処するツール使用のエージェントワークフロー(PATH)などのタスクを分解します。
従来の検索アルゴリズムには、ツールパスを見つけるために高価な探索が必要です。
大規模な言語モデル(LLMS)はサブタスク計画の事前知識を持っていますが、各サブタスクで適用する能力とツールの能力とコストの正確な推定が不足している場合があります。
LLMSとグラフ検索の両方の強度を組み合わせて、費用効率の高いツールパスを見つけることはできますか?
LLMSを活用してサブタスクツリーを作成する3段階のアプローチ「Costa*」を提案します。これは、特定のタスクのAIツールのグラフを剪定するのに役立ち、小さなサブグラフでA*検索を行い、ツールパスを見つけます。
総コストと品質のバランスを改善するために、コスタ*はすべてのサブタスクの各ツールの両方のメトリックを組み合わせて、A*検索をガイドします。
その後、各サブタスクの出力は、Vision言語モデル(VLM)によって評価され、障害によりサブタスクのツールのコストと品質の更新がトリガーされます。
したがって、A*検索は、他のパスを探索するために障害から迅速に回復する可能性があります。
さらに、Costa*は、より良いコスト品質のトレードオフを得るために、サブタスク全体のモダリティを自動的に切り替えることができます。
挑戦的なマルチターン画像編集の新しいベンチマークを構築します。コスタ*は、コストと品質の両方の点で最先端の画像編集モデルまたはエージェントを上回り、ユーザーの好みに応じて汎用性の高いトレードオフを実行します。

要約(オリジナル)

Text-to-image models like stable diffusion and DALLE-3 still struggle with multi-turn image editing. We decompose such a task as an agentic workflow (path) of tool use that addresses a sequence of subtasks by AI tools of varying costs. Conventional search algorithms require expensive exploration to find tool paths. While large language models (LLMs) possess prior knowledge of subtask planning, they may lack accurate estimations of capabilities and costs of tools to determine which to apply in each subtask. Can we combine the strengths of both LLMs and graph search to find cost-efficient tool paths? We propose a three-stage approach ‘CoSTA*’ that leverages LLMs to create a subtask tree, which helps prune a graph of AI tools for the given task, and then conducts A* search on the small subgraph to find a tool path. To better balance the total cost and quality, CoSTA* combines both metrics of each tool on every subtask to guide the A* search. Each subtask’s output is then evaluated by a vision-language model (VLM), where a failure will trigger an update of the tool’s cost and quality on the subtask. Hence, the A* search can recover from failures quickly to explore other paths. Moreover, CoSTA* can automatically switch between modalities across subtasks for a better cost-quality trade-off. We build a novel benchmark of challenging multi-turn image editing, on which CoSTA* outperforms state-of-the-art image-editing models or agents in terms of both cost and quality, and performs versatile trade-offs upon user preference.

arxiv情報

著者 Advait Gupta,NandaKiran Velaga,Dang Nguyen,Tianyi Zhou
発行日 2025-03-13 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク