要約
オブジェクトは、特定の自然言語の説明に一致する画像内のすべてのオブジェクトを検出することを目的としています。
私たちは、モデルを参照する堅牢なオブジェクトを接地する必要があると主張します。つまり、その予測は視覚コンテンツに対して説明可能かつ忠実でなければなりません。
具体的には、2つの重要な特性を満たす必要があります。1)予測を正当化し、それらを視覚的証拠に明確にリンクする解釈可能な推論を作成することにより、検証可能です。
2)画像内のオブジェクトが与えられた式を満たしていないときに棄権することを学ぶことにより、信頼できる。
ただし、ほとんどの方法では、直接の境界ボックス予測タスクと呼ばれる扱いを行い、制限された解釈可能性を提供し、一致するオブジェクトのない表現を拒否するのに苦労しています。
この作業では、明示的なCOT推論タスクと呼ばれるオブジェクトを定式化するモデルであるRex-Thinkerを提案します。
参照式が与えられた場合、最初に紹介されたオブジェクトカテゴリに対応するすべての候補オブジェクトインスタンスを識別します。
その後、Rex-Thinkerは、各候補者に対して段階的な推論を実行して、最終的な予測を行う前に、指定された式と一致するかどうかを評価します。
このパラダイムをサポートするために、HumanRefデータセットでGPT-4Oをプロンプトすることにより、HumanRef-COTという名前の大規模なCOTスタイルの参照データセットを作成します。
各推論トレースは、構造化された計画、アクション、および要約形式に従い、モデルがオブジェクト候補を介して分解された解釈可能な推論を学習できるようにします。
次に、Rex-Thinkerを2つの段階で訓練します。コールドスタートの監視された微調整段階で、構造化された推論を実行する方法をモデルに教える、次にGRPOベースのRLが精度と一般化を改善するために学習します。
実験は、私たちのアプローチが、ドメイン内評価で精度と解釈の両方の標準ベースラインを上回ると同時に、幻覚出力を拒否する能力の改善とドメイン外の設定での強力な一般化を実証することを示しています。
要約(オリジナル)
Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.
arxiv情報
著者 | Qing Jiang,Xingyu Chen,Zhaoyang Zeng,Junzhi Yu,Lei Zhang |
発行日 | 2025-06-04 14:56:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google