Efficient Knowledge Editing via Minimal Precomputation

要約

Memitのような知識編集方法は、単一の文を使用して事実とその結果を更新することにより、データを作成し、事実知識の効率的な更新を計算することができます。
ただし、しばしば見落とされているのは「事前計算ステップ」であり、1回限りの計算コストが必要です。
Memitの著者は、もともと編集されたレイヤーごとに約4,400万個の隠されたベクトルを事前に計算しました。これには、4,400万個のトークンを超えるフォワードパスが必要です。
GPT-J(6B)の場合、この事前計算ステップは1つのGPUで36時間かかりますが、Llama2-7bでは約40時間かかります。
さらに、この事前計算時間はモデルサイズで成長します。
この論文では、この過剰な計算コストが不要であることを示します。
ローマやエメットなどのMemitおよび関連する方法を使用した知識編集は、4400万の隠されたベクトルのごく一部を事前に計算することで実行できます。
最初に、これらの編集方法の解決策に必要な隠されたベクトルの事前計算の理論的最小数を存在させます。
次に、これらの方法を使用した知識の編集を、隠しベクターを大幅に少なくすることで行うことができることを経験的に示します。
具体的には、元々規定された数の隠されたベクトルの0.3%未満で事前計算ステップを実行できることを示します。
これにより、かなりの量の事前計算時間が節約され、ユーザーが数分以内に新しいモデルの編集を開始できます。

要約(オリジナル)

Knowledge editing methods like MEMIT are able to make data and compute efficient updates of factual knowledge by using a single sentence to update facts and their consequences. However, what is often overlooked is a ‘precomputation step’, which requires a one-time but significant computational cost. The authors of MEMIT originally precompute approximately 44 million hidden vectors per edited layer, which requires a forward pass over 44 million tokens. For GPT-J (6B), this precomputation step takes 36 hours on a single GPU, while it takes approximately 40 hours for Llama2-7B. Additionally, this precomputation time grows with model size. In this paper, we show that this excessive computational cost is unnecessary. Knowledge editing using MEMIT and related methods, such as ROME and EMMET, can be performed by pre-computing a very small portion of the 44 million hidden vectors. We first present the theoretical minimum number of hidden vector precomputation required for solutions of these editing methods to exist. We then empirically show that knowledge editing using these methods can be done by pre-computing significantly fewer hidden vectors. Specifically, we show that the precomputation step can be done with less than 0.3% of the originally stipulated number of hidden vectors. This saves a significant amount of precomputation time and allows users to begin editing new models within a few minutes.

arxiv情報

著者 Akshat Gupta,Maochuan Lu,Thomas Hartvigsen,Gopala Anumanchipalli
発行日 2025-06-04 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Efficient Knowledge Editing via Minimal Precomputation はコメントを受け付けていません

Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era

要約

人間の学習と概念表現は、最先端の基礎モデルとは対照的に、感覚運動体験に基づいています。
この論文では、膨大な量のデータで訓練されたこのような大規模なモデルが、具体的なオブジェクトの概念のセマンティック特徴規範をどの程度うまく表しているかを調査します。
バラは赤く、甘い匂いがし、花です。
より具体的には、これらのモデルが認識しているオブジェクトのプロパティをテストするために、調査タスクを使用します。
イメージデータのみでトレーニングされた画像エンコーダー、およびマルチモダイアルトレーニングを受けた画像エンコーダと言語のみのモデルを評価し、古典的なMCRAEノルムの拡張密度の高いバージョンと属性評価の新しいバインダーデータセットを予測します。
マルチモーダルイメージエンコーダーは、言語のみのアプローチをわずかに上回るエンコーダーであり、「Encyclopedic」または「function」に分類される非視覚属性であっても、画像のみのエンコーダーが言語モデルに同等に機能することがわかります。
これらの結果は、純粋な単峰性学習から学ぶことができること、およびモダリティの相補性に関する新しい洞察を提供します。

要約(オリジナル)

Human learning and conceptual representation is grounded in sensorimotor experience, in contrast to state-of-the-art foundation models. In this paper, we investigate how well such large-scale models, trained on vast quantities of data, represent the semantic feature norms of concrete object concepts, e.g. a ROSE is red, smells sweet, and is a flower. More specifically, we use probing tasks to test which properties of objects these models are aware of. We evaluate image encoders trained on image data alone, as well as multimodally-trained image encoders and language-only models, on predicting an extended denser version of the classic McRae norms and the newer Binder dataset of attribute ratings. We find that multimodal image encoders slightly outperform language-only approaches, and that image-only encoders perform comparably to the language models, even on non-visual attributes that are classified as ‘encyclopedic’ or ‘function’. These results offer new insights into what can be learned from pure unimodal learning, and the complementarity of the modalities.

arxiv情報

著者 Dan Oneata,Desmond Elliott,Stella Frank
発行日 2025-06-04 14:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era はコメントを受け付けていません

Vocabulary-free few-shot learning for Vision-Language Models

要約

ビジョン言語モデル(VLM)の少数のショット適応の最近の進歩により、いくつかのラベルの付いた例を使用して、タスク全体で一般化する能力が大幅に拡大しました。
ただし、既存のアプローチは、主に、慎重に設計されたタスク固有のプロンプトを活用することにより、これらのモデルの強力なゼロショット事前に基づいています。
事前に定義されたクラス名への依存性は、特に正確なクラス名が利用できないか、指定が困難なシナリオでは、適用性を制限できます。
この制限に対処するために、VLMSの語彙を含まない少数の学習を紹介します。これは、ターゲットクラスインスタンス、つまり画像 – が利用可能であるが、対応する名前が利用できない設定です。
類似性マッピング(SIM)を提案します。これは、一連の一般的なプロンプト(テキストまたはビジュアル)を使用して類似性スコアのみに基づいてターゲットインスタンスを分類し、慎重に手作りのプロンプトの必要性を排除する標的インスタンスを分類するシンプルで効果的なベースラインを提案します。
概念的には簡単ですが、SIMは強力なパフォーマンスを示し、高い計算効率で動作し(通常、マッピングの学習には1秒未満かかります)、ターゲットクラスを一般的なプロンプトにリンクすることで解釈可能性を提供します。
私たちのアプローチは、語彙を含まない少数の学習における将来の研究のための重要なベースラインとして役立つと考えています。
コードはhttps://github.com/maxzanella/vocabulary-free-fslで入手できます。

要約(オリジナル)

Recent advances in few-shot adaptation for Vision-Language Models (VLMs) have greatly expanded their ability to generalize across tasks using only a few labeled examples. However, existing approaches primarily build upon the strong zero-shot priors of these models by leveraging carefully designed, task-specific prompts. This dependence on predefined class names can restrict their applicability, especially in scenarios where exact class names are unavailable or difficult to specify. To address this limitation, we introduce vocabulary-free few-shot learning for VLMs, a setting where target class instances – that is, images – are available but their corresponding names are not. We propose Similarity Mapping (SiM), a simple yet effective baseline that classifies target instances solely based on similarity scores with a set of generic prompts (textual or visual), eliminating the need for carefully handcrafted prompts. Although conceptually straightforward, SiM demonstrates strong performance, operates with high computational efficiency (learning the mapping typically takes less than one second), and provides interpretability by linking target classes to generic prompts. We believe that our approach could serve as an important baseline for future research in vocabulary-free few-shot learning. Code is available at https://github.com/MaxZanella/vocabulary-free-FSL.

arxiv情報

著者 Maxime Zanella,Clément Fuchs,Ismail Ben Ayed,Christophe De Vleeschouwer
発行日 2025-06-04 14:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vocabulary-free few-shot learning for Vision-Language Models はコメントを受け付けていません

Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments

要約

ビデオ理解の実質的な進歩にもかかわらず、ほとんどの既存のデータセットは地球の重力条件に限定されています。
ただし、微小重力は人間の動き、相互作用、視覚的なセマンティクスを変化させ、現実世界のビジョンシステムの重要なギャップを明らかにします。
これは、安全性が批判的なスペースアプリケーションにおけるドメインロボストビデオ理解の課題を提示します。
これに対処するために、Microg-4Mを紹介します。これは、微小重力における人間の活動の時空間的および意味的理解のための最初のベンチマークです。
現実世界の宇宙ミッションと映画のシミュレーションから構築されたデータセットには、50のアクション、1,238のコンテキストが豊富なキャプション、宇宙飛行士のアクティビティとシーンの理解に関する7,000を超える質問回答ペアをカバーする4,759のクリップが含まれています。
Microg-4Mは、3つのコアタスクをサポートしています。細粒のマルチラベルアクション認識、時間的なビデオキャプション、視覚的な質問への回答であり、微小重力コンテキストでの空間的ローカリゼーションとセマンティック推論の両方の包括的な評価を可能にします。
最先端のモデルを使用してベースラインを確立します。
すべてのデータ、注釈、およびコードは、https://github.com/lei-qi-233/har-in-spaceで入手できます。

要約(オリジナル)

Despite substantial progress in video understanding, most existing datasets are limited to Earth’s gravitational conditions. However, microgravity alters human motion, interactions, and visual semantics, revealing a critical gap for real-world vision systems. This presents a challenge for domain-robust video understanding in safety-critical space applications. To address this, we introduce MicroG-4M, the first benchmark for spatio-temporal and semantic understanding of human activities in microgravity. Constructed from real-world space missions and cinematic simulations, the dataset includes 4,759 clips covering 50 actions, 1,238 context-rich captions, and over 7,000 question-answer pairs on astronaut activities and scene understanding. MicroG-4M supports three core tasks: fine-grained multi-label action recognition, temporal video captioning, and visual question answering, enabling a comprehensive evaluation of both spatial localization and semantic reasoning in microgravity contexts. We establish baselines using state-of-the-art models. All data, annotations, and code are available at https://github.com/LEI-QI-233/HAR-in-Space.

arxiv情報

著者 Di Wen,Lei Qi,Kunyu Peng,Kailun Yang,Fei Teng,Ao Luo,Jia Fu,Yufan Chen,Ruiping Liu,Yitian Shi,M. Saquib Sarfraz,Rainer Stiefelhagen
発行日 2025-06-04 14:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments はコメントを受け付けていません

Dreaming up scale invariance via inverse renormalization group

要約

最小限のニューラルネットワークが、2次元ISINGモデルで繰り込みグループ(RG)の粗栽培手順をどのように反転させ、粗粒状態から微視的な構成を効果的に「夢見る」ことができるかを探ります。
このタスクは、構成のレベルでは、確率的にアプローチされ、機械学習モデルが顕微鏡入力に依存せずにスケール不変の分布を再構築できるようにします。
わずか3つのトレーニング可能なパラメーターを持つニューラルネットワークでさえ、磁気感受性、熱容量、バインダー比などの観測可能性のスケーリング挙動を再現して、重要な構成の生成を学ぶことができることを実証します。
生成された構成の実地域の繰り込みグループ分析により、モデルが不変性をスケーリングするだけでなく、RG変換の非自明な固有値を再現することが確認されます。
驚くべきことに、複数のレイヤーを導入することでネットワークの複雑さを高めることは、大きな利益をもたらさないことがわかります。
これらの発見は、フラクタル構造を生成するものと同様の単純なローカルルールが、重要な現象の普遍性をコードし、物理学における統計アンサンブルの効率的な生成モデルへの扉を開くのに十分であることを示唆しています。

要約(オリジナル)

We explore how minimal neural networks can invert the renormalization group (RG) coarse-graining procedure in the two-dimensional Ising model, effectively ‘dreaming up’ microscopic configurations from coarse-grained states. This task-formally impossible at the level of configurations-can be approached probabilistically, allowing machine learning models to reconstruct scale-invariant distributions without relying on microscopic input. We demonstrate that even neural networks with as few as three trainable parameters can learn to generate critical configurations, reproducing the scaling behavior of observables such as magnetic susceptibility, heat capacity, and Binder ratios. A real-space renormalization group analysis of the generated configurations confirms that the models capture not only scale invariance but also reproduce nontrivial eigenvalues of the RG transformation. Surprisingly, we find that increasing network complexity by introducing multiple layers offers no significant benefit. These findings suggest that simple local rules, akin to those generating fractal structures, are sufficient to encode the universality of critical phenomena, opening the door to efficient generative models of statistical ensembles in physics.

arxiv情報

著者 Adam Rançon,Ulysse Rançon,Tomislav Ivek,Ivan Balog
発行日 2025-06-04 14:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.CV, cs.LG | Dreaming up scale invariance via inverse renormalization group はコメントを受け付けていません

UltraBones100k: A reliable automated labeling method and large-scale dataset for ultrasound-based bone surface extraction

要約

超音波ベースの骨表面セグメンテーションは、コンピューター支援整形外科手術において重要です。
ただし、超音波画像には、信号対雑音比が低いことや、解釈が困難になる音響シャドーイングなど、制限があります。
骨セグメンテーションの既存の深い学習モデルは、主に専門家による費用のかかる手動ラベル付けに依存しており、データセットのサイズとモデルの一般化可能性を制限しています。
さらに、超音波物理学とアコースティックシャドウの複雑さにより、人間が画像を解釈することが困難になり、不安定な地域のラベルが不完全になり、モデルのパフォーマンスが制限されます。
超音波骨セグメンテーションを進め、効果的なモデルベンチマークを確立するには、より大規模で高品質のデータセットが必要です。
AneChoic領域を含む自動的に生成された骨ラベルを使用して、Ex-vivo超音波データセットを収集するための方法論を提案します。
提案されたラベルは、追跡された骨CTモデルを追跡された超音波画像に正確に重ねることによって導き出されます。
これらの初期ラベルは、超音波物理学を説明するために改良されています。
臨床評価は、生成された骨ラベルの品質を評価するために、整形外科の超音波検査に特化した専門の医師によって実施されます。
骨セグメンテーションのためのニューラルネットワークは収集されたデータセットでトレーニングされ、その予測は専門家のマニュアルラベルと比較され、精度、完全性、F1スコアを評価します。
Ultrabones100Kと呼ばれる骨ラベルを持つヒト下肢の100K超音波画像の最大の既知のデータセットを収集しました。
WilcoxonがBonferroni補正を備えたランクテストに署名したことで、この方法が骨標識の品質を大幅に改善した後の骨アライメントが確認されました(P <0.001)。 ultrabones100Kで訓練されたモデルは、すべてのメトリック、特に低強度領域で一貫して手動のラベルを上回っています(距離のしきい値0.5 mmで完全性が320%改善)。

要約(オリジナル)

Ultrasound-based bone surface segmentation is crucial in computer-assisted orthopedic surgery. However, ultrasound images have limitations, including a low signal-to-noise ratio, and acoustic shadowing, which make interpretation difficult. Existing deep learning models for bone segmentation rely primarily on costly manual labeling by experts, limiting dataset size and model generalizability. Additionally, the complexity of ultrasound physics and acoustic shadow makes the images difficult for humans to interpret, leading to incomplete labels in anechoic regions and limiting model performance. To advance ultrasound bone segmentation and establish effective model benchmarks, larger and higher-quality datasets are needed. We propose a methodology for collecting ex-vivo ultrasound datasets with automatically generated bone labels, including anechoic regions. The proposed labels are derived by accurately superimposing tracked bone CT models onto the tracked ultrasound images. These initial labels are refined to account for ultrasound physics. A clinical evaluation is conducted by an expert physician specialized on orthopedic sonography to assess the quality of the generated bone labels. A neural network for bone segmentation is trained on the collected dataset and its predictions are compared to expert manual labels, evaluating accuracy, completeness, and F1-score. We collected the largest known dataset of 100k ultrasound images of human lower limbs with bone labels, called UltraBones100k. A Wilcoxon signed-rank test with Bonferroni correction confirmed that the bone alignment after our method significantly improved the quality of bone labeling (p < 0.001). The model trained on UltraBones100k consistently outperforms manual labeling in all metrics, particularly in low-intensity regions (320% improvement in completeness at a distance threshold of 0.5 mm).

arxiv情報

著者 Luohong Wu,Nicola A. Cavalcanti,Matthias Seibold,Giuseppe Loggia,Lisa Reissner,Jonas Hein,Silvan Beeler,Arnd Viehöfer,Stephan Wirth,Lilian Calvet,Philipp Fürnstahl
発行日 2025-06-04 14:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | UltraBones100k: A reliable automated labeling method and large-scale dataset for ultrasound-based bone surface extraction はコメントを受け付けていません

Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging

要約

医療画像分析では、機能エンジニアリングは、機械学習モデルの設計とパフォーマンスにおいて重要な役割を果たします。
トポロジーデータ分析の分野(TDA)からの永続性相同性(PH)は、データの摂動に対する堅牢性と安定性を示し、入力の小さな変化が特徴表現の大きな変化をもたらす従来の特徴抽出アプローチからの制限に対処します。
pHを使用して、持続性トポロジーと幾何学的特徴を永続性バーコードの形で保存し、大きなバーがグローバルなトポロジー特徴を表し、小さなバーはデータの幾何学的情報をカプセル化します。
複数のバーコードが2Dまたは3Dの医療画像から計算される場合、2つのアプローチを使用して、各次元で最終的なトポロジー特徴ベクトルを構築できます。持続性バーコードを集約し、それに続いて各バーコードから派生したトポロジー特徴ベクトルを連結します。
この研究では、多様な医療イメージングデータセット間で包括的な分析を実施して、分類モデルのパフォーマンスに対する2つの前述のアプローチの効果を比較します。
この分析の結果は、特徴が個々のバーコードからの詳細なトポロジー情報を保持し、より良い分類パフォーマンスをもたらすため、同様の実験を実施する際に好ましいアプローチであることを示しています。

要約(オリジナル)

In medical image analysis, feature engineering plays an important role in the design and performance of machine learning models. Persistent homology (PH), from the field of topological data analysis (TDA), demonstrates robustness and stability to data perturbations and addresses the limitation from traditional feature extraction approaches where a small change in input results in a large change in feature representation. Using PH, we store persistent topological and geometrical features in the form of the persistence barcode whereby large bars represent global topological features and small bars encapsulate geometrical information of the data. When multiple barcodes are computed from 2D or 3D medical images, two approaches can be used to construct the final topological feature vector in each dimension: aggregating persistence barcodes followed by featurization or concatenating topological feature vectors derived from each barcode. In this study, we conduct a comprehensive analysis across diverse medical imaging datasets to compare the effects of the two aforementioned approaches on the performance of classification models. The results of this analysis indicate that feature concatenation preserves detailed topological information from individual barcodes, yields better classification performance and is therefore a preferred approach when conducting similar experiments.

arxiv情報

著者 Dashti A. Ali,Richard K. G. Do,William R. Jarnagin,Aras T. Asaad,Amber L. Simpson
発行日 2025-06-04 14:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging はコメントを受け付けていません

Conformal coronary calcification volume estimation with conditional coverage via histogram clustering

要約

CTスキャンにおける冠動脈カルシウムの偶発的検出と定量化は、命を救う臨床介入の早期導入につながる可能性があります。
しかし、過剰報告は患者の健康に悪影響を及ぼし、医療システムに不必要に負担する可能性があります。
したがって、冠動脈カルシウムスコアを自動的に報告する場合は、慎重に考慮する必要があります。
クラスターベースの条件付きコンフォーマル予測フレームワークが提案されており、再訓練なしで訓練されたセグメンテーションネットワークからのキャリブレーションされたカバレッジを備えたスコア間隔を提供します。
提案された方法を調整し、3D UNETモデルの予測間隔(決定論的、McDropout、Deepアンサンブル)を調整するために使用され、従来の適合予測と比較してより良いトリアージメトリックで同様のカバレッジに達しました。
カルシウムスコアの意味のある予測間隔は、リスクカテゴリの予測の信頼に応じて患者をトリアージするのに役立ちます。

要約(オリジナル)

Incidental detection and quantification of coronary calcium in CT scans could lead to the early introduction of lifesaving clinical interventions. However, over-reporting could negatively affect patient wellbeing and unnecessarily burden the medical system. Therefore, careful considerations should be taken when automatically reporting coronary calcium scores. A cluster-based conditional conformal prediction framework is proposed to provide score intervals with calibrated coverage from trained segmentation networks without retraining. The proposed method was tuned and used to calibrate predictive intervals for 3D UNet models (deterministic, MCDropout and deep ensemble) reaching similar coverage with better triage metrics compared to conventional conformal prediction. Meaningful predictive intervals of calcium scores could help triage patients according to the confidence of their risk category prediction.

arxiv情報

著者 Olivier Jaubert,Salman Mohammadi,Keith A. Goatman,Shadia S. Mikhael,Conor Bradley,Rebecca Hughes,Richard Good,John H. Hipwell,Sonia Dahdouh
発行日 2025-06-04 14:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Conformal coronary calcification volume estimation with conditional coverage via histogram clustering はコメントを受け付けていません

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

要約

オブジェクトは、特定の自然言語の説明に一致する画像内のすべてのオブジェクトを検出することを目的としています。
私たちは、モデルを参照する堅牢なオブジェクトを接地する必要があると主張します。つまり、その予測は視覚コンテンツに対して説明可能かつ忠実でなければなりません。
具体的には、2つの重要な特性を満たす必要があります。1)予測を正当化し、それらを視覚的証拠に明確にリンクする解釈可能な推論を作成することにより、検証可能です。
2)画像内のオブジェクトが与えられた式を満たしていないときに棄権することを学ぶことにより、信頼できる。
ただし、ほとんどの方法では、直接の境界ボックス予測タスクと呼ばれる扱いを行い、制限された解釈可能性を提供し、一致するオブジェクトのない表現を拒否するのに苦労しています。
この作業では、明示的なCOT推論タスクと呼ばれるオブジェクトを定式化するモデルであるRex-Thinkerを提案します。
参照式が与えられた場合、最初に紹介されたオブジェクトカテゴリに対応するすべての候補オブジェクトインスタンスを識別します。
その後、Rex-Thinkerは、各候補者に対して段階的な推論を実行して、最終的な予測を行う前に、指定された式と一致するかどうかを評価します。
このパラダイムをサポートするために、HumanRefデータセットでGPT-4Oをプロンプトすることにより、HumanRef-COTという名前の大規模なCOTスタイルの参照データセットを作成します。
各推論トレースは、構造化された計画、アクション、および要約形式に従い、モデルがオブジェクト候補を介して分解された解釈可能な推論を学習できるようにします。
次に、Rex-Thinkerを2つの段階で訓練します。コールドスタートの監視された微調整段階で、構造化された推論を実行する方法をモデルに教える、次にGRPOベースのRLが精度と一般化を改善するために学習します。
実験は、私たちのアプローチが、ドメイン内評価で精度と解釈の両方の標準ベースラインを上回ると同時に、幻覚出力を拒否する能力の改善とドメイン外の設定での強力な一般化を実証することを示しています。

要約(オリジナル)

Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.

arxiv情報

著者 Qing Jiang,Xingyu Chen,Zhaoyang Zeng,Junzhi Yu,Lei Zhang
発行日 2025-06-04 14:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning はコメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization

要約

大規模な視覚言語モデル(LVLMS)は、複数のタスクにわたって印象的な機能を実証しています。
しかし、それらの信頼性はしばしば幻覚によって挑戦されます。幻覚は、モダリティの不整合と、基礎となる大手言語モデル(LLMS)バックボーンの固有の幻覚に起因する可能性があります。
既存の選好アラインメントメソッドは、画像テキストモダリティアラインメントを無視しながら、モデル応答を人間の好みに合わせて整合することに焦点を当て、LLMSと幻覚に過度に依存します。
このホワイトペーパーでは、既存の人間優先アライメント方法よりも強化されたモダリティアライメントを実現するエンティティ中心のマルチモーダル選好最適化(EMPO)を提案します。
さらに、高品質のマルチモーダル選好データの希少性を克服するために、オープンソース命令データセットを利用して、画像、命令、および応答の3つの側面にわたって高品質の優先データを自動的に構築します。
2つの人間の好みのデータセットと5つのマルチモーダル幻覚ベンチマークでの実験は、EMPOの有効性を示しています。たとえば、幻覚率をオブジェクトハルベンチで85.9%、MMハルベンチで49.8%削減します。

要約(オリジナル)

Large Visual Language Models (LVLMs) have demonstrated impressive capabilities across multiple tasks. However, their trustworthiness is often challenged by hallucinations, which can be attributed to the modality misalignment and the inherent hallucinations of their underlying Large Language Models (LLMs) backbone. Existing preference alignment methods focus on aligning model responses with human preferences while neglecting image-text modality alignment, resulting in over-reliance on LLMs and hallucinations. In this paper, we propose Entity-centric Multimodal Preference Optimization (EMPO), which achieves enhanced modality alignment than existing human preference alignment methods. Besides, to overcome the scarcity of high-quality multimodal preference data, we utilize open-source instruction datasets to automatically construct high-quality preference data across three aspects: image, instruction, and response. Experiments on two human preference datasets and five multimodal hallucination benchmarks demonstrate the effectiveness of EMPO, e.g., reducing hallucination rates by 85.9% on Object-HalBench and 49.8% on MM-HalBench.

arxiv情報

著者 Jiulong Wu,Zhengliang Shi,Shuaiqiang Wang,Jizhou Huang,Dawei Yin,Lingyong Yan,Min Cao,Min Zhang
発行日 2025-06-04 15:03:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization はコメントを受け付けていません