Dynamic Base model Shift for Delta Compression

要約

プレイン式財政パラダイムを備えた変圧器ベースのモデルは、複数のタスク上の微調ューされたモデルの重い貯蔵および展開コストとともに、大きな進歩をもたらします。
デルタ圧縮は、剪定または量子化を通じてデルタパラメーターの冗長性(つまり、微調ューされたモデルの重みと事前に訓練されたモデルの重みの違い)を減らすことにより、コストを削減しようとします。
ただし、既存の方法では、デフォルトでは前提条件のモデルを基本モデルとして採用し、すべてのタスクのDeltaパラメーターを圧縮します。これは、特に圧縮率が非常に高い場合に大きな性能劣化を引き起こす可能性があります。
この問題に取り組むために、デルタ圧縮のパフォーマンスに対するさまざまなベースモデルの影響を調査し、事前に訓練されたベースモデルがほとんど最適ではないことがわかります。
この目的のために、ダイナミックベースモデルシフト(DBMS)を提案します。これは、デルタ圧縮を実行する前にベースモデルをターゲットタスクに動的に適応させます。
具体的には、各タスクの圧縮性能を高めるために、基本モデルシフトの大きさとデルタ圧縮の全体的なスケールをそれぞれ決定する2つのパラメーターを調整します。
これらの2つのパラメーターを低コストで学習することで、当社のDBMは、既存の方法を大幅に超えて、非常に高い圧縮比設定の下であっても、Finetuned Modelのパフォーマンスのほとんどを維持できます。
さらに、当社のDBMは直交しており、他のさまざまな方法と統合でき、言語、ビジョントランス、マルチモーダルモデルなど、さまざまな種類のモデルで評価されています。

要約(オリジナル)

Transformer-based models with the pretrain-finetune paradigm bring about significant progress, along with the heavy storage and deployment costs of finetuned models on multiple tasks. Delta compression attempts to lower the costs by reducing the redundancy of delta parameters (i.e., the difference between the finetuned and pre-trained model weights) through pruning or quantization. However, existing methods by default employ the pretrained model as the base model and compress the delta parameters for every task, which may causes significant performance degradation, especially when the compression rate is extremely high. To tackle this issue, we investigate the impact of different base models on the performance of delta compression and find that the pre-trained base model can hardly be optimal. To this end, we propose Dynamic Base Model Shift (DBMS), which dynamically adapts the base model to the target task before performing delta compression. Specifically, we adjust two parameters, which respectively determine the magnitude of the base model shift and the overall scale of delta compression, to boost the compression performance on each task. Through low-cost learning of these two parameters, our DBMS can maintain most of the finetuned model’s performance even under an extremely high compression ratio setting, significantly surpassing existing methods. Moreover, our DBMS is orthogonal and can be integrated with a variety of other methods, and it has been evaluated across different types of models including language, vision transformer, and multi-modal models.

arxiv情報

著者 Chenyu Huang,Peng Ye,Shenghe Zheng,Xiaohui Wang,Lei Bai,Tao Chen,Wanli Ouyang
発行日 2025-05-16 15:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Dynamic Base model Shift for Delta Compression はコメントを受け付けていません

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

要約

検証可能な報酬(RLVR)による強化学習は最近、特に数学とプログラミングタスクに関する大規模な言語モデル(LLM)の推論パフォーマンスを強化する際の顕著な成功を実証しました。
従来のRLがエージェントが新しい戦略を探求し、学習するのに役立つように、RLVRはLLMが継続的に自己改善できるようにすると考えられており、対応するベースモデルの能力を超えて新しい推論能力を獲得します。
この研究では、さまざまなモデルファミリ、RLアルゴリズム、数学、コーディング、および視覚的推論ベンチマークでRLVRトレーニングを受けたLLMの推論能力境界を体系的に調査することにより、RLVRの現在の状態を批判的に調べます。
驚くべきことに、現在のトレーニングセットアップは根本的に新しい推論パターンを引き出していないことがわかります。
RLVRトレーニングモデルは、小さなK(例:k = 1)でベースモデルよりも優れていますが、BaseモデルはKが大きい場合、より高いパス@Kスコアを達成します。
カバレッジと困惑の分析は、観察された推論能力が基本モデルから由来し、境界があることを示しています。
基本モデルを上限として扱うことで、私たちの定量分析は、6つの一般的なRLVRアルゴリズムが同様に機能し、ベースモデルの可能性を活用するのに最適ではないことを示しています。
対照的に、蒸留は教師から新しい推論パターンを導入し、モデルの推論能力を真に拡大できることがわかります。
全体として、我々の調査結果は、現在のRLVRメソッドが、LLMの真の新しい推論能力を引き出すRLの可能性をまだ認識していないことを示唆しています。
これは、この可能性のロックを解除するために、継続的なスケーリングやマルチターンエージェントと環境の相互作用などの改善されたRLパラダイムの必要性を強調しています。

要約(オリジナル)

Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning performance of large language models (LLMs), particularly on mathematics and programming tasks. Similar to how traditional RL helps agents explore and learn new strategies, RLVR is believed to enable LLMs to continuously self-improve, thus acquiring novel reasoning abilities beyond those of the corresponding base models. In this study we critically examine the current state of RLVR by systematically probing the reasoning capability boundaries of RLVR-trained LLMs across various model families, RL algorithms, and math, coding, and visual reasoning benchmarks, using pass@k at large k values as the evaluation metric. Surprisingly, we find that the current training setup does not elicit fundamentally new reasoning patterns. While RLVR-trained models outperform their base models at small k (e.g., k = 1), the base models achieve a higher pass@k score when k is large. Coverage and perplexity analyses show that the observed reasoning abilities originate from and are bounded by the base model. Treating the base model as an upper bound, our quantitative analysis shows that six popular RLVR algorithms perform similarly and remain far from optimal in leveraging the potential of the base model. By contrast, we find that distillation can introduce new reasoning patterns from the teacher and genuinely expand the model’s reasoning capabilities. Overall, our findings suggest that current RLVR methods have not yet realized the potential of RL to elicit truly novel reasoning abilities in LLMs. This highlights the need for improved RL paradigms, such as continual scaling and multi-turn agent-environment interaction, to unlock this potential.

arxiv情報

著者 Yang Yue,Zhiqi Chen,Rui Lu,Andrew Zhao,Zhaokai Wang,Yang Yue,Shiji Song,Gao Huang
発行日 2025-05-16 15:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? はコメントを受け付けていません

Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation

要約

Vision-and-Language Navigation(VLN)は、具体化されたエージェントが空間的モビリティを活用して、自然言語の指示に基づいて指定された宛先に向けて3D環境でナビゲートするコアタスクです。
最近、強力な一般化能力と豊富な常識的な知識を備えたビデオ言語大規模モデル(ビデオVLMS)は、VLNタスクに適用されると顕著なパフォーマンスを示しています。
ただし、これらのモデルは、実際の3Dナビゲーションに適用されると、以下の課題に遭遇します。1)3Dジオメトリと空間セマンティクスの理解が不十分です。
2)大規模な探査と長期的な環境記憶のための限られた能力。
3)動的および変化する環境への適応性が低い。これらの制限に対処するために、ナビゲーションアクション予測で3D-VLMをトレーニングするための視覚的入力として言語整列、一般化可能、および階層的な3D表現を活用する動的階層化された3D表現モデルであるDynam3Dを提案します。
Posed RGB-D画像を考慮して、Dynam3Dプロジェクト2Dクリップ機能は3Dスペースに機能し、ダイナミックおよびレイヤーごとの更新戦略を使用して、3D幾何学的およびセマンティック理解のためのマルチレベルの3Dパッチインスタンスゾーン表現を構築します。
Dynam3Dは、3Dインスタンスのオンラインエンコードとローカリゼーションが可能であり、変化する環境でそれらを動的に更新して、ナビゲーションの大規模な探索と長期のメモリ機能を提供します。
大規模な3D言語の事前トレーニングとタスク固有の適応を活用することにより、Dynam3Dは、単眼環境下のR2R-CE、Reverie-CE、Navrag-CEを含むVLNベンチマークで新しい最先端のパフォーマンスを設定します。
さらに、実験前、生涯メモリ、および実際のロボットの実験は、実際の展開の有効性を検証します。

要約(オリジナル)

Vision-and-Language Navigation (VLN) is a core task where embodied agents leverage their spatial mobility to navigate in 3D environments toward designated destinations based on natural language instructions. Recently, video-language large models (Video-VLMs) with strong generalization capabilities and rich commonsense knowledge have shown remarkable performance when applied to VLN tasks. However, these models still encounter the following challenges when applied to real-world 3D navigation: 1) Insufficient understanding of 3D geometry and spatial semantics; 2) Limited capacity for large-scale exploration and long-term environmental memory; 3) Poor adaptability to dynamic and changing environments.To address these limitations, we propose Dynam3D, a dynamic layered 3D representation model that leverages language-aligned, generalizable, and hierarchical 3D representations as visual input to train 3D-VLM in navigation action prediction. Given posed RGB-D images, our Dynam3D projects 2D CLIP features into 3D space and constructs multi-level 3D patch-instance-zone representations for 3D geometric and semantic understanding with a dynamic and layer-wise update strategy. Our Dynam3D is capable of online encoding and localization of 3D instances, and dynamically updates them in changing environments to provide large-scale exploration and long-term memory capabilities for navigation. By leveraging large-scale 3D-language pretraining and task-specific adaptation, our Dynam3D sets new state-of-the-art performance on VLN benchmarks including R2R-CE, REVERIE-CE and NavRAG-CE under monocular settings. Furthermore, experiments for pre-exploration, lifelong memory, and real-world robot validate the effectiveness of practical deployment.

arxiv情報

著者 Zihan Wang,Seungjun Lee,Gim Hee Lee
発行日 2025-05-16 15:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation はコメントを受け付けていません

reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis

要約

このペーパーでは、リモートセンシング画像分析のためのディープラーニング(DL)研究をサポートするために構築された大規模なマルチモーダルリモートセンシングデータセットである洗練されたbigearthnet(Reben)を紹介します。
Rebenデータセットは、549,488ペアのSentinel-1とSentinel-2画像パッチで構成されています。
Rebenを構築するために、最初にBigeArthNetデータセットを構築するために使用されるSentinel-1およびSentinel-2タイルを検討し、それらをサイズ1200 m x 1200 mのパッチに分割します。
Sen2Corツールの最新バージョンを使用して、Sentinel-2パッチに大気補正を適用し、BigeArthNetに存在するものと比較して高品質のパッチをもたらします。
各パッチは、ピクセルレベルの参照マップとシーンレベルのマルチラベルに関連付けられます。
これにより、Rebenはピクセルおよびシーンベースの学習タスクに適しています。
ラベルは、BigeArthNetのように19クラスの命名法を利用することにより、2018年の最新のCorine Land Cover(CLC)マップから派生しています。
最新のCLCマップを使用すると、BigeArthNetに存在するラベルノイズを克服します。
さらに、BigeArthNetに存在するものに関して列車、検証、およびテストセット間の空間相関を大幅に削減する新しい地理ベースの分割割り当てアルゴリズムを導入します。
これにより、DLモデルの評価の信頼性が向上します。
DLモデルトレーニング時間を最小限に抑えるために、RebenデータセットをDL-Optimizedデータ形式に変換するソフトウェアツールを導入します。
実験では、いくつかの最先端のDLモデルを考慮して、マルチモーダルマルチラベル画像分類の問題に対するRebenの可能性を示しています。
事前に訓練されたモデルの重み、関連するコード、および完全なデータセットは、https://bigearth.netで入手できます。

要約(オリジナル)

This paper presents refined BigEarthNet (reBEN) that is a large-scale, multi-modal remote sensing dataset constructed to support deep learning (DL) studies for remote sensing image analysis. The reBEN dataset consists of 549,488 pairs of Sentinel-1 and Sentinel-2 image patches. To construct reBEN, we initially consider the Sentinel-1 and Sentinel-2 tiles used to construct the BigEarthNet dataset and then divide them into patches of size 1200 m x 1200 m. We apply atmospheric correction to the Sentinel-2 patches using the latest version of the sen2cor tool, resulting in higher-quality patches compared to those present in BigEarthNet. Each patch is then associated with a pixel-level reference map and scene-level multi-labels. This makes reBEN suitable for pixel- and scene-based learning tasks. The labels are derived from the most recent CORINE Land Cover (CLC) map of 2018 by utilizing the 19-class nomenclature as in BigEarthNet. The use of the most recent CLC map results in overcoming the label noise present in BigEarthNet. Furthermore, we introduce a new geographical-based split assignment algorithm that significantly reduces the spatial correlation among the train, validation, and test sets with respect to those present in BigEarthNet. This increases the reliability of the evaluation of DL models. To minimize the DL model training time, we introduce software tools that convert the reBEN dataset into a DL-optimized data format. In our experiments, we show the potential of reBEN for multi-modal multi-label image classification problems by considering several state-of-the-art DL models. The pre-trained model weights, associated code, and complete dataset are available at https://bigearth.net.

arxiv情報

著者 Kai Norman Clasen,Leonard Hackel,Tom Burgert,Gencer Sumbul,Begüm Demir,Volker Markl
発行日 2025-05-16 15:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis はコメントを受け付けていません

MutualNeRF: Improve the Performance of NeRF under Limited Samples with Mutual Information Theory

要約

このペーパーでは、相互情報理論を使用した限られたサンプルの下で、ニューラル放射輝度フィールド(NERF)のパフォーマンスを強化するフレームワークであるMutulnerfを紹介します。
NERFは3Dシーンの合成に優れていますが、限られたデータと、事前知識を導入することを目的とした既存の方法で課題が生じます。
マクロ(セマンティック)とマイクロ(ピクセル)レベルの両方を考慮して、画像間の相関を均一に測定するメトリックとして、シンプルだが理論的に堅牢な概念である相互情報を紹介します。
まばらなビューサンプリングの場合、地上の真理画像を事前に知らずに相互情報を最小化することにより、より重複しないシーン情報を含む追加の視点を戦略的に選択します。
私たちのフレームワークは、貪欲なアルゴリズムを採用しており、ほぼ最適なソリューションを提供します。
少数のショットビューの合成の場合、推測された画像とグラウンドトゥルースの間の相互情報を最大化し、推測された画像が既知の画像からより関連性の高い情報を得ることを期待します。
これは、効率的なプラグアンドプレイの正規化条件を組み込むことで達成されます。
限られたサンプルの下での実験は、さまざまな設定での最先端のベースラインよりも一貫した改善を示し、フレームワークの有効性を確認しています。

要約(オリジナル)

This paper introduces MutualNeRF, a framework enhancing Neural Radiance Field (NeRF) performance under limited samples using Mutual Information Theory. While NeRF excels in 3D scene synthesis, challenges arise with limited data and existing methods that aim to introduce prior knowledge lack theoretical support in a unified framework. We introduce a simple but theoretically robust concept, Mutual Information, as a metric to uniformly measure the correlation between images, considering both macro (semantic) and micro (pixel) levels. For sparse view sampling, we strategically select additional viewpoints containing more non-overlapping scene information by minimizing mutual information without knowing ground truth images beforehand. Our framework employs a greedy algorithm, offering a near-optimal solution. For few-shot view synthesis, we maximize the mutual information between inferred images and ground truth, expecting inferred images to gain more relevant information from known images. This is achieved by incorporating efficient, plug-and-play regularization terms. Experiments under limited samples show consistent improvement over state-of-the-art baselines in different settings, affirming the efficacy of our framework.

arxiv情報

著者 Zifan Wang,Jingwei Li,Yitang Li,Yunze Liu
発行日 2025-05-16 15:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MutualNeRF: Improve the Performance of NeRF under Limited Samples with Mutual Information Theory はコメントを受け付けていません

From Fibers to Cells: Fourier-Based Registration Enables Virtual Cresyl Violet Staining From 3D Polarized Light Imaging

要約

脳の微細構造のさまざまな側面の包括的な評価には、補完的なイメージング技術の使用が必要です。
これには、細胞体の空間分布(細胞構造)と神経繊維(Myeloarchitecture)の測定が含まれます。
Cytoarchitectonic分析のゴールドスタンダードは、細胞体染色組織切片の光顕微鏡画像です。
神経線維の3D方向を明らかにするために、3D偏光イメージング(3D-PLI)が、一連の完全な脳切片を処理できるようにしながら、マイクロメートル範囲の解像度を提供する信頼できる手法として導入されています。
3D-PLIの獲得はラベルフリーであり、測定後にセクションのその後の染色を可能にします。
細胞体の後染色により、繊維構造と細胞構造の間の直接的なリンクを同じセクション内で潜在的に確立できます。
ただし、染色プロセス中に導入された避けられない歪みにより、画像内の細胞と繊維間の詳細な関係を研究するために、非線形およびクロスモーダルの登録が必要になります。
さらに、ポスト染色の組織セクションを処理する複雑さにより、限られた数のサンプルのみが可能になります。
この作業では、画像間翻訳の深い学習方法を利用して、細胞レベルで空間的に整列する3D-PLIの仮想染色を生成します。
監視された設定では、3D-PLI測定後にクレシルバイオレット染色が適用された脳セクションの一意のデータセットの上に構築されます。
両方のモダリティ間の高い対応を確保するために、フーリエベースの登録方法を使用して、トレーニングデータの不整合に対処します。
このようにして、登録は、ターゲットと予測された染色のローカル画像パッチのトレーニング中に効率的に計算できます。
提案された方法により、3D-PLIからのクレシルバイオレット染色の予測が可能になり、個々の細胞インスタンスが一致することを実証します。

要約(オリジナル)

Comprehensive assessment of the various aspects of the brain’s microstructure requires the use of complementary imaging techniques. This includes measuring the spatial distribution of cell bodies (cytoarchitecture) and nerve fibers (myeloarchitecture). The gold standard for cytoarchitectonic analysis is light microscopic imaging of cell-body stained tissue sections. To reveal the 3D orientations of nerve fibers, 3D Polarized Light Imaging (3D-PLI) has been introduced as a reliable technique providing a resolution in the micrometer range while allowing processing of series of complete brain sections. 3D-PLI acquisition is label-free and allows subsequent staining of sections after measurement. By post-staining for cell bodies, a direct link between fiber- and cytoarchitecture can potentially be established within the same section. However, inevitable distortions introduced during the staining process make a nonlinear and cross-modal registration necessary in order to study the detailed relationships between cells and fibers in the images. In addition, the complexity of processing histological sections for post-staining only allows for a limited number of samples. In this work, we take advantage of deep learning methods for image-to-image translation to generate a virtual staining of 3D-PLI that is spatially aligned at the cellular level. In a supervised setting, we build on a unique dataset of brain sections, to which Cresyl violet staining has been applied after 3D-PLI measurement. To ensure high correspondence between both modalities, we address the misalignment of training data using Fourier-based registration methods. In this way, registration can be efficiently calculated during training for local image patches of target and predicted staining. We demonstrate that the proposed method enables prediction of a Cresyl violet staining from 3D-PLI, matching individual cell instances.

arxiv情報

著者 Alexander Oberstrass,Esteban Vaca,Eric Upschulte,Meiqi Niu,Nicola Palomero-Gallagher,David Graessel,Christian Schiffer,Markus Axer,Katrin Amunts,Timo Dickscheid
発行日 2025-05-16 15:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | From Fibers to Cells: Fourier-Based Registration Enables Virtual Cresyl Violet Staining From 3D Polarized Light Imaging はコメントを受け付けていません

Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner

要約

ビジョン言語モデル(VLM)の最近の進歩により、一般的な医療分野での広範な進歩が可能になりました。
しかし、病理学は依然としてより困難なサブドメインのままであり、現在の病理学固有のVLMは、診断の精度と推論の妥当性の両方で制限を示しています。
このような欠点は、主に現実世界の病理学者が採用している深さと構造化された診断パラダイムを欠く画像説明ペアで構成されている現在の病理データセットの性質に大きく起因しています。
この研究では、病理学の教科書と現実世界の病理専門家を活用して、高品質の推論指向のデータセットを構築します。
これに基づいて、マルチモーダルRLベースの病理学推論者であるPato-R1を導入し、3段階のパイプラインで訓練されています。
(2)推論のための500K高品質のチェーンサンプルの監督された微調整。
(3)グループ相対的なポリシーの最適化と分離されたクリップおよびダイナミックサンプリングポリシーの最適化戦略を使用した強化学習マルチモーダル推論の品質改良のための戦略。
データセットのアライメント品質をさらに評価するために、継続的な事前トレーニングに使用される同じフィギュアキャプションコーパスで訓練されたPathoclipを提案します。
包括的な実験結果は、病原体と病原-R1の両方が、ゼロショット分類、クロスモーダル検索、視覚的質問の回答、複数選択質問など、広範囲の病理関連のタスクにわたって堅牢なパフォーマンスを実現することを示しています。
当社のプロジェクトは、Patho-R1リポジトリhttps://github.com/wenchuan-zhang/patho-r1で入手できます。

要約(オリジナル)

Recent advances in vision language models (VLMs) have enabled broad progress in the general medical field. However, pathology still remains a more challenging subdomain, with current pathology specific VLMs exhibiting limitations in both diagnostic accuracy and reasoning plausibility. Such shortcomings are largely attributable to the nature of current pathology datasets, which are primarily composed of image description pairs that lack the depth and structured diagnostic paradigms employed by real world pathologists. In this study, we leverage pathology textbooks and real world pathology experts to construct high-quality, reasoning-oriented datasets. Building on this, we introduce Patho-R1, a multimodal RL-based pathology Reasoner, trained through a three-stage pipeline: (1) continued pretraining on 3.5 million image-text pairs for knowledge infusion; (2) supervised fine-tuning on 500k high-quality Chain-of-Thought samples for reasoning incentivizing; (3) reinforcement learning using Group Relative Policy Optimization and Decoupled Clip and Dynamic sAmpling Policy Optimization strategies for multimodal reasoning quality refinement. To further assess the alignment quality of our dataset, we propose PathoCLIP, trained on the same figure-caption corpus used for continued pretraining. Comprehensive experimental results demonstrate that both PathoCLIP and Patho-R1 achieve robust performance across a wide range of pathology-related tasks, including zero-shot classification, cross-modal retrieval, Visual Question Answering, and Multiple Choice Question. Our project is available at the Patho-R1 repository: https://github.com/Wenchuan-Zhang/Patho-R1.

arxiv情報

著者 Wenchuan Zhang,Penghao Zhang,Jingru Guo,Tao Cheng,Jie Chen,Shuwan Zhang,Zhang Zhang,Yuhao Yi,Hong Bu
発行日 2025-05-16 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner はコメントを受け付けていません

EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models

要約

感情の理解は、重要でありながらやりがいのある仕事です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩により、この分野での機能が大幅に向上しました。
しかし、MLLMはしばしば幻覚に苦しみ、無関係または無意味な含有量を生成します。
私たちの知る限り、この問題の重要性にもかかわらず、MLLMの感情関連の幻覚を評価するための献身的な努力はありませんでした。
この作業では、MLLMの感情幻覚を検出して分析するための最初のベンチマークであるEmotionHallucerを紹介します。
感情の理解が生物学と社会学習の相互作用に由来する人間とは異なり、MLLMはデータ駆動型の学習のみに依存し、生来の感情的本能を欠いています。
幸いなことに、感情心理学は、人間の感情に関する知識の強固な基盤を提供します。
これに基づいて、感情心理学の知識と現実世界のマルチモーダル認識という2つの次元からの感情幻覚を評価します。
堅牢な評価をサポートするために、慎重に作成された基本的および幻覚ペアを使用して、MLLMの感情幻覚傾向を評価する敵対的なバイナリ質問(QA)フレームワークを利用します。
感情ホルーサーで38のLLMとMLLMを評価することにより、次のことが明らかになります。i)ほとんどの現在のモデルは、感情幻覚に関する実質的な問題を示します。
ii)クローズドソースモデルは、感情幻覚の検出においてオープンソースのモデルを上回り、推論能力が追加の利点を提供します。
iii)既存のモデルは、マルチモーダル感情知覚よりも感情心理学の知識の方が優れています。
副産物として、これらの発見は、PEP-MEKフレームワークを提案するように促します。これにより、選択されたモデル全体で感情幻覚検出が9.90%の平均改善が得られます。
リソースはhttps://github.com/xxtars/emotionhallucerで入手できます。

要約(オリジナル)

Emotion understanding is a critical yet challenging task. Recent advances in Multimodal Large Language Models (MLLMs) have significantly enhanced their capabilities in this area. However, MLLMs often suffer from hallucinations, generating irrelevant or nonsensical content. To the best of our knowledge, despite the importance of this issue, there has been no dedicated effort to evaluate emotion-related hallucinations in MLLMs. In this work, we introduce EmotionHallucer, the first benchmark for detecting and analyzing emotion hallucinations in MLLMs. Unlike humans, whose emotion understanding stems from the interplay of biology and social learning, MLLMs rely solely on data-driven learning and lack innate emotional instincts. Fortunately, emotion psychology provides a solid foundation of knowledge about human emotions. Building on this, we assess emotion hallucinations from two dimensions: emotion psychology knowledge and real-world multimodal perception. To support robust evaluation, we utilize an adversarial binary question-answer (QA) framework, which employs carefully crafted basic and hallucinated pairs to assess the emotion hallucination tendencies of MLLMs. By evaluating 38 LLMs and MLLMs on EmotionHallucer, we reveal that: i) most current models exhibit substantial issues with emotion hallucinations; ii) closed-source models outperform open-source ones in detecting emotion hallucinations, and reasoning capability provides additional advantages; iii) existing models perform better in emotion psychology knowledge than in multimodal emotion perception. As a byproduct, these findings inspire us to propose the PEP-MEK framework, which yields an average improvement of 9.90% in emotion hallucination detection across selected models. Resources will be available at https://github.com/xxtars/EmotionHallucer.

arxiv情報

著者 Bohao Xing,Xin Liu,Guoying Zhao,Chengyu Liu,Xiaolan Fu,Heikki Kälviäinen
発行日 2025-05-16 16:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | EmotionHallucer: Evaluating Emotion Hallucinations in Multimodal Large Language Models はコメントを受け付けていません

Visual Planning: Let’s Think Only with Images

要約

大規模な言語モデル(LLMS)とそのマルチモーダル拡張(MLLM)の最近の進歩は、多様なタスク全体の機械推論を大幅に強化しています。
ただし、これらのモデルは、視覚情報が存在する場合でも、推論を表現および構造化する両方の媒体として純粋なテキストに依存しています。
この作業では、言語は、特に空間的情報と幾何学的情報を含むタスクで、推論にとって常に最も自然または効果的なモダリティであるとは限らないと主張します。
これに動機付けられて、私たちは新しいパラダイムである視覚計画を提案します。これにより、テキストとは無関係に純粋に視覚的な表現を介した計画が可能になります。
このパラダイムでは、計画は、人間が将来のアクションをスケッチまたは視覚化する方法と同様に、視覚ドメインで段階的な推論をエンコードする一連の画像を介して実行されます。
新しい強化学習フレームワーク、強化学習(VPRL)を介した視覚計画(VPRL)を紹介し、トレーニング後の大規模な視覚モデルにGRPOによって力を与え、代表的な視覚ナビゲーションタスク、フローズレイク、迷路、ミニベハビオールの選択の計画の大幅な改善につながります。
私たちの視覚計画のパラダイムは、テキストのみの空間で推論を行う他のすべての計画バリアントを上回ります。
私たちの結果は、言語ベースの推論に代わる実行可能で有望な代替として視覚計画を確立し、直感的で画像ベースの推論から利益を得るタスクの新しい道を開きます。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motivated by this, we propose a new paradigm, Visual Planning, which enables planning through purely visual representations, independent of text. In this paradigm, planning is executed via sequences of images that encode step-by-step inference in the visual domain, akin to how humans sketch or visualize future actions. We introduce a novel reinforcement learning framework, Visual Planning via Reinforcement Learning (VPRL), empowered by GRPO for post-training large vision models, leading to substantial improvements in planning in a selection of representative visual navigation tasks, FrozenLake, Maze, and MiniBehavior. Our visual planning paradigm outperforms all other planning variants that conduct reasoning in the text-only space. Our results establish Visual Planning as a viable and promising alternative to language-based reasoning, opening new avenues for tasks that benefit from intuitive, image-based inference.

arxiv情報

著者 Yi Xu,Chengzu Li,Han Zhou,Xingchen Wan,Caiqi Zhang,Anna Korhonen,Ivan Vulić
発行日 2025-05-16 16:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Visual Planning: Let’s Think Only with Images はコメントを受け付けていません

L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection and Enhancement

要約

パフォーマンスの最適化と堅牢性の方法の組み合わせから派生した視覚的腹部ストリームの現在主要な人工ニューラルネットワークモデルは、視覚分類タスクで人間との顕著な程度の行動整合性を実証しています。
これらのモデルによって生成された画像の摂動により、人間がグラウンドトゥルースクラスを正確に報告する能力が向上できることを示します。
さらに、個々の画像に対する正しい人間の反応の割合を予測するために、同じモデルをすぐに使用できることがわかり、各画像の相対的な難易度の単純で人間に並べられた推定器を提供します。
これらの観察に動機付けられて、私たちは、テスト時に人間の分類の精度を向上させる方法で、人間の視覚学習を強化することを提案します。
学習増強アプローチは、(i)モデル推定認識の難易度に基づいて画像を選択すること、および(ii)初心者学習者の認識を支援する画像の摂動を適用することで構成されています。
これらのモデルベースの戦略を組み合わせることで、これらの介入のない対照被験者と比較して、修正されていないランダムに選択された保有テスト画像で、対照被験者と比較して33〜72%の分類精度の増加につながることがわかります。
精度の向上を超えて、両方のグループが同じ数のトレーニングトライアルを完了したにもかかわらず、拡張学習グループのトレーニング時間も20〜23%短縮されました。
自然なイメージを備えたきめの細かい分類タスクでのアプローチの有効性と、臨床的に関連する画像ドメイン(組織学と皮膚鏡検査)の2つのタスクが視覚学習が悪名高い挑戦的であることを実証します。
私たちの知る限り、私たちの仕事は、カテゴリ固有の画像機能を強化することにより、人間の視覚学習パフォーマンスを向上させるための人工ニューラルネットワークの最初のアプリケーションです。

要約(オリジナル)

The currently leading artificial neural network models of the visual ventral stream – which are derived from a combination of performance optimization and robustification methods – have demonstrated a remarkable degree of behavioral alignment with humans on visual categorization tasks. We show that image perturbations generated by these models can enhance the ability of humans to accurately report the ground truth class. Furthermore, we find that the same models can also be used out-of-the-box to predict the proportion of correct human responses to individual images, providing a simple, human-aligned estimator of the relative difficulty of each image. Motivated by these observations, we propose to augment visual learning in humans in a way that improves human categorization accuracy at test time. Our learning augmentation approach consists of (i) selecting images based on their model-estimated recognition difficulty, and (ii) applying image perturbations that aid recognition for novice learners. We find that combining these model-based strategies leads to categorization accuracy gains of 33-72% relative to control subjects without these interventions, on unmodified, randomly selected held-out test images. Beyond the accuracy gain, the training time for the augmented learning group was also shortened by 20-23%, despite both groups completing the same number of training trials. We demonstrate the efficacy of our approach in a fine-grained categorization task with natural images, as well as two tasks in clinically relevant image domains – histology and dermoscopy – where visual learning is notoriously challenging. To the best of our knowledge, our work is the first application of artificial neural networks to increase visual learning performance in humans by enhancing category-specific image features.

arxiv情報

著者 Morgan B. Talbot,Gabriel Kreiman,James J. DiCarlo,Guy Gaziv
発行日 2025-05-16 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection and Enhancement はコメントを受け付けていません