Perceptual Quality Assessment for Embodied AI

要約

具体化されたAIは近年急速に発達していますが、それでも主に研究所に展開されており、実際の歪みはそのアプリケーションを制限しています。
伝統的に、歪んだ画像の人間の好みを予測するために、画質評価(IQA)メソッドが適用されています。
ただし、具体化されたタスクでの画像の使いやすさ、つまりロボットの知覚品質を評価するIQAメソッドはありません。
将来の具体化されたシナリオに正確で信頼できる品質指標を提供するために、最初にトピックを提案します:具体化されたAIのIQA。
具体的には、Mertonianシステムとメタ認知理論に基づいて、知覚認知決定パイプラインを構築し、包括的な主観スコア収集プロセスを定義しました。
(2)36K以上の参照/歪んだ画像ペアを含む具体化されたIQAデータベースを確立し、ビジョン言語モデル/ビジョン言語アクションモデル/現実世界ロボットによって提供される5mを超えるファイングレインアノテーション。
(3)具体化されたIQAの主流IQAメソッドのパフォーマンスを訓練および検証し、具体化されたAIのより正確な品質指標を開発する必要性を実証しました。
評価を通じて、現実世界の複雑な歪みの下で具体化されたAIの適用を促進できることを心から願っています。
プロジェクトページ:https://github.com/lcysyzxdxc/embodiediqa

要約(オリジナル)

Embodied AI has developed rapidly in recent years, but it is still mainly deployed in laboratories, with various distortions in the Real-world limiting its application. Traditionally, Image Quality Assessment (IQA) methods are applied to predict human preferences for distorted images; however, there is no IQA method to assess the usability of an image in embodied tasks, namely, the perceptual quality for robots. To provide accurate and reliable quality indicators for future embodied scenarios, we first propose the topic: IQA for Embodied AI. Specifically, we (1) based on the Mertonian system and meta-cognitive theory, constructed a perception-cognition-decision-execution pipeline and defined a comprehensive subjective score collection process; (2) established the Embodied-IQA database, containing over 36k reference/distorted image pairs, with more than 5m fine-grained annotations provided by Vision Language Models/Vision Language Action-models/Real-world robots; (3) trained and validated the performance of mainstream IQA methods on Embodied-IQA, demonstrating the need to develop more accurate quality indicators for Embodied AI. We sincerely hope that through evaluation, we can promote the application of Embodied AI under complex distortions in the Real-world. Project page: https://github.com/lcysyzxdxc/EmbodiedIQA

arxiv情報

著者 Chunyi Li,Jiaohao Xiao,Jianbo Zhang,Farong Wen,Zicheng Zhang,Yuan Tian,Xiangyang Zhu,Xiaohong Liu,Zhengxue Cheng,Weisi Lin,Guangtao Zhai
発行日 2025-05-22 15:51:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Perceptual Quality Assessment for Embodied AI はコメントを受け付けていません

Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts

要約

シーンベースのビデオ生成の最近の進歩により、システムは構造化されたプロンプトからの一貫した視覚的物語を合成することができました。
ただし、ストーリーテリングの重要な次元 – キャラクター主導の対話とスピーチ – は、露出度の低いままです。
このペーパーでは、アクションレベルのプロンプトを視覚的および聴覚的に根拠のある物語の対話に変換するモジュラーパイプラインを紹介し、自然な声とキャラクターの表現で視覚的なストーリーテリングを豊かにします。
私たちの方法は、シーンごとのプロンプトのペアを入力します。最初の設定と2番目のプロンプトがキャラクターの動作を指定します。
Text2Storyなどのストーリー生成モデルは、対応する視覚シーンを生成しますが、これらのプロンプトとシーンイメージから表現力のあるキャラクターの発話を生成することに焦点を当てます。
前処理されたビジョン言語エンコーダーを適用して、代表的なフレームから高レベルのセマンティック機能を抽出し、顕著な視覚的コンテキストをキャプチャします。
この機能は、構造化されたプロンプトと組み合わされ、自然でキャラクター親和な対話を合成する際に大きな言語モデルを導くために使用されます。
シーン全体のコンテキストの一貫性を確保するために、以前のシーンから蓄積された対話履歴に関する各対話生成を条件付ける再帰的な物語銀行を導入します。
このアプローチにより、キャラクターは、ストーリー全体で進化する目標と相互作用を反映する方法で話すことができます。
最後に、各発話を表現力豊かでキャラクター一貫性のあるスピーチとしてレンダリングし、完全に声のビデオの物語をもたらします。
私たちのフレームワークは追加のトレーニングを必要とせず、ファンタジーアドベンチャーからライフオブライフエピソードまで、さまざまなストーリー設定における適用性を示しています。

要約(オリジナル)

Recent advances in scene-based video generation have enabled systems to synthesize coherent visual narratives from structured prompts. However, a crucial dimension of storytelling — character-driven dialogue and speech — remains underexplored. In this paper, we present a modular pipeline that transforms action-level prompts into visually and auditorily grounded narrative dialogue, enriching visual storytelling with natural voice and character expression. Our method takes as input a pair of prompts per scene, where the first defines the setting and the second specifies a character’s behavior. While a story generation model such as Text2Story generates the corresponding visual scene, we focus on generating expressive character utterances from these prompts and the scene image. We apply a pretrained vision-language encoder to extract a high-level semantic feature from the representative frame, capturing salient visual context. This feature is then combined with the structured prompts and used to guide a large language model in synthesizing natural, character-consistent dialogue. To ensure contextual consistency across scenes, we introduce a Recursive Narrative Bank that conditions each dialogue generation on the accumulated dialogue history from prior scenes. This approach enables characters to speak in ways that reflect their evolving goals and interactions throughout a story. Finally, we render each utterance as expressive, character-consistent speech, resulting in fully-voiced video narratives. Our framework requires no additional training and demonstrates applicability across a variety of story settings, from fantasy adventures to slice-of-life episodes.

arxiv情報

著者 Taewon Kang,Ming C. Lin
発行日 2025-05-22 15:54:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts はコメントを受け付けていません

Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG

要約

高解像度(HR)画像認識は、マルチモーダル大手言語モデル(MLLM)の重要な課題のままです。
既存の方法の限界を克服するために、この論文は、以前の専用のヒューリスティックアプローチから離れ、MLLMの長いコンテキスト能力を強化することにより、HRの知覚に対する最も基本的なアイデアを再検討します。
この目的に向けて、このペーパーでは、HRの認識の課題に対処するためのRAGの使用を調査する最初の研究を提示します。
具体的には、提案された空間認識レイアウトを使用して空間コンテキストを保存しながら、関連する画像クロップを取得および融合するトレーニングフリーのフレームワークである検索された認識(RAP)を提案します。
さまざまなタスクに対応するために、提案された検索普及検索(再検索)は、モデルの信頼性と検索スコアに基づいて、最適な作物の数を動的に選択します。
HRベンチマークでの実験結果は、RAPの有効性を示しており、LLAVA-V1.5-13Bは$ V^*$ベンチで43%の改善、HRベンチで19%を達成しています。

要約(オリジナル)

High-resolution (HR) image perception remains a key challenge in multimodal large language models (MLLMs). To overcome the limitations of existing methods, this paper shifts away from prior dedicated heuristic approaches and revisits the most fundamental idea to HR perception by enhancing the long-context capability of MLLMs, driven by recent advances in long-context techniques like retrieval-augmented generation (RAG) for general LLMs. Towards this end, this paper presents the first study exploring the use of RAG to address HR perception challenges. Specifically, we propose Retrieval-Augmented Perception (RAP), a training-free framework that retrieves and fuses relevant image crops while preserving spatial context using the proposed Spatial-Awareness Layout. To accommodate different tasks, the proposed Retrieved-Exploration Search (RE-Search) dynamically selects the optimal number of crops based on model confidence and retrieval scores. Experimental results on HR benchmarks demonstrate the significant effectiveness of RAP, with LLaVA-v1.5-13B achieving a 43% improvement on $V^*$ Bench and 19% on HR-Bench.

arxiv情報

著者 Wenbin Wang,Yongcheng Jing,Liang Ding,Yingjie Wang,Li Shen,Yong Luo,Bo Du,Dacheng Tao
発行日 2025-05-22 15:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG はコメントを受け付けていません

DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms

要約

Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字スクリプトです。
その絵画的な表意文字の特徴には、豊かな文化的および文脈情報が含まれています。
ただし、関連するデータセットが不足しているため、Dongba Hieroglyphsの意味的理解に関する研究はゆっくりと進行しています。
この目的のために、\ textbf {dongbamie}を作成しました。これは、Dongba絵文字のマルチモーダル情報抽出に焦点を当てた最初のデータセットです。
データセットは、Dongba Hieroglyphic文字の画像と、中国語での対応するセマンティック注釈で構成されています。
23,530レベルと2,539の段落レベルの高品質のテキストイメージペアが含まれています。
注釈は、オブジェクト、アクション、関係、属性の4つのセマンティックディメンションをカバーしています。
主流のマルチモーダル大手言語モデルの体系的な評価は、モデルがゼロショットおよび少数の学習の下でドンバ象形文字の情報抽出を効率的に実行するのが困難であることを示しています。
監視された微調整はパフォーマンスを向上させることができますが、現在、複雑なセマンティクスの正確な抽出は依然として大きな挑戦です。

要約(オリジナル)

Dongba pictographic is the only pictographic script still in use in the world. Its pictorial ideographic features carry rich cultural and contextual information. However, due to the lack of relevant datasets, research on semantic understanding of Dongba hieroglyphs has progressed slowly. To this end, we constructed \textbf{DongbaMIE} – the first dataset focusing on multimodal information extraction of Dongba pictographs. The dataset consists of images of Dongba hieroglyphic characters and their corresponding semantic annotations in Chinese. It contains 23,530 sentence-level and 2,539 paragraph-level high-quality text-image pairs. The annotations cover four semantic dimensions: object, action, relation and attribute. Systematic evaluation of mainstream multimodal large language models shows that the models are difficult to perform information extraction of Dongba hieroglyphs efficiently under zero-shot and few-shot learning. Although supervised fine-tuning can improve the performance, accurate extraction of complex semantics is still a great challenge at present.

arxiv情報

著者 Xiaojun Bi,Shuo Li,Junyao Xing,Ziyue Wang,Fuwen Luo,Weizheng Qiao,Lu Han,Ziwei Sun,Peng Li,Yang Liu
発行日 2025-05-22 15:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms はコメントを受け付けていません

From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization

要約

拡散モデルや大規模な視覚言語モデル(LVLMS)などの基礎モデル(FMS)は、教育的文脈で広く適用されていますが、教育学的に効果的な視覚的説明を生成する能力はまだ限られています。
ほとんどの既存のアプローチは、主にテキストの推論に焦点を当てており、概念的理解をサポートする上で構造化された解釈可能な視覚化の重要な役割を見落としています。
教育環境でのFMSの視覚的推論機能をより適切に評価するために、マルチドメインのマルチレベルのベンチマークであるEduvisbenchを紹介します。
Eduvisbenchは、視覚的に接地されたソリューションを必要とする多様なSTEM問題セットと、教育理論によって情報を提供する細かい評価ルーブリックを特徴としています。
私たちの経験的分析は、既存のモデルが複雑な推論を分解し、それを人間の認知プロセスに合わせた視覚表現に変換するという固有の課題に頻繁に闘っていることを明らかにしています。
これらの制限に対処するために、教育計画、推論の分解、メタ認知プロンプト、視覚化設計のために専門的なエージェントを調整するマルチエージェント共同フレームワークであるEduvisagentを提案します。
実験結果は、エデュビサージェントがすべてのベースラインを大幅に上回り、40.2%の改善を達成し、より多くの教育的に整合した視覚化を提供することを示しています。
EduvisbenchとEduvisagentは、https://github.com/aiming-lab/eduvisbenchおよびhttps://github.com/aiming-lab/eduvisagentで入手できます。

要約(オリジナル)

While foundation models (FMs), such as diffusion models and large vision-language models (LVLMs), have been widely applied in educational contexts, their ability to generate pedagogically effective visual explanations remains limited. Most existing approaches focus primarily on textual reasoning, overlooking the critical role of structured and interpretable visualizations in supporting conceptual understanding. To better assess the visual reasoning capabilities of FMs in educational settings, we introduce EduVisBench, a multi-domain, multi-level benchmark. EduVisBench features diverse STEM problem sets requiring visually grounded solutions, along with a fine-grained evaluation rubric informed by pedagogical theory. Our empirical analysis reveals that existing models frequently struggle with the inherent challenge of decomposing complex reasoning and translating it into visual representations aligned with human cognitive processes. To address these limitations, we propose EduVisAgent, a multi-agent collaborative framework that coordinates specialized agents for instructional planning, reasoning decomposition, metacognitive prompting, and visualization design. Experimental results show that EduVisAgent substantially outperforms all baselines, achieving a 40.2% improvement and delivering more educationally aligned visualizations. EduVisBench and EduVisAgent are available at https://github.com/aiming-lab/EduVisBench and https://github.com/aiming-lab/EduVisAgent.

arxiv情報

著者 Haonian Ji,Shi Qiu,Siyang Xin,Siwei Han,Zhaorun Chen,Hongyi Wang,Dake Zhang,Huaxiu Yao
発行日 2025-05-22 16:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization はコメントを受け付けていません

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

要約

ソーシャルメディアでのマルチモーダル誤った情報の急速な広がりは、懸念の高まりを引き起こしましたが、大規模で多様なデータセットがないため、ビデオの誤った情報検出に関する研究は限られたままです。
既存の方法は、しばしば厳格なテンプレートに過剰に輝き、欺cept的なコンテンツよりも深い推論を欠いています。
これらの課題に対処するために、微細に解釈可能な注釈を備えた100,000を超えるビデオテキストペアを含む大規模なベンチマークであるFakeVVを紹介します。
さらに、さらに、深い推論を共同のルールベースの強化学習と統合する新しいフレームワークであるFact-R1を提案します。
FACT-R1は、3段階のプロセスを通じて訓練されています。(1)誤った情報の長鎖(COT)命令チューニング、(2)直接優先最適化(DPO)、および(3)新規検証可能な報酬機能を使用した(3)グループ相対ポリシー最適化(GRPO)。
これにより、FACT-R1は、高度なテキストベースの強化学習システムで観察されたものに匹敵する緊急の推論行動を示すことができますが、より複雑なマルチモーダル誤った情報設定です。
私たちの仕事は、誤った情報検出、大規模なビデオ理解の橋渡し、推論ガイド付きアライメント、および解釈可能な検証のための新しいパラダイムを確立します。

要約(オリジナル)

The rapid spread of multimodal misinformation on social media has raised growing concerns, while research on video misinformation detection remains limited due to the lack of large-scale, diverse datasets. Existing methods often overfit to rigid templates and lack deep reasoning over deceptive content. To address these challenges, we introduce FakeVV, a large-scale benchmark comprising over 100,000 video-text pairs with fine-grained, interpretable annotations. In addition, we further propose Fact-R1, a novel framework that integrates deep reasoning with collaborative rule-based reinforcement learning. Fact-R1 is trained through a three-stage process: (1) misinformation long-Chain-of-Thought (CoT) instruction tuning, (2) preference alignment via Direct Preference Optimization (DPO), and (3) Group Relative Policy Optimization (GRPO) using a novel verifiable reward function. This enables Fact-R1 to exhibit emergent reasoning behaviors comparable to those observed in advanced text-based reinforcement learning systems, but in the more complex multimodal misinformation setting. Our work establishes a new paradigm for misinformation detection, bridging large-scale video understanding, reasoning-guided alignment, and interpretable verification.

arxiv情報

著者 Fanrui Zhang,Dian Li,Qiang Zhang,Chenjun,sinbadliu,Junxiong Lin,Jiahong Yan,Jiawei Liu,Zheng-Jun Zha
発行日 2025-05-22 16:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning はコメントを受け付けていません

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

要約

最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスクを解決できます。
実際のシナリオでは、VLMSの望ましいプロパティには、高速推論と制御可能な生成が含まれます(たとえば、出力を制約して目的の形式に接着します)。
ただし、Llavaのような既存の自己回帰(AR)VLMは、これらの側面で苦労しています。
離散拡散モデル(DMS)は、有望な代替手段を提供し、テキスト侵入を通じて制御可能な生成のためのより速い推論と双方向コンテキストのために並列デコードを可能にします。
言語のみの設定では効果的ですが、DMSのマルチモーダルタスクの可能性は露出度が低くなっています。
DMS上に構築されたVLMSファミリーであるLavidaを紹介します。
DMSにVisionエンコーダーを装備することでLavidaを構築し、マルチモーダル命令のために組み合わせた部品を共同で微調整します。
遭遇する課題に対処するために、ラビダには、効果的なトレーニングのための相補的マスキング、効率的な推論のためのプレフィックスKVキャッシュ、高品質のサンプリングのためのタイムステップシフトなどの新しい技術が組み込まれています。
実験では、LavidaがMMMUなどのマルチモーダルベンチマークでAR VLMに対して競争力のあるまたは優れたパフォーマンスを達成すると同時に、柔軟な速度品質のトレードオフ、制御性、双方向の推論など、DMの独自の利点を提供することが示されています。
Cocoキャプションでは、Lavidaは1.92倍のスピードアップで+4.1サイダー+4.1サイダーを上回ります。
双方向のタスクでは、制約された詩の完成に対して +59%の改善を達成します。
これらの結果は、AR VLMの強力な代替手段としてLavidaを示しています。
コードとモデルは、カメラ対応バージョンでリリースされます。

要約(オリジナル)

Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs’ potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.

arxiv情報

著者 Shufan Li,Konstantinos Kallidromitis,Hritik Bansal,Akash Gokul,Yusuke Kato,Kazuki Kozuka,Jason Kuen,Zhe Lin,Kai-Wei Chang,Aditya Grover
発行日 2025-05-22 16:07:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LaViDa: A Large Diffusion Language Model for Multimodal Understanding はコメントを受け付けていません

More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

要約

大規模な言語モデル(LLM)が3Dの物理的世界を理解できるようにすることは、依然として重要な課題です。
大規模な3Dテキストペアデータセットが不足しているため、LLMSの成功はまだ3D理解で再現されていません。
この論文では、この問題を再考し、新しいタスクを提案します:3Dデータ効率の良いポイント言語理解。
目標は、最小限の3DポイントクラウドとテキストデータペアでLLMが堅牢な3Dオブジェクト理解を実現できるようにすることです。
このタスクに対処するために、3Dデータの不足を補うためにより多くのテキストデータを活用するGreenPLMを導入します。
まず、クリップを使用して画像とテキストを合わせることに触発され、事前に訓練されたポイントクラウドテキストエンコーダを使用して、3Dポイントクラウドスペースをテキストスペースにマッピングします。
このマッピングにより、テキストスペースをLLMSにシームレスに接続する必要があります。
Point-Text-LLM接続が確立されると、中間テキスト空間を拡張することにより、テキストLLMアライメントをさらに強化し、それにより3Dポイントクラウドデータへの依存を減らします。
具体的には、3Dオブジェクトの6mのフリーテキスト説明を生成し、LLMSが異なるモダリティ間の本質的な接続をよりよく調査できるように3段階のトレーニング戦略を設計します。
効率的なモダリティアラインメントを実現するために、トークンプーリング用のゼロパラメータークロスアテンションモジュールを設計します。
広範な実験結果は、GreenPLMが優れた3D理解を達成するために既存の最先端モデルで使用される3Dトレーニングデータの12%しか必要ないことを示しています。
驚くべきことに、GreenPlmはテキストのみのデータを使用して競争力のあるパフォーマンスを達成しています。
コードと重みは、https://github.com/tangyuan96/greenplmで入手できます。

要約(オリジナル)

Enabling Large Language Models (LLMs) to comprehend the 3D physical world remains a significant challenge. Due to the lack of large-scale 3D-text pair datasets, the success of LLMs has yet to be replicated in 3D understanding. In this paper, we rethink this issue and propose a new task: 3D Data-Efficient Point-Language Understanding. The goal is to enable LLMs to achieve robust 3D object understanding with minimal 3D point cloud and text data pairs. To address this task, we introduce GreenPLM, which leverages more text data to compensate for the lack of 3D data. First, inspired by using CLIP to align images and text, we utilize a pre-trained point cloud-text encoder to map the 3D point cloud space to the text space. This mapping leaves us to seamlessly connect the text space with LLMs. Once the point-text-LLM connection is established, we further enhance text-LLM alignment by expanding the intermediate text space, thereby reducing the reliance on 3D point cloud data. Specifically, we generate 6M free-text descriptions of 3D objects, and design a three-stage training strategy to help LLMs better explore the intrinsic connections between different modalities. To achieve efficient modality alignment, we design a zero-parameter cross-attention module for token pooling. Extensive experimental results show that GreenPLM requires only 12% of the 3D training data used by existing state-of-the-art models to achieve superior 3D understanding. Remarkably, GreenPLM also achieves competitive performance using text-only data. The code and weights are available at: https://github.com/TangYuan96/GreenPLM.

arxiv情報

著者 Yuan Tang,Xu Han,Xianzhi Li,Qiao Yu,Jinfeng Xu,Yixue Hao,Long Hu,Min Chen
発行日 2025-05-22 16:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding はコメントを受け付けていません

ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning

要約

Federated Learning(FL)は、分散型の参加者全体でデータプライバシーを維持しながら、共同モデルトレーニングの有望なパラダイムとして浮上しています。
FLの採用が成長するにつれて、その実際的な課題に取り組むために多くの技術が提案されています。
ただし、重要な次元にわたる標準化された評価の欠如は、系統的な進歩とFLメソッドの公正な比較を妨げます。
この作業では、ATR-Benchを紹介します。ATR-Benchは、適応、信頼、推論という3つの基本的な側面を通じて、フェデレーション学習を分析するための統一されたフレームワークを紹介します。
各テーマに関連する概念的基盤、タスクの定式化、およびオープンな研究の課題を詳細に検討します。
不均一なクライアントへの適応のための代表的な方法とデータセットを広くベンチマークし、敵対的または信頼できない環境における信頼性を持っています。
フロリダ州での推論のための信頼できるメトリックとモデルがないため、この次元に関する文献主導の洞察のみを提供します。
ATRベンチは、実世界の関連性を備えたフェデレート学習の体系的かつ全体的な評価の基礎を築きます。
完全なコードベースに公開され、FL文献の新しい開発と研究を継続的に追跡するキュレーションされたリポジトリを公開します。

要約(オリジナル)

Federated Learning (FL) has emerged as a promising paradigm for collaborative model training while preserving data privacy across decentralized participants. As FL adoption grows, numerous techniques have been proposed to tackle its practical challenges. However, the lack of standardized evaluation across key dimensions hampers systematic progress and fair comparison of FL methods. In this work, we introduce ATR-Bench, a unified framework for analyzing federated learning through three foundational dimensions: Adaptation, Trust, and Reasoning. We provide an in-depth examination of the conceptual foundations, task formulations, and open research challenges associated with each theme. We have extensively benchmarked representative methods and datasets for adaptation to heterogeneous clients and trustworthiness in adversarial or unreliable environments. Due to the lack of reliable metrics and models for reasoning in FL, we only provide literature-driven insights for this dimension. ATR-Bench lays the groundwork for a systematic and holistic evaluation of federated learning with real-world relevance. We will make our complete codebase publicly accessible and a curated repository that continuously tracks new developments and research in the FL literature.

arxiv情報

著者 Tajamul Ashraf,Mohammed Mohsen Peerzada,Moloud Abdar,Yutong Xie,Yuyin Zhou,Xiaofeng Liu,Iqra Altaf Gillani,Janibul Bashir
発行日 2025-05-22 16:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | ATR-Bench: A Federated Learning Benchmark for Adaptation, Trust, and Reasoning はコメントを受け付けていません

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

要約

強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果的なトレーニング後の戦略であることが証明されています。
グループ相対ポリシー最適化(GRPO)は、モデルが応答する前に完全な推論トレースを生成することを奨励する最近の顕著な方法であり、トークンの使用と計算コストの増加につながります。
人間のような思考プロセスに触発されました – 人々が簡単な質問を求めて推論をスキップしますが、必要なときは慎重に考えてください。
これを実現するために、2段階のトレーニング戦略であるTonを提案します。(i)シンプルで効果的な「思考ドロップアウト」操作を備えた監視された微調整(SFT)ステージで、推論の痕跡が空の思考にランダムに置き換えられます。
これは、選択的推論のコールドスタートとして機能する思考または非形式を導入します。
(ii)タスク対応の結果の報酬を最大化しながら、モデルがいつ考えるかどうかを自由に調査できるようにするGRPOステージ。
実験結果は、TONがパフォーマンスを犠牲にしたり、改善することなく、バニラGRPOと比較して最大90%減少することができることを示しています。
3Bと7Bの両方のモデルの両方で、さまざまな推論の難しさを覆う多様なビジョン言語タスク全体のさらなる評価は、モデルがトレーニングの進歩に伴う不必要な推論ステップをバイパスすることを徐々に学習することを確認しています。
これらの発見は、強化学習アプローチにおける人間のような推論パターンへの道に光を当てています。
私たちのコードはhttps://github.com/kokolerk/tonで入手できます。

要約(オリジナル)

Reinforcement Learning (RL) has proven to be an effective post-training strategy for enhancing reasoning in vision-language models (VLMs). Group Relative Policy Optimization (GRPO) is a recent prominent method that encourages models to generate complete reasoning traces before answering, leading to increased token usage and computational cost. Inspired by the human-like thinking process-where people skip reasoning for easy questions but think carefully when needed-we explore how to enable VLMs to first decide when reasoning is necessary. To realize this, we propose TON, a two-stage training strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective ‘thought dropout’ operation, where reasoning traces are randomly replaced with empty thoughts. This introduces a think-or-not format that serves as a cold start for selective reasoning; (ii) a GRPO stage that enables the model to freely explore when to think or not, while maximizing task-aware outcome rewards. Experimental results show that TON can reduce the completion length by up to 90% compared to vanilla GRPO, without sacrificing performance or even improving it. Further evaluations across diverse vision-language tasks-covering a range of reasoning difficulties under both 3B and 7B models-consistently reveal that the model progressively learns to bypass unnecessary reasoning steps as training advances. These findings shed light on the path toward human-like reasoning patterns in reinforcement learning approaches. Our code is available at https://github.com/kokolerk/TON.

arxiv情報

著者 Jiaqi Wang,Kevin Qinghong Lin,James Cheng,Mike Zheng Shou
発行日 2025-05-22 16:13:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models はコメントを受け付けていません