投稿者「jarxiv」のアーカイブ

SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding

投稿日: 2025年5月23日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、問題を解決するタスクで印象的な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

投稿日: 2025年5月23日作成者: jarxiv

要約モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

投稿日: 2025年5月23日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は視覚的なタスクで急速に進歩して … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Interactive Post-Training for Vision-Language-Action Models

投稿日: 2025年5月23日作成者: jarxiv

要約リップVLAを紹介します。これは、スパースバイナリの成功報酬のみを使用して … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

投稿日: 2025年5月23日作成者: jarxiv

要約最近の進歩は、大規模な言語モデル（LLM）の考え方（COT）の推論能力を高 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

投稿日: 2025年5月23日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMMS）の出現により、多様なデータモダリテ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

投稿日: 2025年5月23日作成者: jarxiv

要約既存のモデルは、視覚コンテンツに組み込まれた微妙な文化的、感情的、文脈的意 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.CY | コメントを受け付けていません

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

投稿日: 2025年5月23日作成者: jarxiv

要約最近の進歩は、結果報酬を備えたルールベースの強化学習（RL）を通じて、マル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

投稿日: 2025年5月23日作成者: jarxiv

要約視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

投稿日: 2025年5月23日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）がより能力が高まるにつれて、最終出力 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding

When Are Concepts Erased From Diffusion Models?

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

Interactive Post-Training for Vision-Language-Action Models

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

最近の投稿

最近のコメント

アーカイブ

カテゴリー