月別アーカイブ: 2025年5月

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

要約 大規模なマルチモーダルモデル(LMMS)の出現により、多様なデータモダリテ … 続きを読む

カテゴリー: cs.CV | CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms はコメントを受け付けていません

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

要約 既存のモデルは、視覚コンテンツに組み込まれた微妙な文化的、感情的、文脈的意 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY | Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework はコメントを受け付けていません

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

要約 最近の進歩は、結果報酬を備えたルールベースの強化学習(RL)を通じて、マル … 続きを読む

カテゴリー: cs.CV | SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward はコメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約 視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning はコメントを受け付けていません

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

要約 大規模なマルチモーダルモデル(LMM)がより能力が高まるにつれて、最終出力 … 続きを読む

カテゴリー: cs.CV | ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark はコメントを受け付けていません

General-Reasoner: Advancing LLM Reasoning Across All Domains

要約 強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で … 続きを読む

カテゴリー: cs.CL | General-Reasoner: Advancing LLM Reasoning Across All Domains はコメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約 ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

Towards Machine-Generated Code for the Resolution of User Intentions

要約 人工知能(AI)の成長能力、特に大規模な言語モデル(LLM)は、ユーザーと … 続きを読む

カテゴリー: cs.AI | Towards Machine-Generated Code for the Resolution of User Intentions はコメントを受け付けていません

GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

要約 最近のグラフィカルユーザーインターフェイス(GUI)エージェントは、R1- … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents はコメントを受け付けていません

UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models

要約 都市のダイナミクスを理解し、予測することは、輸送システムの管理、都市計画の … 続きを読む

カテゴリー: cs.LG | UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models はコメントを受け付けていません