月別アーカイブ: 2025年5月

MINERVA: Evaluating Complex Video Reasoning

投稿日: 2025年5月2日作成者: jarxiv

要約マルチモーダルLLMSはビデオベンチマークに焦点を合わせていますが、ほとん … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Visual Test-time Scaling for GUI Agent Grounding

投稿日: 2025年5月2日作成者: jarxiv

要約 Vision言語モデルエージェントの視覚的なテスト時間スケーリングアプロー … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution

投稿日: 2025年5月2日作成者: jarxiv

要約この論文では、画像の忠実度を高めるために特別に設計された新しいシングルステ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Towards Autonomous Micromobility through Scalable Urban Simulation

投稿日: 2025年5月2日作成者: jarxiv

要約配送ロボットやモビリティスクーターなどの都市の公共スペースに移動する軽量の … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Robotic Visual Instruction

投稿日: 2025年5月2日作成者: jarxiv

要約最近、自然言語は、人間とロボットの相互作用の主要な媒体でした。ただし、ロ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

RayZer: A Self-supervised Large View Synthesis Model

投稿日: 2025年5月2日作成者: jarxiv

要約 3Dの監督なしで訓練された自己監視マルチビュー3Dビジョンモデル、つまりカ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

投稿日: 2025年5月2日作成者: jarxiv

要約大規模な言語モデルの最近の進歩により、チェーンオブシュー（COT）と補強学 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Controllable Weather Synthesis and Removal with Video Diffusion Models

投稿日: 2025年5月2日作成者: jarxiv

要約ビデオで現実的で制御可能な気象効果を生成することは、多くのアプリケーション … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues

投稿日: 2025年5月2日作成者: jarxiv

要約ヘルスケアにおける合成データの採用の増大は、プライバシーの懸念、現実世界の … 続きを読む →

カテゴリー: 68T50, cs.AI, cs.CL, cs.CY, cs.HC, I.2.7 | コメントを受け付けていません

VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions

投稿日: 2025年5月2日作成者: jarxiv

要約フォント設計は、デジタルコンテンツデザインと最新の印刷業界で非常に重要です … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年5月

MINERVA: Evaluating Complex Video Reasoning

Visual Test-time Scaling for GUI Agent Grounding

GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution

Towards Autonomous Micromobility through Scalable Urban Simulation

Robotic Visual Instruction

RayZer: A Self-supervised Large View Synthesis Model

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

Controllable Weather Synthesis and Removal with Video Diffusion Models

How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues

VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions

最近の投稿

最近のコメント

アーカイブ

カテゴリー