月別アーカイブ: 2025年5月

MINERVA: Evaluating Complex Video Reasoning

要約 マルチモーダルLLMSはビデオベンチマークに焦点を合わせていますが、ほとん … 続きを読む

カテゴリー: cs.CV, cs.LG | MINERVA: Evaluating Complex Video Reasoning はコメントを受け付けていません

Visual Test-time Scaling for GUI Agent Grounding

要約 Vision言語モデルエージェントの視覚的なテスト時間スケーリングアプロー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Visual Test-time Scaling for GUI Agent Grounding はコメントを受け付けていません

GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution

要約 この論文では、画像の忠実度を高めるために特別に設計された新しいシングルステ … 続きを読む

カテゴリー: cs.CV, eess.IV | GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution はコメントを受け付けていません

Towards Autonomous Micromobility through Scalable Urban Simulation

要約 配送ロボットやモビリティスクーターなどの都市の公共スペースに移動する軽量の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Towards Autonomous Micromobility through Scalable Urban Simulation はコメントを受け付けていません

Robotic Visual Instruction

要約 最近、自然言語は、人間とロボットの相互作用の主要な媒体でした。 ただし、ロ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Robotic Visual Instruction はコメントを受け付けていません

RayZer: A Self-supervised Large View Synthesis Model

要約 3Dの監督なしで訓練された自己監視マルチビュー3Dビジョンモデル、つまりカ … 続きを読む

カテゴリー: cs.CV | RayZer: A Self-supervised Large View Synthesis Model はコメントを受け付けていません

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

要約 大規模な言語モデルの最近の進歩により、チェーンオブシュー(COT)と補強学 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT はコメントを受け付けていません

Controllable Weather Synthesis and Removal with Video Diffusion Models

要約 ビデオで現実的で制御可能な気象効果を生成することは、多くのアプリケーション … 続きを読む

カテゴリー: cs.CV, cs.GR | Controllable Weather Synthesis and Removal with Video Diffusion Models はコメントを受け付けていません

How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues

要約 ヘルスケアにおける合成データの採用の増大は、プライバシーの懸念、現実世界の … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.CY, cs.HC, I.2.7 | How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues はコメントを受け付けていません

VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions

要約 フォント設計は、デジタルコンテンツデザインと最新の印刷業界で非常に重要です … 続きを読む

カテゴリー: cs.CV | VecFontSDF: Learning to Reconstruct and Synthesize High-quality Vector Fonts via Signed Distance Functions はコメントを受け付けていません