cs.CV」カテゴリーアーカイブ

Image Editing As Programs with Diffusion Models

要約 拡散モデルはテキストからイメージの生成で顕著な成功を収めていますが、命令主 … 続きを読む

カテゴリー: cs.CV | Image Editing As Programs with Diffusion Models はコメントを受け付けていません

DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes

要約 ロボットが自然言語のクエリを通じて動的に変化する環境を理解し、ナビゲートで … 続きを読む

カテゴリー: cs.CV, cs.RO | DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes はコメントを受け付けていません

Estimating Total Lung Volume from Pixel-level Thickness Maps of Chest Radiographs Using Deep Learning

要約 目的:U-Net Deep Learning Modelによって生成された … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Estimating Total Lung Volume from Pixel-level Thickness Maps of Chest Radiographs Using Deep Learning はコメントを受け付けていません

Single-Pass Object-Focused Data Selection

要約 しばしば豊富な画像データは豊富にありますが、高品質のラベルのコストは重要な … 続きを読む

カテゴリー: cs.CV | Single-Pass Object-Focused Data Selection はコメントを受け付けていません

Bézier Splatting for Fast and Differentiable Vector Graphics Rendering

要約 微分可能なベクトルグラフィックス(VG)は画像ベクトル化とベクトル合成で広 … 続きを読む

カテゴリー: cs.CV, cs.GR | Bézier Splatting for Fast and Differentiable Vector Graphics Rendering はコメントを受け付けていません

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting

要約 3Dガウス・スプラッティング(3DGS)は、その効率的なレンダリング能力に … 続きを読む

カテゴリー: cs.CV | FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting はコメントを受け付けていません

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

要約 オブジェクトオリエンテーションの理解は、ロボット操作や拡張現実などのアプリ … 続きを読む

カテゴリー: cs.CV | Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks はコメントを受け付けていません

A Survey on (M)LLM-Based GUI Agents

要約 グラフィカルユーザーインターフェイス(GUI)エージェントは、ルールベース … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | A Survey on (M)LLM-Based GUI Agents はコメントを受け付けていません

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

要約 複雑なテキストタスクにおけるDeepSeek-R1の顕著な推論能力に触発さ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning はコメントを受け付けていません

Language-Image Alignment with Fixed Text Encoders

要約 現在、言語と画像のアライメントを確立するための最も一般的なアプローチは、C … 続きを読む

カテゴリー: cs.CV | Language-Image Alignment with Fixed Text Encoders はコメントを受け付けていません