「cs.CV」カテゴリーアーカイブ

Image Editing As Programs with Diffusion Models

投稿日: 2025年6月5日作成者: jarxiv

要約拡散モデルはテキストからイメージの生成で顕著な成功を収めていますが、命令主 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes

投稿日: 2025年6月5日作成者: jarxiv

要約ロボットが自然言語のクエリを通じて動的に変化する環境を理解し、ナビゲートで … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Estimating Total Lung Volume from Pixel-level Thickness Maps of Chest Radiographs Using Deep Learning

投稿日: 2025年6月5日作成者: jarxiv

要約目的：U-Net Deep Learning Modelによって生成された … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Single-Pass Object-Focused Data Selection

投稿日: 2025年6月5日作成者: jarxiv

要約しばしば豊富な画像データは豊富にありますが、高品質のラベルのコストは重要な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Bézier Splatting for Fast and Differentiable Vector Graphics Rendering

投稿日: 2025年6月5日作成者: jarxiv

要約微分可能なベクトルグラフィックス（VG）は画像ベクトル化とベクトル合成で広 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting

投稿日: 2025年6月5日作成者: jarxiv

要約 3Dガウス・スプラッティング(3DGS)は、その効率的なレンダリング能力に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

投稿日: 2025年6月5日作成者: jarxiv

要約オブジェクトオリエンテーションの理解は、ロボット操作や拡張現実などのアプリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Survey on (M)LLM-Based GUI Agents

投稿日: 2025年6月5日作成者: jarxiv

要約グラフィカルユーザーインターフェイス（GUI）エージェントは、ルールベース … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントを受け付けていません

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

投稿日: 2025年6月5日作成者: jarxiv

要約複雑なテキストタスクにおけるDeepSeek-R1の顕著な推論能力に触発さ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Language-Image Alignment with Fixed Text Encoders

投稿日: 2025年6月5日作成者: jarxiv

要約現在、言語と画像のアライメントを確立するための最も一般的なアプローチは、C … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Image Editing As Programs with Diffusion Models

DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes

Estimating Total Lung Volume from Pixel-level Thickness Maps of Chest Radiographs Using Deep Learning

Single-Pass Object-Focused Data Selection

Bézier Splatting for Fast and Differentiable Vector Graphics Rendering

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

A Survey on (M)LLM-Based GUI Agents

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

Language-Image Alignment with Fixed Text Encoders

最近の投稿

最近のコメント

アーカイブ

カテゴリー