月別アーカイブ: 2025年3月

A Unified Image-Dense Annotation Generation Model for Underwater Scenes

要約 水中密度の高い予測、特に深さの推定とセマンティックセグメンテーションは、水 … 続きを読む

カテゴリー: cs.CV | A Unified Image-Dense Annotation Generation Model for Underwater Scenes はコメントを受け付けていません

LOCORE: Image Re-ranking with Long-Context Sequence Modeling

要約 Locore、Long-Contextの再ランカー、画像クエリに対応する入 … 続きを読む

カテゴリー: cs.CV | LOCORE: Image Re-ranking with Long-Context Sequence Modeling はコメントを受け付けていません

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

要約 新しい様式化された運動潜在拡散モデルであるStylemotifを提示し、複 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion はコメントを受け付けていません

Optimal Stepsize for Diffusion Sampling

要約 拡散モデルは顕著な生成品質を達成しますが、最適ではないステップ離散化により … 続きを読む

カテゴリー: cs.CV | Optimal Stepsize for Diffusion Sampling はコメントを受け付けていません

Video-R1: Reinforcing Video Reasoning in MLLMs

要約 ルールベースの強化学習(RL)を通じて推論能力を引き出すことにおけるDee … 続きを読む

カテゴリー: cs.CV | Video-R1: Reinforcing Video Reasoning in MLLMs はコメントを受け付けていません

Test-Time Visual In-Context Tuning

要約 視覚的なコンテキスト学習(VICL)は、コンピュータービジョンの新しいパラ … 続きを読む

カテゴリー: cs.CV, cs.LG | Test-Time Visual In-Context Tuning はコメントを受け付けていません

HS-SLAM: Hybrid Representation with Structural Supervision for Improved Dense SLAM

要約 NERFベースのSLAMは最近、追跡と再建において有望な結果を達成しました … 続きを読む

カテゴリー: cs.CV | HS-SLAM: Hybrid Representation with Structural Supervision for Improved Dense SLAM はコメントを受け付けていません

Do Multimodal Large Language Models See Like Humans?

要約 マルチモーダル大手言語モデル(MLLM)は、さまざまなビジョンタスクで印象 … 続きを読む

カテゴリー: cs.CV | Do Multimodal Large Language Models See Like Humans? はコメントを受け付けていません

X$^{2}$-Gaussian: 4D Radiative Gaussian Splatting for Continuous-time Tomographic Reconstruction

要約 4次元コンピューター断層撮影(4D CT)再構築は、動的な解剖学的変化をキ … 続きを読む

カテゴリー: cs.CV | X$^{2}$-Gaussian: 4D Radiative Gaussian Splatting for Continuous-time Tomographic Reconstruction はコメントを受け付けていません

Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model

要約 ビデオ理解モデルは、多くの場合、高い計算要件、広範なパラメーターカウント、 … 続きを読む

カテゴリー: cs.CV | Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model はコメントを受け付けていません