月別アーカイブ: 2025年2月

Descriminative-Generative Custom Tokens for Vision-Language Models

要約 このペーパーでは、ビジョン言語モデル(VLM)で新しい概念を表すためにカス … 続きを読む

カテゴリー: cs.CV | Descriminative-Generative Custom Tokens for Vision-Language Models はコメントを受け付けていません

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications はコメントを受け付けていません

Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis

要約 この研究では、上半身世代、特に聴覚障害者とハードの聴覚(DHOH)コミュニ … 続きを読む

カテゴリー: cs.AI, cs.CV | Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis はコメントを受け付けていません

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

要約 このペーパーでは、脚のあるロボットでのビジョンと言語のナビゲーションの問題 … 続きを読む

カテゴリー: cs.CV, cs.RO | NaVILA: Legged Robot Vision-Language-Action Model for Navigation はコメントを受け付けていません

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約 マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination はコメントを受け付けていません

A Monocular Event-Camera Motion Capture System

要約 モーションキャプチャシステムは、オブジェクトの根本的なポーズを記録するため … 続きを読む

カテゴリー: cs.CV, cs.RO | A Monocular Event-Camera Motion Capture System はコメントを受け付けていません

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection

要約 ビジュアルインストラクションチューニングにより、事前に訓練されたマルチモー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection はコメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

要約 3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なア … 続きを読む

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

要約 FLAREは、高品質のカメラのポーズと3Dジオメトリを推測するように設計さ … 続きを読む

カテゴリー: cs.CV | FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views はコメントを受け付けていません

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

要約 サンプリングの軌跡を最適化することにより、下流のアライメントを強化する微調 … 続きを読む

カテゴリー: cs.CV | Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening はコメントを受け付けていません