月別アーカイブ: 2025年2月

Descriminative-Generative Custom Tokens for Vision-Language Models

投稿日: 2025年2月18日作成者: jarxiv

要約このペーパーでは、ビジョン言語モデル（VLM）で新しい概念を表すためにカス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

投稿日: 2025年2月18日作成者: jarxiv

要約このホワイトペーパーでは、生成セマンティックコミュニケーションズ（GENS … 続きを読む →

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | コメントを受け付けていません

Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis

投稿日: 2025年2月18日作成者: jarxiv

要約この研究では、上半身世代、特に聴覚障害者とハードの聴覚（DHOH）コミュニ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

投稿日: 2025年2月18日作成者: jarxiv

要約このペーパーでは、脚のあるロボットでのビジョンと言語のナビゲーションの問題 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

投稿日: 2025年2月18日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLMS）の急速な進行により、さまざまなマ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

A Monocular Event-Camera Motion Capture System

投稿日: 2025年2月18日作成者: jarxiv

要約モーションキャプチャシステムは、オブジェクトの根本的なポーズを記録するため … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection

投稿日: 2025年2月18日作成者: jarxiv

要約ビジュアルインストラクションチューニングにより、事前に訓練されたマルチモー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

投稿日: 2025年2月18日作成者: jarxiv

要約 3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なア … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

投稿日: 2025年2月18日作成者: jarxiv

要約 FLAREは、高品質のカメラのポーズと3Dジオメトリを推測するように設計さ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

投稿日: 2025年2月18日作成者: jarxiv

要約サンプリングの軌跡を最適化することにより、下流のアライメントを強化する微調 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年2月

Descriminative-Generative Custom Tokens for Vision-Language Models

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

A Monocular Event-Camera Motion Capture System

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection

MagicArticulate: Make Your 3D Models Articulation-Ready

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

最近の投稿

最近のコメント

アーカイブ

カテゴリー