「cs.CV」カテゴリーアーカイブ

Efficient Few-Shot Continual Learning in Vision-Language Models

投稿日: 2025年2月7日作成者: jarxiv

要約 Vision-Language Models（VLM）は、視覚的な質問応答 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Harmonious Group Choreography with Trajectory-Controllable Diffusion

投稿日: 2025年2月7日作成者: jarxiv

要約音楽からグループの振り付けを作成することは、文化的なエンターテイメントと仮 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

投稿日: 2025年2月7日作成者: jarxiv

要約ビジョン言語モデル（VLMS）では、視覚トークンは通常、テキストトークンと … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

KAN See In the Dark

投稿日: 2025年2月7日作成者: jarxiv

要約既存の低光画像強化方法は、不均一な照明と騒音効果のために、通常と低光の画像 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Adaptive Margin Contrastive Learning for Ambiguity-aware 3D Semantic Segmentation

投稿日: 2025年2月7日作成者: jarxiv

要約この論文では、3Dポイントクラウドセマンティックセグメンテーション、つまり … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Evaluating Numerical Reasoning in Text-to-Image Models

投稿日: 2025年2月7日作成者: jarxiv

要約テキストから画像への生成モデルは、自然言語を使用して記述されている概念を忠 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Generative Adversarial Networks Bridging Art and Machine Intelligence

投稿日: 2025年2月7日作成者: jarxiv

要約この本は、GANの基本原則と歴史的発展の詳細な紹介から始まり、伝統的な生成 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

投稿日: 2025年2月7日作成者: jarxiv

要約人間のモーション生成と編集は、コンピューターグラフィックとビジョンの重要な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation

投稿日: 2025年2月7日作成者: jarxiv

要約 3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HD-EPIC: A Highly-Detailed Egocentric Video Dataset

投稿日: 2025年2月7日作成者: jarxiv

要約新しく収集されたキッチンベースのエゴセントリックビデオの検証データセットを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Efficient Few-Shot Continual Learning in Vision-Language Models

Harmonious Group Choreography with Trajectory-Controllable Diffusion

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

KAN See In the Dark

Adaptive Margin Contrastive Learning for Ambiguity-aware 3D Semantic Segmentation

Evaluating Numerical Reasoning in Text-to-Image Models

Generative Adversarial Networks Bridging Art and Machine Intelligence

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation

HD-EPIC: A Highly-Detailed Egocentric Video Dataset

最近の投稿

最近のコメント

アーカイブ

カテゴリー