月別アーカイブ: 2024年9月

Point2Graph: An End-to-end Point Cloud-based 3D Open-Vocabulary Scene Graph for Robot Navigation

投稿日: 2024年9月17日作成者: jarxiv

要約現在のオープンボキャブラリーのシーングラフ生成アルゴリズムは、3D シーン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Taming Diffusion Models for Image Restoration: A Review

投稿日: 2024年9月17日作成者: jarxiv

要約拡散モデルは、生成モデリング、特に人間の好みに合わせて画質を向上させる点で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

投稿日: 2024年9月17日作成者: jarxiv

要約共同スピーチのジェスチャーはコミュニケーションの基本です。最近の深層学習 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning

投稿日: 2024年9月17日作成者: jarxiv

要約事前トレーニングの有効性を大幅に高める、新しい頻度ベースの自己教師あり学習 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Robust image representations with counterfactual contrastive learning

投稿日: 2024年9月17日作成者: jarxiv

要約対照的な事前トレーニングにより、モデルの一般化と下流のパフォーマンスを大幅 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Mamba-ST: State Space Model for Efficient Style Transfer

投稿日: 2024年9月17日作成者: jarxiv

要約スタイル転送の目的は、コンテンツ画像とスタイルソースが与えられた場合、コ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation

投稿日: 2024年9月17日作成者: jarxiv

要約目に見えないドメイン (クラス) をより効率的に一般化するために、ほとんど … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PointViG: A Lightweight GNN-based Model for Efficient Point Cloud Analysis

投稿日: 2024年9月17日作成者: jarxiv

要約点群解析の分野では、複雑な 3D データセットの管理におけるグラフニュー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

投稿日: 2024年9月17日作成者: jarxiv

要約 Contrastive Language-Image Pre-traini … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph

投稿日: 2024年9月17日作成者: jarxiv

要約自然言語で記述されたオブジェクトの位置を特定することは、自律エージェントに … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年9月

Point2Graph: An End-to-end Point Cloud-based 3D Open-Vocabulary Scene Graph for Robot Navigation

Taming Diffusion Models for Image Restoration: A Review

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning

Robust image representations with counterfactual contrastive learning

Mamba-ST: State Space Model for Efficient Style Transfer

Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation

PointViG: A Lightweight GNN-based Model for Efficient Point Cloud Analysis

Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph

最近の投稿

最近のコメント

アーカイブ

カテゴリー