月別アーカイブ: 2024年5月

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

投稿日: 2024年5月16日作成者: jarxiv

要約最先端のマルチモーダルビジョン言語モデルである Xmodel-VLM を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Wild Berry image dataset collected in Finnish forests and peatlands using drones

投稿日: 2024年5月16日作成者: jarxiv

要約ベリー狩りはフィンランドに長年の伝統がありますが、挑戦的で潜在的に危険な場 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

投稿日: 2024年5月16日作成者: jarxiv

要約模倣学習はロボットに器用なスキルを教える効率的な方法を提供します。ただし … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Graph Neural Network based Handwritten Trajectories Recognition

投稿日: 2024年5月16日作成者: jarxiv

要約グラフニューラルネットワークは、現実のアプリケーションにおいて効率的な … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

RaffeSDG: Random Frequency Filtering enabled Single-source Domain Generalization for Medical Image Segmentation

投稿日: 2024年5月16日作成者: jarxiv

要約ディープラーニングモデルは、ソースデータとターゲットデータの間でド … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Similarity Metrics for MR Image-To-Image Translation

投稿日: 2024年5月16日作成者: jarxiv

要約画像間の変換は、医療画像処理に大きな影響を与える可能性があります。つまり、 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

投稿日: 2024年5月16日作成者: jarxiv

要約音楽からダンスを生成するというタスクは重要ですが、主に関節シーケンスを生成 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding

投稿日: 2024年5月16日作成者: jarxiv

要約近年、通常、ビジュアルとオーディオの両方のモダリティを含むショートビデオが … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DeCoDEx: Confounder Detector Guidance for Improved Diffusion-based Counterfactual Explanations

投稿日: 2024年5月16日作成者: jarxiv

要約ディープラーニング分類器は、ターゲットクラスに関連付けられた因果マーカ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LRVS-Fashion: Extending Visual Search with Referring Instructions

投稿日: 2024年5月16日作成者: jarxiv

要約この論文では、ファッションの文脈における画像類似性検索の新たな課題を紹介し … 続きを読む →

カテゴリー: (Primary), cs.CV, I.2.10 | コメントを受け付けていません

月別アーカイブ: 2024年5月

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

Wild Berry image dataset collected in Finnish forests and peatlands using drones

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

Graph Neural Network based Handwritten Trajectories Recognition

RaffeSDG: Random Frequency Filtering enabled Single-source Domain Generalization for Medical Image Segmentation

Similarity Metrics for MR Image-To-Image Translation

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding

DeCoDEx: Confounder Detector Guidance for Improved Diffusion-based Counterfactual Explanations

LRVS-Fashion: Extending Visual Search with Referring Instructions

最近の投稿

最近のコメント

アーカイブ

カテゴリー