月別アーカイブ: 2024年6月

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer

投稿日: 2024年6月13日作成者: jarxiv

要約ビジョントランスフォーマー (ViT) は、特に領域アテンションや畳み込 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models

投稿日: 2024年6月13日作成者: jarxiv

要約大規模なビジョンおよび言語モデルにより、完全に監視されたゼロショットの視覚 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

From Chaos to Clarity: 3DGS in the Dark

投稿日: 2024年6月13日作成者: jarxiv

要約 RAW 画像からの新規ビュー合成は、低ダイナミックレンジ RGB 画像か … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Event Transformer

投稿日: 2024年6月13日作成者: jarxiv

要約イベントカメラは消費電力が低く、マイクロ秒単位の明るさの変化をキャプチャ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement

投稿日: 2024年6月13日作成者: jarxiv

要約解きほぐされた表現学習は、観察されたデータ内の固有の要素を抽出することを目 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LaMOT: Language-Guided Multi-Object Tracking

投稿日: 2024年6月13日作成者: jarxiv

要約視覚言語 MOT は重要な追跡問題であり、最近ますます注目を集めています。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

投稿日: 2024年6月13日作成者: jarxiv

要約ビジュアルオドメトリは、視覚入力に基づいて移動カメラの動きを推定します。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UDON: Universal Dynamic Online distillatioN for generic image representations

投稿日: 2024年6月13日作成者: jarxiv

要約ユニバーサルな画像表現は、あらゆるドメインのオブジェクトやエンティティを大 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction

投稿日: 2024年6月13日作成者: jarxiv

要約構音障害音声再構成 (DSR) は、構音障害のある音声を正常な音声に変換す … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

WMAdapter: Adding WaterMark Control to Latent Diffusion Models

投稿日: 2024年6月13日作成者: jarxiv

要約透かしは、AI によって生成された画像の著作権を保護するために非常に重要で … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年6月

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models

From Chaos to Clarity: 3DGS in the Dark

Event Transformer

Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement

LaMOT: Language-Guided Multi-Object Tracking

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

UDON: Universal Dynamic Online distillatioN for generic image representations

CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction

WMAdapter: Adding WaterMark Control to Latent Diffusion Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー