月別アーカイブ: 2024年6月

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer

要約 ビジョン トランスフォーマー (ViT) は、特に領域アテンションや畳み込 … 続きを読む

カテゴリー: cs.CV | AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer はコメントを受け付けていません

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models

要約 大規模なビジョンおよび言語モデルにより、完全に監視されたゼロショットの視覚 … 続きを読む

カテゴリー: cs.CL, cs.CV | Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models はコメントを受け付けていません

From Chaos to Clarity: 3DGS in the Dark

要約 RAW 画像からの新規ビュー合成は、低ダイナミック レンジ RGB 画像か … 続きを読む

カテゴリー: cs.CV, eess.IV | From Chaos to Clarity: 3DGS in the Dark はコメントを受け付けていません

Event Transformer

要約 イベント カメラは消費電力が低く、マイクロ秒単位の明るさの変化をキャプチャ … 続きを読む

カテゴリー: cs.CV | Event Transformer はコメントを受け付けていません

Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement

要約 解きほぐされた表現学習は、観察されたデータ内の固有の要素を抽出することを目 … 続きを読む

カテゴリー: cs.AI, cs.CV | Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement はコメントを受け付けていません

LaMOT: Language-Guided Multi-Object Tracking

要約 視覚言語 MOT は重要な追跡問題であり、最近ますます注目を集めています。 … 続きを読む

カテゴリー: cs.CV | LaMOT: Language-Guided Multi-Object Tracking はコメントを受け付けていません

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

要約 ビジュアル オドメトリは、視覚入力に基づいて移動カメラの動きを推定します。 … 続きを読む

カテゴリー: cs.CV | LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry はコメントを受け付けていません

UDON: Universal Dynamic Online distillatioN for generic image representations

要約 ユニバーサルな画像表現は、あらゆるドメインのオブジェクトやエンティティを大 … 続きを読む

カテゴリー: cs.CV | UDON: Universal Dynamic Online distillatioN for generic image representations はコメントを受け付けていません

CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction

要約 構音障害音声再構成 (DSR) は、構音障害のある音声を正常な音声に変換す … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction はコメントを受け付けていません

WMAdapter: Adding WaterMark Control to Latent Diffusion Models

要約 透かしは、AI によって生成された画像の著作権を保護するために非常に重要で … 続きを読む

カテゴリー: cs.CV, eess.IV | WMAdapter: Adding WaterMark Control to Latent Diffusion Models はコメントを受け付けていません