月別アーカイブ: 2024年5月

Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes and Backdoor Activeness

要約 バックドア攻撃によるセキュリティの脅威は、ディープ ニューラル ネットワー … 続きを読む

カテゴリー: cs.CR, cs.CV | Unveiling and Mitigating Backdoor Vulnerabilities based on Unlearning Weight Changes and Backdoor Activeness はコメントを受け付けていません

You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism

要約 スケーリング ドット プロダクト アテンション (SDPA) は、多くの最 … 続きを読む

カテゴリー: (Primary), 15A03, 15A04, 68T10, 68T50, cs.AI, cs.CL, cs.CV, cs.LG, I.2.10 | You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism はコメントを受け付けていません

Scaling White-Box Transformers for Vision

要約 CRATE は、圧縮表現とスパース表現を学習するために設計されたホワイトボ … 続きを読む

カテゴリー: cs.CV | Scaling White-Box Transformers for Vision はコメントを受け付けていません

Can’t make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

要約 現実世界でありそうなアクション シーケンスを予測するための大規模なビデオ言 … 続きを読む

カテゴリー: cs.CV | Can’t make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models はコメントを受け付けていません

Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation

要約 教師なしドメイン アダプテーション (UDA) の既存の方法のほとんどは、 … 続きを読む

カテゴリー: cs.CV | Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation はコメントを受け付けていません

A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction

要約 シングルビュー画像から 3D シーン表現を学習することは、入力ビューからは … 続きを読む

カテゴリー: cs.CV | A Pixel Is Worth More Than One 3D Gaussians in Single-View 3D Reconstruction はコメントを受け付けていません

ParSEL: Parameterized Shape Editing with Language

要約 自然言語から 3D アセットを編集できる機能は、3D コンテンツ作成の民主 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.HC, cs.SC | ParSEL: Parameterized Shape Editing with Language はコメントを受け付けていません

Improving the Training of Rectified Flows

要約 拡散モデルは画像やビデオの生成に大きな期待を寄せていますが、最先端のモデル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Improving the Training of Rectified Flows はコメントを受け付けていません

Vision-based Manipulation from Single Human Video with Open-World Object Graphs

要約 私たちは、ロボットが人間のビデオから視覚ベースの操作スキルを学習できるよう … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Vision-based Manipulation from Single Human Video with Open-World Object Graphs はコメントを受け付けていません

$\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving

要約 ストリートシーンのフォトリアリスティックな 3D 再構築は、自動運転用の実 … 続きを読む

カテゴリー: cs.AI, cs.CV | $\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving はコメントを受け付けていません