-
最近の投稿
- Nearest-Neighbourless Asymptotically Optimal Motion Planning with Fully Connected Informed Trees (FCIT*)
- Performance assessment of ADAS in a representative subset of critical traffic situations
- Exciting Contact Modes in Differentiable Simulations for Robot Learning
- Can LLMs plan paths in the real world?
- DECODE: Domain-aware Continual Domain Expansion for Motion Prediction
-
最近のコメント
表示できるコメントはありません。 cs.AI (30257) cs.CL (22857) cs.CR (2346) cs.CV (36632) cs.LG (35077) cs.RO (17603) cs.SY (2704) eess.IV (4458) eess.SY (2698) stat.ML (4675)
「cs.MM」カテゴリーアーカイブ
FashionReGen: LLM-Empowered Fashion Report Generation
要約 ファッション分析とは、ファッション業界内のトレンド、スタイル、要素を調査お … 続きを読む
RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection
要約 オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む
T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers
要約 画像分類タスク用の Vision Transformers やその他の深層 … 続きを読む
Self-supervised Photographic Image Layout Representation Learning
要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む
Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis
要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
要約 誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。 本物の画 … 続きを読む
Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization
要約 AVSL (Audio-Visual Source Localizatio … 続きを読む
Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization
要約 AVSL (Audio-Visual Source Localizatio … 続きを読む
G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment
要約 数多くの研究が完了しているにもかかわらず、任意の音声に対応する高度に同期し … 続きを読む
MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling
要約 ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む