-
最近の投稿
- RT-cache: Efficient Robot Trajectory Retrieval System
- Reach-Avoid-Stabilize Using Admissible Control Sets
- Solving Reach- and Stabilize-Avoid Problems Using Discounted Reachability
- A Novel 6-axis Force/Torque Sensor Using Inductance Sensors
- Deployable and Generalizable Motion Prediction: Taxonomy, Open Challenges and Future Directions
-
最近のコメント
表示できるコメントはありません。 cs.AI (38110) cs.CL (28797) cs.CV (43686) cs.HC (2911) cs.LG (43032) cs.RO (22672) cs.SY (3480) eess.IV (5065) eess.SY (3472) stat.ML (5604)
「cs.MM」カテゴリーアーカイブ
Self-supervised Photographic Image Layout Representation Learning
要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む
Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis
要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
要約 誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。 本物の画 … 続きを読む
Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization
要約 AVSL (Audio-Visual Source Localizatio … 続きを読む
Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization
要約 AVSL (Audio-Visual Source Localizatio … 続きを読む
G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment
要約 数多くの研究が完了しているにもかかわらず、任意の音声に対応する高度に同期し … 続きを読む
MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling
要約 ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE
要約 多様なマルチモーダルデータから学習するスケーラブルな視覚言語モデルの構築は … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声駆動型話し顔生成は大きく進歩したが、生成された映像の … 続きを読む
A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation
要約 産業用異常検出 (AD) の課題に効果的に対処するには、欠陥のあるサンプル … 続きを読む