-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
要約 我々は、オンライン ソーシャル ネットワークにおけるヘイトスピーチを検出す … 続きを読む
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
要約 Contrastive Language-Image Pre-traini … 続きを読む
Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection
要約 自動運転には、正確かつ堅牢な物体検出が不可欠です。 画像ベースの検出器は、 … 続きを読む
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion
要約 我々は、ノイズ除去拡散を備えた時間的アクション検出 (TAD) の新しい定 … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
Contrastive Video Question Answering via Video Graph Transformer
要約 私たちは、ビデオ グラフ トランスフォーマー モデル (CoVGT) を介 … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
FILM: How can Few-Shot Image Classification Benefit from Pre-Trained Language Models?
要約 フューショット学習は、わずかなサンプルのみで新しいクラスに一般化できるモデ … 続きを読む
SAS Video-QA: Self-Adaptive Sampling for Efficient Video Question-Answering
要約 ビデオの質問と回答は、ビデオ理解の分野における基本的なタスクです。 Vid … 続きを読む
Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback
要約 テキスト条件付き画像生成の分野は、潜在拡散モデルの最近の出現により、比類の … 続きを読む