cs.MM」カテゴリーアーカイブ

DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning

要約 大規模なテキストから画像への生成モデルは、テキストに導かれた高解像度の高品 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning はコメントを受け付けていません

TriDet: Temporal Action Detection with Relative Boundary Modeling

要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TriDet: Temporal Action Detection with Relative Boundary Modeling はコメントを受け付けていません

Lana: A Language-Capable Navigator for Instruction Following and Generation

要約 最近、ロボット エージェントがナビゲーションの指示に従うことを伴う視覚言語 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | Lana: A Language-Capable Navigator for Instruction Following and Generation はコメントを受け付けていません

Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022

要約 このペーパーでは、データ駆動型の自動共同音声ジェスチャ生成をベンチマークす … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.MM, I.2 | Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022 はコメントを受け付けていません

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos

要約 トリミングされていないビデオが与えられた場合、テンポラル センテンス グラ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos はコメントを受け付けていません

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models

要約 Contrastive Language-Image Pre-traini … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | SuS-X: Training-Free Name-Only Transfer of Vision-Language Models はコメントを受け付けていません

Temporal Sentence Grounding in Videos: A Survey and Future Directions

要約 ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Temporal Sentence Grounding in Videos: A Survey and Future Directions はコメントを受け付けていません

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents

要約 大規模なデータセットでトレーニングされた Foundation モデルは、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents はコメントを受け付けていません

TriDet: Temporal Action Detection with Relative Boundary Modeling

要約 この論文では、一時的なアクション検出のための 1 段階のフレームワーク T … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TriDet: Temporal Action Detection with Relative Boundary Modeling はコメントを受け付けていません

MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling

要約 ビデオと言語の理解には、ビデオによる質問への回答、テキストとビデオの検索、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MuLTI: Efficient Video-and-Language Understanding with MultiWay-Sampler and Multiple Choice Modeling はコメントを受け付けていません