cs.AI」カテゴリーアーカイブ

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

要約 大規模マルチモーダル モデル (LMM) は、ビジュアル エンコーダーと大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models はコメントを受け付けていません

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion

要約 ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集ア … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion はコメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

要約 この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Unimodal Multi-Task Fusion for Emotional Mimicry Prediction はコメントを受け付けていません

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

要約 ビデオ間の編集には、ソース ビデオを追加のコントロール (テキスト プロン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks はコメントを受け付けていません

Knowledge-Enhanced Recommendation with User-Centric Subgraph Network

要約 レコメンデーション システムは、現在さまざまなプラットフォームで広く実装さ … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.LG | Knowledge-Enhanced Recommendation with User-Centric Subgraph Network はコメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

要約 この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds はコメントを受け付けていません

TD-MPC2: Scalable, Robust World Models for Continuous Control

要約 TD-MPC は、学習された暗黙的 (デコーダーなし) ワールド モデルの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | TD-MPC2: Scalable, Robust World Models for Continuous Control はコメントを受け付けていません

Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections

要約 今日のロボット ポリシーは、新しい環境に一般化するという課題に直面すると、 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections はコメントを受け付けていません

Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation

要約 オブジェクトとゴールのナビゲーションは、身体的ナビゲーションのコミュニティ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation はコメントを受け付けていません

SLIM: Skill Learning with Multiple Critics

要約 自己監視型スキル学習は、環境の根底にある力学を活用する有用な行動を獲得する … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | SLIM: Skill Learning with Multiple Critics はコメントを受け付けていません