月別アーカイブ: 2024年3月

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

投稿日: 2024年3月25日作成者: jarxiv

要約近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion

投稿日: 2024年3月25日作成者: jarxiv

要約ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集ア … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

LaMI: Large Language Models for Multi-Modal Human-Robot Interaction

投稿日: 2024年3月25日作成者: jarxiv

要約この論文では、マルチモーダルなヒューマンロボットインタラクション (H … 続きを読む →

カテゴリー: cs.HC, cs.RO | コメントを受け付けていません

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

投稿日: 2024年3月25日作成者: jarxiv

要約この研究では、第 6 回ワークショップおよび野外での感情行動分析に関するコ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation

投稿日: 2024年3月25日作成者: jarxiv

要約新しい具体化されたビジョンタスクとして、インスタンスイメージゴールナ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Learning Hierarchical Control For Multi-Agent Capacity-Constrained Systems

投稿日: 2024年3月25日作成者: jarxiv

要約この論文では、反復環境で非線形で容量に制約のある自律エージェント群を管理す … 続きを読む →

カテゴリー: cs.RO, cs.SY, eess.SY | コメントを受け付けていません

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

投稿日: 2024年3月25日作成者: jarxiv

要約ビデオ間の編集には、ソースビデオを追加のコントロール (テキストプロン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Don’t Explain Noise: Robust Counterfactuals for Randomized Ensembles

投稿日: 2024年3月24日作成者: jarxiv

要約反事実の説明では、トレーニングされた分類器の結果を反転するために特徴ベクト … 続きを読む →

カテゴリー: cs.LG, math.OC | コメントを受け付けていません

Knowledge-Enhanced Recommendation with User-Centric Subgraph Network

投稿日: 2024年3月24日作成者: jarxiv

要約レコメンデーションシステムは、現在さまざまなプラットフォームで広く実装さ … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.LG | コメントを受け付けていません

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

投稿日: 2024年3月24日作成者: jarxiv

要約この論文では、乳児の泣き声にラベルを付けたコレクションである Ubenwa … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

月別アーカイブ: 2024年3月

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion

LaMI: Large Language Models for Multi-Modal Human-Robot Interaction

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation

Learning Hierarchical Control For Multi-Agent Capacity-Constrained Systems

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

Don’t Explain Noise: Robust Counterfactuals for Randomized Ensembles

Knowledge-Enhanced Recommendation with User-Centric Subgraph Network

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

最近の投稿

最近のコメント

アーカイブ

カテゴリー