cs.MM」カテゴリーアーカイブ

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

要約 LLaVA-Plus は、大規模なマルチモーダル モデルの機能を拡張する汎 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents はコメントを受け付けていません

Control3D: Towards Controllable Text-to-3D Generation

要約 大規模なテキストから画像への拡散モデルにおける最近の目覚ましい進歩により、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Control3D: Towards Controllable Text-to-3D Generation はコメントを受け付けていません

ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors

要約 最近、マルチメディア コミュニティは、特にテキストから画像への生成の分野で … 続きを読む

カテゴリー: cs.CV, cs.MM | ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors はコメントを受け付けていません

3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models

要約 テキスト駆動のスタイル化による 3D コンテンツの作成は、マルチメディアお … 続きを読む

カテゴリー: cs.CV, cs.MM | 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models はコメントを受け付けていません

What Do I Hear? Generating Sounds for Visuals with ChatGPT

要約 この短いペーパーでは、ビジュアル メディアのリアルなサウンドスケープを生成 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | What Do I Hear? Generating Sounds for Visuals with ChatGPT はコメントを受け付けていません

Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations

要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations はコメントを受け付けていません

Rethinking Event-based Human Pose Estimation with 3D Event Representations

要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Rethinking Event-based Human Pose Estimation with 3D Event Representations はコメントを受け付けていません

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction

要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む

カテゴリー: cs.CL, cs.MM | Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction はコメントを受け付けていません

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む

カテゴリー: cs.CL, cs.MM | MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter はコメントを受け付けていません

The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata

要約 音楽メタデータのセマンティック記述は、情報検索や知識発見のために調整、統合 … 続きを読む

カテゴリー: 68T30, cs.AI, cs.IR, cs.MM | The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata はコメントを受け付けていません