cs.MM」カテゴリーアーカイブ

ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors

要約 最近、マルチメディア コミュニティは、特にテキストから画像への生成の分野で … 続きを読む

カテゴリー: cs.CV, cs.MM | ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors はコメントを受け付けていません

3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models

要約 テキスト駆動のスタイル化による 3D コンテンツの作成は、マルチメディアお … 続きを読む

カテゴリー: cs.CV, cs.MM | 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models はコメントを受け付けていません

What Do I Hear? Generating Sounds for Visuals with ChatGPT

要約 この短いペーパーでは、ビジュアル メディアのリアルなサウンドスケープを生成 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | What Do I Hear? Generating Sounds for Visuals with ChatGPT はコメントを受け付けていません

Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations

要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations はコメントを受け付けていません

Rethinking Event-based Human Pose Estimation with 3D Event Representations

要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Rethinking Event-based Human Pose Estimation with 3D Event Representations はコメントを受け付けていません

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction

要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む

カテゴリー: cs.CL, cs.MM | Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction はコメントを受け付けていません

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む

カテゴリー: cs.CL, cs.MM | MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter はコメントを受け付けていません

The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata

要約 音楽メタデータのセマンティック記述は、情報検索や知識発見のために調整、統合 … 続きを読む

カテゴリー: 68T30, cs.AI, cs.IR, cs.MM | The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata はコメントを受け付けていません

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space

要約 不規則な動きと区別できない外観を持つ複数のオブジェクトを追跡するための C … 続きを読む

カテゴリー: cs.CV, cs.MM | Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space はコメントを受け付けていません

Can CLIP Help Sound Source Localization?

要約 大規模な事前トレーニング済み画像テキスト モデルは、その堅牢な表現機能と効 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Can CLIP Help Sound Source Localization? はコメントを受け付けていません