「cs.MM」カテゴリーアーカイブ

ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors

投稿日: 2023年11月10日作成者: jarxiv

要約最近、マルチメディアコミュニティは、特にテキストから画像への生成の分野で … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models

投稿日: 2023年11月10日作成者: jarxiv

要約テキスト駆動のスタイル化による 3D コンテンツの作成は、マルチメディアお … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

What Do I Hear? Generating Sounds for Visuals with ChatGPT

投稿日: 2023年11月10日作成者: jarxiv

要約この短いペーパーでは、ビジュアルメディアのリアルなサウンドスケープを生成 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations

投稿日: 2023年11月10日作成者: jarxiv

要約人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | コメントを受け付けていません

Rethinking Event-based Human Pose Estimation with 3D Event Representations

投稿日: 2023年11月9日作成者: jarxiv

要約人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | コメントを受け付けていません

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction

投稿日: 2023年11月9日作成者: jarxiv

要約感情認識は人間の会話を理解するために重要なタスクです。言語、音声、表情な … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

投稿日: 2023年11月8日作成者: jarxiv

要約言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata

投稿日: 2023年11月8日作成者: jarxiv

要約音楽メタデータのセマンティック記述は、情報検索や知識発見のために調整、統合 … 続きを読む →

カテゴリー: 68T30, cs.AI, cs.IR, cs.MM | コメントを受け付けていません

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space

投稿日: 2023年11月8日作成者: jarxiv

要約不規則な動きと区別できない外観を持つ複数のオブジェクトを追跡するための C … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Can CLIP Help Sound Source Localization?

投稿日: 2023年11月8日作成者: jarxiv

要約大規模な事前トレーニング済み画像テキストモデルは、その堅牢な表現機能と効 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors

3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models

What Do I Hear? Generating Sounds for Visuals with ChatGPT

Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations

Rethinking Event-based Human Pose Estimation with 3D Event Representations

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space

Can CLIP Help Sound Source Localization?

最近の投稿

最近のコメント

アーカイブ

カテゴリー