「cs.MM」カテゴリーアーカイブ

Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation

投稿日: 2025年2月6日作成者: jarxiv

要約マルチモーダルの知識を大規模な言語モデル（LLMS）に統合することは、対話 … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search

投稿日: 2025年2月6日作成者: jarxiv

要約このペーパーでは、テキストベースの人の異常検索（TPA）に関するWWW 2 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

投稿日: 2025年2月6日作成者: jarxiv

要約最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Seeing World Dynamics in a Nutshell

投稿日: 2025年2月6日作成者: jarxiv

要約私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models

投稿日: 2025年2月5日作成者: jarxiv

要約 GPT-4のような大規模言語モデル(LLM)と拡張現実感(XR)技術の統合 … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter

投稿日: 2025年1月31日作成者: jarxiv

要約 Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching

投稿日: 2025年1月31日作成者: jarxiv

要約テキストツーイメージ（T2I）AIモデルの能力に最近の進歩により、製品設計 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | コメントを受け付けていません

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

投稿日: 2025年1月30日作成者: jarxiv

要約既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition

投稿日: 2025年1月29日作成者: jarxiv

要約コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチ … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

投稿日: 2025年1月29日作成者: jarxiv

要約このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation

Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

Seeing World Dynamics in a Nutshell

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models

DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter

Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

最近の投稿

最近のコメント

アーカイブ

カテゴリー