cs.MM」カテゴリーアーカイブ

Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation

要約 マルチモーダルの知識を大規模な言語モデル(LLMS)に統合することは、対話 … 続きを読む

カテゴリー: cs.CL, cs.MM | Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation はコメントを受け付けていません

Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search

要約 このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2 … 続きを読む

カテゴリー: cs.CV, cs.MM | Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search はコメントを受け付けていません

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration はコメントを受け付けていません

Seeing World Dynamics in a Nutshell

要約 私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | Seeing World Dynamics in a Nutshell はコメントを受け付けていません

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models

要約 GPT-4のような大規模言語モデル(LLM)と拡張現実感(XR)技術の統合 … 続きを読む

カテゴリー: cs.AI, cs.MM | LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models はコメントを受け付けていません

DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter

要約 Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter はコメントを受け付けていません

Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching

要約 テキストツーイメージ(T2I)AIモデルの能力に最近の進歩により、製品設計 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching はコメントを受け付けていません

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

要約 既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を … 続きを読む

カテゴリー: cs.CV, cs.MM | When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding はコメントを受け付けていません

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition

要約 コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition はコメントを受け付けていません

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

要約 このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | Audio-Visual Deepfake Detection With Local Temporal Inconsistencies はコメントを受け付けていません