cs.MM」カテゴリーアーカイブ

A Rate-Distortion-Classification Approach for Lossy Image Compression

要約 非可逆画像圧縮では、指定されたビットレートに画像を圧縮しながら、最小限の信 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IT, cs.MM, math.IT | A Rate-Distortion-Classification Approach for Lossy Image Compression はコメントを受け付けていません

In Anticipation of Perfect Deepfake: Identity-anchored Artifact-agnostic Detection under Rebalanced Deepfake Detection Protocol

要約 ディープ生成モデルが進歩するにつれて、ディープフェイクが「完璧」、つまり認 … 続きを読む

カテゴリー: cs.CV, cs.MM | In Anticipation of Perfect Deepfake: Identity-anchored Artifact-agnostic Detection under Rebalanced Deepfake Detection Protocol はコメントを受け付けていません

EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model

要約 感情 AI は、人間の感情状態を理解するコンピューターの能力です。 既存の … 続きを読む

カテゴリー: cs.CV, cs.MM | EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model はコメントを受け付けていません

Towards Real-world Video Face Restoration: A New Benchmark

要約 画像上のブラインド顔復元(BFR)はここ数年で大幅に進歩しましたが、現実世 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | Towards Real-world Video Face Restoration: A New Benchmark はコメントを受け付けていません

ComposerX: Multi-Agent Symbolic Music Composition with LLMs

要約 音楽作曲は人類の創造的な側面を表しており、それ自体が長い依存関係とハーモニ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | ComposerX: Multi-Agent Symbolic Music Composition with LLMs はコメントを受け付けていません

SemiPL: A Semi-supervised Method for Event Sound Source Localization

要約 近年、イベント音源定位はさまざまな分野で広く応用されています。 最近の作品 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | SemiPL: A Semi-supervised Method for Event Sound Source Localization はコメントを受け付けていません

Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models

要約 画像検索は、マルチメディアおよびコンピュータ ビジョンにおいて極めて重要な … 続きを読む

カテゴリー: cs.CV, cs.MM | Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models はコメントを受け付けていません

Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models

要約 Large Vision-Language Model (LVLM) は、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models はコメントを受け付けていません

CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions

要約 可視赤外線スペクトルの手がかりを統合したクロスモダリティ画像は、物体検出の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions はコメントを受け付けていません

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

要約 マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs はコメントを受け付けていません