cs.MM」カテゴリーアーカイブ

EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model

要約 感情 AI は、人間の感情状態を理解するコンピューターの能力です。 既存の … 続きを読む

カテゴリー: cs.CV, cs.MM | EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model はコメントを受け付けていません

Towards Real-world Video Face Restoration: A New Benchmark

要約 画像上のブラインド顔復元(BFR)はここ数年で大幅に進歩しましたが、現実世 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | Towards Real-world Video Face Restoration: A New Benchmark はコメントを受け付けていません

ComposerX: Multi-Agent Symbolic Music Composition with LLMs

要約 音楽作曲は人類の創造的な側面を表しており、それ自体が長い依存関係とハーモニ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | ComposerX: Multi-Agent Symbolic Music Composition with LLMs はコメントを受け付けていません

SemiPL: A Semi-supervised Method for Event Sound Source Localization

要約 近年、イベント音源定位はさまざまな分野で広く応用されています。 最近の作品 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | SemiPL: A Semi-supervised Method for Event Sound Source Localization はコメントを受け付けていません

Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models

要約 画像検索は、マルチメディアおよびコンピュータ ビジョンにおいて極めて重要な … 続きを読む

カテゴリー: cs.CV, cs.MM | Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models はコメントを受け付けていません

Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models

要約 Large Vision-Language Model (LVLM) は、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Exploring the Distinctiveness and Fidelity of the Descriptions Generated by Large Vision-Language Models はコメントを受け付けていません

CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions

要約 可視赤外線スペクトルの手がかりを統合したクロスモダリティ画像は、物体検出の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions はコメントを受け付けていません

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

要約 マルチモーダル LLM は LLM の自然な進化であり、純粋なテキスト モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs はコメントを受け付けていません

Seeing Text in the Dark: Algorithm and Benchmark

要約 視覚的に劣化するため、暗い環境でテキストをローカライズするのは困難です。 … 続きを読む

カテゴリー: cs.CV, cs.MM | Seeing Text in the Dark: Algorithm and Benchmark はコメントを受け付けていません

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

要約 Large Vision-Language Model (LVLM) は物 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding はコメントを受け付けていません