cs.MM」カテゴリーアーカイブ

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning はコメントを受け付けていません

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning はコメントを受け付けていません

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction

要約 音声感情認識 (SER) における一般的なアプローチには、音声情報とテキス … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction はコメントを受け付けていません

Modularized Zero-shot VQA with Pre-trained Models

要約 大規模な事前トレーニング済みモデル (PTM) は、優れたゼロショット機能 … 続きを読む

カテゴリー: cs.CV, cs.MM | Modularized Zero-shot VQA with Pre-trained Models はコメントを受け付けていません

M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images

要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む

カテゴリー: cs.CV, cs.MM | M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images はコメントを受け付けていません

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

要約 マルチモーダル情報検索 (MMIR) は急速に進化している分野であり、高度 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM | SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval はコメントを受け付けていません

Benchmarking Large Multimodal Models against Common Corruptions

要約 この技術レポートは、一般的な破損にさらされた場合の出力の自己一貫性を特に調 … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG, cs.MM | Benchmarking Large Multimodal Models against Common Corruptions はコメントを受け付けていません

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

要約 大規模言語モデル (LLM) の成功に続き、Flamingo モデルやその … 続きを読む

カテゴリー: cs.CV, cs.MM | Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning はコメントを受け付けていません

M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images

要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む

カテゴリー: cs.CV, cs.MM | M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images はコメントを受け付けていません

On the Audio Hallucinations in Large Audio-Video Language Models

要約 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | On the Audio Hallucinations in Large Audio-Video Language Models はコメントを受け付けていません