cs.MM」カテゴリーアーカイブ

Benchmarking Large Multimodal Models against Common Corruptions

要約 この技術レポートは、一般的な破損にさらされた場合の出力の自己一貫性を特に調 … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.CV, cs.LG, cs.MM | Benchmarking Large Multimodal Models against Common Corruptions はコメントを受け付けていません

Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

要約 大規模言語モデル (LLM) の成功に続き、Flamingo モデルやその … 続きを読む

カテゴリー: cs.CV, cs.MM | Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning はコメントを受け付けていません

M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images

要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む

カテゴリー: cs.CV, cs.MM | M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images はコメントを受け付けていません

On the Audio Hallucinations in Large Audio-Video Language Models

要約 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | On the Audio Hallucinations in Large Audio-Video Language Models はコメントを受け付けていません

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む

カテゴリー: cs.CL, cs.MM | MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter はコメントを受け付けていません

Vlogger: Make Your Dream A Vlog

要約 この研究では、ユーザー説明の分レベルのビデオ ブログ (つまり、vlog) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Vlogger: Make Your Dream A Vlog はコメントを受け付けていません

Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

要約 Opinion-Unaware Blind Image Quality A … 続きを読む

カテゴリー: cs.CV, cs.MM | Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation はコメントを受け付けていません

E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning

要約 生物からインスピレーションを得たイベント カメラまたはダイナミック ビジョ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning はコメントを受け付けていません

End-to-End Optimized Image Compression with the Frequency-Oriented Transform

要約 画像圧縮は、情報爆発の時代の中で重要な課題となっています。 深層学習手法を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | End-to-End Optimized Image Compression with the Frequency-Oriented Transform はコメントを受け付けていません

Learning Temporal Resolution in Spectrogram for Audio Classification

要約 オーディオ スペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | Learning Temporal Resolution in Spectrogram for Audio Classification はコメントを受け付けていません