要約
脳信号の複雑さは、マルチモーダルAIを活用して、説明可能な説明のために視覚データとテキストデータと脳のモダリティを整列させる研究を促進します。
ただし、ほとんどの既存の研究は粗い解釈に限定されており、オブジェクトの説明、場所、属性、およびその関係に関する本質的な詳細がありません。
これは、視覚的なデコードにそのような手がかりを使用する場合、不正確であいまいな再構成につながります。
これに対処するために、マルチモーダル大手言語モデル(MLLM)内の事前に訓練された視覚コンポーネントからの視力特徴スペースのさまざまな選択を分析し、これらのモデルと相互作用して複数のレベルの粒度にわたってデコードするゼロショットマルチモーダル脳デコード法を導入します。
%脳信号から細かい詳細を解読するモデルの能力を評価するために、多粒度の脳の詳細理解ベンチマーク(MG-BrainDub)を提案します。
このベンチマークには、2つの重要なタスクが含まれています。詳細な説明と顕著な質問回答。メトリックは、オブジェクト、属性、関係などの重要な視覚要素を強調しています。
私たちのアプローチは、神経デコード精度を強化し、より正確なニューロデコードアプリケーションをサポートします。
コードはhttps://github.com/weihaox/vindexで入手できます。
要約(オリジナル)
The intrication of brain signals drives research that leverages multimodal AI to align brain modalities with visual and textual data for explainable descriptions. However, most existing studies are limited to coarse interpretations, lacking essential details on object descriptions, locations, attributes, and their relationships. This leads to imprecise and ambiguous reconstructions when using such cues for visual decoding. To address this, we analyze different choices of vision feature spaces from pre-trained visual components within Multimodal Large Language Models (MLLMs) and introduce a zero-shot multimodal brain decoding method that interacts with these models to decode across multiple levels of granularities. % To assess a model’s ability to decode fine details from brain signals, we propose the Multi-Granularity Brain Detail Understanding Benchmark (MG-BrainDub). This benchmark includes two key tasks: detailed descriptions and salient question-answering, with metrics highlighting key visual elements like objects, attributes, and relationships. Our approach enhances neural decoding precision and supports more accurate neuro-decoding applications. Code will be available at https://github.com/weihaox/VINDEX.
arxiv情報
著者 | Weihao Xia,Cengiz Oztireli |
発行日 | 2025-05-21 17:01:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google