Integrating Cognitive Processing Signals into Language Models: A Review of Advances, Applications and Future Directions

要約

最近、自然言語処理(NLP)における認知神経科学の統合が大きな注目を集めています。
この記事では、言語モデル(LMS)およびマルチモーダル大手言語モデル(MLLM)を強化するために、認知信号、特に視線追跡(ET)シグナルを活用する際の最近の進歩の重要かつタイムリーな概要を説明します。
ユーザー中心の認知信号を組み込むことにより、これらのアプローチは、データ不足や大規模モデルのトレーニングの環境コストなど、重要な課題に対処します。
認知信号は、効率的なデータ増強、より速い収束、および人間のアライメントの改善を可能にします。
このレビューでは、視覚的な質問応答(VQA)やMLLMの幻覚の緩和などのタスクにおけるETデータの可能性を強調し、新しい課題と研究動向について議論することで締めくくります。

要約(オリジナル)

Recently, the integration of cognitive neuroscience in Natural Language Processing (NLP) has gained significant attention. This article provides a critical and timely overview of recent advancements in leveraging cognitive signals, particularly Eye-tracking (ET) signals, to enhance Language Models (LMs) and Multimodal Large Language Models (MLLMs). By incorporating user-centric cognitive signals, these approaches address key challenges, including data scarcity and the environmental costs of training large-scale models. Cognitive signals enable efficient data augmentation, faster convergence, and improved human alignment. The review emphasises the potential of ET data in tasks like Visual Question Answering (VQA) and mitigating hallucinations in MLLMs, and concludes by discussing emerging challenges and research trends.

arxiv情報

著者 Angela Lopez-Cardona,Sebastian Idesis,Ioannis Arapakis
発行日 2025-04-09 13:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク