CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts

要約

大規模言語モデル (LLM) は、あらゆる種類の下流タスクで優れたパフォーマンスを発揮するため、最近コミュニティから大きな注目を集めています。
よく知られているスケーリングの法則によれば、高密度 LLM をスケールアップすると、その機能が強化されますが、計算の複雑さも大幅に増加します。
Mixture-of-Experts (MoE) モデルは、トレーニングや推論のコストを大幅に増加させることなくモデルのサイズを拡大できるようにすることで、この問題に対処します。
しかし、MoE モデルは専門家間の知識共有に関して課題に直面しており、そのパフォーマンスが何らかの形で配線精度に影響を受けやすくなっています。
これに取り組むために、以前の作品では共有エキスパートを導入し、彼らの出力を $K$ ルートのトップエキスパートの出力と「追加」方式で組み合わせました。
この論文では、データ間の共有知識を学習するための集団行列因数分解にヒントを得て、より「掛け算」に近い方法で専門家間のより効果的な知識共有を実装する CartesianMoE を提案します。
広範な実験結果は、CartesianMoE が、複雑さとダウンストリーム タスクのパフォーマンスの両方の点で、LLM を構築するための以前の MoE モデルよりも優れていることを示しています。
また、CartesianMoE がより優れたエキスパート ルーティングの堅牢性を実現していることもわかりました。

要約(オリジナル)

Large language models (LLM) have been attracting much attention from the community recently, due to their remarkable performance in all kinds of downstream tasks. According to the well-known scaling law, scaling up a dense LLM enhances its capabilities, but also significantly increases the computational complexity. Mixture-of-Experts (MoE) models address that by allowing the model size to grow without substantially raising training or inference costs. Yet MoE models face challenges regarding knowledge sharing among experts, making their performance somehow sensitive to routing accuracy. To tackle that, previous works introduced shared experts and combined their outputs with those of the top $K$ routed experts in an “addition” manner. In this paper, inspired by collective matrix factorization to learn shared knowledge among data, we propose CartesianMoE, which implements more effective knowledge sharing among experts in more like a “multiplication” manner. Extensive experimental results indicate that CartesianMoE outperforms previous MoE models for building LLMs, in terms of both perplexity and downstream task performance. And we also find that CartesianMoE achieves better expert routing robustness.

arxiv情報

著者 Zhenpeng Su,Xing Wu,Zijia Lin,Yizhe Xiong,Minxuan Lv,Guangyuan Ma,Hui Chen,Songlin Hu,Guiguang Ding
発行日 2024-10-21 14:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts はコメントを受け付けていません

Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

要約

皮質電図検査 (ECoG) を備えた侵襲的な脳とコンピューターのインターフェイスは、医療用途における高性能音声デコードに有望であることが示されていますが、頭蓋内ステレオ脳波検査 (sEEG) のような害の少ない方法はまだ研究されていません。
表現学習の急速な進歩により、豊富な録音を活用して音声デコードを強化することがますます魅力的になっています。
しかし、一般的な手法では、脳レベルのトークンに基づいて時間モデルを事前トレーニングすることが多く、タスク中にさまざまな領域の脳活動が高度に非同期化することが見落とされています。
あるいは、チャネルレベルのトークンに基づいて時空間モデルを事前トレーニングしますが、特定の言語関連領域で複雑な処理を必要とする音声デコードなどの困難なタスクではモデルを評価できません。
この問題に対処するために、12 人の被験者から言語関連の脳ネットワークを対象とした、十分に注釈が付けられた中国語単語読み取り sEEG データセットを収集しました。
このベンチマークを使用して、離散コーデックスに基づくマスク モデリングを通じて領域レベルのトークンに基づいてコンテキスト エンベディングを抽出する Du-IN モデルを開発しました。
私たちのモデルは、61 単語の分類タスクで最先端のパフォーマンスを達成し、すべてのベースラインを上回りました。
モデルの比較とアブレーション研究により、(i) 1D 深さ方向畳み込みを利用して外側感覚運動野 (vSMC) と上側頭回 (STG) のチャネルを融合することによる領域レベルのトークンに基づく時間的モデリング、および (ii)
個別のコーデックスに基づくマスク モデリングによる自己監視は、このパフォーマンスに大きく貢献します。
全体として、神経科学の発見に触発され、特定の脳領域からの領域レベルの表現を利用する私たちのアプローチは、侵襲的な脳モデリングに適しており、脳とコンピューターのインターフェイスにおける有望な神経にインスピレーションを受けた AI アプローチを表しています。

要約(オリジナル)

Invasive brain-computer interfaces with Electrocorticography (ECoG) have shown promise for high-performance speech decoding in medical applications, but less damaging methods like intracranial stereo-electroencephalography (sEEG) remain underexplored. With rapid advances in representation learning, leveraging abundant recordings to enhance speech decoding is increasingly attractive. However, popular methods often pre-train temporal models based on brain-level tokens, overlooking that brain activities in different regions are highly desynchronized during tasks. Alternatively, they pre-train spatial-temporal models based on channel-level tokens but fail to evaluate them on challenging tasks like speech decoding, which requires intricate processing in specific language-related areas. To address this issue, we collected a well-annotated Chinese word-reading sEEG dataset targeting language-related brain networks from 12 subjects. Using this benchmark, we developed the Du-IN model, which extracts contextual embeddings based on region-level tokens through discrete codex-guided mask modeling. Our model achieves state-of-the-art performance on the 61-word classification task, surpassing all baselines. Model comparisons and ablation studies reveal that our design choices, including (i) temporal modeling based on region-level tokens by utilizing 1D depthwise convolution to fuse channels in the lateral sensorimotor cortex (vSMC) and superior temporal gyrus (STG) and (ii) self-supervision through discrete codex-guided mask modeling, significantly contribute to this performance. Overall, our approach — inspired by neuroscience findings and capitalizing on region-level representations from specific brain regions — is suitable for invasive brain modeling and represents a promising neuro-inspired AI approach in brain-computer interfaces.

arxiv情報

著者 Hui Zheng,Hai-Teng Wang,Wei-Bang Jiang,Zhong-Tao Chen,Li He,Pei-Yang Lin,Peng-Hu Wei,Guo-Guang Zhao,Yun-Zhe Liu
発行日 2024-10-21 15:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.SP, q-bio.NC | Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals はコメントを受け付けていません

Analysing the Residual Stream of Language Models Under Knowledge Conflicts

要約

大規模言語モデル (LLM) は、パラメーターに大量の事実の知識を保存できます。
ただし、パラメトリックな知識は、コンテキストで提供される情報と矛盾する可能性があります。
このような競合は、古い情報や不正確な情報への依存など、モデルの望ましくない動作につながる可能性があります。
この研究では、LLM が知識の競合を識別できるかどうか、また LLM の残差ストリームを分析することでモデルがどの知識源に依存するかを知ることができるかどうかを調査します。
調査タスクを通じて、LLM が残差ストリーム内の知識競合の信号を内部的に登録できることがわかり、これは中間モデルの活性化を調査することで正確に検出できます。
これにより、入力パラメーターやモデル パラメーターを変更せずに、応答を生成する前に残差ストリーム内の競合を検出できます。
さらに、モデルが矛盾を解決するためにコンテキスト知識とパラメトリック知識に依存する場合、残差ストリームは大きく異なるパターンを示すことがわかりました。
このパターンを使用すると、競合が発生したときの LLM の動作を推定し、応答を生成する前に予期しない応答を防ぐことができます。
私たちの分析は、LLM が知識の競合を内部でどのように管理しているかについての洞察を提供し、知識の選択プロセスを制御する方法を開発するための基盤を提供します。

要約(オリジナル)

Large language models (LLMs) can store a significant amount of factual knowledge in their parameters. However, their parametric knowledge may conflict with the information provided in the context. Such conflicts can lead to undesirable model behaviour, such as reliance on outdated or incorrect information. In this work, we investigate whether LLMs can identify knowledge conflicts and whether it is possible to know which source of knowledge the model will rely on by analysing the residual stream of the LLM. Through probing tasks, we find that LLMs can internally register the signal of knowledge conflict in the residual stream, which can be accurately detected by probing the intermediate model activations. This allows us to detect conflicts within the residual stream before generating the answers without modifying the input or model parameters. Moreover, we find that the residual stream shows significantly different patterns when the model relies on contextual knowledge versus parametric knowledge to resolve conflicts. This pattern can be employed to estimate the behaviour of LLMs when conflict happens and prevent unexpected answers before producing the answers. Our analysis offers insights into how LLMs internally manage knowledge conflicts and provides a foundation for developing methods to control the knowledge selection processes.

arxiv情報

著者 Yu Zhao,Xiaotang Du,Giwon Hong,Aryo Pradipta Gema,Alessio Devoto,Hongru Wang,Xuanli He,Kam-Fai Wong,Pasquale Minervini
発行日 2024-10-21 15:12:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Analysing the Residual Stream of Language Models Under Knowledge Conflicts はコメントを受け付けていません

Aligning Translation-Specific Understanding to General Understanding in Large Language Models

要約

大規模言語モデル (LLM) は、複雑なテキストを理解する際に優れた能力を発揮し、人間のような翻訳パフォーマンスへの有望な道を提供します。
しかし、この研究では、翻訳固有の理解と LLM 内の一般的な理解の間に不整合があることが明らかになりました。
この理解のずれにより、LLM は、一般的なシナリオ (QA など) では正確に理解しているいくつかの複雑な概念を誤って文字通りに翻訳してしまうことにつながります。
翻訳特有の理解を一般的な理解に合わせるために、我々は、一貫性のない理解が生じる複雑な内容に対する一般的な理解を明示的に組み込んで翻訳を導く、新しい翻訳プロセスDUAT(Difficult Words Understanding Aligned Translation)を提案します。
具体的には、DUAT は翻訳が難しい単語に対して言語間解釈を実行し、生成された解釈で翻訳を強化します。
さらに、外部ツールを再構築して、難しい単語の検出と役立つ解釈の生成における DUAT を改善しました。
私たちは、誤訳されやすいサンプルから構成される、自己構築したベンチマーク Challenge-WMT で実験を実施します。
高リソース言語と低リソース言語のペアに対する人間による評価の結果は、DUAT が理解の調整を大幅に促進し、翻訳品質 (最大 +3.85 COMET) を向上させ、翻訳の文字通り性を -25% から -51% 低下させることを示しています。

要約(オリジナル)

Large Language models (LLMs) have exhibited remarkable abilities in understanding complex texts, offering a promising path towards human-like translation performance. However, this study reveals the misalignment between the translation-specific understanding and the general understanding inside LLMs. This understanding misalignment leads to LLMs mistakenly or literally translating some complicated concepts that they accurately comprehend in the general scenarios (e.g., QA). To align the translation-specific understanding to the general one, we propose a novel translation process, DUAT (Difficult words Understanding Aligned Translation), explicitly incorporating the general understanding on the complicated content incurring inconsistent understanding to guide the translation. Specifically, DUAT performs cross-lingual interpretation for the difficult-to-translate words and enhances the translation with the generated interpretations. Furthermore, we reframe the external tools to improve DUAT in detecting difficult words and generating helpful interpretations. We conduct experiments on the self-constructed benchmark Challenge-WMT, consisting of samples that are prone to mistranslation. Human evaluation results on high-resource and low-resource language pairs indicate that DUAT significantly facilitates the understanding alignment, which improves the translation quality (up to +3.85 COMET) and reduces the literality of the translation by -25% to -51%.

arxiv情報

著者 Yichong Huang,Baohang Li,Xiaocheng Feng,Chengpeng Fu,Wenshuai Huo,Ting Liu,Bing Qin
発行日 2024-10-21 15:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aligning Translation-Specific Understanding to General Understanding in Large Language Models はコメントを受け付けていません

On the Role of Context in Reading Time Prediction

要約

私たちは、リアルタイムの言語理解中に読者がどのように文脈を統合するかについて、新しい視点を提示します。
私たちの提案は、言語単位 (単語など) の処理量がそのコンテキスト内の情報内容のアフィン関数であると仮定する意外な理論に基づいています。
まず、サプライズは、言語モデルから文脈予測子を導き出すことができる多くの潜在的な方法のうちの 1 つにすぎないことを観察します。
もう 1 つは、ユニットとそのコンテキストの間の点ごとの相互情報量 (PMI) で、ユニグラム頻度を制御するときにサプライズと同じ予測力が得られることがわかります。
さらに、PMI と驚きは両方とも頻度と相関しています。
これは、PMI もサプライズも、コンテキストのみに関する情報が含まれていないことを意味します。
これに応じて、周波数の直交補数に驚きを投影し、周波数と相関のない新しい文脈予測子を生成する手法を提案します。
私たちの実験では、コンテキストが直交化予測子で表される場合、コンテキストによって説明される読書時間の分散の割合がはるかに小さくなることがわかりました。
解釈可能性の観点から見ると、これは、以前の研究が読書時間を予測する際に文脈が持つ役割を誇張していた可能性があることを示しています。

要約(オリジナル)

We present a new perspective on how readers integrate context during real-time language comprehension. Our proposals build on surprisal theory, which posits that the processing effort of a linguistic unit (e.g., a word) is an affine function of its in-context information content. We first observe that surprisal is only one out of many potential ways that a contextual predictor can be derived from a language model. Another one is the pointwise mutual information (PMI) between a unit and its context, which turns out to yield the same predictive power as surprisal when controlling for unigram frequency. Moreover, both PMI and surprisal are correlated with frequency. This means that neither PMI nor surprisal contains information about context alone. In response to this, we propose a technique where we project surprisal onto the orthogonal complement of frequency, yielding a new contextual predictor that is uncorrelated with frequency. Our experiments show that the proportion of variance in reading times explained by context is a lot smaller when context is represented by the orthogonalized predictor. From an interpretability standpoint, this indicates that previous studies may have overstated the role that context has in predicting reading times.

arxiv情報

著者 Andreas Opedal,Eleanor Chodroff,Ryan Cotterell,Ethan Gotlieb Wilcox
発行日 2024-10-21 15:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On the Role of Context in Reading Time Prediction はコメントを受け付けていません

Do LLMs write like humans? Variation in grammatical and rhetorical styles

要約

大規模言語モデル (LLM) は、指示に従い、質問に答え、問題を解決する文法テキストを作成できます。
彼らが進歩するにつれて、その出力を人間が書いたテキストと区別することが困難になってきました。
過去の研究では、単語の選択や句読点などの表面的な特徴の違いが発見され、LLM 出力を検出するための分類器が開発されましたが、LLM の修辞スタイルを研究したものはありませんでした。
Llama 3 と GPT-4o のいくつかのバリアントを使用して、共通のプロンプトから人間と LLM が書いたテキストの 2 つの並列コーパスを構築します。
Douglas Biber の一連の語彙、文法、および修辞的特徴を使用して、LLM と人間の間、および異なる LLM 間の体系的な違いを特定します。
これらの違いは、小規模なモデルから大規模なモデルに移行しても持続し、命令調整されたモデルでは基本モデルよりも大きくなります。
これは、LLM がその高度な能力にもかかわらず、人間のスタイルに合わせるのに苦労しているため、より高度な言語機能により、これまで認識されていなかった行動のパターンを検出できることを示しています。

要約(オリジナル)

Large language models (LLMs) are capable of writing grammatical text that follows instructions, answers questions, and solves problems. As they have advanced, it has become difficult to distinguish their output from human-written text. While past research has found some differences in surface features such as word choice and punctuation, and developed classifiers to detect LLM output, none has studied the rhetorical styles of LLMs. Using several variants of Llama 3 and GPT-4o, we construct two parallel corpora of human- and LLM-written texts from common prompts. Using Douglas Biber’s set of lexical, grammatical, and rhetorical features, we identify systematic differences between LLMs and humans and between different LLMs. These differences persist when moving from smaller models to larger ones, and are larger for instruction-tuned models than base models. This demonstrates that despite their advanced abilities, LLMs struggle to match human styles, and hence more advanced linguistic features can detect patterns in their behavior not previously recognized.

arxiv情報

著者 Alex Reinhart,David West Brown,Ben Markey,Michael Laudenbach,Kachatad Pantusen,Ronald Yurko,Gordon Weinberg
発行日 2024-10-21 15:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do LLMs write like humans? Variation in grammatical and rhetorical styles はコメントを受け付けていません

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

要約

言語エージェントは、言語モデル (LM) 上に構築され、オープン Web などの複雑な環境と対話できるシステムです。
この研究では、そのようなエージェントが、不動産市場の監視や近隣の関連企業の検索など、現実的で時間のかかるタスクをウェブ上で実行できるかどうかを検証します。
AssistantBench は、さまざまなシナリオやドメインをカバーし、自動的に評価できる 214 の現実的なタスクで構成される、挑戦的な新しいベンチマークです。
どのモデルも 26 ポイントを超える精度に達していないため、AssistantBench は言語モデルや検索拡張言語モデルを含む現在のシステムの限界を露呈していることがわかりました。
クローズドブック LM は精度の点では優れていますが、精度が低く、事実を幻覚する傾向があります。
最先端の Web エージェントのスコアはほぼゼロに達します。
さらに、以前のエージェントを大幅に上回る新しい Web エージェントである SeePlanAct (SPA) を導入し、SPA とクローズドブック モデルのアンサンブルが最高の全体的なパフォーマンスを実現します。
さらに、現在のシステムの障害を分析し、オープンな Web ナビゲーションが依然として大きな課題であることを強調します。

要約(オリジナル)

Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 26 points. While closed-book LMs perform well in terms of accuracy, they exhibit low precision and tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that open web navigation remains a major challenge.

arxiv情報

著者 Ori Yoran,Samuel Joseph Amouyal,Chaitanya Malaviya,Ben Bogin,Ofir Press,Jonathan Berant
発行日 2024-10-21 15:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? はコメントを受け付けていません

PromptExp: Multi-granularity Prompt Explanation of Large Language Models

要約

大規模言語モデルは、自然言語理解やテキスト生成などのタスクに優れています。
LLM を効果的に活用するには、迅速なエンジニアリングが重要な役割を果たします。
ただし、LLM のブラックボックスの性質により、その解釈可能性と効果的なプロンプト エンジニアリングが妨げられます。
深層学習モデル向けに幅広いモデル説明アプローチが開発されていますが、これらのローカル説明は分類や回帰などの単一出力タスク向けに設計されており、トークンのシーケンスを生成する LLM に直接適用することはできません。
LLM の説明における最近の取り組みは、自然言語による説明に重点を置いていますが、幻覚や不正確さが生じやすいです。
これに対処するために、トークンレベルの洞察を集約することにより、複数の粒度でプロンプト説明を行うためのフレームワークである OurTool を導入します。
OurTool は、2 つのトークン レベルの説明アプローチを導入します。1. ローカル説明手法を組み合わせた集約ベースのアプローチ、2. トークン マスキングの影響を評価するための新しい手法を備えた摂動ベースのアプローチです。
OurTool は、ホワイトボックスとブラックボックスの両方の説明をサポートし、説明をより高い粒度レベルに拡張して、柔軟な分析を可能にします。
私たちはセンチメント分析などのケーススタディで OurTool を評価し、摂動の影響を評価するために意味論的な類似性を使用して摂動ベースのアプローチが最適に機能することを示しています。
さらに、OurTool の精度と実用的な価値を確認するためにユーザー調査を実施し、LLM の解釈可能性を高める可能性を実証しました。

要約(オリジナル)

Large Language Models excel in tasks like natural language understanding and text generation. Prompt engineering plays a critical role in leveraging LLM effectively. However, LLMs black-box nature hinders its interpretability and effective prompting engineering. A wide range of model explanation approaches have been developed for deep learning models, However, these local explanations are designed for single-output tasks like classification and regression,and cannot be directly applied to LLMs, which generate sequences of tokens. Recent efforts in LLM explanation focus on natural language explanations, but they are prone to hallucinations and inaccuracies. To address this, we introduce OurTool, a framework for multi-granularity prompt explanations by aggregating token-level insights. OurTool introduces two token-level explanation approaches: 1.an aggregation-based approach combining local explanation techniques, and 2. a perturbation-based approach with novel techniques to evaluate token masking impact. OurTool supports both white-box and black-box explanations and extends explanations to higher granularity levels, enabling flexible analysis. We evaluate OurTool in case studies such as sentiment analysis, showing the perturbation-based approach performs best using semantic similarity to assess perturbation impact. Furthermore, we conducted a user study to confirm OurTool’s accuracy and practical value, and demonstrate its potential to enhance LLM interpretability.

arxiv情報

著者 Ximing Dong,Shaowei Wang,Dayi Lin,Gopi Krishnan Rajbahadur,Boquan Zhou,Shichao Liu,Ahmed E. Hassan
発行日 2024-10-21 15:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PromptExp: Multi-granularity Prompt Explanation of Large Language Models はコメントを受け付けていません

Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning

要約

大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報の理解と推論において優れた能力が示されています。
しかし、これらのモデルは依然として、存在しない音声イベントの幻覚、音声イベントの順序の誤認、音源の誤った帰属などの課題に直面しており、信頼性や現実世界への応用が損なわれています。
これらの問題を体系的に評価するために、オーディオ内のオブジェクトの存在、時間的順序、およびオブジェクトの属性という 3 つの異なるタスクを提案します。
これらのタスクは、重要なオーディオ情報の側面に対するモデルの理解を評価します。
私たちの実験結果は、これらの基本的なタスクの限界を明らかにし、特定の音声イベントの認識、イベントシーケンスの決定、音源の特定においてより優れたモデルの必要性を強調しています。
これらの領域のパフォーマンスを向上させるために、マルチターン思考連鎖アプローチを導入します。これにより、提案されたタスク全体でモデルのパフォーマンスが大幅に向上することが実証されています。

要約(オリジナル)

Recent advancements in large audio-language models (LALMs) have shown impressive capabilities in understanding and reasoning about audio and speech information. However, these models still face challenges, including hallucinating non-existent sound events, misidentifying the order of sound events, and incorrectly attributing sound sources, which undermine their reliability and real-world application. To systematically evaluate these issues, we propose three distinct tasks: object existence, temporal order, and object attribute within audio. These tasks assess the models’ comprehension of critical audio information aspects. Our experimental results reveal limitations in these fundamental tasks, underscoring the need for better models in recognizing specific sound events, determining event sequences, and identifying sound sources. To improve performance in these areas, we introduce a multi-turn chain-of-thought approach, which demonstrates significantly improved model performance across the proposed tasks.

arxiv情報

著者 Chun-Yi Kuan,Hung-yi Lee
発行日 2024-10-21 15:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning はコメントを受け付けていません

A Psycholinguistic Evaluation of Language Models’ Sensitivity to Argument Roles

要約

人間の議論の役割処理に関する心理言語学的研究を再現することにより、議論の役割、つまり誰が誰に何をしたかに対する大規模言語モデルの感受性の体系的な評価を提示します。
3 つの実験で、言語モデルが、もっともらしい文脈とありえない文脈に現れる動詞を区別できることがわかりました。もっともらしさは、動詞とその前の引数との関係によって決まります。
ただし、どのモデルも、人間の理解者がリアルタイムの動詞予測中に示すのと同じ選択パターンを捉えていません。
これは、動詞の妥当性を検出する言語モデルの能力が、人間のリアルタイム文処理の基礎となる同じメカニズムから生じたものではないことを示しています。

要約(オリジナル)

We present a systematic evaluation of large language models’ sensitivity to argument roles, i.e., who did what to whom, by replicating psycholinguistic studies on human argument role processing. In three experiments, we find that language models are able to distinguish verbs that appear in plausible and implausible contexts, where plausibility is determined through the relation between the verb and its preceding arguments. However, none of the models capture the same selective patterns that human comprehenders exhibit during real-time verb prediction. This indicates that language models’ capacity to detect verb plausibility does not arise from the same mechanism that underlies human real-time sentence processing.

arxiv情報

著者 Eun-Kyoung Rosa Lee,Sathvik Nair,Naomi Feldman
発行日 2024-10-21 16:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Psycholinguistic Evaluation of Language Models’ Sensitivity to Argument Roles はコメントを受け付けていません