A Bi-consolidating Model for Joint Relational Triple Extraction

要約

関係トリプルを直接抽出する現在の方法は、エンティティ認識に依存せずに、生の文内の考えられるエンティティのペアに基づいて予測を行います。
このタスクは、いくつかの関係トリプルが文内の 1 つまたは 2 つのエンティティを共有する可能性があるという、深刻な意味の重複問題に悩まされています。
この論文では、二次元の文表現に基づいて、関係トリプルに関連するローカルおよびグローバルの意味論的特徴を同時に強化することによってこの問題に対処する二重統合モデルを提案します。
このモデルは、ローカル統合コンポーネントとグローバル統合コンポーネントで構成されます。
最初のコンポーネントは、ピクセル差分畳み込みを使用して、隣接領域からの可能なトリプル表現の意味情報を強化し、隣接領域のノイズを軽減します。
2 番目のコンポーネントは、チャネルの注意と空間の注意に基づいたトリプル表現を強化します。これには、文内のリモートの意味の依存関係を学習するという利点があります。
これらは、関係トリプル抽出におけるエンティティの識別と関係タイプの分類の両方のパフォーマンスを向上させるのに役立ちます。
いくつかの公開データセットで評価された後、二重統合モデルは競争力のあるパフォーマンスを達成します。
分析実験により、リレーショナル トリプル抽出に対するモデルの有効性が実証され、他の自然言語処理タスクへの動機付けが得られます。

要約(オリジナル)

Current methods to extract relational triples directly make a prediction based on a possible entity pair in a raw sentence without depending on entity recognition. The task suffers from a serious semantic overlapping problem, in which several relation triples may share one or two entities in a sentence. In this paper, based on a two-dimensional sentence representation, a bi-consolidating model is proposed to address this problem by simultaneously reinforcing the local and global semantic features relevant to a relation triple. This model consists of a local consolidation component and a global consolidation component. The first component uses a pixel difference convolution to enhance semantic information of a possible triple representation from adjacent regions and mitigate noise in neighbouring neighbours. The second component strengthens the triple representation based a channel attention and a spatial attention, which has the advantage to learn remote semantic dependencies in a sentence. They are helpful to improve the performance of both entity identification and relation type classification in relation triple extraction. After evaluated on several publish datasets, the bi-consolidating model achieves competitive performance. Analytical experiments demonstrate the effectiveness of our model for relational triple extraction and give motivation for other natural language processing tasks.

arxiv情報

著者 Xiaocheng Luo,Yanping Chen,Ruixue Tang,Caiwei Yang,Ruizhang Huang,Yongbin Qin
発行日 2024-10-21 14:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Bi-consolidating Model for Joint Relational Triple Extraction はコメントを受け付けていません

Surprise! Uniform Information Density Isn’t the Whole Story: Predicting Surprisal Contours in Long-form Discourse

要約

均一情報密度 (UID) 仮説は、話者は効率的なコミュニケーションを達成するために言語単位全体に情報を均等に分散する傾向があると仮定しています。
もちろん、テキストや談話の情報量は完全に均一ではありません。
これらの変動は、理論的には均一なターゲット上の興味のないノイズと見なすことができますが、別の説明として、言語の情報内容を制御する機能的圧力は UID だけではないということです。
講演者は、関心を維持し、書き方の慣習を遵守し、説得力のある議論を構築しようとすることもあります。
この論文では、そのような機能的圧力の 1 つを提案します。
つまり、話者は階層構造の談話モデル内の位置に基づいて情報速度を調整します。
私たちはこれを構造化コンテキスト仮説と呼び、談話構造から導き出された予測子を使用して、大規模な言語モデルから抽出された自然に発生する談話の意外な輪郭を予測することによってそれをテストします。
階層的予測子は言説の情報輪郭の重要な予測子であり、深くネストされた階層的予測子は浅い予測子よりも予測性が高いことがわかりました。
この研究は、UID を超えた最初のステップを踏み、情報速度が予測可能な方法で変動する理由について検証可能な仮説を提案します。

要約(オリジナル)

The Uniform Information Density (UID) hypothesis posits that speakers tend to distribute information evenly across linguistic units to achieve efficient communication. Of course, information rate in texts and discourses is not perfectly uniform. While these fluctuations can be viewed as theoretically uninteresting noise on top of a uniform target, another explanation is that UID is not the only functional pressure regulating information content in a language. Speakers may also seek to maintain interest, adhere to writing conventions, and build compelling arguments. In this paper, we propose one such functional pressure; namely that speakers modulate information rate based on location within a hierarchically-structured model of discourse. We term this the Structured Context Hypothesis and test it by predicting the surprisal contours of naturally occurring discourses extracted from large language models using predictors derived from discourse structure. We find that hierarchical predictors are significant predictors of a discourse’s information contour and that deeply nested hierarchical predictors are more predictive than shallow ones. This work takes an initial step beyond UID to propose testable hypotheses for why the information rate fluctuates in predictable ways

arxiv情報

著者 Eleftheria Tsipidi,Franz Nowak,Ryan Cotterell,Ethan Wilcox,Mario Giulianelli,Alex Warstadt
発行日 2024-10-21 14:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Surprise! Uniform Information Density Isn’t the Whole Story: Predicting Surprisal Contours in Long-form Discourse はコメントを受け付けていません

Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context

要約

人間によるイディオムの処理は、イディオムが出現する文脈上の文の理解に加え、頻度などの言語固有の特徴や、親しみやすさなどの話者固有の要素の理解に依存しています。
LLM は慣用句検出タスクで高いパフォーマンスを示していますが、この成功は既存のデータセットの推論ショートカットに起因している可能性があります。
この目的を達成するために、LLM が慣用的な意味を明確にするためにコンテキストを効果的に使用できるかどうかをテストするように設計された、新しい制御された対照的なデータセットを構築します。
さらに、共起頻度と文確率がモデルのパフォーマンスにどのような影響を与えるかを調査します。
私たちの調査結果は、LLM が周囲のコンテキストに注意を払う必要がある場合に慣用性を解決できないことがよくあること、および可能性が高い文ではモデルのパフォーマンスが優れていることを明らかにしています。
式の連語頻度もパフォーマンスに影響します。
私たちはコードとデータセットを公開しています。

要約(オリジナル)

Human processing of idioms relies on understanding the contextual sentences in which idioms occur, as well as language-intrinsic features such as frequency and speaker-intrinsic factors like familiarity. While LLMs have shown high performance on idiomaticity detection tasks, this success may be attributed to reasoning shortcuts in existing datasets. To this end, we construct a novel, controlled contrastive dataset designed to test whether LLMs can effectively use context to disambiguate idiomatic meaning. Additionally, we explore how collocational frequency and sentence probability influence model performance. Our findings reveal that LLMs often fail to resolve idiomaticity when it is required to attend to the surrounding context, and that models perform better on sentences that have higher likelihood. The collocational frequency of expressions also impacts performance. We make our code and dataset publicly available.

arxiv情報

著者 Maggie Mi,Aline Villavicencio,Nafise Sadat Moosavi
発行日 2024-10-21 14:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rolling the DICE on Idiomaticity: How LLMs Fail to Grasp Context はコメントを受け付けていません

CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts

要約

大規模言語モデル (LLM) は、あらゆる種類の下流タスクで優れたパフォーマンスを発揮するため、最近コミュニティから大きな注目を集めています。
よく知られているスケーリングの法則によれば、高密度 LLM をスケールアップすると、その機能が強化されますが、計算の複雑さも大幅に増加します。
Mixture-of-Experts (MoE) モデルは、トレーニングや推論のコストを大幅に増加させることなくモデルのサイズを拡大できるようにすることで、この問題に対処します。
しかし、MoE モデルは専門家間の知識共有に関して課題に直面しており、そのパフォーマンスが何らかの形で配線精度に影響を受けやすくなっています。
これに取り組むために、以前の作品では共有エキスパートを導入し、彼らの出力を $K$ ルートのトップエキスパートの出力と「追加」方式で組み合わせました。
この論文では、データ間の共有知識を学習するための集団行列因数分解にヒントを得て、より「掛け算」に近い方法で専門家間のより効果的な知識共有を実装する CartesianMoE を提案します。
広範な実験結果は、CartesianMoE が、複雑さとダウンストリーム タスクのパフォーマンスの両方の点で、LLM を構築するための以前の MoE モデルよりも優れていることを示しています。
また、CartesianMoE がより優れたエキスパート ルーティングの堅牢性を実現していることもわかりました。

要約(オリジナル)

Large language models (LLM) have been attracting much attention from the community recently, due to their remarkable performance in all kinds of downstream tasks. According to the well-known scaling law, scaling up a dense LLM enhances its capabilities, but also significantly increases the computational complexity. Mixture-of-Experts (MoE) models address that by allowing the model size to grow without substantially raising training or inference costs. Yet MoE models face challenges regarding knowledge sharing among experts, making their performance somehow sensitive to routing accuracy. To tackle that, previous works introduced shared experts and combined their outputs with those of the top $K$ routed experts in an “addition” manner. In this paper, inspired by collective matrix factorization to learn shared knowledge among data, we propose CartesianMoE, which implements more effective knowledge sharing among experts in more like a “multiplication” manner. Extensive experimental results indicate that CartesianMoE outperforms previous MoE models for building LLMs, in terms of both perplexity and downstream task performance. And we also find that CartesianMoE achieves better expert routing robustness.

arxiv情報

著者 Zhenpeng Su,Xing Wu,Zijia Lin,Yizhe Xiong,Minxuan Lv,Guangyuan Ma,Hui Chen,Songlin Hu,Guiguang Ding
発行日 2024-10-21 14:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts はコメントを受け付けていません

Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

要約

皮質電図検査 (ECoG) を備えた侵襲的な脳とコンピューターのインターフェイスは、医療用途における高性能音声デコードに有望であることが示されていますが、頭蓋内ステレオ脳波検査 (sEEG) のような害の少ない方法はまだ研究されていません。
表現学習の急速な進歩により、豊富な録音を活用して音声デコードを強化することがますます魅力的になっています。
しかし、一般的な手法では、脳レベルのトークンに基づいて時間モデルを事前トレーニングすることが多く、タスク中にさまざまな領域の脳活動が高度に非同期化することが見落とされています。
あるいは、チャネルレベルのトークンに基づいて時空間モデルを事前トレーニングしますが、特定の言語関連領域で複雑な処理を必要とする音声デコードなどの困難なタスクではモデルを評価できません。
この問題に対処するために、12 人の被験者から言語関連の脳ネットワークを対象とした、十分に注釈が付けられた中国語単語読み取り sEEG データセットを収集しました。
このベンチマークを使用して、離散コーデックスに基づくマスク モデリングを通じて領域レベルのトークンに基づいてコンテキスト エンベディングを抽出する Du-IN モデルを開発しました。
私たちのモデルは、61 単語の分類タスクで最先端のパフォーマンスを達成し、すべてのベースラインを上回りました。
モデルの比較とアブレーション研究により、(i) 1D 深さ方向畳み込みを利用して外側感覚運動野 (vSMC) と上側頭回 (STG) のチャネルを融合することによる領域レベルのトークンに基づく時間的モデリング、および (ii)
個別のコーデックスに基づくマスク モデリングによる自己監視は、このパフォーマンスに大きく貢献します。
全体として、神経科学の発見に触発され、特定の脳領域からの領域レベルの表現を利用する私たちのアプローチは、侵襲的な脳モデリングに適しており、脳とコンピューターのインターフェイスにおける有望な神経にインスピレーションを受けた AI アプローチを表しています。

要約(オリジナル)

Invasive brain-computer interfaces with Electrocorticography (ECoG) have shown promise for high-performance speech decoding in medical applications, but less damaging methods like intracranial stereo-electroencephalography (sEEG) remain underexplored. With rapid advances in representation learning, leveraging abundant recordings to enhance speech decoding is increasingly attractive. However, popular methods often pre-train temporal models based on brain-level tokens, overlooking that brain activities in different regions are highly desynchronized during tasks. Alternatively, they pre-train spatial-temporal models based on channel-level tokens but fail to evaluate them on challenging tasks like speech decoding, which requires intricate processing in specific language-related areas. To address this issue, we collected a well-annotated Chinese word-reading sEEG dataset targeting language-related brain networks from 12 subjects. Using this benchmark, we developed the Du-IN model, which extracts contextual embeddings based on region-level tokens through discrete codex-guided mask modeling. Our model achieves state-of-the-art performance on the 61-word classification task, surpassing all baselines. Model comparisons and ablation studies reveal that our design choices, including (i) temporal modeling based on region-level tokens by utilizing 1D depthwise convolution to fuse channels in the lateral sensorimotor cortex (vSMC) and superior temporal gyrus (STG) and (ii) self-supervision through discrete codex-guided mask modeling, significantly contribute to this performance. Overall, our approach — inspired by neuroscience findings and capitalizing on region-level representations from specific brain regions — is suitable for invasive brain modeling and represents a promising neuro-inspired AI approach in brain-computer interfaces.

arxiv情報

著者 Hui Zheng,Hai-Teng Wang,Wei-Bang Jiang,Zhong-Tao Chen,Li He,Pei-Yang Lin,Peng-Hu Wei,Guo-Guang Zhao,Yun-Zhe Liu
発行日 2024-10-21 15:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.SP, q-bio.NC | Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals はコメントを受け付けていません

Analysing the Residual Stream of Language Models Under Knowledge Conflicts

要約

大規模言語モデル (LLM) は、パラメーターに大量の事実の知識を保存できます。
ただし、パラメトリックな知識は、コンテキストで提供される情報と矛盾する可能性があります。
このような競合は、古い情報や不正確な情報への依存など、モデルの望ましくない動作につながる可能性があります。
この研究では、LLM が知識の競合を識別できるかどうか、また LLM の残差ストリームを分析することでモデルがどの知識源に依存するかを知ることができるかどうかを調査します。
調査タスクを通じて、LLM が残差ストリーム内の知識競合の信号を内部的に登録できることがわかり、これは中間モデルの活性化を調査することで正確に検出できます。
これにより、入力パラメーターやモデル パラメーターを変更せずに、応答を生成する前に残差ストリーム内の競合を検出できます。
さらに、モデルが矛盾を解決するためにコンテキスト知識とパラメトリック知識に依存する場合、残差ストリームは大きく異なるパターンを示すことがわかりました。
このパターンを使用すると、競合が発生したときの LLM の動作を推定し、応答を生成する前に予期しない応答を防ぐことができます。
私たちの分析は、LLM が知識の競合を内部でどのように管理しているかについての洞察を提供し、知識の選択プロセスを制御する方法を開発するための基盤を提供します。

要約(オリジナル)

Large language models (LLMs) can store a significant amount of factual knowledge in their parameters. However, their parametric knowledge may conflict with the information provided in the context. Such conflicts can lead to undesirable model behaviour, such as reliance on outdated or incorrect information. In this work, we investigate whether LLMs can identify knowledge conflicts and whether it is possible to know which source of knowledge the model will rely on by analysing the residual stream of the LLM. Through probing tasks, we find that LLMs can internally register the signal of knowledge conflict in the residual stream, which can be accurately detected by probing the intermediate model activations. This allows us to detect conflicts within the residual stream before generating the answers without modifying the input or model parameters. Moreover, we find that the residual stream shows significantly different patterns when the model relies on contextual knowledge versus parametric knowledge to resolve conflicts. This pattern can be employed to estimate the behaviour of LLMs when conflict happens and prevent unexpected answers before producing the answers. Our analysis offers insights into how LLMs internally manage knowledge conflicts and provides a foundation for developing methods to control the knowledge selection processes.

arxiv情報

著者 Yu Zhao,Xiaotang Du,Giwon Hong,Aryo Pradipta Gema,Alessio Devoto,Hongru Wang,Xuanli He,Kam-Fai Wong,Pasquale Minervini
発行日 2024-10-21 15:12:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Analysing the Residual Stream of Language Models Under Knowledge Conflicts はコメントを受け付けていません

Aligning Translation-Specific Understanding to General Understanding in Large Language Models

要約

大規模言語モデル (LLM) は、複雑なテキストを理解する際に優れた能力を発揮し、人間のような翻訳パフォーマンスへの有望な道を提供します。
しかし、この研究では、翻訳固有の理解と LLM 内の一般的な理解の間に不整合があることが明らかになりました。
この理解のずれにより、LLM は、一般的なシナリオ (QA など) では正確に理解しているいくつかの複雑な概念を誤って文字通りに翻訳してしまうことにつながります。
翻訳特有の理解を一般的な理解に合わせるために、我々は、一貫性のない理解が生じる複雑な内容に対する一般的な理解を明示的に組み込んで翻訳を導く、新しい翻訳プロセスDUAT(Difficult Words Understanding Aligned Translation)を提案します。
具体的には、DUAT は翻訳が難しい単語に対して言語間解釈を実行し、生成された解釈で翻訳を強化します。
さらに、外部ツールを再構築して、難しい単語の検出と役立つ解釈の生成における DUAT を改善しました。
私たちは、誤訳されやすいサンプルから構成される、自己構築したベンチマーク Challenge-WMT で実験を実施します。
高リソース言語と低リソース言語のペアに対する人間による評価の結果は、DUAT が理解の調整を大幅に促進し、翻訳品質 (最大 +3.85 COMET) を向上させ、翻訳の文字通り性を -25% から -51% 低下させることを示しています。

要約(オリジナル)

Large Language models (LLMs) have exhibited remarkable abilities in understanding complex texts, offering a promising path towards human-like translation performance. However, this study reveals the misalignment between the translation-specific understanding and the general understanding inside LLMs. This understanding misalignment leads to LLMs mistakenly or literally translating some complicated concepts that they accurately comprehend in the general scenarios (e.g., QA). To align the translation-specific understanding to the general one, we propose a novel translation process, DUAT (Difficult words Understanding Aligned Translation), explicitly incorporating the general understanding on the complicated content incurring inconsistent understanding to guide the translation. Specifically, DUAT performs cross-lingual interpretation for the difficult-to-translate words and enhances the translation with the generated interpretations. Furthermore, we reframe the external tools to improve DUAT in detecting difficult words and generating helpful interpretations. We conduct experiments on the self-constructed benchmark Challenge-WMT, consisting of samples that are prone to mistranslation. Human evaluation results on high-resource and low-resource language pairs indicate that DUAT significantly facilitates the understanding alignment, which improves the translation quality (up to +3.85 COMET) and reduces the literality of the translation by -25% to -51%.

arxiv情報

著者 Yichong Huang,Baohang Li,Xiaocheng Feng,Chengpeng Fu,Wenshuai Huo,Ting Liu,Bing Qin
発行日 2024-10-21 15:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aligning Translation-Specific Understanding to General Understanding in Large Language Models はコメントを受け付けていません

On the Role of Context in Reading Time Prediction

要約

私たちは、リアルタイムの言語理解中に読者がどのように文脈を統合するかについて、新しい視点を提示します。
私たちの提案は、言語単位 (単語など) の処理量がそのコンテキスト内の情報内容のアフィン関数であると仮定する意外な理論に基づいています。
まず、サプライズは、言語モデルから文脈予測子を導き出すことができる多くの潜在的な方法のうちの 1 つにすぎないことを観察します。
もう 1 つは、ユニットとそのコンテキストの間の点ごとの相互情報量 (PMI) で、ユニグラム頻度を制御するときにサプライズと同じ予測力が得られることがわかります。
さらに、PMI と驚きは両方とも頻度と相関しています。
これは、PMI もサプライズも、コンテキストのみに関する情報が含まれていないことを意味します。
これに応じて、周波数の直交補数に驚きを投影し、周波数と相関のない新しい文脈予測子を生成する手法を提案します。
私たちの実験では、コンテキストが直交化予測子で表される場合、コンテキストによって説明される読書時間の分散の割合がはるかに小さくなることがわかりました。
解釈可能性の観点から見ると、これは、以前の研究が読書時間を予測する際に文脈が持つ役割を誇張していた可能性があることを示しています。

要約(オリジナル)

We present a new perspective on how readers integrate context during real-time language comprehension. Our proposals build on surprisal theory, which posits that the processing effort of a linguistic unit (e.g., a word) is an affine function of its in-context information content. We first observe that surprisal is only one out of many potential ways that a contextual predictor can be derived from a language model. Another one is the pointwise mutual information (PMI) between a unit and its context, which turns out to yield the same predictive power as surprisal when controlling for unigram frequency. Moreover, both PMI and surprisal are correlated with frequency. This means that neither PMI nor surprisal contains information about context alone. In response to this, we propose a technique where we project surprisal onto the orthogonal complement of frequency, yielding a new contextual predictor that is uncorrelated with frequency. Our experiments show that the proportion of variance in reading times explained by context is a lot smaller when context is represented by the orthogonalized predictor. From an interpretability standpoint, this indicates that previous studies may have overstated the role that context has in predicting reading times.

arxiv情報

著者 Andreas Opedal,Eleanor Chodroff,Ryan Cotterell,Ethan Gotlieb Wilcox
発行日 2024-10-21 15:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On the Role of Context in Reading Time Prediction はコメントを受け付けていません

Do LLMs write like humans? Variation in grammatical and rhetorical styles

要約

大規模言語モデル (LLM) は、指示に従い、質問に答え、問題を解決する文法テキストを作成できます。
彼らが進歩するにつれて、その出力を人間が書いたテキストと区別することが困難になってきました。
過去の研究では、単語の選択や句読点などの表面的な特徴の違いが発見され、LLM 出力を検出するための分類器が開発されましたが、LLM の修辞スタイルを研究したものはありませんでした。
Llama 3 と GPT-4o のいくつかのバリアントを使用して、共通のプロンプトから人間と LLM が書いたテキストの 2 つの並列コーパスを構築します。
Douglas Biber の一連の語彙、文法、および修辞的特徴を使用して、LLM と人間の間、および異なる LLM 間の体系的な違いを特定します。
これらの違いは、小規模なモデルから大規模なモデルに移行しても持続し、命令調整されたモデルでは基本モデルよりも大きくなります。
これは、LLM がその高度な能力にもかかわらず、人間のスタイルに合わせるのに苦労しているため、より高度な言語機能により、これまで認識されていなかった行動のパターンを検出できることを示しています。

要約(オリジナル)

Large language models (LLMs) are capable of writing grammatical text that follows instructions, answers questions, and solves problems. As they have advanced, it has become difficult to distinguish their output from human-written text. While past research has found some differences in surface features such as word choice and punctuation, and developed classifiers to detect LLM output, none has studied the rhetorical styles of LLMs. Using several variants of Llama 3 and GPT-4o, we construct two parallel corpora of human- and LLM-written texts from common prompts. Using Douglas Biber’s set of lexical, grammatical, and rhetorical features, we identify systematic differences between LLMs and humans and between different LLMs. These differences persist when moving from smaller models to larger ones, and are larger for instruction-tuned models than base models. This demonstrates that despite their advanced abilities, LLMs struggle to match human styles, and hence more advanced linguistic features can detect patterns in their behavior not previously recognized.

arxiv情報

著者 Alex Reinhart,David West Brown,Ben Markey,Michael Laudenbach,Kachatad Pantusen,Ronald Yurko,Gordon Weinberg
発行日 2024-10-21 15:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do LLMs write like humans? Variation in grammatical and rhetorical styles はコメントを受け付けていません

AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

要約

言語エージェントは、言語モデル (LM) 上に構築され、オープン Web などの複雑な環境と対話できるシステムです。
この研究では、そのようなエージェントが、不動産市場の監視や近隣の関連企業の検索など、現実的で時間のかかるタスクをウェブ上で実行できるかどうかを検証します。
AssistantBench は、さまざまなシナリオやドメインをカバーし、自動的に評価できる 214 の現実的なタスクで構成される、挑戦的な新しいベンチマークです。
どのモデルも 26 ポイントを超える精度に達していないため、AssistantBench は言語モデルや検索拡張言語モデルを含む現在のシステムの限界を露呈していることがわかりました。
クローズドブック LM は精度の点では優れていますが、精度が低く、事実を幻覚する傾向があります。
最先端の Web エージェントのスコアはほぼゼロに達します。
さらに、以前のエージェントを大幅に上回る新しい Web エージェントである SeePlanAct (SPA) を導入し、SPA とクローズドブック モデルのアンサンブルが最高の全体的なパフォーマンスを実現します。
さらに、現在のシステムの障害を分析し、オープンな Web ナビゲーションが依然として大きな課題であることを強調します。

要約(オリジナル)

Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 26 points. While closed-book LMs perform well in terms of accuracy, they exhibit low precision and tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that open web navigation remains a major challenge.

arxiv情報

著者 Ori Yoran,Samuel Joseph Amouyal,Chaitanya Malaviya,Ben Bogin,Ofir Press,Jonathan Berant
発行日 2024-10-21 15:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? はコメントを受け付けていません