High-Dimensional Interlingual Representations of Large Language Models

要約

大規模な多言語データセットでトレーニングされた大規模な言語モデル(LLMS)は、双方向の構成要素の形成を示唆しています。これは、表現スペースの共有サブスペースです。
ただし、この現象に関する証拠は混合されているため、これらのモデルが統一された統一性表現を真に発達させるのか、それとも部分的に整列した構造を提示するのかは不明です。
リソースレベル、類型、および地理的地域でさまざまな31の多様な言語を探ります。
そして、多言語のLLMが一貫性のない横断的なアラインメントを示すことを発見します。
これに対処するために、共有されているセマンティックサブスペースと断片化されたコンポーネントの両方を識別するintlinglingual表現フレームワークを提案します。
高次元表現のローカル近隣構造を比較することにより、局所的なオーバーラップ(ILO)スコアを導入して、間隔間アラインメントを定量化します。
ILOを利用して、多言語LLMSの診療間表現に対する単一言語の微調整の影響を調査します。
我々の結果は、単一の言語でのみトレーニングが初期層のアラインメントを破壊し、これらの層を凍結することで、診断間表現の整列が保持され、横断的な一般化が改善されることを示しています。
これらの結果は、間隔間表現を評価するためのフレームワークとメトリックを検証し、スケーラブルな多言語学習には間隔間アラインメントが重要であることをさらに強調します。

要約(オリジナル)

Large language models (LLMs) trained on massive multilingual datasets hint at the formation of interlingual constructs–a shared subspace in the representation space. However, evidence regarding this phenomenon is mixed, leaving it unclear whether these models truly develop unified interlingual representations, or present a partially aligned constructs. We explore 31 diverse languages varying on their resource-levels, typologies, and geographical regions; and find that multilingual LLMs exhibit inconsistent cross-lingual alignments. To address this, we propose an interlingual representation framework identifying both the shared interlingual semantic subspace and fragmented components, existed due to representational limitations. We introduce Interlingual Local Overlap (ILO) score to quantify interlingual alignment by comparing the local neighborhood structures of high-dimensional representations. We utilize ILO to investigate the impact of single-language fine-tuning on the interlingual representations in multilingual LLMs. Our results indicate that training exclusively on a single language disrupts the alignment in early layers, while freezing these layers preserves the alignment of interlingual representations, leading to improved cross-lingual generalization. These results validate our framework and metric for evaluating interlingual representation, and further underscore that interlingual alignment is crucial for scalable multilingual learning.

arxiv情報

著者 Bryan Wilie,Samuel Cahyawijaya,Junxian He,Pascale Fung
発行日 2025-03-14 10:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | High-Dimensional Interlingual Representations of Large Language Models はコメントを受け付けていません

BriLLM: Brain-inspired Large Language Model

要約

この論文は、最初の脳に触発された大手言語モデル(Brillm)を報告します。
これは、非トランスフォーマー、非GPT、非伝統的な機械学習入出力制御生成言語モデルです。
このモデルは、ニューラルネットワークの観点から指示されたグラフ上の信号完全に接続された流れる(SIFU)定義に基づいており、入力と出力の終わりで解釈可能性が制限されている従来の機械学習モデルの代わりに、モデル全体のグラフ上のすべてのノードの解釈可能性を備えています。
言語モデルのシナリオでは、トークンはグラフのノードとして定義されます。
パスに沿った「最小抵抗」の原理でノード間のランダムに形状またはユーザー定義の信号フローが流れます。
予測または生成される次のトークンまたはノードは、信号フローのターゲットです。
言語モデルとして、ブリルムは、モデルサイズがモデルの入力と予測された長さに依存しない場合、無限に長い$ n $ -GRAMモデルを理論的にサポートします。
モデルの作業信号の流れは、人間の脳の認知パターンと同様に、リコールの活性化と生来のマルチモーダルサポートの可能性を提供します。
現在、4000トークン、32次元ノード幅、16トークンの長いシーケンス予測能力、およびGPT-1に匹敵する言語モデル予測パフォーマンスを備えた中国語で最初のBrillmバージョンをリリースしました。
より多くのコンピューティングパワーは、上記の無限の可能性を探るのに役立ちます。

要約(オリジナル)

This paper reports the first brain-inspired large language model (BriLLM). This is a non-Transformer, non-GPT, non-traditional machine learning input-output controlled generative language model. The model is based on the Signal Fully-connected flowing (SiFu) definition on the directed graph in terms of the neural network, and has the interpretability of all nodes on the graph of the whole model, instead of the traditional machine learning model that only has limited interpretability at the input and output ends. In the language model scenario, the token is defined as a node in the graph. A randomly shaped or user-defined signal flow flows between nodes on the principle of ‘least resistance’ along paths. The next token or node to be predicted or generated is the target of the signal flow. As a language model, BriLLM theoretically supports infinitely long $n$-gram models when the model size is independent of the input and predicted length of the model. The model’s working signal flow provides the possibility of recall activation and innate multi-modal support similar to the cognitive patterns of the human brain. At present, we released the first BriLLM version in Chinese, with 4000 tokens, 32-dimensional node width, 16-token long sequence prediction ability, and language model prediction performance comparable to GPT-1. More computing power will help us explore the infinite possibilities depicted above.

arxiv情報

著者 Hai Zhao,Hongqiu Wu,Dongjie Yang,Anni Zou,Jiale Hong
発行日 2025-03-14 11:08:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | BriLLM: Brain-inspired Large Language Model はコメントを受け付けていません

GNNs as Predictors of Agentic Workflow Performances

要約

大規模な言語モデル(LLMS)によって呼び出されたエージェントワークフローは、複雑なタスクの処理において驚くべき成功を収めています。
ただし、このようなワークフローを最適化することは、LLMの広範な呼び出しにより、実際のアプリケーションでは費用がかかり、非効率的です。
このギャップを埋めるために、このポジションペーパーは、エージェントワークフローを計算グラフとして定式化し、グラフニューラルネットワーク(GNNS)をエージェントワークフローパフォーマンスの効率的な予測因子として提唱し、評価のための繰り返しのLLM呼び出しを回避します。
この位置を経験的に根付かせるために、Agent Workflowのパフォーマンスを予測するためにGNNをベンチマークするための統一されたプラットフォームであるFlora-Benchを構築します。
広範な実験により、次の結論に達します。GNNはシンプルでありながら効果的な予測因子です。
この結論は、GNNの新しいアプリケーションと、エージェントワークフローの最適化を自動化するための新しい方向性をサポートしています。
すべてのコード、モデル、およびデータは、https://github.com/youngsoul0731/flora-benchで入手できます。

要約(オリジナル)

Agentic workflows invoked by Large Language Models (LLMs) have achieved remarkable success in handling complex tasks. However, optimizing such workflows is costly and inefficient in real-world applications due to extensive invocations of LLMs. To fill this gap, this position paper formulates agentic workflows as computational graphs and advocates Graph Neural Networks (GNNs) as efficient predictors of agentic workflow performances, avoiding repeated LLM invocations for evaluation. To empirically ground this position, we construct FLORA-Bench, a unified platform for benchmarking GNNs for predicting agentic workflow performances. With extensive experiments, we arrive at the following conclusion: GNNs are simple yet effective predictors. This conclusion supports new applications of GNNs and a novel direction towards automating agentic workflow optimization. All codes, models, and data are available at https://github.com/youngsoul0731/Flora-Bench.

arxiv情報

著者 Yuanshuo Zhang,Yuchen Hou,Bohan Tang,Shuo Chen,Muhan Zhang,Xiaowen Dong,Siheng Chen
発行日 2025-03-14 11:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MA | GNNs as Predictors of Agentic Workflow Performances はコメントを受け付けていません

Are formal and functional linguistic mechanisms dissociated?

要約

大規模な言語モデル(LLM)はますます能力がありますが、これらの機能は不均一に分散されています。流fluent的で文法的なテキストの作成などの正式な言語タスクに優れていますが、推論や一貫した事実検索などの機能的な言語タスクとより闘っています。
神経科学に触発された最近の研究は、正式な言語タスクと機能的言語タスクの両方で成功するためには、LLMがそれぞれに異なるメカニズムを使用する必要があることを示唆しています。
このようなローカリゼーションは、トレーニングを通じて組み込まれるか、自発的に出現することができます。
この論文では、次のように尋ねます。現在のモデルは、機能的な言語能力を急速に改善することで、形式的および機能的言語メカニズムの明確な局在を示しますか?
「回路」または最小限の計算サブグラフを見つけて比較することにより、これに答えます。これは、さまざまな形式的および機能的なタスクを担当します。
10個の異なるタスクにわたって5 LLMを比較すると、正式なタスクと機能的タスクの回路間には実際にはほとんど重複がありませんが、人間の脳に存在するように、正式な言語タスク間にはほとんど重複がないことがわかります。
したがって、機能的なタスク回路とは異なる単一の正式な言語ネットワークは、とらえどころのないままです。
ただし、クロスタスクの忠実さ – ある回路が別のタスクを解決する能力の能力 – 正式なメカニズムと機能的メカニズムの分離を観察し、正式なタスク間の共有メカニズムが存在する可能性があることを示唆しています。

要約(オリジナル)

Although large language models (LLMs) are increasingly capable, these capabilities are unevenly distributed: they excel at formal linguistic tasks, such as producing fluent, grammatical text, but struggle more with functional linguistic tasks like reasoning and consistent fact retrieval. Inspired by neuroscience, recent work suggests that to succeed on both formal and functional linguistic tasks, LLMs should use different mechanisms for each; such localization could either be built-in or emerge spontaneously through training. In this paper, we ask: do current models, with fast-improving functional linguistic abilities, exhibit distinct localization of formal and functional linguistic mechanisms? We answer this by finding and comparing the ‘circuits’, or minimal computational subgraphs, responsible for various formal and functional tasks. Comparing 5 LLMs across 10 distinct tasks, we find that while there is indeed little overlap between circuits for formal and functional tasks, there is also little overlap between formal linguistic tasks, as exists in the human brain. Thus, a single formal linguistic network, unified and distinct from functional task circuits, remains elusive. However, in terms of cross-task faithfulness – the ability of one circuit to solve another’s task – we observe a separation between formal and functional mechanisms, suggesting that shared mechanisms between formal tasks may exist.

arxiv情報

著者 Michael Hanna,Sandro Pezzelle,Yonatan Belinkov
発行日 2025-03-14 11:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Are formal and functional linguistic mechanisms dissociated? はコメントを受け付けていません

Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering

要約

長い考え方(長いCOTS)の最近の進歩により、大規模な言語モデル(LLM)の推論能力が大幅に改善されました。
既存の作業では、長いCOTの推論の能力は、ほんの数例で調整することで効率的に引き出される可能性があり、他のタスクに簡単に転送できることがわかります。
これにより、長いCOTの推論がLLMSの一般的な能力であるかどうかを調査する動機になります。
この作業では、表現の観点からこの質問の経験的分析を実施します。
LLMSは、バニラコットとは明確な区別を持つ、一般的な能力として長いCOT推論をエンコードしていることがわかります。
さらに、長いCOT推論の効果的な移動には、ドメイン固有の表現も必要です。
これらの調査結果に触発されて、LLMSの一般的な長いCOT推論能力を解き放つための新しい表現エンジニアリング方法であるGloreを提案します。
広範な実験は、ドメイン内とクロスドメインの両方のシナリオの両方で栄光の有効性と効率性を示しています。

要約(オリジナル)

Recent advancements in long chain-of-thoughts(long CoTs) have significantly improved the reasoning capabilities of large language models(LLMs). Existing work finds that the capability of long CoT reasoning can be efficiently elicited by tuning on only a few examples and can easily transfer to other tasks. This motivates us to investigate whether long CoT reasoning is a general capability for LLMs. In this work, we conduct an empirical analysis for this question from the perspective of representation. We find that LLMs do encode long CoT reasoning as a general capability, with a clear distinction from vanilla CoTs. Furthermore, domain-specific representations are also required for the effective transfer of long CoT reasoning. Inspired by these findings, we propose GLoRE, a novel representation engineering method to unleash the general long CoT reasoning capabilities of LLMs. Extensive experiments demonstrate the effectiveness and efficiency of GLoRE in both in-domain and cross-domain scenarios.

arxiv情報

著者 Xinyu Tang,Xiaolei Wang,Zhihao Lv,Yingqian Min,Wayne Xin Zhao,Binbin Hu,Ziqi Liu,Zhiqiang Zhang
発行日 2025-03-14 11:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering はコメントを受け付けていません

LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection

要約

大規模な言語モデル(LLMS)へのアクセスの容易さにより、機械で生成されたテキストの広範囲になりましたが、今ではテキストが人間が書かれているのか、機械で構成されているのかを知るのが難しいことがよくあります。
これは、特に教育的および学問的な領域内で、潜在的な誤用に関する懸念を引き起こします。
したがって、プロセスを自動化できる実用的なシステムを開発することが重要です。
ここでは、そのようなシステム、LLM-DETECTAIVEを提示します。これは、細粒の検出用に設計されています。
バイナリ分類に焦点を当てたマシンで生成されたテキスト検出に関する以前のほとんどの作業とは異なり、LLM-DETECTAIVEは4つのカテゴリをサポートしています。
カテゴリ(III)は、テキストが機械制作されたという事実を難読化する試みを検出することを目的としていますが、カテゴリ(IV)は、LLMが人間が書いたテキストを磨くために使用された場合を探します。
私たちの実験は、LLM-決定的なものが上記の4つのカテゴリを効果的に特定できることを示しており、これにより、教育、学界、およびその他のドメインで潜在的に有用なツールになります。
LLM-Detectaiveは、https://github.com/mbzuai-nlp/llm-detectaiveで公開されています。
システムを説明するビデオは、https://youtu.be/e8et_be7k8cで入手できます。

要約(オリジナル)

The ease of access to large language models (LLMs) has enabled a widespread of machine-generated texts, and now it is often hard to tell whether a piece of text was human-written or machine-generated. This raises concerns about potential misuse, particularly within educational and academic domains. Thus, it is important to develop practical systems that can automate the process. Here, we present one such system, LLM-DetectAIve, designed for fine-grained detection. Unlike most previous work on machine-generated text detection, which focused on binary classification, LLM-DetectAIve supports four categories: (i) human-written, (ii) machine-generated, (iii) machine-written, then machine-humanized, and (iv) human-written, then machine-polished. Category (iii) aims to detect attempts to obfuscate the fact that a text was machine-generated, while category (iv) looks for cases where the LLM was used to polish a human-written text, which is typically acceptable in academic writing, but not in education. Our experiments show that LLM-DetectAIve can effectively identify the above four categories, which makes it a potentially useful tool in education, academia, and other domains. LLM-DetectAIve is publicly accessible at https://github.com/mbzuai-nlp/LLM-DetectAIve. The video describing our system is available at https://youtu.be/E8eT_bE7k8c.

arxiv情報

著者 Mervat Abassy,Kareem Elozeiri,Alexander Aziz,Minh Ngoc Ta,Raj Vardhan Tomar,Bimarsha Adhikari,Saad El Dine Ahmed,Yuxia Wang,Osama Mohammed Afzal,Zhuohan Xie,Jonibek Mansurov,Ekaterina Artemova,Vladislav Mikhailov,Rui Xing,Jiahui Geng,Hasan Iqbal,Zain Muhammad Mujahid,Tarek Mahmoud,Akim Tsvigun,Alham Fikri Aji,Artem Shelmanov,Nizar Habash,Iryna Gurevych,Preslav Nakov
発行日 2025-03-14 11:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection はコメントを受け付けていません

Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models

要約

このホワイトペーパーでは、構造化されたルールの順守と戦略的情報探索を通じて、大規模な言語モデル(LLM)パフォーマンスを強化するために設計されたフレームワークであるルールガイド付きフィードバック(RGF)を紹介します。
RGFは、確立されたガイドラインを通じてルールフォローが強制される教師と学生のパラダイムを実装しています。
私たちのフレームワークは、各生徒の出力をタスク固有のルールに対して厳密に評価する教師モデルを採用しており、逸脱を検出するときに直接回答ではなく、建設的なガイダンスを提供します。
この反復フィードバックループは、定義された制約内でソリューションを維持することと、不確実性を解決しようとする積極的な情報を奨励するという2つの重要な目的を果たします。
Checkmate-in-Oneパズル、ソネットの執筆、テーブルのペンギン分類、GSM8K、StrategyQAなどの多様なタスクでRGFを評価します。
私たちの調査結果は、構造化されたフィードバックメカニズムがさまざまなドメインでLLMSのパフォーマンスを大幅に向上させることができることを示唆しています。

要約(オリジナル)

In this paper, we introduce Rule-Guided Feedback (RGF), a framework designed to enhance Large Language Model (LLM) performance through structured rule adherence and strategic information seeking. RGF implements a teacher-student paradigm where rule-following is forced through established guidelines. Our framework employs a Teacher model that rigorously evaluates each student output against task-specific rules, providing constructive guidance rather than direct answers when detecting deviations. This iterative feedback loop serves two crucial purposes: maintaining solutions within defined constraints and encouraging proactive information seeking to resolve uncertainties. We evaluate RGF on diverse tasks including Checkmate-in-One puzzles, Sonnet Writing, Penguins-In-a-Table classification, GSM8k, and StrategyQA. Our findings suggest that structured feedback mechanisms can significantly enhance LLMs’ performance across various domains.

arxiv情報

著者 Aissatou Diallo,Antonis Bikakis,Luke Dickens,Anthony Hunter,Rob Miller
発行日 2025-03-14 12:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language Models はコメントを受け付けていません

Challenging Assumptions in Learning Generic Text Style Embeddings

要約

言語表現学習の最近の進歩は、主に意味のある表現を導き出すための言語モデリングを強調し、しばしばスタイル固有の考慮事項を無視します。
この研究では、スタイル中心のタスクに重要な一般的な文レベルのスタイルの埋め込みを作成することにより、このギャップに対処します。
私たちのアプローチは、低レベルのテキストスタイルの変更が高レベルのスタイルを構成できるという前提に基づいています。
この概念を表現学習に適用すると、多用途のテキストスタイルの埋め込みの開発が可能になると仮定します。
対照的な学習と標準的なクロスエントロピー損失を使用して、汎用テキストエンコーダーを微調整することにより、これらの低レベルのスタイルシフトをキャプチャすることを目指しており、高レベルのテキストスタイルに適用される洞察を提供することを予想しています。
結果は、学習したスタイルの表現が高レベルのテキストスタイルをキャプチャすることを常に示しているわけではないため、根本的な仮定を再考するように促されます。

要約(オリジナル)

Recent advancements in language representation learning primarily emphasize language modeling for deriving meaningful representations, often neglecting style-specific considerations. This study addresses this gap by creating generic, sentence-level style embeddings crucial for style-centric tasks. Our approach is grounded on the premise that low-level text style changes can compose any high-level style. We hypothesize that applying this concept to representation learning enables the development of versatile text style embeddings. By fine-tuning a general-purpose text encoder using contrastive learning and standard cross-entropy loss, we aim to capture these low-level style shifts, anticipating that they offer insights applicable to high-level text styles. The outcomes prompt us to reconsider the underlying assumptions as the results do not always show that the learned style representations capture high-level text styles.

arxiv情報

著者 Phil Ostheimer,Marius Kloft,Sophie Fellenz
発行日 2025-03-14 12:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Challenging Assumptions in Learning Generic Text Style Embeddings はコメントを受け付けていません

How Green are Neural Language Models? Analyzing Energy Consumption in Text Summarization Fine-tuning

要約

人工知能システムは、特に自然言語処理(NLP)タスクにおいて、環境に大きな影響を与えます。
これらのタスクは、多くの場合、数十億のパラメーターを含む大規模な言語モデルを含む、深いニューラルネットワークをトレーニングするために広範な計算リソースを必要とします。
この研究では、3つの神経言語モデルのエネルギー消費とパフォーマンスのトレードオフを分析しています。2つの事前訓練モデル(T5ベースとバートベース)と1つの大規模な言語モデル(LLAMA-3-8B)です。
これらのモデルは、テキスト要約タスクのために微調整され、各論文のコアテーマをカプセル化する研究論文のハイライトの生成に焦点を当てています。
各モデルの微調整に関連する二酸化炭素排出量が測定され、環境への影響の包括的な評価が提供されました。
Llama-3-8Bは、3つのモデルの中で最大の二酸化炭素排出量を生成することが観察されています。
Rouge、Meteor、Moverscore、Bertscore、Scibertscoreなどの幅広い評価メトリックが、指定されたタスク上のモデルのパフォーマンスを評価するために採用されました。
この研究は、環境に関する考慮事項を神経言語モデルの設計と実装に組み込むことの重要性を強調し、エネルギー効率の高いAI方法論の進歩を求めています。

要約(オリジナル)

Artificial intelligence systems significantly impact the environment, particularly in natural language processing (NLP) tasks. These tasks often require extensive computational resources to train deep neural networks, including large-scale language models containing billions of parameters. This study analyzes the trade-offs between energy consumption and performance across three neural language models: two pre-trained models (T5-base and BART-base), and one large language model (LLaMA-3-8B). These models were fine-tuned for the text summarization task, focusing on generating research paper highlights that encapsulate the core themes of each paper. The carbon footprint associated with fine-tuning each model was measured, offering a comprehensive assessment of their environmental impact. It is observed that LLaMA-3-8B produces the largest carbon footprint among the three models. A wide range of evaluation metrics, including ROUGE, METEOR, MoverScore, BERTScore, and SciBERTScore, were employed to assess the performance of the models on the given task. This research underscores the importance of incorporating environmental considerations into the design and implementation of neural language models and calls for the advancement of energy-efficient AI methodologies.

arxiv情報

著者 Tohida Rehman,Debarshi Kumar Sanyal,Samiran Chattopadhyay
発行日 2025-03-14 12:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Green are Neural Language Models? Analyzing Energy Consumption in Text Summarization Fine-tuning はコメントを受け付けていません

RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation

要約

人々が自然災害に直面しているときに、興味深い相性的な推論の問題が生じます。
このトピックを調査するために、異なる時間枠にわたる災害状況におけるLLMSの共同推論を評価するために設計された6037の注釈付きインスタンスを含む1789の注釈付きインスタンスを含むヒューマンキュレーションのデータセットである\ textsf {response}を提示します。
データセットには、環境エンジニアによって検証されたサブセットを使用して、問題の説明、リソースの欠落、時間に敏感なソリューション、およびそれらの正当化が含まれています。
自動メトリックと人間の評価の両方を通じて、人間の反応に対してLLM生成された推奨事項を比較します。
私たちの調査結果は、GPT-4のような最先端のモデルでさえ、即時の対応行動に対して37%のヒトで評価された正確性のみを達成し、危機における常識的な推論のためのLLMSの能力の改善の重要な余地を強調していることを示しています。

要約(オリジナル)

An interesting class of commonsense reasoning problems arises when people are faced with natural disasters. To investigate this topic, we present \textsf{RESPONSE}, a human-curated dataset containing 1789 annotated instances featuring 6037 sets of questions designed to assess LLMs’ commonsense reasoning in disaster situations across different time frames. The dataset includes problem descriptions, missing resources, time-sensitive solutions, and their justifications, with a subset validated by environmental engineers. Through both automatic metrics and human evaluation, we compare LLM-generated recommendations against human responses. Our findings show that even state-of-the-art models like GPT-4 achieve only 37\% human-evaluated correctness for immediate response actions, highlighting significant room for improvement in LLMs’ ability for commonsense reasoning in crises.

arxiv情報

著者 Aissatou Diallo,Antonis Bikakis,Luke Dickens,Anthony Hunter,Rob Miller
発行日 2025-03-14 12:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RESPONSE: Benchmarking the Ability of Language Models to Undertake Commonsense Reasoning in Crisis Situation はコメントを受け付けていません