FutureVision: A methodology for the investigation of future cognition

要約

このホワイトペーパーでは、マルチモーダルセマンティック分析と視線追跡実験プロトコルを組み合わせて、将来のシナリオのコミュニケーションを理解することに伴う認知的努力を調査する方法を紹介します。
方法論を実証するために、ポータブルアイトラッカーを使用して、未来のシナリオを説明する架空の広告ピースの価の評価と反事実性の評価中に視覚固定パターンがどのように異なるかを調べるパイロット研究を実施します。
参加者の眼球運動は、刺激を評価し、会話パートナーに説明しながら記録されます。
視線パターンは、言語モダリティと視覚的モダリティの両方のフレームセマンティック注釈から構築された、刺激と参加者の説明の意味表現とともに分析されます。
予備的な結果は、遠い存在と悲観的なシナリオがより長い固定とより不安定なサッカードに関連していることを示しており、将来のシナリオの解釈の根底にあるベーススペースの骨折が、統合者の認知負荷を増加させるという仮説を支持することが示されています。

要約(オリジナル)

This paper presents a methodology combining multimodal semantic analysis with an eye-tracking experimental protocol to investigate the cognitive effort involved in understanding the communication of future scenarios. To demonstrate the methodology, we conduct a pilot study examining how visual fixation patterns vary during the evaluation of valence and counterfactuality in fictional ad pieces describing futuristic scenarios, using a portable eye tracker. Participants eye movements are recorded while evaluating the stimuli and describing them to a conversation partner. Gaze patterns are analyzed alongside semantic representations of the stimuli and participants descriptions, constructed from a frame semantic annotation of both linguistic and visual modalities. Preliminary results show that far-future and pessimistic scenarios are associated with longer fixations and more erratic saccades, supporting the hypothesis that fractures in the base spaces underlying the interpretation of future scenarios increase cognitive load for comprehenders.

arxiv情報

著者 Tiago Timponi Torrent,Mark Turner,Nicolás Hinrichs,Frederico Belcavello,Igor Lourenço,Arthur Lorenzi Almeida,Marcelo Viridiano,Ely Edison Matos
発行日 2025-05-13 14:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FutureVision: A methodology for the investigation of future cognition はコメントを受け付けていません

Integrating Single-Cell Foundation Models with Graph Neural Networks for Drug Response Prediction

要約

AI駆動型の薬物反応予測は、個別化されたがん治療を進めるための大きな可能性を秘めています。
ただし、癌の固有の異形成とデータ生成の高コストは、正確な予測を困難にします。
この研究では、事前に処理された基礎モデルSCGPTを組み込むことで、既存の薬物反応予測フレームワークのパフォーマンスを向上させることができるかどうかを調査します。
私たちのアプローチは、グラフ構造からの薬物表現とマルチオミクスプロファイルの細胞表現をコードするDeepCDRフレームワークに基づいています。
このフレームワークを、SCGPTを活用して濃縮された細胞表現を生成して、その前の知識を使用して、限られた量のデータを補正します。
ピアソン相関係数(PCC)のIC $ _ {50} $値と、元のDeepCDRフレームワークと以前のSCFoundationベースのアプローチと比較して、休暇1-drug out検証戦略を使用して、変更されたフレームワークを評価します。
SCGPTは、以前のアプローチよりも優れているだけでなく、トレーニングの安定性を高めることも示し、このドメインでSCGPT由来の知識を活用することの価値を強調しています。

要約(オリジナル)

AI-driven drug response prediction holds great promise for advancing personalized cancer treatment. However, the inherent heterogenity of cancer and high cost of data generation make accurate prediction challenging. In this study, we investigate whether incorporating the pretrained foundation model scGPT can enhance the performance of existing drug response prediction frameworks. Our approach builds on the DeepCDR framework, which encodes drug representations from graph structures and cell representations from multi-omics profiles. We adapt this framework by leveraging scGPT to generate enriched cell representations using its pretrained knowledge to compensate for limited amount of data. We evaluate our modified framework using IC$_{50}$ values on Pearson correlation coefficient (PCC) and a leave-one-drug out validation strategy, comparing it against the original DeepCDR framework and a prior scFoundation-based approach. scGPT not only outperforms previous approaches but also exhibits greater training stability, highlighting the value of leveraging scGPT-derived knowledge in this domain.

arxiv情報

著者 Till Rossner,Ziteng Li,Jonas Balke,Nikoo Salehfard,Tom Seifert,Ming Tang
発行日 2025-05-13 15:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.QM | Integrating Single-Cell Foundation Models with Graph Neural Networks for Drug Response Prediction はコメントを受け付けていません

Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing

要約

512Kトークンのコンテキストの長さをサポートする言語モデルであるMegabeam-Mistral-7Bを提示します。
私たちの仕事は、コンプライアンスの監視や検証などの現実世界のタスクをサポートする長いコンテキストトレーニングにおける実際的な制限に対処しています。
3つの長いコンテキストベンチマークで評価された7Bパラメーターモデルは、ヘルメットの優れたコンテキスト学習パフォーマンスと、定規の堅牢な検索機能とトレース機能を示しています。
現在、RAGまたはターゲットを絞った微調整なしで512Kコンテキストの長さでBabilongで競争力のある長距離推論を達成する唯一のオープンモデルです。
Apache 2.0ライセンスの下で完全にオープンソースとしてリリースされたこのモデルは、顔を抱きしめて100,000回以上ダウンロードされています。
https://huggingface.co/aws-prototyping/megabeam-mistral-7b-512kで入手可能

要約(オリジナル)

We present MegaBeam-Mistral-7B, a language model that supports 512K-token context length. Our work addresses practical limitations in long-context training, supporting real-world tasks such as compliance monitoring and verification. Evaluated on three long-context benchmarks, our 7B-parameter model demonstrates superior in-context learning performance on HELMET and robust retrieval and tracing capability on RULER. It is currently the only open model to achieve competitive long-range reasoning on BABILong at 512K context length without RAG or targeted fine-tuning. Released as fully open source under the Apache 2.0 license, the model has been downloaded over 100,000 times on Hugging Face. Model available at: https://huggingface.co/aws-prototyping/MegaBeam-Mistral-7B-512k

arxiv情報

著者 Chen Wu,Yin Song
発行日 2025-05-13 15:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling Context, Not Parameters: Training a Compact 7B Language Model for Efficient Long-Context Processing はコメントを受け付けていません

Revealing economic facts: LLMs know more than they say

要約

大規模な言語モデル(LLM)の隠された状態を使用して、経済統計と財務統計を推定して帰属できるかどうかを調査します。
郡レベル(失業など)および企業レベル(総資産など)変数に焦点を当て、オープンソースLLMの隠された状態で訓練された単純な線形モデルがモデルのテキスト出力を上回ることを示します。
これは、LLMSの対応が直接明らかにするよりも、隠された状態がより豊富な経済情報を捉えることを示唆しています。
学習曲線分析では、トレーニングに十分であることが十分であることを示しています。
また、ターゲット変数にラベル付けされたデータを必要とせずに推定精度を向上させる転送学習方法も提案します。
最後に、超解像度とデータ代入タスクにおける隠れた状態表現の実用的なユーティリティを実証します。

要約(オリジナル)

We investigate whether the hidden states of large language models (LLMs) can be used to estimate and impute economic and financial statistics. Focusing on county-level (e.g. unemployment) and firm-level (e.g. total assets) variables, we show that a simple linear model trained on the hidden states of open-source LLMs outperforms the models’ text outputs. This suggests that hidden states capture richer economic information than the responses of the LLMs reveal directly. A learning curve analysis indicates that only a few dozen labelled examples are sufficient for training. We also propose a transfer learning method that improves estimation accuracy without requiring any labelled data for the target variable. Finally, we demonstrate the practical utility of hidden-state representations in super-resolution and data imputation tasks.

arxiv情報

著者 Marcus Buckmann,Quynh Anh Nguyen,Edward Hill
発行日 2025-05-13 15:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, econ.GN, I.2.7, q-fin.EC | Revealing economic facts: LLMs know more than they say はコメントを受け付けていません

Adaptive Schema-aware Event Extraction with Retrieval-Augmented Generation

要約

イベント抽出(EE)は、非構造化テキストからイベント情報の識別と抽出を伴う自然言語処理(NLP)の基本的なタスクです。
実際のシナリオで効果的なEEには、2つの重要なステップが必要です。これは、何百もの候補者から適切なスキーマを選択し、抽出プロセスを実行することです。
既存の研究では、2つの重要なギャップが示されています。(1)既存のパイプラインシステムにおける厳格なスキーマ固定、および(2)ジョイントスキーマのマッチングと抽出を評価するためのベンチマークがないこと。
大規模な言語モデル(LLM)は潜在的なソリューションを提供しますが、スキーマの幻覚の傾向とコンテキストウィンドウの制限は、実際の展開の課題をもたらします。
これに応じて、スキーマのパラダイムを組み合わせた新しいパラダイムとスキーマ検索の高度発電を組み合わせた、適応スキーマアウェアイベント抽出(ASEE)を提案します。
Aseeは、巧妙に言い換えられたスキーマを取得し、ターゲット構造を正確に生成します。
厳密な評価を促進するために、多様なドメイン、複雑さレベル、言語設定にわたって12のデータセットを体系的に統合する多次元スキーマアウェアイベント抽出(MD-SEE)ベンチマークを構築します。
MD-SEEの広範な評価は、提案されたASEEがさまざまなシナリオにわたって強い適応性を示し、イベント抽出の精度を大幅に改善することを示しています。

要約(オリジナル)

Event extraction (EE) is a fundamental task in natural language processing (NLP) that involves identifying and extracting event information from unstructured text. Effective EE in real-world scenarios requires two key steps: selecting appropriate schemas from hundreds of candidates and executing the extraction process. Existing research exhibits two critical gaps: (1) the rigid schema fixation in existing pipeline systems, and (2) the absence of benchmarks for evaluating joint schema matching and extraction. Although large language models (LLMs) offer potential solutions, their schema hallucination tendencies and context window limitations pose challenges for practical deployment. In response, we propose Adaptive Schema-aware Event Extraction (ASEE), a novel paradigm combining schema paraphrasing with schema retrieval-augmented generation. ASEE adeptly retrieves paraphrased schemas and accurately generates targeted structures. To facilitate rigorous evaluation, we construct the Multi-Dimensional Schema-aware Event Extraction (MD-SEE) benchmark, which systematically consolidates 12 datasets across diverse domains, complexity levels, and language settings. Extensive evaluations on MD-SEE show that our proposed ASEE demonstrates strong adaptability across various scenarios, significantly improving the accuracy of event extraction.

arxiv情報

著者 Sheng Liang,Hang Lv,Zhihao Wen,Yaxiong Wu,Yongyue Zhang,Hao Wang,Yong Liu
発行日 2025-05-13 15:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Adaptive Schema-aware Event Extraction with Retrieval-Augmented Generation はコメントを受け付けていません

Why do LLMs attend to the first token?

要約

大規模な言語モデル(LLMS)は、シーケンスの最初のトークンに大きく出席する傾向があり、いわゆる注意シンクを作成します。
多くの作品がこの現象を詳細に研究しており、それを活用または緩和するさまざまな方法を提案しています。
注意シンクは、量子化の困難、セキュリティの問題、およびストリーミングの注意に関連しています。
しかし、多くの作品はそれらが発生するかどうかにかかわらず条件を提供していますが、重要な質問は浅く答えられたままです。なぜLLMはそのようなパターンを学び、それらがどのように使用されているのですか?
この作業では、このメカニズムがLLMSがオーバーミックスを避ける方法を提供し、これを変圧器での情報を伝播する方法を数学的に研究する既存の作業に接続することを理論的および経験的に主張します。
実験を実施して、理論的な直観を検証し、コンテキストの長さ、深さ、データパッキングなどの選択がシンクの動作にどのように影響するかを示します。
この研究が、注意シンクがLLMSで役立つ理由に関する新しい実用的な視点を提供し、トレーニング中に形成される注意パターンをよりよく理解することを願っています。

要約(オリジナル)

Large Language Models (LLMs) tend to attend heavily to the first token in the sequence — creating a so-called attention sink. Many works have studied this phenomenon in detail, proposing various ways to either leverage or alleviate it. Attention sinks have been connected to quantisation difficulties, security issues, and streaming attention. Yet, while many works have provided conditions in which they occur or not, a critical question remains shallowly answered: Why do LLMs learn such patterns and how are they being used? In this work, we argue theoretically and empirically that this mechanism provides a method for LLMs to avoid over-mixing, connecting this to existing lines of work that study mathematically how information propagates in Transformers. We conduct experiments to validate our theoretical intuitions and show how choices such as context length, depth, and data packing influence the sink behaviour. We hope that this study provides a new practical perspective on why attention sinks are useful in LLMs, leading to a better understanding of the attention patterns that form during training.

arxiv情報

著者 Federico Barbero,Álvaro Arroyo,Xiangming Gu,Christos Perivolaropoulos,Michael Bronstein,Petar Veličković,Razvan Pascanu
発行日 2025-05-13 16:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Why do LLMs attend to the first token? はコメントを受け付けていません

NurValues: Real-World Nursing Values Evaluation for Large Language Models in Clinical Context

要約

この作業では、国際的な看護コードから蒸留された5つのコアバリューディメンションで構成される看護価値アライメントの最初のベンチマークを紹介します。
ベンチマークは、さまざまな層の3つの病院で5か月の縦断的フィールドスタディを通じて収集された1,100の実世界の看護行動インスタンスで構成されています。
これらのインスタンスには、5人の臨床看護師が注釈を付けられ、その後、倫理極性が逆になったLLM生成の反事実を拡張します。
各オリジナルのケースは、付属されたバリオールバージョンとペアリングされているため、簡単なレベルのデータセットを構成する2,200のラベル付きインスタンスが得られます。
敵対的な複雑さを高めるために、各インスタンスは、コンテキストのキューと微妙な誤解を招く信号を埋め込むダイアログベースの形式にさらに変換され、ハードレベルのデータセットが生成されます。
23の最先端(SOTA)LLMを看護価値との調整について評価します。
私たちの調査結果は、3つの重要な洞察を明らかにしています。(1)DeepSeek-V3は、簡単なレベルのデータセット(94.55)で最高のパフォーマンスを達成します。Claude3.5Sonnetは、ハードレベルのデータセット(89.43)の他のモデルよりも優れており、医療LLMを大幅に上回ります。
(2)正義は一貫して評価するのが最も困難な看護価値の次元です。
(3)コンテキスト内学習により、アライメントが大幅に向上します。
この作業は、臨床環境で価値に敏感なLLMS開発の基盤を提供することを目的としています。
データセットとコードは、https://huggingface.co/datasets/ben012345/nurvaluesで入手できます。

要約(オリジナル)

This work introduces the first benchmark for nursing value alignment, consisting of five core value dimensions distilled from international nursing codes: Altruism, Human Dignity, Integrity, Justice, and Professionalism. The benchmark comprises 1,100 real-world nursing behavior instances collected through a five-month longitudinal field study across three hospitals of varying tiers. These instances are annotated by five clinical nurses and then augmented with LLM-generated counterfactuals with reversed ethic polarity. Each original case is paired with a value-aligned and a value-violating version, resulting in 2,200 labeled instances that constitute the Easy-Level dataset. To increase adversarial complexity, each instance is further transformed into a dialogue-based format that embeds contextual cues and subtle misleading signals, yielding a Hard-Level dataset. We evaluate 23 state-of-the-art (SoTA) LLMs on their alignment with nursing values. Our findings reveal three key insights: (1) DeepSeek-V3 achieves the highest performance on the Easy-Level dataset (94.55), where Claude 3.5 Sonnet outperforms other models on the Hard-Level dataset (89.43), significantly surpassing the medical LLMs; (2) Justice is consistently the most difficult nursing value dimension to evaluate; and (3) in-context learning significantly improves alignment. This work aims to provide a foundation for value-sensitive LLMs development in clinical settings. The dataset and the code are available at https://huggingface.co/datasets/Ben012345/NurValues.

arxiv情報

著者 Ben Yao,Qiuchi Li,Yazhou Zhang,Siyu Yang,Bohan Zhang,Prayag Tiwari,Jing Qin
発行日 2025-05-13 16:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 | NurValues: Real-World Nursing Values Evaluation for Large Language Models in Clinical Context はコメントを受け付けていません

Probability Consistency in Large Language Models: Theoretical Foundations Meet Empirical Discrepancies

要約

自動回復的な大手言語モデル(LLMS)は、さまざまなトークン順序でシーケンスで訓練されたときに一貫した確率分布を学ぶことができますか?
明確に定義された確率分布の場合、シーケンスの困惑は、前方、後方、または任意の順列を含む、あらゆる要因の下で不変であることを正式に証明します。
この結果は、LLMがデータからどのように学習するかを研究し、経験的評価のための原則的なプロトコルを定義するための厳格な理論的基盤を確立します。
これらのプロトコルを適用すると、秩序化効果を調べる以前の研究が重要な方法論的欠陥に悩まされていることを示します。
科学テキストの前方、後方、および任意の順な順序を越えてGPT-2モデルを再訓練します。
すべての秩序にわたる理論的不変性からの体系的な逸脱は、任意の順列が前方モデルと後方モデルの両方から強く逸脱していることを発見します。
逸脱は、処理における位置的および局所的なバイアスを反映して、自己関節の違いに追跡可能でした。
私たちの理論的および経験的結果は、LLMSの位置バイアスを理解するための新しい手段を提供し、LLMSの確率分布が矛盾しているため信頼できない場合に検出する方法を提案します。

要約(オリジナル)

Can autoregressive large language models (LLMs) learn consistent probability distributions when trained on sequences in different token orders? We prove formally that for any well-defined probability distribution, sequence perplexity is invariant under any factorization, including forward, backward, or arbitrary permutations. This result establishes a rigorous theoretical foundation for studying how LLMs learn from data and defines principled protocols for empirical evaluation. Applying these protocols, we show that prior studies examining ordering effects suffer from critical methodological flaws. We retrain GPT-2 models across forward, backward, and arbitrary permuted orders on scientific text. We find systematic deviations from theoretical invariance across all orderings with arbitrary permutations strongly deviating from both forward and backward models, which largely (but not completely) agreed with one another. Deviations were traceable to differences in self-attention, reflecting positional and locality biases in processing. Our theoretical and empirical results provide novel avenues for understanding positional biases in LLMs and suggest methods for detecting when LLMs’ probability distributions are inconsistent and therefore untrustworthy.

arxiv情報

著者 Xiaoliang Luo,Xinyi Xu,Michael Ramscar,Bradley C. Love
発行日 2025-05-13 16:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probability Consistency in Large Language Models: Theoretical Foundations Meet Empirical Discrepancies はコメントを受け付けていません

AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models

要約

因果推論(CR)の基本的な側面である実際の因果関係(AC)は、実際のシナリオでの帰属と責任の割り当ての原因です。
ただし、既存のLLMベースの方法には、正式なAC理論の根拠がなく、解釈が限られています。
したがって、ACシナリオ内の因果関係のあるイベントを識別する半形式的な推論フレームワークであるAC-Reasonを提案し、正式な因果要因(たとえば、十分性、必要性、正常性など)の値を推測し、説明とともに理論誘導アルゴリズムを介してACクエリに回答します。
AC-Reasonは因果グラフを明示的に構築しませんが、原則の推論をサポートするために、基礎となる因果構造の変数を介して動作します。
包括的な評価を可能にするために、ACベンチを導入します。ACベンチは、大手ベンチのハード因果判断(BBH-CJ)に基づいて実質的に拡張された新しいベンチマークであるACベンチを導入します。
ACベンチは、〜1Kの注意深く注釈付きサンプルで構成されており、それぞれに詳細な推論ステップがあり、実際の因果関係のみに焦点を当てています。
ケーススタディは、ACベンチの合成サンプルがLLMに大きな課題をもたらすことを示しています。
BBH-CJおよびACベンチに関する広範な実験は、AC-Reasonがベースライン上のLLMパフォーマンスを一貫して改善することを示しています。
BBH-CJでは、テストされたすべてのLLMSが69.60%の平均人間の評価者精度を上回り、GPT-4 + AC-Reasonは75.04%を達成しています。
ACベンチでは、GPT-4 + AC-Reasonが再び71.82%の最高精度を達成します。
ACベンチはさらに、忠実さを推論する微細な分析を可能にし、Qwen-2.5-72b-instruct、claude-3.5-sonnet、およびGPT-4oのみが忠実な推論を示すのに対し、GPT-4はショートカットを悪用する傾向があることを明らかにします。
最後に、私たちのアブレーション研究は、AC理論をLLMSに統合することが非常に効果的であり、提案されたアルゴリズムが最も重要なパフォーマンスの向上に寄与することを証明しています。

要約(オリジナル)

Actual causality (AC), a fundamental aspect of causal reasoning (CR), is responsible for attribution and responsibility assignment in real-world scenarios. However, existing LLM-based methods lack grounding in formal AC theory, resulting in limited interpretability. Therefore, we propose AC-Reason, a semi-formal reasoning framework that identifies causally relevant events within an AC scenario, infers the values of their formal causal factors (e.g., sufficiency, necessity, and normality), and answers AC queries via a theory-guided algorithm with explanations. While AC-Reason does not explicitly construct a causal graph, it operates over variables in the underlying causal structure to support principled reasoning. To enable comprehensive evaluation, we introduce AC-Bench, a new benchmark built upon and substantially extending Big-Bench Hard Causal Judgment (BBH-CJ). AC-Bench comprises ~1K carefully annotated samples, each with detailed reasoning steps and focuses solely on actual causation. The case study shows that synthesized samples in AC-Bench present greater challenges for LLMs. Extensive experiments on BBH-CJ and AC-Bench show that AC-Reason consistently improves LLM performance over baselines. On BBH-CJ, all tested LLMs surpass the average human rater accuracy of 69.60%, with GPT-4 + AC-Reason achieving 75.04%. On AC-Bench, GPT-4 + AC-Reason again achieves the highest accuracy of 71.82%. AC-Bench further enables fine-grained analysis of reasoning faithfulness, revealing that only Qwen-2.5-72B-Instruct, Claude-3.5-Sonnet, and GPT-4o exhibit faithful reasoning, whereas GPT-4 tends to exploit shortcuts. Finally, our ablation study proves that integrating AC theory into LLMs is highly effective, with the proposed algorithm contributing the most significant performance gains.

arxiv情報

著者 Yanxi Zhang,Xin Cong,Zhong Zhang,Xiao Liu,Dongyan Zhao,Yesai Wu
発行日 2025-05-13 17:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models はコメントを受け付けていません

Self-reflecting Large Language Models: A Hegelian Dialectical Approach

要約

哲学的なレンズを介してNLPを調査することは、最近、計算方法を古典的な哲学学校と結びつけるため、研究者の目を捕らえました。
このペーパーでは、LLMS ‘\ Textit {自己反省}の\ Textit {Hegelian Dialectic}に触発された哲学的アプローチを紹介します。
さらに、このペーパーでは、初期段階での創造性を促進し、ニュアンスに焦点を当てることによって徐々にそれを改良する動的なアニーリングアプローチを確立することにより、LLMSの生成温度の影響を調査します。
提案された方法の有効性を評価し、新しいアイデアを生成し、問題解決中にLLMの推論能力を改善します。
さらに、ドメインの専門家がいない場合に有用であることが証明された、生成されたアイデアの妥当性と斬新さを評価するために、マルチエージェント多数票(MAMV)戦略を実装しています。
私たちの実験は、アイデアを生成し、問題解決パフォーマンスを向上させることで有望な結果を示しています。

要約(オリジナル)

Investigating NLP through a philosophical lens has recently caught researcher’s eyes as it connects computational methods with classical schools of philosophy. This paper introduces a philosophical approach inspired by the \textit{Hegelian Dialectic} for LLMs’ \textit{self-reflection}, utilizing a self-dialectical approach to emulate internal critiques and then synthesize new ideas by resolving the opposing points of view. Moreover, this paper investigates the effect of LLMs’ temperature for generation by establishing a dynamic annealing approach, which promotes the creativity in the early stages and gradually refines it by focusing on the nuances, as well as a fixed-temperature strategy for generation. We assess the effectiveness of our proposed method in generating novel ideas and in improving the reasoning abilities of LLMs during problem-solving. Moreover, we implement a Multi-Agent Majority Voting (MAMV) strategy to assess the validity and novelty of the generated ideas, which proves useful in the absence of domain experts. Our experiments demonstrate promising results in generating ideas and enhancing problem-solving performance.

arxiv情報

著者 Sara Abdali,Can Goksen,Saeed Amizadeh,Julie E. Maybee,Kazuhito Koishida
発行日 2025-05-13 17:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG | Self-reflecting Large Language Models: A Hegelian Dialectical Approach はコメントを受け付けていません