Variational Best-of-N Alignment

要約

BoN(Best-of-N)は、言語モデルを人間の嗜好に合わせるための、よく使われる効果的なアルゴリズムである。このアルゴリズムは、推論時に言語モデルからN個のサンプルが抽出され、報酬モデルによって判断された最も報酬の高いサンプルが出力として返される。推論時にBoNをより効率的にするための1つの戦略は、推論時にBoNが行うことを模倣するように言語モデルを微調整することである。これを実現するために、BoNアルゴリズムによって誘導される分布を導出する。そして、BoN分布に対する後方KLダイバージェンスを最小化するように言語モデルを微調整することを提案する。我々のアプローチは平均場変分推論に類似しているため、変分BoN(vBoN)と呼ぶ。制御された生成タスクと要約タスクの実験から、BoNは最も効果的なアライメント手法であり、我々のBoNへの変分近似はBoNに最も近い性能を達成し、標準的なKL制約付きRL目的語を用いて微調整されたモデルを凌駕することが示された。統制された生成タスクでは、vBoNは他のアライメント手法と比較して、報酬とKL発散のパレートフロンティア上に頻繁に現れる。要約タスクでは、vBoNは様々なサンプリング温度で高い報酬値を達成している。

要約(オリジナル)

Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on controlled generation and summarization tasks show that BoN is the most effective alignment method, and our variational approximation to BoN achieves the closest performance to BoN and surpasses models fine-tuned using the standard KL-constrained RL objective. In the controlled generation task, vBoN appears more frequently on the Pareto frontier of reward and KL divergence compared to other alignment methods. In the summarization task, vBoN achieves high reward values across various sampling temperatures.

arxiv情報

著者 Afra Amini,Tim Vieira,Elliott Ash,Ryan Cotterell
発行日 2025-03-03 11:08:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Variational Best-of-N Alignment はコメントを受け付けていません

Signature Kernel Conditional Independence Tests in Causal Discovery for Stochastic Processes

要約

観測データから確率的力学系の根底にある因果構造を推測することは、科学や健康から金融に至るまで、幅広い領域で大きな可能性を秘めている。このような過程は多くの場合、確率微分方程式(SDE)によって正確にモデル化され、「どの変数が他のどの変数の微分に入るか」によって因果関係が自然に示唆される。本論文では、一般的なSDEモデルによって誘導される(自己ループを許容する)非周期依存グラフに関してマルコフである、選択された区間上の座標過程に対する条件付き独立性(CI)制約を開発する。次に、完全に観測されたデータと部分的に観測されたデータの両方を扱うことができ、CIオラクルを仮定して時間の方向性を利用することにより、基礎となる、あるいは誘導された祖先グラフを一意に復元することができる、健全で完全な因果発見アルゴリズムを提供する。最後に、本アルゴリズムを実用的に使えるようにするため、データからこれらの制約を推論する、柔軟で一貫性のあるシグネチャカーネルベースのCIテストを提案する。このCIテストを単独で、また我々の因果発見アルゴリズムの一部として広範囲にベンチマークを行い、SDEモデルやそれ以上のモデルにおいて既存のアプローチを凌駕する結果を得た。

要約(オリジナル)

Inferring the causal structure underlying stochastic dynamical systems from observational data holds great promise in domains ranging from science and health to finance. Such processes can often be accurately modeled via stochastic differential equations (SDEs), which naturally imply causal relationships via ‘which variables enter the differential of which other variables’. In this paper, we develop conditional independence (CI) constraints on coordinate processes over selected intervals that are Markov with respect to the acyclic dependence graph (allowing self-loops) induced by a general SDE model. We then provide a sound and complete causal discovery algorithm, capable of handling both fully and partially observed data, and uniquely recovering the underlying or induced ancestral graph by exploiting time directionality assuming a CI oracle. Finally, to make our algorithm practically usable, we also propose a flexible, consistent signature kernel-based CI test to infer these constraints from data. We extensively benchmark the CI test in isolation and as part of our causal discovery algorithms, outperforming existing approaches in SDE models and beyond.

arxiv情報

著者 Georg Manten,Cecilia Casolo,Emilio Ferrucci,Søren Wengel Mogensen,Cristopher Salvi,Niki Kilbertus
発行日 2025-03-03 11:25:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | Signature Kernel Conditional Independence Tests in Causal Discovery for Stochastic Processes はコメントを受け付けていません

AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems

要約

私たちは日々、重大なタスクや意思決定を自動化し、サポートするために、機械学習モデルにますます依存するようになっている。このプレゼンスの高まりは、人間が機械学習ベースのシステムと常に相互作用し、毎日モデルを訓練し、使用していることを意味する。コンピュータサイエンスの文献には、機械学習システムと人間のインタラクションを説明するいくつかの異なるテクニックがあるが、それらの分類はまばらで、目的も様々である。本調査では、ハイブリッド意思決定システムの分類法を提案し、現在のコンピュータサイエンス文献が人間と機械の相互作用をどのようにモデル化しているかを理解するための概念的・技術的枠組みを提供する。

要約(オリジナル)

Everyday we increasingly rely on machine learning models to automate and support high-stake tasks and decisions. This growing presence means that humans are now constantly interacting with machine learning-based systems, training and using models everyday. Several different techniques in computer science literature account for the human interaction with machine learning systems, but their classification is sparse and the goals varied. This survey proposes a taxonomy of Hybrid Decision Making Systems, providing both a conceptual and technical framework for understanding how current computer science literature models interaction between humans and machines.

arxiv情報

著者 Clara Punzi,Roberto Pellungrini,Mattia Setzu,Fosca Giannotti,Dino Pedreschi
発行日 2025-03-03 11:28:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC, cs.LG | AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems はコメントを受け付けていません

Offline Model-Based Optimization by Learning to Rank

要約

オフラインモデルベース最適化(MBO)は、固定された、事前に収集された設計とそれに対応するスコアのデータセットのみを使用して、ブラックボックス関数を最大化する設計を特定することを目的としています。オフラインMBOの一般的なアプローチは、平均二乗誤差(MSE)を最小化することによって回帰ベースのサロゲートモデルを訓練し、その後、異なる最適化手法(例えば、勾配上昇)によってこのサロゲートモデル内で最良の設計を見つけることです。しかし、重大な課題は、分布外誤差のリスクである。すなわち、サロゲート・モデルは一般的にスコアを過大評価し、最適化器を最適でない領域へとミスリードする可能性がある。先行研究では、正則化技術やアンサンブル学習を用いてモデルの頑健性を高めるなど、様々な方法でこの問題への対処が試みられているが、依然としてこの問題は残っている。本論文では、MSEを用いて訓練された回帰モデルは、オフラインMBOの主要な目的である、そのスコアを正確に予測することよりも、有望なデザインを選択することにうまく合致していないと主張する。注目すべきは、もしサロゲートモデルが相対的なスコア関係に基づいて候補デザインの順序を維持することができれば、正確な予測なしでも最良のデザインを生み出すことができるということである。これを検証するために、最終的な設計の品質とMSEの関係を比較する実験を行ったところ、相関関係は実に弱いことがわかった。対照的に、秩序維持の品質を測定する指標は、有意に強い相関を示す。この観察に基づき、我々は、ランク付け学習技術を活用して、相対的なスコアに基づいて有望な設計に優先順位を付ける、ランク付けベースのモデルの学習を提案する。我々は、順位付け損失に対する汎化誤差が十分に境界可能であることを示す。多様なタスクにわたる実証結果から、我々の提案するランキングベースモデルの性能が、既存の20の手法よりも優れていることを示す。

要約(オリジナル)

Offline model-based optimization (MBO) aims to identify a design that maximizes a black-box function using only a fixed, pre-collected dataset of designs and their corresponding scores. A common approach in offline MBO is to train a regression-based surrogate model by minimizing mean squared error (MSE) and then find the best design within this surrogate model by different optimizers (e.g., gradient ascent). However, a critical challenge is the risk of out-of-distribution errors, i.e., the surrogate model may typically overestimate the scores and mislead the optimizers into suboptimal regions. Prior works have attempted to address this issue in various ways, such as using regularization techniques and ensemble learning to enhance the robustness of the model, but it still remains. In this paper, we argue that regression models trained with MSE are not well-aligned with the primary goal of offline MBO, which is to select promising designs rather than to predict their scores precisely. Notably, if a surrogate model can maintain the order of candidate designs based on their relative score relationships, it can produce the best designs even without precise predictions. To validate it, we conduct experiments to compare the relationship between the quality of the final designs and MSE, finding that the correlation is really very weak. In contrast, a metric that measures order-maintaining quality shows a significantly stronger correlation. Based on this observation, we propose learning a ranking-based model that leverages learning to rank techniques to prioritize promising designs based on their relative scores. We show that the generalization error on ranking loss can be well bounded. Empirical results across diverse tasks demonstrate the superior performance of our proposed ranking-based models than twenty existing methods.

arxiv情報

著者 Rong-Xi Tan,Ke Xue,Shen-Huan Lyu,Haopu Shang,Yao Wang,Yaoyuan Wang,Sheng Fu,Chao Qian
発行日 2025-03-03 11:38:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.NE | Offline Model-Based Optimization by Learning to Rank はコメントを受け付けていません

Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning

要約

深層強化学習(RL)は、ハイパーパラメータに非常に敏感であることでよく知られており、実践者は、手元の問題に対してハイパーパラメータを最適化するために多大な努力を必要とする。これはまた、実世界のシナリオにおけるRLの適用性を制限する。近年、この問題を解決しようとする自動強化学習(AutoRL)の分野が人気を集めている。しかし、これらのアプローチは一般的に、性能の良いハイパーパラメータを選択するための追加サンプルに依存しており、サンプル効率と実用性を阻害している。さらに、ほとんどのAutoRL手法は、既存のAutoML手法に大きく依存しており、それらは元々、非定常性に起因するRL固有の新たな課題を無視して開発されたものである。本論文では、Adaptive $Q$-Network(AdaQN)と呼ばれるAutoRLのための新しいアプローチを提案する。AdaQNは複数の$Q$関数を学習し、それぞれが異なるハイパーパラメータで訓練され、共有ターゲットとして最も近似誤差の小さい$Q$関数を用いてオンラインで更新される。我々の選択スキームは、RL最適化手順によって引き起こされる非定常性に対処しながら、同時に異なるハイパーパラメータを扱い、あらゆる批評家ベースのRLアルゴリズムに直交する。我々は、AdaQNが理論的に正しいことを実証し、MuJoCo制御問題とAtari $2600$ゲームで実証的に検証し、サンプル効率、全体的性能、確率性に対する頑健性、学習の安定性における利点を示す。

要約(オリジナル)

Deep Reinforcement Learning (RL) is well known for being highly sensitive to hyperparameters, requiring practitioners substantial efforts to optimize them for the problem at hand. This also limits the applicability of RL in real-world scenarios. In recent years, the field of automated Reinforcement Learning (AutoRL) has grown in popularity by trying to address this issue. However, these approaches typically hinge on additional samples to select well-performing hyperparameters, hindering sample-efficiency and practicality. Furthermore, most AutoRL methods are heavily based on already existing AutoML methods, which were originally developed neglecting the additional challenges inherent to RL due to its non-stationarities. In this work, we propose a new approach for AutoRL, called Adaptive $Q$-Network (AdaQN), that is tailored to RL to take into account the non-stationarity of the optimization procedure without requiring additional samples. AdaQN learns several $Q$-functions, each one trained with different hyperparameters, which are updated online using the $Q$-function with the smallest approximation error as a shared target. Our selection scheme simultaneously handles different hyperparameters while coping with the non-stationarity induced by the RL optimization procedure and being orthogonal to any critic-based RL algorithm. We demonstrate that AdaQN is theoretically sound and empirically validate it in MuJoCo control problems and Atari $2600$ games, showing benefits in sample-efficiency, overall performance, robustness to stochasticity and training stability.

arxiv情報

著者 Théo Vincent,Fabian Wahren,Jan Peters,Boris Belousov,Carlo D’Eramo
発行日 2025-03-03 11:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning はコメントを受け付けていません

Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning

要約

強化学習法の大部分は、作用値関数の効果的な推定を得るために必要な計算量とデータ量に大きく影響される。通常、行動価値関数は、ベルマン演算子の経験的近似の適用と、それに続く関数空間への射影ステップを交互に繰り返す反復スキームによって推定される。このスキームは、ベルマン作用素の複数の反復を一度に実行するように一般化できる可能性があり、基礎となる学習アルゴリズムに利益をもたらすことが観察されている。しかし、これまで、特に高次元問題において、このアイデアを効果的に実装することは困難であった。本論文では、反復$Q$-Network(i-QN)を紹介する。i-QNは、行動値関数を学習することで、複数回の連続したベルマン更新を可能にする新しい原理的アプローチである。i-QNは理論的根拠があり、価値ベースや行為者批評的手法にシームレスに利用できることを示す。アタリ$2600$ゲームとMuJoCo連続制御問題において、i-QNの優位性を実証的に示す。

要約(オリジナル)

The vast majority of Reinforcement Learning methods is largely impacted by the computation effort and data requirements needed to obtain effective estimates of action-value functions, which in turn determine the quality of the overall performance and the sample-efficiency of the learning procedure. Typically, action-value functions are estimated through an iterative scheme that alternates the application of an empirical approximation of the Bellman operator and a subsequent projection step onto a considered function space. It has been observed that this scheme can be potentially generalized to carry out multiple iterations of the Bellman operator at once, benefiting the underlying learning algorithm. However, till now, it has been challenging to effectively implement this idea, especially in high-dimensional problems. In this paper, we introduce iterated $Q$-Network (i-QN), a novel principled approach that enables multiple consecutive Bellman updates by learning a tailored sequence of action-value functions where each serves as the target for the next. We show that i-QN is theoretically grounded and that it can be seamlessly used in value-based and actor-critic methods. We empirically demonstrate the advantages of i-QN in Atari $2600$ games and MuJoCo continuous control problems.

arxiv情報

著者 Théo Vincent,Daniel Palenicek,Boris Belousov,Jan Peters,Carlo D’Eramo
発行日 2025-03-03 11:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning はコメントを受け付けていません

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses

要約

科学的発見は人類社会の繁栄に大きく貢献しており、最近の進歩は、LLMがこのプロセスを促進する可能性があることを示している。しかし、LLMが化学において新規かつ有効な仮説を発見できるかどうかはまだ不明である。本研究では、この中心的な研究課題を調査する:LLMは、化学の研究背景(リサーチクエスチョンと背景調査から成る)だけで、リサーチクエスチョンの領域に制限なく、新規かつ有効な化学研究仮説を自動的に発見できるのか?化学の専門家と広範な議論を行った結果、化学の仮説の大部分は、研究背景といくつかの着想から得られるという仮定を提案する。この重要な洞察に基づき、中心的な質問を3つの小さな基本的な質問に分割する。簡単に言うと、以下の3つである:(1)背景となる疑問が与えられた場合、LLMは良い着想を得ることができるか、(2)背景と着想を得た場合、LLMは仮説を導くことができるか、(3)LLMは良い仮説を特定し、上位にランク付けすることができるか、である。これらの疑問を調査するために、2024年にNature、Science、または同レベルの雑誌に掲載された51の化学論文からなるベンチマークを構築した(すべての論文は2024年以降オンラインでしか入手できない)。すべての論文は、化学博士課程の学生によって、背景、着想、仮説の3つの要素に分けられている。目標は、2023年までのデータで学習したLLMを用いて、背景と、グランドトゥルースとなるインスピレーション論文からなる無作為に選択された大規模な化学文献コーパスのみを与え、仮説を再発見することである。また、この仮説を活用したLLMベースのマルチエージェントフレームワークを開発し、3つの小さな疑問を反映した3つのステージから構成される。提案手法は、グランドトゥルースと非常に高い類似性を持つ多くの仮説を再発見することができ、主要なイノベーションをカバーすることができる。

要約(オリジナル)

Scientific discovery contributes largely to human society’s prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.

arxiv情報

著者 Zonglin Yang,Wanhao Liu,Ben Gao,Tong Xie,Yuqiang Li,Wanli Ouyang,Soujanya Poria,Erik Cambria,Dongzhan Zhou
発行日 2025-03-03 13:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses はコメントを受け付けていません

AnyECG: Foundational Models for Multitask Cardiac Analysis in Real-World Settings

要約

心電図(ECG)は、非侵襲的で安価な心臓モニタリングのツールであり、急性の心臓発作を検出する上で高感度である。しかし、心電図記録は長時間に及ぶため、人間の作業負担を軽減するために、自動心臓病検出のための機械学習手法が数多く開発されてきた。こうした努力にもかかわらず、性能は依然として最適とはいえない。主な障害は、ECGデータ固有の複雑さである。ECGデータには、不均一性(サンプリングレートの変化など)、高レベルのノイズ、人口統計に関連したパターンのシフト、複雑なリズムとイベントの関連性などが含まれる。これらの課題を克服するために、本論文では、あらゆる実世界のECGデータからロバストな表現を抽出するように設計された基盤モデルであるAnyECGを紹介します。具体的には、ECGトーケナイザが各固定時間ECGフラグメントをトークンにエンコードし、プロキシタスクに導かれて、ノイズの多い連続的なECG特徴を離散的でコンパクトな臨床的に意味のあるローカルなリズムコードに変換します。これらのコードは基本的な形態学的、周波数、および人口統計学的情報(性別など)をカプセル化し、信号ノイズを効果的に軽減します。さらに、ECGトークン間のリズムパターンの関連付けを学習するためにAnyECGを事前トレーニングし、心イベントのセマンティクスの捕捉を可能にします。多様なECGデータソースに対して共同で事前学習することで、AnyECGはECG信号がさまざまなデバイスやシナリオから記録される幅広いダウンストリームタスクに汎化することができます。実験結果によると、AnyECGは4つの重要なタスク(異常検出、不整脈分類、破損リード生成、超長時間ECG認識)において平均6%の性能向上を達成しています。AnyECGはデータから一般的なECGリズムを学習し、これらのタスクのそれぞれで最先端の手法を大幅に上回っています。

要約(オリジナル)

Electrocardiogram (ECG), a non-invasive and affordable tool for cardiac monitoring, is highly sensitive in detecting acute heart attacks. However, due to the lengthy nature of ECG recordings, numerous machine learning methods have been developed for automated heart disease detection to reduce human workload. Despite these efforts, performance remains suboptimal. A key obstacle is the inherent complexity of ECG data, which includes heterogeneity (e.g., varying sampling rates), high levels of noise, demographic-related pattern shifts, and intricate rhythm-event associations. To overcome these challenges, this paper introduces AnyECG, a foundational model designed to extract robust representations from any real-world ECG data. Specifically, a tailored ECG Tokenizer encodes each fixed-duration ECG fragment into a token and, guided by proxy tasks, converts noisy, continuous ECG features into discrete, compact, and clinically meaningful local rhythm codes. These codes encapsulate basic morphological, frequency, and demographic information (e.g., sex), effectively mitigating signal noise. We further pre-train the AnyECG to learn rhythmic pattern associations across ECG tokens, enabling the capture of cardiac event semantics. By being jointly pre-trained on diverse ECG data sources, AnyECG is capable of generalizing across a wide range of downstream tasks where ECG signals are recorded from various devices and scenarios. The experimental results show that AnyECG achieves an average performance improvement of 6% across four critical tasks-anomaly detection, arrhythmia classification, corrupted lead generation, and ultra-long ECG recognition. AnyECG learns common ECG rhythm from data and significantly outperforms state-of-the-art methods in each of these tasks.

arxiv情報

著者 Yue Wang,Xu Cao,Yaojun Hu,Haochao Ying,Hongxia Xu,Ruijia Wu,James Matthew Rehg,Jimeng Sun,Jian Wu,Jintai Chen
発行日 2025-03-03 13:19:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, eess.SP | AnyECG: Foundational Models for Multitask Cardiac Analysis in Real-World Settings はコメントを受け付けていません

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

要約

思考の連鎖(CoT)プロンプトは、様々な推論タスクにおいて様々なパフォーマンスを示す。これまでの研究では、CoTの評価を試みているが、CoTに影響を与えるパターンの詳細な分析には至っていない。本論文では、CoTの性能を有効性と忠実性の観点から研究する。前者については、問題の難易度、情報利得、情報フローなど、パフォーマンス向上におけるCoTの有効性に影響を与える主要因を特定する。後者については、質問、CoT、解答の間の情報の相互作用の共同分析を行うことで、不誠実なCoT問題を解釈する。その結果、LLMが解答を予測する場合、質問からCoTに欠落している情報を正しく想起することができ、問題につながることが示された。最後に、この問題を軽減する新しいアルゴリズムを提案する。このアルゴリズムでは、CoT生成を強化するために質問から余分な情報を呼び出し、その情報利得に基づいてCoTを評価する。広範な実験により、我々のアプローチがCoTの忠実性と有効性の両方を向上させることを実証する。

要約(オリジナル)

Chain-of-thought (CoT) prompting demonstrates varying performance under different reasoning tasks. Previous work attempts to evaluate it but falls short in providing an in-depth analysis of patterns that influence the CoT. In this paper, we study the CoT performance from the perspective of effectiveness and faithfulness. For the former, we identify key factors that influence CoT effectiveness on performance improvement, including problem difficulty, information gain, and information flow. For the latter, we interpret the unfaithful CoT issue by conducting a joint analysis of the information interaction among the question, CoT, and answer. The result demonstrates that, when the LLM predicts answers, it can recall correct information missing in the CoT from the question, leading to the problem. Finally, we propose a novel algorithm to mitigate this issue, in which we recall extra information from the question to enhance the CoT generation and evaluate CoTs based on their information gain. Extensive experiments demonstrate that our approach enhances both the faithfulness and effectiveness of CoT.

arxiv情報

著者 Jiachun Li,Pengfei Cao,Yubo Chen,Jiexin Xu,Huaijun Li,Xiaojian Jiang,Kang Liu,Jun Zhao
発行日 2025-03-03 13:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness はコメントを受け付けていません

CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR

要約

コンピュータグラフィックス、機械学習、センサー技術における最近の発展により、技能訓練からエンターテインメントまで、日常生活における拡張現実感(XR)セットアップの多くの機会が可能になった。大企業が手頃なコンシューマーグレードのヘッドマウントディスプレイ(HMD)を提供することで、XRは普及し、HMDはスマートフォンやタブレットのようなパーソナルデバイスとして発展していくだろう。しかし、XRにインテリジェントな空間と自然なインタラクションを持たせることは、ユーザーが仮想空間や拡張空間でのエンゲージメントを高めるために、技術の進歩と同じくらい重要である。この目的のために、大規模言語モデル(LLM)を搭載したノンプレイヤーキャラクター(NPC)は、STT(Speech-to-Text)やTTS(Text-to-Speech)モデルを備え、XRにおいてより自然な会話型ユーザーインターフェース(CUI)を促進するために、従来のNPCや事前にスクリプト化されたNPCよりも大きな利点をもたらします。本論文では、オープンソースで、カスタマイズ可能で、拡張可能で、プライバシーに配慮したUnityパッケージであるCUIfyをコミュニティに提供し、広く使用されているLLM、STT、TTSモデルを使って、音声ベースのNPCとユーザとの対話を容易にします。また、本パッケージは、環境ごとに複数のLLMを搭載したNPCをサポートし、ストリーミングにより異なる計算モデル間の待ち時間を最小化することで、ユーザとNPC間のユーザビリティの高いインタラクションを実現します。ソースコードは以下のリポジトリで公開しています: https://gitlab.lrz.de/hctl/cuify

要約(オリジナル)

Recent developments in computer graphics, machine learning, and sensor technologies enable numerous opportunities for extended reality (XR) setups for everyday life, from skills training to entertainment. With large corporations offering affordable consumer-grade head-mounted displays (HMDs), XR will likely become pervasive, and HMDs will develop as personal devices like smartphones and tablets. However, having intelligent spaces and naturalistic interactions in XR is as important as technological advances so that users grow their engagement in virtual and augmented spaces. To this end, large language model (LLM)–powered non-player characters (NPCs) with speech-to-text (STT) and text-to-speech (TTS) models bring significant advantages over conventional or pre-scripted NPCs for facilitating more natural conversational user interfaces (CUIs) in XR. This paper provides the community with an open-source, customizable, extendable, and privacy-aware Unity package, CUIfy, that facilitates speech-based NPC-user interaction with widely used LLMs, STT, and TTS models. Our package also supports multiple LLM-powered NPCs per environment and minimizes latency between different computational models through streaming to achieve usable interactions between users and NPCs. We publish our source code in the following repository: https://gitlab.lrz.de/hctl/cuify

arxiv情報

著者 Kadir Burak Buldu,Süleyman Özdel,Ka Hei Carrie Lau,Mengdi Wang,Daniel Saad,Sofie Schönborn,Auxane Boch,Enkelejda Kasneci,Efe Bozkir
発行日 2025-03-03 13:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC | CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR はコメントを受け付けていません