EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

要約

大規模な言語モデル(LLM)は、数学やコーディングなどの明確なソリューションに関する明確な問題に印象的な推論能力を示しています。
しかし、彼らは依然として、戦略的な推論が必要なビジネス交渉のような複雑な現実世界のシナリオと格闘しています。動的環境をナビゲートし、不確実性の中で長期的な目標を調整する能力です。
戦略的推論のための既存の方法は、適応性、スケーラビリティ、および戦略の転送における課題に直面しています。
これらの問題に対処するために、戦略的推論のための明示的なポリシー最適化(EPO)を提案します。これは、オープンエンドアクションスペースで戦略を提供し、目標指向の動作を動機付けるために任意のLLMエージェントにプラグインできるLLMを特徴としています。
適応性とポリシーの移転性を向上させるために、プロセスの報酬と反復自己プレイを使用して、マルチターン補強学習(RL)を介して戦略的推論モデルをトレーニングします。
社会的および物理的な領域全体の実験は、戦略的推論の強化を通じて長期目標アライメントのEPOの能力を示し、社会的対話とWebナビゲーションタスクで最先端のパフォーマンスを達成します。
私たちの調査結果は、EPOに登場するさまざまな共同推論メカニズムと、新しい戦略を生成する際のその有効性を明らかにし、実際のアプリケーションでの戦略的推論の可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive reasoning capabilities in well-defined problems with clear solutions, such as mathematics and coding. However, they still struggle with complex real-world scenarios like business negotiations, which require strategic reasoning-an ability to navigate dynamic environments and align long-term goals amidst uncertainty. Existing methods for strategic reasoning face challenges in adaptability, scalability, and transferring strategies to new contexts. To address these issues, we propose explicit policy optimization (EPO) for strategic reasoning, featuring an LLM that provides strategies in open-ended action space and can be plugged into arbitrary LLM agents to motivate goal-directed behavior. To improve adaptability and policy transferability, we train the strategic reasoning model via multi-turn reinforcement learning (RL) using process rewards and iterative self-play, without supervised fine-tuning (SFT) as a preliminary step. Experiments across social and physical domains demonstrate EPO’s ability of long-term goal alignment through enhanced strategic reasoning, achieving state-of-the-art performance on social dialogue and web navigation tasks. Our findings reveal various collaborative reasoning mechanisms emergent in EPO and its effectiveness in generating novel strategies, underscoring its potential for strategic reasoning in real-world applications.

arxiv情報

著者 Xiaoqian Liu,Ke Wang,Yongbin Li,Yuchuan Wu,Wentao Ma,Aobo Kong,Fei Huang,Jianbin Jiao,Junge Zhang
発行日 2025-03-14 13:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning はコメントを受け付けていません

Advancing the Database of Cross-Linguistic Colexifications with New Workflows and Data

要約

語彙リソースは、言語間分析に不可欠であり、自然言語学習のための計算モデルに関する新しい洞察を提供できます。
ここでは、複数の意味を持つ単語の比較研究のための高度なデータベースを提示します。
新しいバージョンには、データの取り扱い、選択、プレゼンテーションの改善が含まれます。
新しいデータベースを以前のバージョンと比較して、私たちの改善は、すべての単語形式が音声転写で提供されていることを考えると、世界中でより多くの言語ファミリをカバーするよりバランスのとれたサンプルを提供することを発見します。
言語間の総合的な新しいデータベースは、言語間データを言語学、歴史的言語学、心理言語学、および計算言語学の疑問を開くように結びつけるエキサイティングな新しい研究を刺激する可能性があると結論付けています。

要約(オリジナル)

Lexical resources are crucial for cross-linguistic analysis and can provide new insights into computational models for natural language learning. Here, we present an advanced database for comparative studies of words with multiple meanings, a phenomenon known as colexification. The new version includes improvements in the handling, selection and presentation of the data. We compare the new database with previous versions and find that our improvements provide a more balanced sample covering more language families worldwide, with an enhanced data quality, given that all word forms are provided in phonetic transcription. We conclude that the new Database of Cross-Linguistic Colexifications has the potential to inspire exciting new studies that link cross-linguistic data to open questions in linguistic typology, historical linguistics, psycholinguistics, and computational linguistics.

arxiv情報

著者 Annika Tjuka,Robert Forkel,Christoph Rzymski,Johann-Mattis List
発行日 2025-03-14 13:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB | Advancing the Database of Cross-Linguistic Colexifications with New Workflows and Data はコメントを受け付けていません

Modeling Subjectivity in Cognitive Appraisal with Language Models

要約

学際的で人間中心の研究における言語モデルの利用が成長するにつれて、モデル能力の期待は進化し続けています。
従来のタスクに優れているだけでなく、モデルは最近、自信と人間(DIS)の合意を含むユーザー中心の測定でうまく機能することが期待されています。これは、主観的な好みを反映する要因です。
主観性のモデリングは認知科学に重要な役割を果たし、広範囲に研究されていますが、NLPコミュニティ内では未調査のままです。
このギャップに照らして、微調整されたモデルとプロンプトベースの大手言語モデル(LLMS)の両方を使用して、さまざまなシナリオで包括的な実験と分析を実施することにより、言語モデルが主観性を活用する方法を探ります。
私たちの定量的および定性的な実験結果は、既存の事後キャリブレーションアプローチが満足のいく結果を生成できないことが多いことを示しています。
しかし、我々の調査結果は、人格特性と人口統計情報が主観性を測定するために重要であることを明らかにしています。
さらに、当社の詳細な分析は、NLPと認知科学の学際的研究における将来の研究開発に関する貴重な洞察を提供します。

要約(オリジナル)

As the utilization of language models in interdisciplinary, human-centered studies grow, the expectation of model capabilities continues to evolve. Beyond excelling at conventional tasks, models are recently expected to perform well on user-centric measurements involving confidence and human (dis)agreement — factors that reflect subjective preferences. While modeling of subjectivity plays an essential role in cognitive science and has been extensively studied, it remains under-explored within the NLP community. In light of this gap, we explore how language models can harness subjectivity by conducting comprehensive experiments and analysis across various scenarios using both fine-tuned models and prompt-based large language models (LLMs). Our quantitative and qualitative experimental results indicate that existing post-hoc calibration approaches often fail to produce satisfactory results. However, our findings reveal that personality traits and demographical information are critical for measuring subjectivity. Furthermore, our in-depth analysis offers valuable insights for future research and development in the interdisciplinary studies of NLP and cognitive science.

arxiv情報

著者 Yuxiang Zhou,Hainiu Xu,Desmond C. Ong,Petr Slovak,Yulan He
発行日 2025-03-14 13:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Modeling Subjectivity in Cognitive Appraisal with Language Models はコメントを受け付けていません

ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition

要約

Ancholik-nerは、バングラ地域の方言で指名されたエンティティ認識(NER)の言語的に多様なデータセットであり、シレット、チッタゴン、バリシャル、ノアカリ、マイメンシンのバリエーションをキャプチャします。
データセットには、地域あたり約17,405文、3,481文があります。
データは、2つの公開されているデータセットから、さまざまなオンライン新聞、記事からWebスクレイピングを通じて収集されました。
高品質の注釈を確保するために、バイオタグ付けスキームが採用され、地域の方言の専門知識を持つ専門的なアノテーターがラベリングプロセスを実施しました。
データセットは、各地域の個別のサブセットに構造化されており、CSV形式で使用できます。
各エントリには、識別された名前付きエンティティとそれに対応する注釈とともに、テキストデータが含まれています。
名前付きエンティティは、人、場所、組織、食品、動物、色、役割、関係、オブジェクト、その他の10個の異なるクラスに分類されます。
このデータセットは、バングラ方言のバリエーションのNERモデルを開発および評価するための貴重なリソースとして機能し、地域の言語処理と低リソースNLPアプリケーションに貢献します。
バングラ方言のNERシステムを強化し、地域の言語理解を改善し、機械翻訳、情報検索、および会話型AIのアプリケーションをサポートするために利用できます。

要約(オリジナル)

ANCHOLIK-NER is a linguistically diverse dataset for Named Entity Recognition (NER) in Bangla regional dialects, capturing variations across Sylhet, Chittagong, Barishal, Noakhali, and Mymensingh. The dataset has around 17,405 sentences, 3,481 sentences per region. The data was collected from two publicly available datasets and through web scraping from various online newspapers, articles. To ensure high-quality annotations, the BIO tagging scheme was employed, and professional annotators with expertise in regional dialects carried out the labeling process. The dataset is structured into separate subsets for each region and is available in CSV format. Each entry contains textual data along with identified named entities and their corresponding annotations. Named entities are categorized into ten distinct classes: Person, Location, Organization, Food, Animal, Colour, Role, Relation, Object, and Miscellaneous. This dataset serves as a valuable resource for developing and evaluating NER models for Bangla dialectal variations, contributing to regional language processing and low-resource NLP applications. It can be utilized to enhance NER systems in Bangla dialects, improve regional language understanding, and support applications in machine translation, information retrieval, and conversational AI.

arxiv情報

著者 Bidyarthi Paul,Faika Fairuj Preotee,Shuvashis Sarker,Shamim Rahim Refat,Shifat Islam,Tashreef Muhammad,Mohammad Ashraful Hoque,Shahriar Manzoor
発行日 2025-03-14 14:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition はコメントを受け付けていません

Text Compression for Efficient Language Generation

要約

高品質のテキスト生成のために、LLMがサブワードトークンに完全に依存しなければならないという一般的な仮定に挑戦します。
この目的のために、テキストを文の埋め込みに圧縮し、文の注意メカニズムを採用することにより、テキスト生成が可能な階層的な変圧器言語モデルである「生成前の思考フォーマー」(GPTHF)を提案します。
GPTHFはGPTのアーキテクチャを保持し、動的スパースの注意マスクを介してトークン相互作用のみを変更します。
我々の実験は、GPTHFが、低サイズのレジームでの同等のサイズのGPTモデルと比較して、フロップ効率の最大数桁の改善とランタイム速度の3倍の増加を達成することを示しています。
これは、文の埋め込みをキャッシュおよび再利用する独自の生成方法を通じて達成され、入力の大部分がネットワークの大部分をバイパスすることができます。

要約(オリジナル)

We challenge the prevailing assumption that LLMs must rely fully on sub-word tokens for high-quality text generation. To this end, we propose the ‘Generative Pretrained Thoughtformer’ (GPTHF), a hierarchical transformer language model capable of text generation by compressing text into sentence embeddings and employing a sentence attention mechanism. GPTHF retains GPT’s architecture, modifying only token interactions via dynamic sparse attention masks. Our experiments show that GPTHF achieves an up to an order of magnitude improvement in FLOPs efficiency and a threefold increase in runtime speed compared to equally-sized GPT models in the low-size regime. This is achieved through a unique generation method that caches and reuses sentence embeddings, allowing significant portions of the input to bypass large parts of the network.

arxiv情報

著者 David Gu,Peter Belcak,Roger Wattenhofer
発行日 2025-03-14 14:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Text Compression for Efficient Language Generation はコメントを受け付けていません

Implicit Word Reordering with Knowledge Distillation for Cross-Lingual Dependency Parsing

要約

ソース言語とターゲット言語の違いの違いは、特に依存関係の解析タスクにおいて、横断的な転送の大きな障害です。
現在の作品は、主に注文に達したモデルまたはこの問題を軽減するための単語の並べ替えに基づいています。
ただし、このような方法は、文法情報を自然に語り方に含む文法情報を活用しないか、順列空間が文の長さとともに指数関数的に成長するため、計算上高価です。
さらに、不自然な語順を備えた並べ替えられたソース文は、モデルの学習に害を及ぼすノーシングの形である可能性があります。
この目的のために、知識蒸留(IWR-kd)を備えた暗黙の単語の並べ替えフレームワークを提案します。
このフレームワークは、深いネットワークが意味のあるデータ変換に対応する学習機能の線形化に優れていることに触発されています。
単語の並べ替え。
このアイデアを実現するために、単語の再注文教師モデルと依存関係解析学生モデルで構成される知識蒸留フレームワークを紹介します。
31の異なる言語にわたるユニバーサル依存のツリーバンクに関する提案された方法を検証し、実験的分析とともに、一連の競合他社を上回ることを示し、堅牢なパーサーのトレーニングにどのように機能するかを説明します。

要約(オリジナル)

Word order difference between source and target languages is a major obstacle to cross-lingual transfer, especially in the dependency parsing task. Current works are mostly based on order-agnostic models or word reordering to mitigate this problem. However, such methods either do not leverage grammatical information naturally contained in word order or are computationally expensive as the permutation space grows exponentially with the sentence length. Moreover, the reordered source sentence with an unnatural word order may be a form of noising that harms the model learning. To this end, we propose an Implicit Word Reordering framework with Knowledge Distillation (IWR-KD). This framework is inspired by that deep networks are good at learning feature linearization corresponding to meaningful data transformation, e.g. word reordering. To realize this idea, we introduce a knowledge distillation framework composed of a word-reordering teacher model and a dependency parsing student model. We verify our proposed method on Universal Dependency Treebanks across 31 different languages and show it outperforms a series of competitors, together with experimental analysis to illustrate how our method works towards training a robust parser.

arxiv情報

著者 Zhuoran Li,Chunming Hu,Junfan Chen,Zhijun Chen,Richong Zhang
発行日 2025-03-14 14:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Implicit Word Reordering with Knowledge Distillation for Cross-Lingual Dependency Parsing はコメントを受け付けていません

X-ray Made Simple: Lay Radiology Report Generation and Robust Evaluation

要約

放射線学レポート生成(RRG)は、マルチモーダル生成モデルの開発によりかなり前進しています。
進歩にもかかわらず、既存のメトリックが堅牢性と公平性を欠いているため、この分野は依然として評価に大きな課題に直面しています。
既存の語彙ベースのメトリック(たとえば、BLE)で高いパフォーマンスを持つRRGは、よりミラージュのようなものである可能性があることを明らかにします – モデルはレポートのテンプレートを学習することによってのみ高いBLEを得ることができます。
これは、これらのレポートの高度にパターン化された性質により、RRGにとって差し迫った問題となっています。
さらに、標準的な放射線レポートは多くの場合非常に技術的です。
患者がこれらの報告を理解するのを支援することは、患者の観点から非常に重要ですが、これは以前の研究ではほとんど見落とされています。
この作業では、日々の言語でRRGを体系的に改善できるレイマンのRRGフレームワークを提案することにより、これらの問題に直感的にアプローチします。
具体的には、私たちのフレームワークは、最初に翻訳された素人の用語データセットを提供します。
データセットの上に構築され、セマンティクスベースの評価方法を提案します。これは、膨張した数のBLEUを緩和するのに効果的で、より堅牢な評価を提供します。
レイマンの用語データセットのトレーニングは、レポートテンプレートの学習に過剰に適合するのではなく、モデルがレポートのセマンティクスに焦点を合わせることを奨励することを示しています。
最後に、元の形式によってもたらされる逆パターンと比較して、データセットによって提供されるセマンティクスのゲインの数とセマンティクスのゲインの間の有望なスケーリング法を明らかにします。

要約(オリジナル)

Radiology Report Generation (RRG) has advanced considerably with the development of multimodal generative models. Despite the progress, the field still faces significant challenges in evaluation, as existing metrics lack robustness and fairness. We reveal that, RRG with high performance on existing lexical-based metrics (e.g. BLEU) might be more of a mirage – a model can get a high BLEU only by learning the template of reports. This has become a pressing issue for RRG due to the highly patternized nature of these reports. In addition, standard radiology reports are often highly technical. Helping patients understand these reports is crucial from a patient’s perspective, yet this has been largely overlooked in previous work. In this work, we un-intuitively approach these problems by proposing the Layman’s RRG framework that can systematically improve RRG with day-to-day language. Specifically, our framework first contributes a translated Layman’s terms dataset. Building upon the dataset, we then propose a semantics-based evaluation method, which is effective in mitigating the inflated numbers of BLEU and provides more robust evaluation. We show that training on the layman’s terms dataset encourages models to focus on the semantics of the reports, as opposed to overfitting to learning the report templates. Last, we reveal a promising scaling law between the number of training examples and semantics gain provided by our dataset, compared to the inverse pattern brought by the original formats.

arxiv情報

著者 Kun Zhao,Chenghao Xiao,Sixing Yan,William K. Cheung,Kai Ye,Noura Al Moubayed,Liang Zhan,Chenghua Lin
発行日 2025-03-14 14:44:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | X-ray Made Simple: Lay Radiology Report Generation and Robust Evaluation はコメントを受け付けていません

Alchemist: Towards the Design of Efficient Online Continual Learning System

要約

継続的な学習は、ユーザーのフィードバックを活用することにより、大規模な言語モデルを段階的に改良する有望なソリューションとなっています。
特に、オンライン継続的な学習 – ユーザーフィードバックの小さなバッチでモデルを繰り返しトレーニングする – は、顕著なパフォーマンスの改善を実証しています。
ただし、トレーニングとサービスのプロセスを分離する既存の慣行により、オンライントレーナーは、サービング中に既に行われた中間結果を再計算するようになります。
このような冗長計算は、総トレーニング時間の30%〜42%を占める可能性があります。
この論文では、私たちの知る限り、錬金術師を提案します。これは、トレーニングスループットを増やすためにアクティベーションを効率的に再利用する最初のオンライン継続学習システムです。
錬金術師は、2つの重要な手法を導入します。(1)プレフィルフェーズでのみアクティベーションを記録および保存し、KVキャッシュを保存して、レイテンシとメモリオーバーヘッドを最小限に抑えます。
(2)スマートなアクティベーションオフロードとヘッジ。
ShareGPTデータセットからサンプリングされたさまざまなトークンの長さの入力を使用した評価は、別のトレーニングクラスターと比較して、錬金術師がトレーニングスループットを最大1.72倍に増加させ、トレーニング中に最大47%のメモリの使用量を減らし、トレーニングトケンをさらに2倍以上削減します。

要約(オリジナル)

Continual learning has become a promising solution to refine large language models incrementally by leveraging user feedback. In particular, online continual learning – iteratively training the model with small batches of user feedback – has demonstrated notable performance improvements. However, the existing practice of separating training and serving processes forces the online trainer to recompute the intermediate results already done during serving. Such redundant computations can account for 30%-42% of total training time. In this paper, we propose Alchemist, to the best of our knowledge, the first online continual learning system that efficiently reuses serving activations to increase training throughput. Alchemist introduces two key techniques: (1) recording and storing activations and KV cache only during the prefill phase to minimize latency and memory overhead; and (2) smart activation offloading and hedging. Evaluations with inputs of varied token length sampled from ShareGPT dataset show that compared with a separate training cluster, Alchemist significantly increases training throughput by up to 1.72x, reduces up to 47% memory usage during training, and supports up to 2x more training tokens – all while maintaining negligible impact on serving latency.

arxiv情報

著者 Yuyang Huang,Yuhan Liu,Haryadi S. Gunawi,Beibin Li,Changho Hwang
発行日 2025-03-14 16:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG | Alchemist: Towards the Design of Efficient Online Continual Learning System はコメントを受け付けていません

Do Construction Distributions Shape Formal Language Learning In German BabyLMs?

要約

ドイツの子ども向けスピーチにおける発話レベルの建設分布の影響を分析し、結果として生じる正式な言語能力と、ドイツ語の発達的にもっともらしい言語データの斬新なコレクションで訓練された小言語モデルの基礎となる学習軌跡を分析します。
軌跡は、トレーニングデータの構造の著しく異なる分布に対して驚くほど堅牢であり、最終的な精度にほとんど影響を与えず、グローバルな学習軌跡にほとんど影響しません。
構文学習は、より複雑な発話から利益を得る一方で、語彙学習はより断片的なデータを使用してより良いスコアで頂点に達します。
LMSは、発達的にもっともらしいデータの訓練を受けており、実際に豊かまたは貧困の言語刺激がどれほど豊富であるかについての議論に貢献できると主張しています。

要約(オリジナル)

We analyze the influence of utterance-level construction distributions in German child-directed speech on the resulting formal linguistic competence and the underlying learning trajectories for small language models trained on a novel collection of developmentally plausible language data for German. We find that trajectories are surprisingly robust for markedly different distributions of constructions in the training data, which have little effect on final accuracies and almost no effect on global learning trajectories. While syntax learning benefits from more complex utterances, lexical learning culminates in better scores with more fragmentary data. We argue that LMs trained on developmentally plausible data can contribute to debates on how rich or impoverished linguistic stimuli actually are.

arxiv情報

著者 Bastian Bunzeck,Daniel Duran,Sina Zarrieß
発行日 2025-03-14 17:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do Construction Distributions Shape Formal Language Learning In German BabyLMs? はコメントを受け付けていません

Agents’ Room: Narrative Generation through Multi-step Collaboration

要約

魅力的なフィクションを書くことは、プロットの作成、興味深いキャラクターの開発、刺激的な言語の使用などの要素を組み合わせた多面的なプロセスです。
大規模な言語モデル(LLM)はストーリーライティングの約束を示していますが、現在、使用を制限する複雑なプロンプトに大きく依存しています。
私たちは、物語理論に触発された世代の枠組みであるエージェントの部屋を提案します。これは、専門のエージェントが取り組むサブタスクに物語の執筆を分解します。
私たちの方法を説明するために、Tell Me Me Me Me Me Me Me Me Me Me Me A Story、複雑なライティングプロンプトと人間が書いたストーリーの高品質のデータセット、長い物語を評価するために特別に設計された新しい評価フレームワークを紹介します。
エージェントの部屋は、複雑なストーリーライティングタスクを扱いやすいコンポーネントに分解するためにコラボレーションと専門化を活用することにより、ベースラインシステムによって生成された評価者よりも専門家の評価者が好むストーリーを生成することを示しています。
生成された出力の自動化された人間ベースのメトリックを含む広範な分析を提供します。

要約(オリジナル)

Writing compelling fiction is a multifaceted process combining elements such as crafting a plot, developing interesting characters, and using evocative language. While large language models (LLMs) show promise for story writing, they currently rely heavily on intricate prompting, which limits their use. We propose Agents’ Room, a generation framework inspired by narrative theory, that decomposes narrative writing into subtasks tackled by specialized agents. To illustrate our method, we introduce Tell Me A Story, a high-quality dataset of complex writing prompts and human-written stories, and a novel evaluation framework designed specifically for assessing long narratives. We show that Agents’ Room generates stories that are preferred by expert evaluators over those produced by baseline systems by leveraging collaboration and specialization to decompose the complex story writing task into tractable components. We provide extensive analysis with automated and human-based metrics of the generated output.

arxiv情報

著者 Fantine Huot,Reinald Kim Amplayo,Jennimaria Palomaki,Alice Shoshana Jakobovits,Elizabeth Clark,Mirella Lapata
発行日 2025-03-14 17:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MA | Agents’ Room: Narrative Generation through Multi-step Collaboration はコメントを受け付けていません