Efficient Speech Translation through Model Compression and Knowledge Distillation

要約

音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要件のために依然として困難です。
このホワイトペーパーでは、この課題は、音声言語翻訳に関する国際会議(IWSLT 2025)での「モデル圧縮」トラックへのシステムの提出を通じて対処します。
層の重要性評価、4ビット量子化による低ランク適応(Qlora)、および知識の蒸留に基づいた反復層剪定などのアプローチの組み合わせを実験します。
私たちの実験では、ドイツ語と中国語への音声翻訳には、QWEN2-Audio-7B-Instructを使用しています。
剪定された(学生)モデルは、モデルパラメーターとストレージフットプリントの両方を最大50%削減し、領域内(教師)モデルの翻訳品質の97〜100%を保持しています。

要約(オリジナル)

Efficient deployment of large audio-language models for speech translation remains challenging due to their significant computational requirements. In this paper, we address this challenge through our system submissions to the ‘Model Compression’ track at the International Conference on Spoken Language Translation (IWSLT 2025). We experiment with a combination of approaches including iterative layer pruning based on layer importance evaluation, low-rank adaptation with 4-bit quantization (QLoRA), and knowledge distillation. In our experiments, we use Qwen2-Audio-7B-Instruct for speech translation into German and Chinese. Our pruned (student) models achieve up to a 50% reduction in both model parameters and storage footprint, while retaining 97-100% of the translation quality of the in-domain (teacher) models.

arxiv情報

著者 Yasmin Moslem
発行日 2025-06-02 12:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Efficient Speech Translation through Model Compression and Knowledge Distillation はコメントを受け付けていません

MiLiC-Eval: Benchmarking Multilingual LLMs for China’s Minority Languages

要約

大規模な言語モデル(LLM)は高リソース言語で優れていますが、低リソース言語(LRL)、特にチベット語、ウイグル、カザフ、モンゴル語などの中国の少数派コミュニティによって話されている言語(LRL)に苦労しています。
これらの言語の進捗状況を体系的に追跡するために、9つのタスクにわたって24Kインスタンスを特徴とする中国の少数言語向けに設計されたベンチマークであるMilic-Valを紹介します。
Milic-Evalは、過小評価されているライティングシステムに焦点を当てています。
タスクと言語間のその並列性は、言語的および問題解決スキルの忠実できめの細かい評価を提供することができます。
私たちの評価により、オープンソースのLLMは、構文集約型タスクとマルチスクリプト言語でパフォーマンスが低いことが明らかになりました。
さらに、Milic-Valが多様なライティングシステムの処理と言語適応のプロセスを理解する際にLRLの研究を進めるのにどのように役立つかを示します。

要約(オリジナル)

Large language models (LLMs) excel in high-resource languages but struggle with low-resource languages (LRLs), particularly those spoken by minority communities in China, such as Tibetan, Uyghur, Kazakh, and Mongolian. To systematically track the progress in these languages, we introduce MiLiC-Eval, a benchmark designed for minority languages in China, featuring 24K instances across 9 tasks. MiLiC-Eval focuses on underrepresented writing systems. Its parallelism between tasks and languages can provide a faithful and fine-grained assessment of linguistic and problem-solving skills. Our evaluation reveals that open-source LLMs perform poorly on syntax-intensive tasks and multi-script languages. We further demonstrate how MiLiC-Eval can help advance LRL research in handling diverse writing systems and understanding the process of language adaptation.

arxiv情報

著者 Chen Zhang,Mingxu Tao,Zhiyuan Liao,Yansong Feng
発行日 2025-06-02 13:06:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MiLiC-Eval: Benchmarking Multilingual LLMs for China’s Minority Languages はコメントを受け付けていません

PIP: Perturbation-based Iterative Pruning for Large Language Models

要約

大規模な言語モデル(LLMS)のパラメーター数の急速な増加は、数十億人または数兆に達することであり、特にリソースに制約のある環境において、実際の展開に大きな課題をもたらします。
この問題を容易にするために、PIP(摂動ベースの反復剪定)を提案します。これは、2つの異なるビューからの情報を組み合わせたLLMSを最適化するための新しいダブルビュー構造剪定方法です。
グラデーションの違いの計算により、ピップはこれら2つのビューを区別するのに苦労しているものを繰り返しプルーン化します。
私たちの実験では、PIPがパラメーター数を約20%削減し、さまざまなベンチマーク全体で元のモデルの精度の85%以上を保持していることが示されています。
場合によっては、剪定されたモデルのパフォーマンスは、未給バージョンの5%以内であり、モデルの有効性の重要な側面を維持するPIPの能力を示しています。
さらに、PIPは、既存の最先端(SOTA)構造剪定方法よりも一貫して優れており、リソースを制限された環境でLLMを最適化するための主要な手法として確立します。

要約(オリジナル)

The rapid increase in the parameter counts of Large Language Models (LLMs), reaching billions or even trillions, presents significant challenges for their practical deployment, particularly in resource-constrained environments. To ease this issue, we propose PIP (Perturbation-based Iterative Pruning), a novel double-view structured pruning method to optimize LLMs, which combines information from two different views: the unperturbed view and the perturbed view. With the calculation of gradient differences, PIP iteratively prunes those that struggle to distinguish between these two views. Our experiments show that PIP reduces the parameter count by approximately 20% while retaining over 85% of the original model’s accuracy across varied benchmarks. In some cases, the performance of the pruned model is within 5% of the unpruned version, demonstrating PIP’s ability to preserve key aspects of model effectiveness. Moreover, PIP consistently outperforms existing state-of-the-art (SOTA) structured pruning methods, establishing it as a leading technique for optimizing LLMs in environments with constrained resources.

arxiv情報

著者 Yi Cao,Wei-Jie Xu,Yucheng Shen,Weijie Shi,Chi-Min Chan,Jianfeng Qu,Jiajie Xu
発行日 2025-06-02 13:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | PIP: Perturbation-based Iterative Pruning for Large Language Models はコメントを受け付けていません

SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability

要約

Sparse Autoencoders(SAE)は、言語モデルの活性化を解釈するための一般的な手法であり、SAEの有効性の向上に関する最近の広範な作業があります。
ただし、ほとんどの以前の研究は、監視されていないプロキシメトリックを使用して、不明確な実用的な関連性を備えた進捗を評価します。
Saebenchを紹介します。Saebenchは、8つの多様なメトリックにわたってSAEのパフォーマンスを測定する包括的な評価スイートであり、解釈可能性、特徴の解き、および学習などの実用的なアプリケーションにまたがります。
体系的な比較を可能にするために、最近提案された8つのSAEアーキテクチャとトレーニングアルゴリズムにまたがる200を超えるSAEのスイートをオープンソースします。
私たちの評価は、プロキシメトリックの利益が確実に実用的なパフォーマンスに確実に変換されないことを明らかにしています。
たとえば、Matryoshkaは既存のプロキシメトリックでわずかにパフォーマンスが低下していますが、機能の解き角メトリックの他のアーキテクチャを大幅に上回ります。
さらに、この利点はSAEスケールで成長します。
SAE開発の進捗状況を測定するための標準化されたフレームワークを提供することにより、Saebenchは研究者がスケーリングの傾向を研究し、さまざまなSAEアーキテクチャとトレーニング方法間の微妙な比較を行うことができます。
インタラクティブなインターフェイスにより、研究者は、www.neuronpedia.org/sae-benchで、数百のオープンソースSAEにわたるメトリック間の関係を柔軟に視覚化できます。

要約(オリジナル)

Sparse autoencoders (SAEs) are a popular technique for interpreting language model activations, and there is extensive recent work on improving SAE effectiveness. However, most prior work evaluates progress using unsupervised proxy metrics with unclear practical relevance. We introduce SAEBench, a comprehensive evaluation suite that measures SAE performance across eight diverse metrics, spanning interpretability, feature disentanglement and practical applications like unlearning. To enable systematic comparison, we open-source a suite of over 200 SAEs across eight recently proposed SAE architectures and training algorithms. Our evaluation reveals that gains on proxy metrics do not reliably translate to better practical performance. For instance, while Matryoshka SAEs slightly underperform on existing proxy metrics, they substantially outperform other architectures on feature disentanglement metrics; moreover, this advantage grows with SAE scale. By providing a standardized framework for measuring progress in SAE development, SAEBench enables researchers to study scaling trends and make nuanced comparisons between different SAE architectures and training methodologies. Our interactive interface enables researchers to flexibly visualize relationships between metrics across hundreds of open-source SAEs at: www.neuronpedia.org/sae-bench

arxiv情報

著者 Adam Karvonen,Can Rager,Johnny Lin,Curt Tigges,Joseph Bloom,David Chanin,Yeu-Tong Lau,Eoin Farrell,Callum McDougall,Kola Ayonrinde,Demian Till,Matthew Wearden,Arthur Conmy,Samuel Marks,Neel Nanda
発行日 2025-06-02 13:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability はコメントを受け付けていません

ScEdit: Script-based Assessment of Knowledge Editing

要約

知識編集(KE)は注目を集めていますが、現在のKEタスクは比較的単純なままです。
現在の評価フレームワークでは、多くの編集方法が非常に高いスコアを達成し、時には完璧に近づいています。
ただし、KEが実際のアプリケーションシナリオに統合する研究はほとんどありません(例:LLM-As-Asentに対する最近の関心)。
分析をサポートするために、斬新なスクリプトベースのベンチマークであるScedit(スクリプトベースの知識編集ベンチマーク)を紹介します。
トークンレベルとテキストレベルの評価方法を統合し、既存のKE技術を包括的に分析します。
このベンチマークは、アクションベース(「方法」型質問)評価に従来の事実ベース(「What」タイプの質問)評価を拡張します。
すべてのKEメソッドは、確立されたメトリックでパフォーマンスの低下を示し、テキストレベルのメトリックで課題に直面し、挑戦的なタスクを示していることがわかります。
当社のベンチマークは、https://github.com/asdfo123/sceditで入手できます。

要約(オリジナル)

Knowledge Editing (KE) has gained increasing attention, yet current KE tasks remain relatively simple. Under current evaluation frameworks, many editing methods achieve exceptionally high scores, sometimes nearing perfection. However, few studies integrate KE into real-world application scenarios (e.g., recent interest in LLM-as-agent). To support our analysis, we introduce a novel script-based benchmark — ScEdit (Script-based Knowledge Editing Benchmark) — which encompasses both counterfactual and temporal edits. We integrate token-level and text-level evaluation methods, comprehensively analyzing existing KE techniques. The benchmark extends traditional fact-based (‘What’-type question) evaluation to action-based (‘How’-type question) evaluation. We observe that all KE methods exhibit a drop in performance on established metrics and face challenges on text-level metrics, indicating a challenging task. Our benchmark is available at https://github.com/asdfo123/ScEdit.

arxiv情報

著者 Xinye Li,Zunwen Zheng,Qian Zhang,Dekai Zhuang,Jiabao Kang,Liyan Xu,Qingbin Liu,Xi Chen,Zhiying Tu,Dianhui Chu,Dianbo Sui
発行日 2025-06-02 14:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ScEdit: Script-based Assessment of Knowledge Editing はコメントを受け付けていません

EnigmaToM: Improve LLMs’ Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States

要約

他者の認識と精神状態を推測する能力である理論(TOM)は、人間の相互作用の基本ですが、大規模な言語モデル(LLMS)にとっては挑戦的なままです。
既存のTOM推論方法は、知覚的な視点を獲得することで推論との約束を示していますが、多くの場合、既製のLLMSに過度に依存し、効率を低下させ、高次のTOM推論に適用可能性を制限します。
これらの問題に対処するために、(1)心理学にインスパイアされた反復マスキングメカニズムを統合する正確な視点標識と(2)重要な存在情報を誘発する知識注入を統合することにより、TOMの推論を強化する新しいニューロ – 神経系の枠組みであるEnigmatomを提示します。
Enigmaは、エンティティ状態の構造化された知識を生成して、さまざまなTOM注文にわたって信念追跡のための空間シーングラフを構築し、微調整されたエンティティ状態の詳細を備えたイベントを豊かにします。
Tomi、hitom、およびFantomのベンチマークに関する実験結果は、エニグマトムがさまざまなサイズのLLMにわたってTOMの推論を大幅に改善すること、特に高次の推論シナリオに優れていることを示しています。

要約(オリジナル)

Theory-of-Mind (ToM), the ability to infer others’ perceptions and mental states, is fundamental to human interaction but remains challenging for Large Language Models (LLMs). While existing ToM reasoning methods show promise with reasoning via perceptual perspective-taking, they often rely excessively on off-the-shelf LLMs, reducing their efficiency and limiting their applicability to high-order ToM reasoning. To address these issues, we present EnigmaToM, a novel neuro-symbolic framework that enhances ToM reasoning by integrating a Neural Knowledge Base of entity states (Enigma) for (1) a psychology-inspired iterative masking mechanism that facilitates accurate perspective-taking and (2) knowledge injection that elicits key entity information. Enigma generates structured knowledge of entity states to build spatial scene graphs for belief tracking across various ToM orders and enrich events with fine-grained entity state details. Experimental results on ToMi, HiToM, and FANToM benchmarks show that EnigmaToM significantly improves ToM reasoning across LLMs of varying sizes, particularly excelling in high-order reasoning scenarios.

arxiv情報

著者 Hainiu Xu,Siya Qi,Jiazheng Li,Yuxiang Zhou,Jinhua Du,Caroline Catmur,Yulan He
発行日 2025-06-02 14:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EnigmaToM: Improve LLMs’ Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States はコメントを受け付けていません

Tracr-Injection: Distilling Algorithms into Pre-trained Language Models

要約

大規模な言語モデルの急増に動機付けられているため、トランスアーキテクチャに固有の象徴的な能力を正式に特徴づけることが推進されてきました。
Raspと呼ばれるプログラミング言語が提案されており、これらのアルゴリズムを実装するためにトランスウェイトに直接コンパイルできます。
ただし、Raspで実装できるタスクは、自然な監視されていないデータから学習することはまれであり、変圧器アーキテクチャの理論的能力と、監視されていないデータからのこれらの機能の実用的な学習可能性を示すことはまれです。
Raspで記述されたアルゴリズムを事前訓練を受けた言語モデルに直接蒸留できるようにする方法を提案します。
3つの異なるアルゴリズムを言語モデルに注入することにより、方法を紹介します。
モデルの残留ストリーム内にメソッドが解釈可能な部分空間を作成する方法を示します。これは、RASPアルゴリズムのコードに存在する変数にデコードできます。
さらに、提案された方法は、私たちのベースラインと比較して、分散型のパフォーマンスを改善できることがわかりました。これは、実際にモデルの内側の仕組みでより象徴的なメカニズムが起こっていることを示しています。
実験を実行するために使用されるコードをリリースします。

要約(オリジナル)

Motivated by the surge of large language models, there has been a push to formally characterize the symbolic abilities intrinsic to the transformer architecture. A programming language, called RASP, has been proposed, which can be directly compiled into transformer weights to implement these algorithms. However, the tasks that can be implemented in RASP are often uncommon to learn from natural unsupervised data, showing a mismatch between theoretical capabilities of the transformer architecture, and the practical learnability of these capabilities from unsupervised data. We propose tracr-injection, a method that allows us to distill algorithms written in RASP directly into a pre-trained language model. We showcase our method by injecting 3 different algorithms into a language model. We show how our method creates an interpretable subspace within the model’s residual stream, which can be decoded into the variables present in the code of the RASP algorithm. Additionally, we found that the proposed method can improve out-of-distribution performance compared to our baseline, indicating that indeed a more symbolic mechanism is taking place in the inner workings of the model. We release the code used to run our experiments.

arxiv情報

著者 Tomás Vergara-Browne,Álvaro Soto
発行日 2025-06-02 15:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Tracr-Injection: Distilling Algorithms into Pre-trained Language Models はコメントを受け付けていません

Domain Regeneration: How well do LLMs match syntactic properties of text domains?

要約

大規模な言語モデルのパフォーマンスの最近の改善は、おそらく、トレーニングデータの分布をどの程度適切に近似できるかを改善しています。
この作業では、次の質問を検討します。テキストドメインのどのプロパティが忠実に近似していますか?
コーパス言語学から馴染みのある観察アプローチを適用すると、一般的に使用されるOpenSource LLMに、LLMトレーニングデータ(ウィキペディアとニューステキスト)にしばしば含まれる、許可されたライセンスの2つのドメインからテキストを再生するよう促します。
この再生パラダイムにより、LLMがかなり意味的に制御された設定で元の人間のテキストドメインを忠実に一致させることができるかどうかを調査することができます。
文の長さや記事の読みやすさなどのより単純なプロパティから、依存関係タグの分布、解析深度、解析などのより複雑で高次のプロパティまで、さまざまなレベルの構文抽象化を調査します。
再生分布の大部分は、人間のオリジナルと比較して、シフトされた平均、標準偏差の低下、長い尾の減少を示していることがわかります。

要約(オリジナル)

Recent improvement in large language model performance have, in all likelihood, been accompanied by improvement in how well they can approximate the distribution of their training data. In this work, we explore the following question: which properties of text domains do LLMs faithfully approximate, and how well do they do so? Applying observational approaches familiar from corpus linguistics, we prompt a commonly used, opensource LLM to regenerate text from two domains of permissively licensed English text which are often contained in LLM training data — Wikipedia and news text. This regeneration paradigm allows us to investigate whether LLMs can faithfully match the original human text domains in a fairly semantically-controlled setting. We investigate varying levels of syntactic abstraction, from more simple properties like sentence length, and article readability, to more complex and higher order properties such as dependency tag distribution, parse depth, and parse complexity. We find that the majority of the regenerated distributions show a shifted mean, a lower standard deviation, and a reduction of the long tail, as compared to the human originals.

arxiv情報

著者 Da Ju,Hagen Blix,Adina Williams
発行日 2025-06-02 15:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Domain Regeneration: How well do LLMs match syntactic properties of text domains? はコメントを受け付けていません

MADCluster: Model-agnostic Anomaly Detection with Self-supervised Clustering Network

要約

この論文では、自己補助クラスタリングを利用した新しいモデルに依存しない異常検出フレームワークであるMadClusterを提案します。
MadClusterは、さまざまな深い学習アーキテクチャに適用され、既存の深い学習ベースの異常検出方法に固有の「ハイパースフィア崩壊」問題に対処します。
コアのアイデアは、通常のパターンデータを「単一クラスター」にクラスター化し、同時にクラスターセンターを学習し、このセンターに近いデータをマッピングすることです。
また、表現力を向上させ、効果的な単一クラスタリングを可能にするために、新しい「一方向の適応損失」を提案します。
この損失の最適化は数学的に証明されています。
MadClusterは、高次元の時間的ダイナミクスのキャプチャ、クラスター距離マッピング、および連続センターアップデートのシーケンスごとのクラスタリングの3つの主要なコンポーネントで構成されています。
そのモデルに依存しない特性は、さまざまなアーキテクチャをベース埋め込みに適用することで達成されます。
4つの時系列ベンチマークデータセットの実験は、MadClusterを適用することで比較モデルの全体的なパフォーマンスが向上することを示しています。
結論として、MadClusterの互換性は、さまざまなアーキテクチャ全体でモデルのパフォーマンスを向上させる可能性を示しています。

要約(オリジナル)

In this paper, we propose MADCluster, a novel model-agnostic anomaly detection framework utilizing self-supervised clustering. MADCluster is applicable to various deep learning architectures and addresses the ‘hypersphere collapse’ problem inherent in existing deep learning-based anomaly detection methods. The core idea is to cluster normal pattern data into a ‘single cluster’ while simultaneously learning the cluster center and mapping data close to this center. Also, to improve expressiveness and enable effective single clustering, we propose a new ‘One-directed Adaptive loss’. The optimization of this loss is mathematically proven. MADCluster consists of three main components: Base Embedder capturing high-dimensional temporal dynamics, Cluster Distance Mapping, and Sequence-wise Clustering for continuous center updates. Its model-agnostic characteristics are achieved by applying various architectures to the Base Embedder. Experiments on four time series benchmark datasets demonstrate that applying MADCluster improves the overall performance of comparative models. In conclusion, the compatibility of MADCluster shows potential for enhancing model performance across various architectures.

arxiv情報

著者 Sangyong Lee,Subo Hwang,Dohoon Kim
発行日 2025-06-02 05:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | MADCluster: Model-agnostic Anomaly Detection with Self-supervised Clustering Network はコメントを受け付けていません

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

要約

大規模な言語モデル(LLM)は、多様なドメイン全体で顕著な推論能力を示しています。
最近の研究では、テスト時間計算の増加がLLMSの推論能力を高めることが示されています。
これには通常、外部LLM検証剤によって誘導された推論時間での広範なサンプリングが含まれ、2プレイヤーシステムが生まれます。
外部のガイダンスにもかかわらず、このシステムの有効性は、単一のLLMが複雑なタスクに取り組む可能性を示しています。
したがって、新しい研究の問題を提起します。検索機能を内面化して、単一のLLMの推論能力を根本的に強化できますか?
この作業では、自己回帰検索のためのトレーニング後のLLMSに焦点を当てた直交方向を探ります(つまり、新しい戦略の自己反省と自己実験を伴う拡張された推論プロセス)。
これを達成するために、チェーン思考(コート)の推論と2段階のトレーニングパラダイムを提案します。1)コート推論形式を内面化するための小規模な形式のチューニング段階、2)大規模な自己改善段階を活用して強化学習を活用します。
私たちのアプローチは、オープンソースモデルとデータで訓練された7B LLMであるSatoriをもたらします。
広範な経験的評価は、Satoriが数学的推論ベンチマークで最先端のパフォーマンスを達成し、ドメイン外のタスクに強い一般化を示すことを示しています。
コード、データ、およびモデルは完全にオープンソースされています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable reasoning capabilities across diverse domains. Recent studies have shown that increasing test-time computation enhances LLMs’ reasoning capabilities. This typically involves extensive sampling at inference time guided by an external LLM verifier, resulting in a two-player system. Despite external guidance, the effectiveness of this system demonstrates the potential of a single LLM to tackle complex tasks. Thus, we pose a new research problem: Can we internalize the searching capabilities to fundamentally enhance the reasoning abilities of a single LLM? This work explores an orthogonal direction focusing on post-training LLMs for autoregressive searching (i.e., an extended reasoning process with self-reflection and self-exploration of new strategies). To achieve this, we propose the Chain-of-Action-Thought (COAT) reasoning and a two-stage training paradigm: 1) a small-scale format tuning stage to internalize the COAT reasoning format and 2) a large-scale self-improvement stage leveraging reinforcement learning. Our approach results in Satori, a 7B LLM trained on open-source models and data. Extensive empirical evaluations demonstrate that Satori achieves state-of-the-art performance on mathematical reasoning benchmarks while exhibits strong generalization to out-of-domain tasks. Code, data, and models are fully open-sourced.

arxiv情報

著者 Maohao Shen,Guangtao Zeng,Zhenting Qi,Zhang-Wei Hong,Zhenfang Chen,Wei Lu,Gregory Wornell,Subhro Das,David Cox,Chuang Gan
発行日 2025-06-02 06:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search はコメントを受け付けていません