Approaching the Limits to EFL Writing Enhancement with AI-generated Text and Diverse Learners

要約

ChatGptなどの生成人工知能(AI)チャットボットは、外国語としての英語(EFL)の学生が書く方法を再構築しています。学生は自分の単語をAIの生成テキストと統合することでテキストを作成できるためです。
この調査では、さまざまなレベルの学業成績を持つ59人の香港中学生がAIの生成テキストと相互作用して特徴記事を作成する方法を調査し、相互作用パターンが記事の全体的な品質に利益をもたらしたかどうかを調査しました。
コンテンツ分析、複数の線形回帰、およびクラスター分析により、単語の全体的な数が、AILで生成されているかどうかにかかわらず、文章の品質の主な予測因子であることがわかりました。
ただし、その影響は、たとえば、独立して書く能力によって異なります。たとえば、自分の単語を正確かつ一貫してテキストを作成し、AIに生成されたテキストで特定の相互作用パターンに従うことによって異なります。
したがって、人間の言葉とAIに生成されたテキストでテキストを作成することは、教育者が教育者を執筆する教育者とAIリテラシーに注意を払うことなく、教室で普及する可能性がありますが、高度に達成する学生は、達成度の低い学生よりもAIに生成されたテキストを使用することから利益を得ることができます。

要約(オリジナル)

Generative artificial intelligence (AI) chatbots, such as ChatGPT, are reshaping how English as a foreign language (EFL) students write since students can compose texts by integrating their own words with AI-generated text. This study investigated how 59 Hong Kong secondary school students with varying levels of academic achievement interacted with AI-generated text to compose a feature article, exploring whether any interaction patterns benefited the overall quality of the article. Through content analysis, multiple linear regression and cluster analysis, we found the overall number of words — whether AI- or human-generated — is the main predictor of writing quality. However, the impact varies by students’ competence to write independently, for instance, by using their own words accurately and coherently to compose a text, and to follow specific interaction patterns with AI-generated text. Therefore, although composing texts with human words and AI-generated text may become prevalent in EFL writing classrooms, without educators’ careful attention to EFL writing pedagogy and AI literacy, high-achieving students stand to benefit more from using AI-generated text than low-achieving students.

arxiv情報

著者 David James Woo,Hengky Susanto,Chi Ho Yeung,Kai Guo
発行日 2025-03-06 15:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Approaching the Limits to EFL Writing Enhancement with AI-generated Text and Diverse Learners はコメントを受け付けていません

Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models

要約

大規模な言語モデルの機能と制限は、近年、非常に詳細にスケッチされており、興味深いが矛盾する絵を提供しています。
一方で、LLMSは問題を解決する一般的な能力を示しています。
一方、彼らは人間と比較して驚くべき推論ギャップを示し、一般化戦略の堅牢性に疑問を投げかけます。
LLMSの設計で使用されるデータの膨大な量は、一般化の測定に従来使用されていた方法を適用することを妨げています:列車テストセットの分離。
これを克服するために、LLMSが依存している前削除データを調査することにより、LLMが推論タスクを実行する際にどのような一般化戦略を使用するかを研究します。
事前トークンの異なるサイズ(7Bおよび35B)と2.5Bの2つのモデルの場合、3つの単純な数学的推論タスクのモデル出力に影響を与えるドキュメントを特定し、これを事実上の質問に答えるのに影響を与えるデータとは対照的です。
モデルは、事実上の質問ごとにほとんど別個のデータセットに依存しているが、ドキュメントは同じタスク内の異なる推論質問にわたって同様の影響を及ぼし、手続き的な知識の存在を示すことが多いことがわかります。
さらに、事実の質問に対する答えは、最も影響力のあるデータにしばしば表示されることがわかります。
ただし、推論の質問のために、回答は通常、非常に影響力があるとは表示されず、中間推論の手順に対する回答も表示されません。
推論の質問について定性的にランク付けされたドキュメントを特徴付けると、影響力のあるドキュメントには、フォーミュラまたはコードを使用してソリューションを取得する方法を示すなど、手続き上の知識が含まれていることが多いことを確認します。
私たちの調査結果は、モデルの使用を推論するためのアプローチは検索とは異なることを示しており、同様の形式の推論を行う文書からの手続き上の知識を統合する一般化可能な戦略のようなものです。

要約(オリジナル)

The capabilities and limitations of Large Language Models have been sketched out in great detail in recent years, providing an intriguing yet conflicting picture. On the one hand, LLMs demonstrate a general ability to solve problems. On the other hand, they show surprising reasoning gaps when compared to humans, casting doubt on the robustness of their generalisation strategies. The sheer volume of data used in the design of LLMs has precluded us from applying the method traditionally used to measure generalisation: train-test set separation. To overcome this, we study what kind of generalisation strategies LLMs employ when performing reasoning tasks by investigating the pretraining data they rely on. For two models of different sizes (7B and 35B) and 2.5B of their pretraining tokens, we identify what documents influence the model outputs for three simple mathematical reasoning tasks and contrast this to the data that are influential for answering factual questions. We find that, while the models rely on mostly distinct sets of data for each factual question, a document often has a similar influence across different reasoning questions within the same task, indicating the presence of procedural knowledge. We further find that the answers to factual questions often show up in the most influential data. However, for reasoning questions the answers usually do not show up as highly influential, nor do the answers to the intermediate reasoning steps. When we characterise the top ranked documents for the reasoning questions qualitatively, we confirm that the influential documents often contain procedural knowledge, like demonstrating how to obtain a solution using formulae or code. Our findings indicate that the approach to reasoning the models use is unlike retrieval, and more like a generalisable strategy that synthesises procedural knowledge from documents doing a similar form of reasoning.

arxiv情報

著者 Laura Ruis,Maximilian Mozes,Juhan Bae,Siddhartha Rao Kamalakara,Dwarak Talupuru,Acyr Locatelli,Robert Kirk,Tim Rocktäschel,Edward Grefenstette,Max Bartolo
発行日 2025-03-06 15:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models はコメントを受け付けていません

An Empirical Study on Eliciting and Improving R1-like Reasoning Models

要約

このレポートでは、Stillプロジェクトの一部として、スロー推測モデルの開発に関する3番目の技術レポートを提示します。
技術的な経路がより明確になるにつれて、RLトレーニングのスケーリングは、このような推論モデルを実装するための中心的なテクニックになりました。
RLトレーニングに影響を与えるさまざまな要因の効果を体系的に実験し、文書化し、ベースモデルと微調整されたモデルの両方で実験を実施します。
具体的には、RLトレーニングアプローチがQWEN2.5-32Bベースモデルを一貫して改善し、応答長とテスト精度の両方を向上させることを実証します。
さらに、DeepSeek-R1-Distill-Qwen-1.5Bのようなモデルがすでに高性能レベルを達成している場合でも、RLトレーニングを通じてさらに洗練され、AIME 2024で39.33%の精度に達することができることを示しています。RLトレーニングを超えて、ツール操作の使用を調査し、大きな合理的なパフォーマンスを強化することを検討します。
このアプローチは、AIME 2024での貪欲な検索で86.67%の顕著な精度を達成し、モデル能力の向上におけるその効果を強調しています。
StillプロジェクトWebサイトhttps://github.com/rucaibox/slow_thinking_with_llmsでリソースをリリースします。

要約(オリジナル)

In this report, we present the third technical report on the development of slow-thinking models as part of the STILL project. As the technical pathway becomes clearer, scaling RL training has become a central technique for implementing such reasoning models. We systematically experiment with and document the effects of various factors influencing RL training, conducting experiments on both base models and fine-tuned models. Specifically, we demonstrate that our RL training approach consistently improves the Qwen2.5-32B base models, enhancing both response length and test accuracy. Furthermore, we show that even when a model like DeepSeek-R1-Distill-Qwen-1.5B has already achieved a high performance level, it can be further refined through RL training, reaching an accuracy of 39.33% on AIME 2024. Beyond RL training, we also explore the use of tool manipulation, finding that it significantly boosts the reasoning performance of large reasoning models. This approach achieves a remarkable accuracy of 86.67% with greedy search on AIME 2024, underscoring its effectiveness in enhancing model capabilities. We release our resources at the STILL project website: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

arxiv情報

著者 Zhipeng Chen,Yingqian Min,Beichen Zhang,Jie Chen,Jinhao Jiang,Daixuan Cheng,Wayne Xin Zhao,Zheng Liu,Xu Miao,Yang Lu,Lei Fang,Zhongyuan Wang,Ji-Rong Wen
発行日 2025-03-06 15:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Empirical Study on Eliciting and Improving R1-like Reasoning Models はコメントを受け付けていません

Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation

要約

生成的な大手言語モデル(LLMS)がコンテキスト内学習を実行する能力は、さまざまな自然言語処理タスクのモデルを促進する最善の方法について、多くの研究を生み出しています。
機械翻訳(MT)は、特に翻訳する文に意味的に類似している場合、コンテキスト内の例の恩恵を受けることが示されています。
この論文では、素朴な少数のMTを類似性ベースのデモンストレーションに置き換えるために、新しいLLMベースの翻訳パラダイム、組成翻訳を提案します。
LLMは、文を単純なフレーズに分解し、取得したデモンストレーションの助けを借りて各フレーズを翻訳するために使用されます。
最後に、LLMは、自己生成されたフレーズ翻訳ペアの助けを借りて、最初の文を翻訳するように求められます。
私たちの直感は、これらの短いフレーズは本質的に翻訳が簡単で、関連する例と一致しやすいため、このアプローチは翻訳を改善する必要があるということです。
これは、リソースの少ないシナリオでは特に有益であり、より一般的には選択プールが小さいかドメインがない場合はいつでも有益です。
構成翻訳は、Flores 200、Ntrex 128、Tico-19を含む幅広い人気のMTベンチマークでLLM翻訳のパフォーマンスを高めることを示しています。
コードと出力はhttps://github.com/armelrandy/compositional-translationで入手できます

要約(オリジナル)

The ability of generative large language models (LLMs) to perform in-context learning has given rise to a large body of research into how best to prompt models for various natural language processing tasks. Machine Translation (MT) has been shown to benefit from in-context examples, in particular when they are semantically similar to the sentence to translate. In this paper, we propose a new LLM-based translation paradigm, compositional translation, to replace naive few-shot MT with similarity-based demonstrations. An LLM is used to decompose a sentence into simpler phrases, and then to translate each phrase with the help of retrieved demonstrations. Finally, the LLM is prompted to translate the initial sentence with the help of the self-generated phrase-translation pairs. Our intuition is that this approach should improve translation because these shorter phrases should be intrinsically easier to translate and easier to match with relevant examples. This is especially beneficial in low-resource scenarios, and more generally whenever the selection pool is small or out of domain. We show that compositional translation boosts LLM translation performance on a wide range of popular MT benchmarks, including FLORES 200, NTREX 128 and TICO-19. Code and outputs are available at https://github.com/ArmelRandy/compositional-translation

arxiv情報

著者 Armel Zebaze,Benoît Sagot,Rachel Bawden
発行日 2025-03-06 15:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation はコメントを受け付けていません

NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models

要約

グローバルなユーザー集団に効果的かつ安全に展開するには、大規模な言語モデル(LLM)がユーザーの値や文化に出力を適応させる必要がある場合があります。
LLMSの文化的適応性を評価する評価フレームワークであるノーマッドを紹介し、抽象的な価値から明示的な社会的規範まで、さまざまなレベルの文化的規範の特異性を超えて社会的受容性を判断する能力を測定します。
私たちのフレームワークのインスタンス化として、私たちは、75か国からの社会的エチケットに関連する文化的規範を表す2.6kの状況的説明のベンチマークであるノーマッド・エティを作成します。
ノルマド-ETIに関する包括的な実験を通じて、LLMSは、これらのさまざまな程度の文化的文脈にわたって社会的受容性を正確に判断し、グローバルな南部の文化よりも英語中心の文化に対するより強い適応性を示すのに苦労していることがわかります。
関連する社会的規範が提供される最も単純な設定でさえ、最高のLLMSのパフォーマンス(<82 \%)が人間(> 95 \%)に遅れています。
抽象的な値と国情報を持つ設定では、モデルのパフォーマンスは大幅に低下します(<60 \%)が、人間の精度は高いままです(> 90 \%)。
さらに、モデルは、社会的に受け入れられると受け入れられない状況を認識するのに優れていることがわかります。
私たちの調査結果は、LLMSの社会文化的推論における現在の落とし穴を示しており、それが世界の視聴者への適応性を妨げています。

要約(オリジナル)

To be effectively and safely deployed to global user populations, large language models (LLMs) may need to adapt outputs to user values and cultures, not just know about them. We introduce NormAd, an evaluation framework to assess LLMs’ cultural adaptability, specifically measuring their ability to judge social acceptability across varying levels of cultural norm specificity, from abstract values to explicit social norms. As an instantiation of our framework, we create NormAd-Eti, a benchmark of 2.6k situational descriptions representing social-etiquette related cultural norms from 75 countries. Through comprehensive experiments on NormAd-Eti, we find that LLMs struggle to accurately judge social acceptability across these varying degrees of cultural contexts and show stronger adaptability to English-centric cultures over those from the Global South. Even in the simplest setting where the relevant social norms are provided, the best LLMs’ performance (< 82\%) lags behind humans (> 95\%). In settings with abstract values and country information, model performance drops substantially (< 60\%), while human accuracy remains high (> 90\%). Furthermore, we find that models are better at recognizing socially acceptable versus unacceptable situations. Our findings showcase the current pitfalls in socio-cultural reasoning of LLMs which hinder their adaptability for global audiences.

arxiv情報

著者 Abhinav Rao,Akhila Yerukola,Vishwa Shah,Katharina Reinecke,Maarten Sap
発行日 2025-03-06 16:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models はコメントを受け付けていません

Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning

要約

この作業では、Babylm Challengeで採用されているアプローチを説明します。これは、従来の大規模な言語モデル(LLM)と比較してデータを大幅に少なくして、言語モデル(LMS)をトレーニングするさまざまな方法を使用し、人間の子供がどのように学習するかに触発されています。
人間の子供はLLMよりもはるかに少ない言語入力にさらされていますが、彼らは依然として驚くべき言語の理解と生成能力を達成しています。
この目的のために、主に子供向けのトランスクリプトから供給された1,000万語で構成されるキュレーションされたデータセットで訓練されたモデルを開発します。
2024 Babylm Challenge 10mの単語の初期データセットは8.5mにフィルタリングされます。
次に、テレビの対話の1.5m単語で構成されるTVRデータセットのランダムに選択されたサブセットが補完されます。
後者のデータセットは、子供と同様に、モデルがメディアを介して言語にさらされることを保証します。
さらに、語彙サイズを32,000トークンに削減し、言語習得の初期段階での子供の限られた語彙と一致させます。
カリキュラム学習を使用しており、他のベースラインを上回りながら、特定のベンチマークでベースラインを一致させることができます。
さらに、Madlad-400などの一般的なLLMトレーニングデータセットを組み込むと、パフォーマンスが低下します。
これらの調査結果は、人間の学習プロセスをよりよく模倣するよりデータ効率の高い言語モデルを作成する上で、データセット選択、語彙スケーリング、およびカリキュラム学習の重要性を強調しています。

要約(オリジナル)

In this work, we explain our approach employed in the BabyLM Challenge, which uses various methods of training language models (LMs) with significantly less data compared to traditional large language models (LLMs) and are inspired by how human children learn. While a human child is exposed to far less linguistic input than an LLM, they still achieve remarkable language understanding and generation abilities. To this end, we develop a model trained on a curated dataset consisting of 10 million words, primarily sourced from child-directed transcripts. The 2024 BabyLM Challenge initial dataset of 10M words is filtered to 8.5M. Next, it is supplemented with a randomly selected subset of TVR dataset consisting of 1.5M words of television dialogues. The latter dataset ensures that similar to children, the model is also exposed to language through media. Furthermore, we reduce the vocabulary size to 32,000 tokens, aligning it with the limited vocabulary of children in the early stages of language acquisition. We use curriculum learning and is able to match the baseline on certain benchmarks while surpassing the baseline on others. Additionally, incorporating common LLM training datasets, such as MADLAD-400, degrades performance. These findings underscore the importance of dataset selection, vocabulary scaling, and curriculum learning in creating more data-efficient language models that better mimic human learning processes.

arxiv情報

著者 Mohammad Amin Ghanizadeh,Mohammad Javad Dousti
発行日 2025-03-06 16:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning はコメントを受け付けていません

HalluCounter: Reference-free LLM Hallucination Detection in the Wild!

要約

応答の一貫性に基づいて、参照フリーの幻覚検出(RFHD)メソッドは、Grey-Boxモデルが通常依存しているが、クローズドソースLLMSではアクセスできない生成確率や勾配などの内部モデルの状態に依存しません。
ただし、クエリ応答アライメントパターンをキャプチャできないと、検出精度が低下することがよくあります。
さらに、ほとんどの既存のデータセットのサイズと範囲が限られているため、多様なドメインにまたがる大規模なベンチマークデータセットの欠如は依然として課題です。
この目的のために、Hallucounterを提案します。これは、応答とクエリの応答の一貫性とアライメントパターンの両方を利用する新しい参照のない幻覚検出方法です。
これにより、幻覚を検出し、ユーザークエリに自信スコアと最適な応答を提供する分類子のトレーニングが可能になります。
さらに、複数のドメインにわたって合成的に生成されたサンプルとヒューマンキュレーションされたサンプルの両方を含むベンチマークデータセットであるHalucounterevalを紹介します。
私たちの方法は、最先端のアプローチよりも大きなマージンを上回り、データセット全体の幻覚検出に90以上の平均信頼を達成します。

要約(オリジナル)

Response consistency-based, reference-free hallucination detection (RFHD) methods do not depend on internal model states, such as generation probabilities or gradients, which Grey-box models typically rely on but are inaccessible in closed-source LLMs. However, their inability to capture query-response alignment patterns often results in lower detection accuracy. Additionally, the lack of large-scale benchmark datasets spanning diverse domains remains a challenge, as most existing datasets are limited in size and scope. To this end, we propose HalluCounter, a novel reference-free hallucination detection method that utilizes both response-response and query-response consistency and alignment patterns. This enables the training of a classifier that detects hallucinations and provides a confidence score and an optimal response for user queries. Furthermore, we introduce HalluCounterEval, a benchmark dataset comprising both synthetically generated and human-curated samples across multiple domains. Our method outperforms state-of-the-art approaches by a significant margin, achieving over 90\% average confidence in hallucination detection across datasets.

arxiv情報

著者 Ashok Urlana,Gopichand Kanumolu,Charaka Vinayak Kumar,Bala Mallikarjunarao Garlapati,Rahul Mishra
発行日 2025-03-06 16:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HalluCounter: Reference-free LLM Hallucination Detection in the Wild! はコメントを受け付けていません

Better Process Supervision with Bi-directional Rewarding Signals

要約

プロセス監督、つまり、各ステップを評価することは、推論計算の増加を伴う複雑な大手言語モデル(LLM)の推論とテスト時間検索にとって重要です。
プロセス報酬モデル(PRMS)で表される既存のアプローチは、主に現在のステップまでの信号に報いることに焦点を当て、一方向性の性質を示し、最終ターゲットまでの距離をモデル化するメカニズムを欠いています。
この問題に対処するために、A*アルゴリズムからインスピレーションを引き出します。これは、効果的な監視信号が発生したコストとターゲットに到達するための推定コストを同時に考慮する必要があると述べています。
この重要な洞察に基づいて、以前のステップの正確性を評価するだけでなく、将来の成功の確率をモデル化する新しいプロセス監督モデルであるBirmを紹介します。
数学的推論タスクに関する広範な実験を実施し、BirmがLLM推論ステップのより正確な評価を提供し、Best-of-Nサンプリング方法の下でPRMよりもGaokao2023で3.1%の改善を達成することを実証します。
さらに、検索ベースの戦略では、Birmはより包括的なガイダンスを提供し、MATH-500でそれぞれ5.0%、PRMを3.8%上回ります。

要約(オリジナル)

Process supervision, i.e., evaluating each step, is critical for complex large language model (LLM) reasoning and test-time searching with increased inference compute. Existing approaches, represented by process reward models (PRMs), primarily focus on rewarding signals up to the current step, exhibiting a one-directional nature and lacking a mechanism to model the distance to the final target. To address this problem, we draw inspiration from the A* algorithm, which states that an effective supervisory signal should simultaneously consider the incurred cost and the estimated cost for reaching the target. Building on this key insight, we introduce BiRM, a novel process supervision model that not only evaluates the correctness of previous steps but also models the probability of future success. We conduct extensive experiments on mathematical reasoning tasks and demonstrate that BiRM provides more precise evaluations of LLM reasoning steps, achieving an improvement of 3.1% on Gaokao2023 over PRM under the Best-of-N sampling method. Besides, in search-based strategies, BiRM provides more comprehensive guidance and outperforms ORM by 5.0% and PRM by 3.8% respectively on MATH-500.

arxiv情報

著者 Wenxiang Chen,Wei He,Zhiheng Xi,Honglin Guo,Boyang Hong,Jiazheng Zhang,Rui Zheng,Nijun Li,Tao Gui,Yun Li,Qi Zhang,Xuanjing Huang
発行日 2025-03-06 17:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Better Process Supervision with Bi-directional Rewarding Signals はコメントを受け付けていません

SynGraph: A Dynamic Graph-LLM Synthesis Framework for Sparse Streaming User Sentiment Modeling

要約

eコマースプラットフォームでのユーザーレビューは、時間的およびコンテキスト要因によって駆動される動的な感情パターンを示します。
従来のセンチメント分析方法は、静的レビューに焦点を当て、ユーザーセンチメントの評価とテキストコンテンツの間の進化する時間的関係を把握できません。
ストリーミングレビューに関するセンチメント分析は、ユーザー感情の時間的進化をモデリングおよび予測することにより、この制限に対処します。
ただし、それはデータスパース性に苦しんでおり、時間的、空間的、および組み合わせた形式で現れます。
この論文では、ストリーミングレビューに関するセンチメント分析のデータスパース性に対処するために設計された新しいフレームワークであるSyngraphを紹介します。
Syngraphは、ユーザーをミッドテール、ロングテール、および極端なシナリオに分類し、動的グラフベースの構造内にLLMが高度に拡張することを組み込むことにより、データスパースを緩和します。
実際のデータセットでの実験は、ストリーミングレビューのスパース性に対処し、センチメントモデリングを改善する際の有効性を示しています。

要約(オリジナル)

User reviews on e-commerce platforms exhibit dynamic sentiment patterns driven by temporal and contextual factors. Traditional sentiment analysis methods focus on static reviews, failing to capture the evolving temporal relationship between user sentiment rating and textual content. Sentiment analysis on streaming reviews addresses this limitation by modeling and predicting the temporal evolution of user sentiments. However, it suffers from data sparsity, manifesting in temporal, spatial, and combined forms. In this paper, we introduce SynGraph, a novel framework designed to address data sparsity in sentiment analysis on streaming reviews. SynGraph alleviates data sparsity by categorizing users into mid-tail, long-tail, and extreme scenarios and incorporating LLM-augmented enhancements within a dynamic graph-based structure. Experiments on real-world datasets demonstrate its effectiveness in addressing sparsity and improving sentiment modeling in streaming reviews.

arxiv情報

著者 Xin Zhang,Qiyu Wei,Yingjie Zhu,Linhai Zhang,Deyu Zhou,Sophia Ananiadou
発行日 2025-03-06 17:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SynGraph: A Dynamic Graph-LLM Synthesis Framework for Sparse Streaming User Sentiment Modeling はコメントを受け付けていません

START: Self-taught Reasoner with Tools

要約

OpenAI-O1やDeepSeek-R1のような大きな推論モデル(LRMS)は、長い考え方(COT)の利用を通じて複雑な推論タスクに顕著な能力を示しています。
ただし、これらのモデルは、内部の推論プロセスのみに依存しているため、幻覚と非効率性に悩まされることがよくあります。
このペーパーでは、外部ツールを活用することで推論機能を大幅に強化する新しいツール統合された長いCOT推論LLMであるStart(Self-Tauged Theanser with Tools)を紹介します。
コードの実行を通じて、STARTは複雑な計算を実行し、セルフチェック、多様な方法の探索、および自己不自由を実行し、LRMSの制限に対処することができます。
Startのコアイノベーションは、2つの重要なテクニックを構成する自己学習フレームワークにあります。1)ヒント:人工的に設計されたヒント(たとえば、「待って、ここでPythonを使用すること」を挿入することを実証します。
ヒントインファーは、シンプルで効果的なシーケンシャルテスト時間スケーリング方法としても機能します。
2)ヒント拒否サンプリング微調整(Hint-RFT):ヒントRFTは、ヒント軌道をスコアリング、フィルタリング、および変更することにより、ヒントの軌跡をヒントインファーを介してLRMによって生成されたツールの呼び出しを組み合わせて、LRMを微調整することにより、ヒントとRFTを組み合わせます。
このフレームワークを通じて、QWQ-32Bモデルを微調整して開始を達成しました。
PHDレベルの科学QA(GPQA)、競争レベルの数学ベンチマーク(AMC23、AIME24、AIME25)、および競合レベルのコードベンチマーク(LiveCodebench)では、それぞれ63.6%、95.0%、66.7%、47.1%、および47.3%の精度率を達成します。
ベースQWQ-32Bを大幅に上回り、最先端のオープンウェイトモデルR1-Distill-QWEN-32Bおよび独自のモデルO1-Previewに匹敵するパフォーマンスを達成します。

要約(オリジナル)

Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable capabilities in complex reasoning tasks through the utilization of long Chain-of-thought (CoT). However, these models often suffer from hallucinations and inefficiencies due to their reliance solely on internal reasoning processes. In this paper, we introduce START (Self-Taught Reasoner with Tools), a novel tool-integrated long CoT reasoning LLM that significantly enhances reasoning capabilities by leveraging external tools. Through code execution, START is capable of performing complex computations, self-checking, exploring diverse methods, and self-debugging, thereby addressing the limitations of LRMs. The core innovation of START lies in its self-learning framework, which comprises two key techniques: 1) Hint-infer: We demonstrate that inserting artificially designed hints (e.g., “Wait, maybe using Python here is a good idea.”) during the inference process of a LRM effectively stimulates its ability to utilize external tools without the need for any demonstration data. Hint-infer can also serve as a simple and effective sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and modifying the reasoning trajectories with tool invocation generated by a LRM via Hint-infer, followed by fine-tuning the LRM. Through this framework, we have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA (GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the competition-level code benchmark (LiveCodeBench), START achieves accuracy rates of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly outperforms the base QwQ-32B and achieves performance comparable to the state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary model o1-Preview.

arxiv情報

著者 Chengpeng Li,Mingfeng Xue,Zhenru Zhang,Jiaxi Yang,Beichen Zhang,Xiang Wang,Bowen Yu,Binyuan Hui,Junyang Lin,Dayiheng Liu
発行日 2025-03-06 17:11:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | START: Self-taught Reasoner with Tools はコメントを受け付けていません