Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety

要約

生成的大型言語モデルのアプリケーションLLMは、さまざまなドメインにわたって急速に拡大しており、ワークフローの効率と情報の検索の大幅な改善を約束しています。
ただし、危険な材料輸送などの専門的でハイステークスドメインでの実装は、正確性と信頼性の懸念のために困難です。
この研究では、3つの微調整された生成モデル、ChatGpt、Googleの頂点AI、およびORNL検索されたジェネレーションのパフォーマンスを評価します。
約40の公的に利用可能な連邦および州の規制文書を利用して、ルート計画と許可要件に関連する100の現実的なクエリを開発しました。
応答は、モデル出力間のセマンティックな類似性の定量的評価によって補完された精度、詳細、および関連性に基づいて定性的に評価されました。
結果は、Rag-Augmented Llamaモデルが頂点AIとChatGPTを大幅に上回り、時折矛盾にもかかわらず、より詳細で一般的に正確な情報を提供することを実証しました。
この研究では、輸送の安全性におけるRAGの最初の既知の応用が導入されており、信頼性を確保し、ハイステークス環境での不正確さのリスクを最小限に抑えるために、ドメイン固有の微調整と厳密な評価方法論の必要性を強調しています。

要約(オリジナル)

Applications of generative Large Language Models LLMs are rapidly expanding across various domains, promising significant improvements in workflow efficiency and information retrieval. However, their implementation in specialized, high-stakes domains such as hazardous materials transportation is challenging due to accuracy and reliability concerns. This study evaluates the performance of three fine-tuned generative models, ChatGPT, Google’s Vertex AI, and ORNL Retrieval Augmented Generation augmented LLaMA 2 and LLaMA in retrieving regulatory information essential for hazardous material transportation compliance in the United States. Utilizing approximately 40 publicly available federal and state regulatory documents, we developed 100 realistic queries relevant to route planning and permitting requirements. Responses were qualitatively rated based on accuracy, detail, and relevance, complemented by quantitative assessments of semantic similarity between model outputs. Results demonstrated that the RAG-augmented LLaMA models significantly outperformed Vertex AI and ChatGPT, providing more detailed and generally accurate information, despite occasional inconsistencies. This research introduces the first known application of RAG in transportation safety, emphasizing the need for domain-specific fine-tuning and rigorous evaluation methodologies to ensure reliability and minimize the risk of inaccuracies in high-stakes environments.

arxiv情報

著者 Chad Melton,Alex Sorokine,Steve Peterson
発行日 2025-04-09 16:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating Retrieval Augmented Generative Models for Document Queries in Transportation Safety はコメントを受け付けていません

Data Augmentation and Hyperparameter Tuning for Low-Resource MFA

要約

計算ツールと絶滅の危機にedしていない、リソース不足の言語を扱っている人にとって継続的な問題は、データが少ない言語の結果の精度が低いことです。
データの増強方法を使用してコーパスサイズを増やすことにより、この問題を改善し、増強とハイパーパラメーターの調整と多言語の強制アライメントを比較しようとします。
テキストの増強方法とは異なり、オーディオの増強はパフォーマンスが大幅に向上することはありません。
一方、ハイパーパラメーターチューニングは、(この量のデータに対して)実行不可能な追加トレーニング時間なしで大幅に改善されます。
少量から中程度のトレーニングデータを持つ言語の場合、これは高リソース言語からモデルを適応するための実行可能な代替手段です。

要約(オリジナル)

A continued issue for those working with computational tools and endangered and under-resourced languages is the lower accuracy of results for languages with smaller amounts of data. We attempt to ameliorate this issue by using data augmentation methods to increase corpus size, comparing augmentation to hyperparameter tuning for multilingual forced alignment. Unlike text augmentation methods, audio augmentation does not lead to substantially increased performance. Hyperparameter tuning, on the other hand, results in substantial improvement without (for this amount of data) infeasible additional training time. For languages with small to medium amounts of training data, this is a workable alternative to adapting models from high-resource languages.

arxiv情報

著者 Alessio Tosolini,Claire Bowern
発行日 2025-04-09 16:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Data Augmentation and Hyperparameter Tuning for Low-Resource MFA はコメントを受け付けていません

Monte Carlo Temperature: a robust sampling strategy for LLM’s uncertainty quantification methods

要約

大規模な言語モデル(LLMS)の不確実性の定量化(UQ)は、特に誤った出力が深刻な結果をもたらす重要なアプリケーションでは、安全で信頼できる展開に不可欠です。
現在のUQメソッドは、通常、非ゼロ温度サンプリングを使用してモデルを複数回クエリすることに依存して、不確実性の推定のために多様な出力を生成します。
ただし、特定の温度パラメーターを選択することの影響は研究されており、私たちの分析により、温度が不確実性の推定の質に基本的な役割を果たすことが明らかになりました。
最適な温度値を識別する従来のアプローチには、新しいモデルデータセットの組み合わせごとに繰り返す必要がある高価なハイパーパラメーター最適化(HPO)が必要です。
温度キャリブレーションの必要性を排除する堅牢なサンプリング戦略であるモンテカルロ温度(MCT)を提案します。
1)MCTは、広範囲の温度でより堅牢な不確実性の推定値を提供し、2)MCTはHPOに依存しない固定温度戦略を置き換えることによりUQメソッドのパフォーマンスを向上させ、3)MCTはOracle温度と統計パリティを達成します。
これらの調査結果は、温度パラメーターのキャリブレーションの計算負担なしで効果的なUQを達成できることを示しています。

要約(オリジナル)

Uncertainty quantification (UQ) in Large Language Models (LLMs) is essential for their safe and reliable deployment, particularly in critical applications where incorrect outputs can have serious consequences. Current UQ methods typically rely on querying the model multiple times using non-zero temperature sampling to generate diverse outputs for uncertainty estimation. However, the impact of selecting a given temperature parameter is understudied, and our analysis reveals that temperature plays a fundamental role in the quality of uncertainty estimates. The conventional approach of identifying optimal temperature values requires expensive hyperparameter optimization (HPO) that must be repeated for each new model-dataset combination. We propose Monte Carlo Temperature (MCT), a robust sampling strategy that eliminates the need for temperature calibration. Our analysis reveals that: 1) MCT provides more robust uncertainty estimates across a wide range of temperatures, 2) MCT improves the performance of UQ methods by replacing fixed-temperature strategies that do not rely on HPO, and 3) MCT achieves statistical parity with oracle temperatures, which represent the ideal outcome of a well-tuned but computationally expensive HPO process. These findings demonstrate that effective UQ can be achieved without the computational burden of temperature parameter calibration.

arxiv情報

著者 Nicola Cecere,Andrea Bacciu,Ignacio Fernández Tobías,Amin Mantrach
発行日 2025-04-09 16:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Monte Carlo Temperature: a robust sampling strategy for LLM’s uncertainty quantification methods はコメントを受け付けていません

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

要約

大規模な言語モデル(LLM)は、テキストベースの自然言語処理タスクに優れていますが、テキストの入力と出力への依存によって制約されたままです。
より自然な人間との相互作用を可能にするために、最近の進歩は、音声を聞くだけでなく発生することができる音声言語モデル(SLM)の導出に焦点を合わせています。
これを達成するために、有望な方向性は、音声テキストジョイントモデリングを実施することです。
ただし、最近のSLMは、モダリティの不一致により、Text LLMに遅れをとっています。
1つの重要な不一致は、音声トークンとテキストトークンの間のシーケンス長です。
これに対処するために、テキストに合わせた音声トークン化と埋め込み(味)を紹介します。これは、トークン化段階で音声トークンを対応するテキスト転写と整列させることにより、モダリティギャップに直接対処する方法です。
特別な集約メカニズムを通じて、トレーニングの目的として音声再構成を通じてこれを達成できる方法を提案します。
私たちは広範な実験を実施し、味が本質的な麻痺情報を維持しながら、トークンシーケンスの長さを劇的に削減できることを示しています。
さらに、味を活用することにより、テキストベースのLLMを、低ランク適応(LORA)などのパラメーター効率の高い微調整技術を使用して、効果的なSLMに適応させることができます。
サーモンやストーリークロゼを含むベンチマークタスクの実験結果は、味覚ベースのSLMが以前のフルフィネット方法と同様に機能することを示しています。
私たちの知る限り、Tasteは、再構成の目的を利用して、テキストに整列した音声トークン化と埋め込みの音声言語モデリングに自動的に学習する最初のエンドツーエンドアプローチです。
デモ、コード、およびモデルは、https://github.com/mtkresearch/taste sphokenlmで公開されています。

要約(オリジナル)

Large Language Models (LLMs) excel in text-based natural language processing tasks but remain constrained by their reliance on textual inputs and outputs. To enable more natural human-LLM interaction, recent progress have focused on deriving a spoken language model (SLM) that can not only listen but also generate speech. To achieve this, a promising direction is to conduct speech-text joint modeling. However, recent SLM still lag behind text LLM due to the modality mismatch. One significant mismatch can be the sequence lengths between speech and text tokens. To address this, we introduce Text-Aligned Speech Tokenization and Embedding (TASTE), a method that directly addresses the modality gap by aligning speech token with the corresponding text transcription during the tokenization stage. We propose a method that can achieve this through the special aggregation mechanism and with speech reconstruction as the training objective. We conduct extensive experiments and show that TASTE can preserve essential paralinguistic information while dramatically reducing the token sequence length. Furthermore, by leveraging TASTE, we can adapt text-based LLMs into effective SLMs with parameter-efficient fine-tuning techniques such as Low-Rank Adaptation (LoRA). Experimental results on benchmark tasks, including SALMON and StoryCloze, demonstrate that TASTE-based SLMs perform similarly to previous full-finetuning methods. To our knowledge, TASTE is the first end-to-end approach that utilizes a reconstruction objective to automatically learn a text-aligned speech tokenization and embedding suitable for spoken language modeling. Our demo, code, and models are publicly available at https://github.com/mtkresearch/TASTE-SpokenLM.

arxiv情報

著者 Liang-Hsuan Tseng,Yi-Chang Chen,Kuan-Yi Lee,Da-Shan Shiu,Hung-yi Lee
発行日 2025-04-09 17:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling はコメントを受け付けていません

A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models

要約

個々のユーザーの好みに合わせてLLMを調整するプロセスである大規模な言語モデル(LLMS)のパーソナライズされた優先アライメントは、NLPとパーソナライズの領域にまたがる新たな研究方向です。
この調査では、LLMSの個別のアラインメントとモデリングに関する研究の分析を提示します。
トレーニング時間、推論時間、さらにユーザーモデリングベースの方法など、優先順位アライメント手法の分類法を紹介します。
テクニックの各グループの長所と制限に関する分析と議論を提供し、その後、フィールドのオープンな問題だけでなく、評価、ベンチマーク、およびカバーします。

要約(オリジナル)

Personalized preference alignment for large language models (LLMs), the process of tailoring LLMs to individual users’ preferences, is an emerging research direction spanning the area of NLP and personalization. In this survey, we present an analysis of works on personalized alignment and modeling for LLMs. We introduce a taxonomy of preference alignment techniques, including training time, inference time, and additionally, user-modeling based methods. We provide analysis and discussion on the strengths and limitations of each group of techniques and then cover evaluation, benchmarks, as well as open problems in the field.

arxiv情報

著者 Zhouhang Xie,Junda Wu,Yiran Shen,Yu Xia,Xintong Li,Aaron Chang,Ryan Rossi,Sachin Kumar,Bodhisattwa Prasad Majumder,Jingbo Shang,Prithviraj Ammanabrolu,Julian McAuley
発行日 2025-04-09 17:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models はコメントを受け付けていません

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

要約

推論は、学術研究所と産業研究所の両方から急速な進歩を遂げ、言語モデル(LMS)の次の主要なフロンティアとして浮上しています。
ただし、この進歩はしばしば方法論的な厳密さを上回り、多くの評価が透明性、堅牢性、または統計的接地を欠くベンチマークプラクティスに依存しています。
この作業では、包括的な経験的研究を実施し、現在の数学的推論ベンチマークは、デコードパラメーター、ランダムシード、迅速なフォーマット、さらにはハードウェアおよびソフトウェアフレームワークの構成など、微妙な実装の選択に非常に敏感であることがわかります。
最近の研究で報告されているパフォーマンスの向上は、不明確な比較または報告されていない分散源に頻繁にかかっています。
これらの問題に対処するために、明確に定義されたベストプラクティスと報告基準を備えた標準化された評価フレームワークを提案します。
このフレームワークを使用して、最近の方法を再評価し、強化学習(RL)が近づいていること(以前の請求をはるかに下回るだけでなく、特にAIME24のような小規模なベンチマークで過度に適合する傾向があることがわかります。
対照的に、監視された微調整(SFT)メソッドは、一貫してより強力な一般化を示しています。
再現性を促進するために、ベンチマークを推論するために、すべてのコード、プロンプト、モデルの出力をリリースし、将来の作業のためにより厳格な基盤を確立します。

要約(オリジナル)

Reasoning has emerged as the next major frontier for language models (LMs), with rapid advances from both academic and industrial labs. However, this progress often outpaces methodological rigor, with many evaluations relying on benchmarking practices that lack transparency, robustness, or statistical grounding. In this work, we conduct a comprehensive empirical study and find that current mathematical reasoning benchmarks are highly sensitive to subtle implementation choices – including decoding parameters, random seeds, prompt formatting, and even hardware and software-framework configurations. Performance gains reported in recent studies frequently hinge on unclear comparisons or unreported sources of variance. To address these issues, we propose a standardized evaluation framework with clearly defined best practices and reporting standards. Using this framework, we reassess recent methods and find that reinforcement learning (RL) approaches yield only modest improvements – far below prior claims – and are prone to overfitting, especially on small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT) methods show consistently stronger generalization. To foster reproducibility, we release all code, prompts, and model outputs, for reasoning benchmarks, establishing more rigorous foundations for future work.

arxiv情報

著者 Andreas Hochlehnert,Hardik Bhatnagar,Vishaal Udandarao,Samuel Albanie,Ameya Prabhu,Matthias Bethge
発行日 2025-04-09 17:58:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility はコメントを受け付けていません

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

要約

OlmoTraceを提示します。これは、言語モデルの出力を完全な数兆トークントレーニングデータにリアルタイムで追跡する最初のシステムです。
OlmoTraceは、言語モデルの出力のセグメントとトレーニングテキストコーパのドキュメント間で逐語的な一致を見つけて表示します。
拡張バージョンのInfini-Gram(Liu et al。、2024)を搭載したこのシステムは、数秒以内にトレース結果を返します。
OlmoTraceは、トレーニングデータのレンズを介して言語モデルの動作をユーザーに理解するのに役立ちます。
言語モデルのファクトチェック、幻覚、および創造性を探求するためにそれを使用する方法を紹介します。
OlmoTraceは公開されており、完全にオープンソースです。

要約(オリジナル)

We present OLMoTrace, the first system that traces the outputs of language models back to their full, multi-trillion-token training data in real time. OLMoTrace finds and shows verbatim matches between segments of language model output and documents in the training text corpora. Powered by an extended version of infini-gram (Liu et al., 2024), our system returns tracing results within a few seconds. OLMoTrace can help users understand the behavior of language models through the lens of their training data. We showcase how it can be used to explore fact checking, hallucination, and the creativity of language models. OLMoTrace is publicly available and fully open-source.

arxiv情報

著者 Jiacheng Liu,Taylor Blanton,Yanai Elazar,Sewon Min,YenSung Chen,Arnavi Chheda-Kothary,Huy Tran,Byron Bischoff,Eric Marsh,Michael Schmitz,Cassidy Trier,Aaron Sarnat,Jenna James,Jon Borchardt,Bailey Kuehl,Evie Cheng,Karen Farley,Sruthi Sreeram,Taira Anderson,David Albright,Carissa Schoenick,Luca Soldaini,Dirk Groeneveld,Rock Yuren Pang,Pang Wei Koh,Noah A. Smith,Sophie Lebrecht,Yejin Choi,Hannaneh Hajishirzi,Ali Farhadi,Jesse Dodge
発行日 2025-04-09 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens はコメントを受け付けていません

LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input

要約

ペットを失うことはペットの飼い主にとって非常に苦痛を伴う可能性があり、失われたペットを見つけることはしばしば挑戦的で時間がかかります。
人工知能ベースのアプリケーションは、失われたペットを見つけることの速度と精度を大幅に改善できます。
このようなアプリケーションを容易にするために、この研究では、ペットの画像を正確に区別できる対照的なニューラルネットワークモデルを導入します。
このモデルは、犬の画像の大きなデータセットでトレーニングされ、3倍の交差検証で評価されました。
350のトレーニングのエポックに続いて、モデルは90%のテスト精度を達成しました。
さらに、テストの精度がトレーニングの精度に密接に一致するため、過剰適合は回避されました。
私たちの調査結果は、対照的なニューラルネットワークモデルが失われたペットを見つけるためのツールとして有望であることを示唆しています。
このペーパーでは、ユーザーが行方不明のペットを見つけるのを支援するように設計された潜在的なWebアプリケーションの基礎フレームワークを紹介します。
このアプリケーションを使用すると、ユーザーは紛失したペットの画像をアップロードし、画像データベース内で一致する画像が識別されると通知を提供できます。
この機能は、ペットの飼い主が最愛の動物を検索して再会できる効率と精度を高めることを目的としています。

要約(オリジナル)

Losing pets can be highly distressing for pet owners, and finding a lost pet is often challenging and time-consuming. An artificial intelligence-based application can significantly improve the speed and accuracy of finding lost pets. To facilitate such an application, this study introduces a contrastive neural network model capable of accurately distinguishing between images of pets. The model was trained on a large dataset of dog images and evaluated through 3-fold cross-validation. Following 350 epochs of training, the model achieved a test accuracy of 90%. Furthermore, overfitting was avoided, as the test accuracy closely matched the training accuracy. Our findings suggest that contrastive neural network models hold promise as a tool for locating lost pets. This paper presents the foundational framework for a potential web application designed to assist users in locating their missing pets. The application will allow users to upload images of their lost pets and provide notifications when matching images are identified within its image database. This functionality aims to enhance the efficiency and accuracy with which pet owners can search for and reunite with their beloved animals.

arxiv情報

著者 Andrei Voinea,Robin Kock,Maruf A. Dhali
発行日 2025-04-09 11:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input はコメントを受け付けていません

Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring

要約

舗装表面の状態の効果的かつ迅速な評価は、メンテナンスに優先順位を付け、輸送の安全性を確保し、車両の摩耗と裂傷を最小限に抑えるために重要です。
従来の手動検査には主観性がありますが、既存の機械学習ベースの方法は、大規模で高品質のラベル付きデータセットに依存することによって制約されています。
大規模な言語モデル(LLMS)の革命的な進歩は、これらの課題を克服する重要な可能性を提示します。
この研究では、道路状況を効果的に評価するためにLLMの画像認識と自然言語理解能力を活用する革新的な自動化されたゼロショット学習アプローチを提案します。
複数のLLMベースの評価モデルが開発され、舗装表面条件指数(PSCI)標準に合わせた迅速なエンジニアリング戦略を採用しました。
これらのモデルの精度と信頼性は、最終的に最終的に選択された公式のPSCI結果に対して評価されました。
広範なテストは、Google Street View Roadの画像を使用して、さまざまなレベルの専門家からの評価に対して最適化されたモデルをベンチマークしました。
結果は、LLMベースのアプローチが道路条件を効果的に評価できることを明らかにし、最適化されたモデルを雇用して構造化された迅速なエンジニアリング戦略を実行し、高精度と一貫性を達成することでよりシンプルな構成を実行し、さらには専門家の評価を上回ります。
さらに、最適化されたモデルをGoogle Street View画像に正常に適用することは、将来の都市規模の展開の可能性を示しています。
これらの調査結果は、道路損傷の評価を自動化する際のLLMSの変革の可能性を強調し、信頼できる評価を達成する上で詳細な迅速なエンジニアリングの極めて重要な役割を強調しています。

要約(オリジナル)

Effective and rapid evaluation of pavement surface condition is critical for prioritizing maintenance, ensuring transportation safety, and minimizing vehicle wear and tear. While conventional manual inspections suffer from subjectivity, existing machine learning-based methods are constrained by their reliance on large and high-quality labeled datasets, which require significant resources and limit adaptability across varied road conditions. The revolutionary advancements in Large Language Models (LLMs) present significant potential for overcoming these challenges. In this study, we propose an innovative automated zero-shot learning approach that leverages the image recognition and natural language understanding capabilities of LLMs to assess road conditions effectively. Multiple LLM-based assessment models were developed, employing prompt engineering strategies aligned with the Pavement Surface Condition Index (PSCI) standards. These models’ accuracy and reliability were evaluated against official PSCI results, with an optimized model ultimately selected. Extensive tests benchmarked the optimized model against evaluations from various levels experts using Google Street View road images. The results reveal that the LLM-based approach can effectively assess road conditions, with the optimized model -employing comprehensive and structured prompt engineering strategies -outperforming simpler configurations by achieving high accuracy and consistency, even surpassing expert evaluations. Moreover, successfully applying the optimized model to Google Street View images demonstrates its potential for future city-scale deployments. These findings highlight the transformative potential of LLMs in automating road damage evaluations and underscore the pivotal role of detailed prompt engineering in achieving reliable assessments.

arxiv情報

著者 Shuoshuo Xu,Kai Zhao,James Loney,Zili Li,Andrea Visentin
発行日 2025-04-09 11:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring はコメントを受け付けていません

Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

要約

Openai-O1やDeepseek-R1などの大規模な言語モデル(RLLM)を使用した推論の最近の進歩は、数学やコーディングなどの複雑なドメインで印象的な能力を実証しています。
彼らの成功の中心的な要因は、推論能力を高め、複雑な問題の解決を可能にする長い考え方(長いCOT)特性の適用にあります。
ただし、これらの開発にもかかわらず、長いCOTに関する包括的な調査はまだ不足しており、従来の短いチェーン(短いCOT)との区別についての理解を制限し、「考え直し」や「テストタイムスケーリング」などの問題に関する継続的な議論を複雑にしています。
この調査では、長いCOTに関する統一された視点を提供することにより、このギャップを埋めようとしています。
(1)最初に長いベッドベッドと短いCOTを区別し、現在の推論パラダイムを分類するための新しい分類法を導入します。
(2)次に、長いCOTの重要な特性を調査します。深い推論、広範な探求、および実現可能な反射を調査します。これにより、モデルはより複雑なタスクを処理し、より浅い短いCOTと比較してより効率的でコヒーレントな結果を生成できます。
(3)次に、長いCOTの出現などの重要な現象を調査し、考え直しやテスト時間スケーリングを含むこれらの特性を備えており、これらのプロセスが実際にどのように現れるかについての洞察を提供します。
(4)最後に、重要な研究ギャップを特定し、マルチモーダル推論の統合、効率の改善、強化された知識フレームワークなど、有望な将来の方向性を強調します。
構造化された概要を提供することにより、この調査は、将来の研究を促し、人工知能における論理的推論の開発を促進することを目的としています。

要約(オリジナル)

Recent advancements in reasoning with large language models (RLLMs), such as OpenAI-O1 and DeepSeek-R1, have demonstrated their impressive capabilities in complex domains like mathematics and coding. A central factor in their success lies in the application of long chain-of-thought (Long CoT) characteristics, which enhance reasoning abilities and enable the solution of intricate problems. However, despite these developments, a comprehensive survey on Long CoT is still lacking, limiting our understanding of its distinctions from traditional short chain-of-thought (Short CoT) and complicating ongoing debates on issues like ‘overthinking’ and ‘test-time scaling.’ This survey seeks to fill this gap by offering a unified perspective on Long CoT. (1) We first distinguish Long CoT from Short CoT and introduce a novel taxonomy to categorize current reasoning paradigms. (2) Next, we explore the key characteristics of Long CoT: deep reasoning, extensive exploration, and feasible reflection, which enable models to handle more complex tasks and produce more efficient, coherent outcomes compared to the shallower Short CoT. (3) We then investigate key phenomena such as the emergence of Long CoT with these characteristics, including overthinking, and test-time scaling, offering insights into how these processes manifest in practice. (4) Finally, we identify significant research gaps and highlight promising future directions, including the integration of multi-modal reasoning, efficiency improvements, and enhanced knowledge frameworks. By providing a structured overview, this survey aims to inspire future research and further the development of logical reasoning in artificial intelligence.

arxiv情報

著者 Qiguang Chen,Libo Qin,Jinhao Liu,Dengyun Peng,Jiannan Guan,Peng Wang,Mengkang Hu,Yuhang Zhou,Te Gao,Wanxiang Che
発行日 2025-04-09 11:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models はコメントを受け付けていません