Leveraging LLM For Synchronizing Information Across Multilingual Tables

要約

今日、膨大な量のオンライン情報が、英語やフランス語などの高リソース言語に集中しているため、英語を母国語としない人々には困難が伴う。ウィキペディアはこの不均衡を反映しており、低リソース言語のコンテンツはしばしば古かったり不完全だったりする。最近の研究では、ルールベースの手法を使ってウィキペディアのテーブルの言語間同期を改善しようとしている。これらのアプローチは効果的であるが、複雑さと一般化に苦戦している。本稿では、スケーラブルなソリューションとしてゼロショットプロンプトを用い、多言語情報同期のための大規模言語モデル(LLM)を探索する。古くなったウィキペディアのテーブルを更新する実際のプロセスをシミュレートした情報更新データセットを紹介し、LLMの性能を評価する。その結果、シングルプロンプトアプローチはしばしば最適な結果をもたらさないことが明らかになった。提案手法は、特に情報更新(1.79%)と情報追加(20.58%)において、既存のベースラインを凌駕し、アーキテクチャ間で動的にデータを更新し、充実させるモデルの強みを強調する。

要約(オリジナル)

The vast amount of online information today poses challenges for non-English speakers, as much of it is concentrated in high-resource languages such as English and French. Wikipedia reflects this imbalance, with content in low-resource languages frequently outdated or incomplete. Recent research has sought to improve cross-language synchronization of Wikipedia tables using rule-based methods. These approaches can be effective, but they struggle with complexity and generalization. This paper explores large language models (LLMs) for multilingual information synchronization, using zero-shot prompting as a scalable solution. We introduce the Information Updation dataset, simulating the real-world process of updating outdated Wikipedia tables, and evaluate LLM performance. Our findings reveal that single-prompt approaches often produce suboptimal results, prompting us to introduce a task decomposition strategy that enhances coherence and accuracy. Our proposed method outperforms existing baselines, particularly in Information Updation (1.79%) and Information Addition (20.58%), highlighting the model strength in dynamically updating and enriching data across architectures

arxiv情報

著者 Siddharth Khincha,Tushar Kataria,Ankita Anand,Dan Roth,Vivek Gupta
発行日 2025-04-03 13:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Leveraging LLM For Synchronizing Information Across Multilingual Tables はコメントを受け付けていません

How to Train Long-Context Language Models (Effectively)

要約

我々は、ロングコンテクスト情報を効果的に利用するための言語モデル(LM)の継続的な学習と教師付き微調整(SFT)について研究する。まず、モデル開発の指針となる信頼性の高い評価プロトコルを確立する。パープレキシティや単純なNIAH(needle-in-a-haystack)テストの代わりに、ロングコンテキストのダウンストリームタスクの幅広いセットを使用し、SFT後にモデルを評価する。ロバストな評価に支えられ、我々は、継続的な事前学習のためのデータミックス、インストラクションチューニングデータセット、および位置外挿のような他の多くの設計の選択を決定するための徹底的な実験を実行する。その結果、(1)コードリポジトリや書籍はロングデータの優れたソースであるが、高品質のショートコンテキストデータと組み合わせることが極めて重要であること、(2)評価長を超えるシーケンス長で学習することで、ロングコンテキストの性能が向上すること、(3)SFTでは、ショートインストラクションデータセットのみを使用することで、ロングコンテキストのタスクで強力な性能が得られることがわかった。Llama-3から初期化され、40Bのトークンで学習された最終モデルProLong-8Bは、128Kの長さで同サイズのモデルの中で最先端のロングコンテクスト性能を示す。ProLongは、ロングコンテキストの学習で使用するトークンの数がわずか5%であるにもかかわらず、ほとんどのロングコンテキストのタスクでLlama-3.1-8B-Instructを上回る。さらに、ProLongは512Kまでのトークンを効果的に処理することができ、これは公開されているLMの中で最も長いコンテキストウィンドウの一つである。

要約(オリジナル)

We study continued training and supervised fine-tuning (SFT) of a language model (LM) to make effective use of long-context information. We first establish a reliable evaluation protocol to guide model development — instead of perplexity or simple needle-in-a-haystack (NIAH) tests, we use a broad set of long-context downstream tasks, and we evaluate models after SFT as this better reveals long-context abilities. Supported by our robust evaluations, we run thorough experiments to decide the data mix for continued pre-training, the instruction tuning dataset, and many other design choices such as position extrapolation. We find that (1) code repositories and books are excellent sources of long data, but it is crucial to combine them with high-quality short-context data; (2) training with a sequence length beyond the evaluation length boosts long-context performance; (3) for SFT, using only short instruction datasets yields strong performance on long-context tasks. Our final model, ProLong-8B, which is initialized from Llama-3 and trained on 40B tokens, demonstrates state-of-the-art long-context performance among similarly sized models at a length of 128K. ProLong outperforms Llama-3.1-8B-Instruct on the majority of long-context tasks despite using only 5% as many tokens during long-context training. Additionally, ProLong can effectively process up to 512K tokens, one of the longest context windows of publicly available LMs.

arxiv情報

著者 Tianyu Gao,Alexander Wettig,Howard Yen,Danqi Chen
発行日 2025-04-03 13:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | How to Train Long-Context Language Models (Effectively) はコメントを受け付けていません

Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking

要約

モバイル・デバイスの計算能力はますます向上しているが、DRAM帯域幅の改善はかなり遅れている。これは、大規模言語モデル(LLM)のトークン生成にとって不運なことである。これまでの研究では、ReLU活性化LLMの自然な動的活性化スパース性を利用して、トークンあたりの実効DRAMバンド幅を削減することが提案されています。しかし、最近のLLMはReLUの代わりにSwiGLUを使用しているため、固有のスパース性はほとんどありません。SwiGLUの有効性は大きさに基づいて刈り込むことができますが、その結果生じるスパース性のパターンを予測することは困難であり、従来のアプローチは有効ではありませんでした。この問題を回避するために、我々の研究では動的入力刈り込み(DIP:Dynamic Input Pruning)を導入する:予測器を使わない動的スパース化アプローチであり、最小限の微調整で精度を維持する。DIPはさらに、軽量LoRAアダプタを使用することで、スパース化の際に失われた性能を取り戻すことができる。最後に、キャッシュヒット率をさらに向上させるために、キャッシュの状態と活性化の大きさを考慮する新しいキャッシュアウェアマスキング戦略を説明し、モバイルデバイス上のLLMトークン率を改善する。DIPは、シミュレートされたハードウェア設定において、精度、メモリ、スループットのトレードオフの点で、他の手法よりも優れています。Phi-3-Medium上で、DIPは、Flashから密なモデルをストリーミングする場合と比較して、$<$ 0.1のプレプレキシティ損失で、46%のメモリ削減と40%のスループット向上を達成した。本論文のHWシミュレータ、手法、実験のオープンソースコードは、https://github.com/Qualcomm-AI-research/dynamic-sparsity 。

要約(オリジナル)

While mobile devices provide ever more compute power, improvements in DRAM bandwidth are much slower. This is unfortunate for large language model (LLM) token generation, which is heavily memory-bound. Previous work has proposed to leverage natural dynamic activation sparsity in ReLU-activated LLMs to reduce effective DRAM bandwidth per token. However, more recent LLMs use SwiGLU instead of ReLU, which results in little inherent sparsity. While SwiGLU activations can be pruned based on magnitude, the resulting sparsity patterns are difficult to predict, rendering previous approaches ineffective. To circumvent this issue, our work introduces Dynamic Input Pruning (DIP): a predictor-free dynamic sparsification approach, which preserves accuracy with minimal fine-tuning. DIP can further use lightweight LoRA adapters to regain some performance lost during sparsification. Lastly, we describe a novel cache-aware masking strategy, which considers the cache state and activation magnitude to further increase cache hit rate, improving LLM token rate on mobile devices. DIP outperforms other methods in terms of accuracy, memory and throughput trade-offs across simulated hardware settings. On Phi-3-Medium, DIP achieves a 46\% reduction in memory and 40\% increase in throughput with $<$ 0.1 loss in perplexity when compared to streaming the dense model from Flash. The open source code for HW simulator, methods, and experiments in this paper is available at https://github.com/Qualcomm-AI-research/dynamic-sparsity .

arxiv情報

著者 Marco Federici,Davide Belli,Mart van Baalen,Amir Jalalirad,Andrii Skliar,Bence Major,Markus Nagel,Paul Whatmough
発行日 2025-04-03 13:28:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking はコメントを受け付けていません

Multi-Modal Framing Analysis of News

要約

政治的コミュニケーションの自動フレーム分析は、計算社会科学において人気のある課題であり、作者がどのようにトピックの側面を選択し、その受容をフレーム化するかを研究するために用いられる。これまでのところ、このような研究は、あらかじめ定義されたフレームの固定セットを使用し、テキストにのみ焦点を当て、テキストが現れる視覚的コンテキストを無視するという狭いものであった。特にニュースにおけるフレーミングについては、これでは、記事だけでなく付随する写真も含めた編集上の選択に関する貴重な情報が抜け落ちてしまう。このような制限を克服するために、我々は大規模な(視覚)言語モデルを用いて、マルチモーダル、マルチラベルのフレーミング分析を大規模に行う方法を提示する。フレーミング理論に基づき、ある論点を伝えるために使用された画像に埋め込まれた潜在的な意味を抽出し、使用されたそれぞれのフレームを比較することでテキストと対比する。また、先行する質的研究において発見された論点に特化したフレーム分析により、トピックの極めて党派的なフレーミングを特定する。ニュースのテキストと画像の両方をスケーラブルに統合的にフレーミング分析する手法を実証し、メディアの偏向を理解するためのより完全な図を提供する。

要約(オリジナル)

Automated frame analysis of political communication is a popular task in computational social science that is used to study how authors select aspects of a topic to frame its reception. So far, such studies have been narrow, in that they use a fixed set of pre-defined frames and focus only on the text, ignoring the visual contexts in which those texts appear. Especially for framing in the news, this leaves out valuable information about editorial choices, which include not just the written article but also accompanying photographs. To overcome such limitations, we present a method for conducting multi-modal, multi-label framing analysis at scale using large (vision-)language models. Grounding our work in framing theory, we extract latent meaning embedded in images used to convey a certain point and contrast that to the text by comparing the respective frames used. We also identify highly partisan framing of topics with issue-specific frame analysis found in prior qualitative work. We demonstrate a method for doing scalable integrative framing analysis of both text and image in news, providing a more complete picture for understanding media bias.

arxiv情報

著者 Arnav Arora,Srishti Yadav,Maria Antoniak,Serge Belongie,Isabelle Augenstein
発行日 2025-04-03 13:31:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, cs.LG | Multi-Modal Framing Analysis of News はコメントを受け付けていません

Language Models reach higher Agreement than Humans in Historical Interpretation

要約

本稿では、人間による歴史注釈と大規模言語モデルによる歴史注釈を比較する。その結果、両者とも若干の文化的バイアスを示すが、短いテキストからの歴史的事実の解釈については、大規模言語モデルの方が高いコンセンサスを達成することが明らかになった。人間が個人的なバイアスに基づき意見を異にする傾向があるのに対し、大規模言語モデルは情報を読み飛ばしたり幻覚を生じさせたりした場合に意見を異にする。これらの発見は、歴史データの大規模なアノテーションと定量分析を可能にするデジタル人文学にとって重要な意味を持つ。これは、異なる言語モデルから歴史的解釈を探求し、バイアスに関する批判的思考を育む新たな教育・研究の機会を提供する。

要約(オリジナル)

This paper compares historical annotations by humans and Large Language Models. The findings reveal that both exhibit some cultural bias, but Large Language Models achieve a higher consensus on the interpretation of historical facts from short texts. While humans tend to disagree on the basis of their personal biases, Large Models disagree when they skip information or produce hallucinations. These findings have significant implications for digital humanities, enabling large-scale annotation and quantitative analysis of historical data. This offers new educational and research opportunities to explore historical interpretations from different Language Models, fostering critical thinking about bias.

arxiv情報

著者 Fabio Celli,Georgios Spathulas
発行日 2025-04-03 13:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Language Models reach higher Agreement than Humans in Historical Interpretation はコメントを受け付けていません

LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning

要約

LLMの法的数学的推論能力は、LLMの信頼性に直接影響するため、LLMを実世界のシナリオに適用する際に極めて重要である。既存の法的LLMは一般的な司法質問応答を行うことができるが、その法的数学的推論能力は訓練されていない。オープンドメインの推論モデルは、詳細な計算ステップを生成することはできるが、法的シナリオに必要な推論ロジックに従っていない。さらに、法的文脈におけるLLMの推論能力を検証し、強化するのに役立つ法的数学的推論データセットが現在のところ不足している。これらの問題に対処するため、我々は中国初の法的数理推論データセットLexNumを提案する。LexNumには3つの一般的な法的数理推論シナリオが含まれている:経済補償、労働災害補償、交通事故補償。LexNumに基づき、既存の法的LLMと推論LLMの性能をテストし、法的手続き認識によって導かれる強化学習アルゴリズムであるLexPamを導入してLLMを訓練し、法的シナリオにおける数学的推論能力を向上させた。3つの法的シナリオのタスクに関する実験から、法的数理的推論タスクにおける既存の法的LLMと推論モデルの性能は不満足であることが示された。LexPamはこれらのタスクにおけるLLMの能力を向上させることができる。

要約(オリジナル)

The legal mathematical reasoning ability of LLMs is crucial when applying them to real-world scenarios, as it directly affects the credibility of the LLM. While existing legal LLMs can perform general judicial question answering, their legal mathematical reasoning capabilities have not been trained. Open-domain reasoning models, though able to generate detailed calculation steps, do not follow the reasoning logic required for legal scenarios. Additionally, there is currently a lack of legal mathematical reasoning datasets to help validate and enhance LLMs’ reasoning abilities in legal contexts. To address these issues, we propose the first Chinese legal Mathematical Reasoning Dataset, LexNum, which includes three common legal mathematical reasoning scenarios: economic compensation, work injury compensation, and traffic accident compensation. Based on LexNum, we tested the performance of existing legal LLMs and reasoning LLMs, and introduced LexPam, a reinforcement learning algorithm guided by legal procedural awareness to train LLMs, enhancing their mathematical reasoning abilities in legal scenarios. Experiments on tasks in the three legal scenarios show that the performance of existing legal LLMs and reasoning models in legal mathematical reasoning tasks is unsatisfactory. LexPam can enhance the LLM’s ability in these tasks.

arxiv情報

著者 Kepu Zhang,Guofu Xie,Weijie Yu,Mingyue Xu,Xu Tang,Yaxin Li,Jun Xu
発行日 2025-04-03 13:54:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | LexPam: Legal Procedure Awareness-Guided Mathematical Reasoning はコメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

要約

大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキストモダリティを統合する複雑さのため、音声ベースのタスクへの適用は依然として困難である。本稿では、音声とテキストのインターリーブシーケンスをシームレスに処理するミックスモーダルモデルIchigoを紹介する。トークン化された早期融合アプローチを利用し、Ichigoは音声を個別のトークンに量子化し、音声とテキストの両方のモダリティに対して統一された変換器ベースのアーキテクチャを採用する。この手法により、個別のアダプタを必要とせず、モダリティを超えた共同推論と生成が可能となる。多言語音声認識データセットでの事前学習と、キュレーションされたインストラクションデータセットでの微調整を含む、包括的な学習方法を提示する。Ichigoは、音声質問応答ベンチマークにおいて最先端の性能を示し、既存のオープンソース音声言語モデルを凌駕し、カスケードシステムと同等の結果を達成した。特筆すべきは、Ichigoの最初のトークン生成までの待ち時間が111ミリ秒と、現在のモデルよりも大幅に短いことである。我々のアプローチは、マルチモーダルAIの分野を発展させるだけでなく、小規模な研究チームがオープンソースの音声言語モデルに効果的に貢献するためのフレームワークを提供します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Huy Hoang Ha
発行日 2025-04-03 13:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant はコメントを受け付けていません

LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect

要約

チュニジアのアラビア方言の自動音声認識(ASR)システムの開発は、方言の言語的な複雑さと注釈付き音声データセットの不足のために困難である。このような課題を解決するために、私たちはチュニジアのアラビア方言の音韻と語彙の特徴を捉えた包括的なリソースであるLinTO音声およびテキストデータセットを提案します。これらのデータセットには、様々なソースからの様々なテキストと、多様な話者が登場し、チュニジア・アラビア方言と英語またはフランス語とのコードスイッチングを行う実世界の音声サンプルが含まれています。LinTOオーディオとテキストデータセットは、高品質のオーディオと正確なトランスクリプションを提供することで、チュニジア・アラビア方言のASRシステムを構築し、ベンチマークするための定性的な材料を提供することを目的としている。 キーワード — チュニジア語アラビア方言、音声対テキスト、低資源言語、音声データ補強

要約(オリジナル)

Developing Automatic Speech Recognition (ASR) systems for Tunisian Arabic Dialect is challenging due to the dialect’s linguistic complexity and the scarcity of annotated speech datasets. To address these challenges, we propose the LinTO audio and textual datasets — comprehensive resources that capture phonological and lexical features of Tunisian Arabic Dialect. These datasets include a variety of texts from numerous sources and real-world audio samples featuring diverse speakers and code-switching between Tunisian Arabic Dialect and English or French. By providing high-quality audio paired with precise transcriptions, the LinTO audio and textual datasets aim to provide qualitative material to build and benchmark ASR systems for the Tunisian Arabic Dialect. Keywords — Tunisian Arabic Dialect, Speech-to-Text, Low-Resource Languages, Audio Data Augmentation

arxiv情報

著者 Hedi Naouara,Jean-Pierre Lorré,Jérôme Louradour
発行日 2025-04-03 14:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect はコメントを受け付けていません

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

要約

アカデミックライティングでは、首尾一貫したテキスト生成と関連文献の正確な引用の両方が求められる。最近のRAG(Retrieval-Augmented Generation)システムは、汎用的なテキスト生成における事実精度を大幅に向上させたが、専門的な学術論文をサポートする能力は依然として限定的である。この研究では、ScholarCopilotを紹介する。ScholarCopilotは、既存の大規模言語モデルを拡張し、正確で文脈に関連した引用を含む専門的な学術論文を生成するために設計された統一フレームワークである。ScholarCopilotは、検索トークン[RET]を生成することで、学術文献を検索するタイミングを動的に決定し、そのトークンを使用して引用データベースに問い合わせを行う。検索された文献は、生成プロセスを補強するためにモデルに入力されます。生成タスクと引用タスクの両方を単一のフレームワーク内で共同で最適化することで、効率を向上させている。我々のモデルはQwen-2.5-7Bをベースに構築され、arXivの50万件の論文で学習される。我々の評価データセットでは40.1%のトップ1検索精度を達成し、E5-Mistral-7B-Instruct(15.0%)やBM25(9.8%)などのベースラインを凌駕している。1,000のアカデミックライティングサンプルからなるデータセットにおいて、ScholarCopilotは、関連性、一貫性、学術的厳密性、完全性、革新性を測定したジェネレーションクオリティで16.2/25を獲得し、Retrieval-Augmented Qwen2.5-72B-Instructのような大規模なモデルを含む、既存のすべてのモデルを大幅に上回りました。さらに、人間による研究では、ScholarCopilotが7Bモデルであるにもかかわらず、ChatGPTを大幅に凌駕し、引用の質で100%、総合的な有用性で70%以上の嗜好性を達成していることが実証されています。

要約(オリジナル)

Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their ability to support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], which is then used to query a citation database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to improve efficiency. Our model is built upon Qwen-2.5-7B and trained on 500K papers from arXiv. It achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality — measured across relevance, coherence, academic rigor, completeness, and innovation — significantly surpassing all existing models, including much larger ones like the Retrieval-Augmented Qwen2.5-72B-Instruct. Human studies further demonstrate that ScholarCopilot, despite being a 7B model, significantly outperforms ChatGPT, achieving 100% preference in citation quality and over 70% in overall usefulness.

arxiv情報

著者 Yubo Wang,Xueguang Ma,Ping Nie,Huaye Zeng,Zhiheng Lyu,Yuxuan Zhang,Benjamin Schneider,Yi Lu,Xiang Yue,Wenhu Chen
発行日 2025-04-03 15:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations はコメントを受け付けていません

LLM for Complex Reasoning Task: An Exploratory Study in Fermi Problems

要約

フェルミ問題(FP)は、人間のような論理と数値推論を必要とする数学的推論課題である。他の推論問題とは異なり、FPは現実世界の非現実的な問題や曖昧な概念を含むことが多く、人間にとっても解くのが難しい問題である。様々な推論タスクにおける大規模言語モデル(LLM)を中心としたAIの進歩にもかかわらず、FPは比較的未解明なままである。本研究では、FPを解く際のLLMの能力と限界を検証するための探索的研究を行った。まず、公開されているFPデータセットを用いて、3つの先進的なLLMの総合的な性能を評価した。また,最近提案されたTELeR分類法に従ってプロンプトを設計し,ゼロショットシナリオを含めた.その結果、3つのLLMはいずれもfp_score(0~1の範囲)が0.5以下であり、推論タスクの本質的な難しさが明らかになった。さらに詳しく調査するため、FPを標準的な質問と特殊な質問に分類し、LLMは特殊な質問よりも、明確で簡潔という特徴を持つ標準的な質問の方が良い結果を出すという仮説を立てた。比較実験の結果、この仮説は実証され、LLMは標準的なFPにおいて、精度と効率の両面でより良い結果を示した。

要約(オリジナル)

Fermi Problems (FPs) are mathematical reasoning tasks that require human-like logic and numerical reasoning. Unlike other reasoning questions, FPs often involve real-world impracticalities or ambiguous concepts, making them challenging even for humans to solve. Despite advancements in AI, particularly with large language models (LLMs) in various reasoning tasks, FPs remain relatively under-explored. This work conducted an exploratory study to examine the capabilities and limitations of LLMs in solving FPs. We first evaluated the overall performance of three advanced LLMs using a publicly available FP dataset. We designed prompts according to the recently proposed TELeR taxonomy, including a zero-shot scenario. Results indicated that all three LLMs achieved a fp_score (range between 0 – 1) below 0.5, underscoring the inherent difficulty of these reasoning tasks. To further investigate, we categorized FPs into standard and specific questions, hypothesizing that LLMs would perform better on standard questions, which are characterized by clarity and conciseness, than on specific ones. Comparative experiments confirmed this hypothesis, demonstrating that LLMs performed better on standard FPs in terms of both accuracy and efficiency.

arxiv情報

著者 Zishuo Liu,Carlos Rabat Villarreal,Mostafa Rahgouy,Amit Das,Zheng Zhang,Chang Ren,Dongji Feng
発行日 2025-04-03 15:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | LLM for Complex Reasoning Task: An Exploratory Study in Fermi Problems はコメントを受け付けていません