Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning

要約

さまざまな推論タスクにおける大規模な言語モデル(LLMS)の顕著な能力にもかかわらず、彼らは依然としてテーブル推論タスクに苦労しています。
既存のアプローチはさまざまな分解戦略を調査しましたが、中間推論ステップでエラーを特定して修正するための効果的なメカニズムが欠けていることが多く、カスケードエラーの伝播につながります。
これらの問題に対処するために、ソリューションを修正するために収束するまで、共同批判と推論プロセスの反復改良を促進する新しいマルチエージェントフレームワークであるTable-Criticを提案します。
私たちのフレームワークは、4つの専門的なエージェントで構成されています。エラー識別の裁判官、包括的な批評の批評家、プロセス改善の精製業者、パターン蒸留のキュレーターです。
多様で予測不可能なエラータイプを効果的に扱うために、経験駆動型の学習を通じて批評を体系的に蓄積し、将来の反省をガイドする自己進化テンプレートツリーを導入します。
広範な実験により、テーブルcriticが既存の方法よりも大幅に改善され、計算効率と溶液の分解率の低下を維持しながら、優れた精度とエラー補正率を達成することが実証されています。

要約(オリジナル)

Despite the remarkable capabilities of large language models (LLMs) in various reasoning tasks, they still struggle with table reasoning tasks, particularly in maintaining consistency throughout multi-step reasoning processes. While existing approaches have explored various decomposition strategies, they often lack effective mechanisms to identify and correct errors in intermediate reasoning steps, leading to cascading error propagation. To address these issues, we propose Table-Critic, a novel multi-agent framework that facilitates collaborative criticism and iterative refinement of the reasoning process until convergence to correct solutions. Our framework consists of four specialized agents: a Judge for error identification, a Critic for comprehensive critiques, a Refiner for process improvement, and a Curator for pattern distillation. To effectively deal with diverse and unpredictable error types, we introduce a self-evolving template tree that systematically accumulates critique knowledge through experience-driven learning and guides future reflections. Extensive experiments have demonstrated that Table-Critic achieves substantial improvements over existing methods, achieving superior accuracy and error correction rates while maintaining computational efficiency and lower solution degradation rate.

arxiv情報

著者 Peiying Yu,Guoxin Chen,Jingjing Wang
発行日 2025-05-23 14:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning はコメントを受け付けていません

Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models

要約

自然言語加工(NLP)の最近の進歩により、特にNLP埋め込みモデルの使用により、学習分析(LA)における学生生成言語製品の分析が容易になりました。
しかし、科学関連の言語に関しては、方程式や式などの象徴的な表現は、現在の埋め込みモデルが対処するのに苦労する課題を導入します。
既存の研究とアプリケーションは、これらの課題を見落とすか、象徴的な表現を完全に削除することが多く、偏った発見やLAアプリケーションのパフォーマンスの低下につながる可能性があります。
したがって、この研究では、現代の埋め込みモデルが科学関連の象徴的な表現を処理および解釈する能力がどのように異なるかを探ります。
この目的のために、類似性ベースの分析と機械学習パイプラインへの統合という2つのアプローチを介してパフォーマンスが評価された、本物の学生応答から描かれた物理学固有のシンボリック表現を使用して、さまざまな埋め込みモデルが評価されます。
私たちの調査結果は、モデルのパフォーマンスに大きな違いが明らかになり、OpenAIのGPT-Text-dembedding-3-Largeは他のすべての検査モデルを上回りますが、他のモデルよりも優れていましたが、決定的ではなく中程度でした。
パフォーマンスを超えて、コスト、規制コンプライアンス、モデルの透明性などの追加要因が、モデル選択の重要な考慮事項として議論されています。
全体として、この研究は、象徴的な表現を含む科学関連の言語製品を操作する際に、LAの研究者とNLP埋め込みモデルを慎重に選択することの重要性を強調しています。

要約(オリジナル)

Recent advancements in Natural Language Processing (NLP) have facilitated the analysis of student-generated language products in learning analytics (LA), particularly through the use of NLP embedding models. Yet when it comes to science-related language, symbolic expressions such as equations and formulas introduce challenges that current embedding models struggle to address. Existing studies and applications often either overlook these challenges or remove symbolic expressions altogether, potentially leading to biased findings and diminished performance of LA applications. This study therefore explores how contemporary embedding models differ in their capability to process and interpret science-related symbolic expressions. To this end, various embedding models are evaluated using physics-specific symbolic expressions drawn from authentic student responses, with performance assessed via two approaches: similarity-based analyses and integration into a machine learning pipeline. Our findings reveal significant differences in model performance, with OpenAI’s GPT-text-embedding-3-large outperforming all other examined models, though its advantage over other models was moderate rather than decisive. Beyond performance, additional factors such as cost, regulatory compliance, and model transparency are discussed as key considerations for model selection. Overall, this study underscores the importance for LA researchers and practitioners of carefully selecting NLP embedding models when working with science-related language products that include symbolic expressions.

arxiv情報

著者 Tom Bleckmann,Paul Tschisgale
発行日 2025-05-23 14:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, physics.ed-ph | Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models はコメントを受け付けていません

Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

要約

複雑なタスクのパフォーマンスを改善し、特に臨床応用のために、大規模な言語モデル(LLMS)で解釈可能な意思決定を可能にするには、効果的な推論が必要です。
しかし、これは、クローズドソースモデル(GPT-4Oなど)から蒸留された費用のかかるチェーン(COT)データに関する監視付き微調整(SFT)なしで挑戦的なままです。
この作業では、SFTや蒸留COTデータに依存せずに、ミニマリストのルールベースの報酬を使用して、推論能力が強化学習(RL)を使用して純粋に強化学習(RL)を使用して純粋に発生する可能性があることを示す最初の医療LLMであるAlphamedを提示します。
Alphamedは、従来のSFT+RLパイプラインでトレーニングされたモデルを上回る、6つの医療QAベンチマークで最先端の結果を達成します。
挑戦的なベンチマーク(Medxpertなど)では、Alphamedは、DeepSeek-V3-671BやClaude-3.5-Sonnetなどの大型または閉鎖モデルを上回ります。
この成功の背後にある要因を理解するために、3つの質問に導かれる包括的なデータ中心分析を実施します。(i)蒸留COTの監督なしで最小リストのルールベースのRLが推論をインセンティブすることができますか?
(ii)データセットの量と多様性は推論にどのように影響しますか?
(iii)質問の難易度は、推論の出現と一般化をどのように形成しますか?
私たちの調査結果は、データセットの情報性が推論パフォーマンスの重要な推進力であり、有益な多肢選択QAデータに関するミニマリストRLがCOTの監督なしで推論を誘導するのに効果的であることを示しています。
また、ベンチマーク全体の多様な傾向、現在の評価における制限を強調し、より挑戦的で推論指向の医療QAベンチマークの必要性を強調しています。

要約(オリジナル)

Improving performance on complex tasks and enabling interpretable decision making in large language models (LLMs), especially for clinical applications, requires effective reasoning. Yet this remains challenging without supervised fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the first medical LLM to show that reasoning capability can emerge purely through reinforcement learning (RL), using minimalist rule-based rewards on public multiple-choice QA datasets, without relying on SFT or distilled CoT data. AlphaMed achieves state-of-the-art results on six medical QA benchmarks, outperforming models trained with conventional SFT+RL pipelines. On challenging benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the factors behind this success, we conduct a comprehensive data-centric analysis guided by three questions: (i) Can minimalist rule-based RL incentivize reasoning without distilled CoT supervision? (ii) How do dataset quantity and diversity impact reasoning? (iii) How does question difficulty shape the emergence and generalization of reasoning? Our findings show that dataset informativeness is a key driver of reasoning performance, and that minimalist RL on informative, multiple-choice QA data is effective at inducing reasoning without CoT supervision. We also observe divergent trends across benchmarks, underscoring limitations in current evaluation and the need for more challenging, reasoning-oriented medical QA benchmarks.

arxiv情報

著者 Che Liu,Haozhe Wang,Jiazhen Pan,Zhongwei Wan,Yong Dai,Fangzhen Lin,Wenjia Bai,Daniel Rueckert,Rossella Arcucci
発行日 2025-05-23 14:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL はコメントを受け付けていません

Counting Cycles with Deepseek

要約

最近の進歩にもかかわらず、AIはまだ高度な数学に苦労しています。
困難なオープンな問題を考慮してください。サイクルカウント統計の計算効率の高い等価フォーム(CEEF)を導出する方法は?
CEEFの問題には一般的な解決策が既知のものではなく、繊細な組み合わせと退屈な計算が必要です。
このようなタスクは人間によって達成するのは難しいですが、AIが非常に役立つ理想的な例です。
提案する新しいアプローチとAIの強力なコーディングスキルを組み合わせることにより、問題を解決します。
私たちの結果は、繊細なグラフ理論を使用し、以前に発見されていない一般的なケースの新しい式を含んでいます。
AIはそれ自体で問題を解決することはできませんが、明確な戦略、段階的なガイダンス、慎重に書かれたプロンプトを提供すると、それを解決できることがわかります。
簡単にするために、研究をDeepSeek-R1に焦点を当てていますが、他のAIアプローチも調査します。

要約(オリジナル)

Despite recent progress, AI still struggles on advanced mathematics. We consider a difficult open problem: How to derive a Computationally Efficient Equivalent Form (CEEF) for the cycle count statistic? The CEEF problem does not have known general solutions, and requires delicate combinatorics and tedious calculations. Such a task is hard to accomplish by humans but is an ideal example where AI can be very helpful. We solve the problem by combining a novel approach we propose and the powerful coding skills of AI. Our results use delicate graph theory and contain new formulas for general cases that have not been discovered before. We find that, while AI is unable to solve the problem all by itself, it is able to solve it if we provide it with a clear strategy, a step-by-step guidance and carefully written prompts. For simplicity, we focus our study on DeepSeek-R1 but we also investigate other AI approaches.

arxiv情報

著者 Jiashun Jin,Tracy Ke,Bingcheng Sui,Zhenggang Wang
発行日 2025-05-23 14:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Counting Cycles with Deepseek はコメントを受け付けていません

Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems

要約

AIを使用して自律的な研究者を作成することは、科学的発見を加速する可能性があります。
このビジョンの前提条件は、AIモデルがその動作からブラックボックスシステムの基礎となる構造をどの程度識別できるかを理解することです。
この論文では、大規模な言語モデル(LLM)が、受動的に観察されたものとアクティブに収集されたデータからブラックボックス関数を特定することをどのように学習するかを探ります。
3つの異なるタイプのブラックボックスシステムにわたるLLMのリバースエンジニアリング機能を調査します。それぞれが、将来の自律AI研究者がプログラム、正式な言語、数学方程式のかなりの影響を与える可能性のある異なる問題ドメインを表すために選択されました。
広範な実験を通じて、LLMSは観察から情報を抽出できず、ベイジアン推論の理想に達していない性能高原に到達することを示します。
ただし、LLMSに観察するだけでなく介入するように促すこと – 特定の入力でブラックボックスを積極的にクエリするために、結果の出力を観察することにより、LLMがエッジケースをテストして信念を改善できるようにすることでパフォーマンスを向上させることを実証します。
あるLLMから別のLLMに介入データを提供することにより、この改善は、効果的な介入を生成するプロセスに関与した結果であることを示しています。
さらなる分析により、介入に関与することでLLMが2つの一般的な障害モードから逃れるのに役立つことが明らかになりました:LLMがブラックボックスに関する事前の知識を誤って想定している場合、LLMが観察を組み込んでいない場所を見落としていることが明らかになりました。
これらの洞察は、LLMSがより効果的にリバースエンジニアのブラックボックスシステムを支援するための実用的なガイダンスを提供し、新しい発見を行う際の使用をサポートしています。

要約(オリジナル)

Using AI to create autonomous researchers has the potential to accelerate scientific discovery. A prerequisite for this vision is understanding how well an AI model can identify the underlying structure of a black-box system from its behavior. In this paper, we explore how well a large language model (LLM) learns to identify a black-box function from passively observed versus actively collected data. We investigate the reverse-engineering capabilities of LLMs across three distinct types of black-box systems, each chosen to represent different problem domains where future autonomous AI researchers may have considerable impact: Program, Formal Language, and Math Equation. Through extensive experiments, we show that LLMs fail to extract information from observations, reaching a performance plateau that falls short of the ideal of Bayesian inference. However, we demonstrate that prompting LLMs to not only observe but also intervene — actively querying the black-box with specific inputs to observe the resulting output — improves performance by allowing LLMs to test edge cases and refine their beliefs. By providing the intervention data from one LLM to another, we show that this improvement is partly a result of engaging in the process of generating effective interventions, paralleling results in the literature on human learning. Further analysis reveals that engaging in intervention can help LLMs escape from two common failure modes: overcomplication, where the LLM falsely assumes prior knowledge about the black-box, and overlooking, where the LLM fails to incorporate observations. These insights provide practical guidance for helping LLMs more effectively reverse-engineer black-box systems, supporting their use in making new discoveries.

arxiv情報

著者 Jiayi Geng,Howard Chen,Dilip Arumugam,Thomas L. Griffiths
発行日 2025-05-23 14:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems はコメントを受け付けていません

TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection

要約

テキストの異常検出は、自然言語処理タスクにおけるスパム、誤った情報、および攻撃的な言語を特定するために重要です。
埋め込みベースの方法の採用が増加しているにもかかわらず、多様なアプリケーションシナリオ全体でそれらの有効性と一般化可能性は未調査のままです。
これに対処するために、テキストの異常検出のための埋め込みベースのアプローチを体系的に評価するように設計された包括的なベンチマークであるTADベンチを提示します。
TADベンチは、異なるドメインにまたがる複数のデータセットを統合し、大規模な言語モデルからの最先端の埋め込みと、さまざまな異常検出アルゴリズムを組み合わせます。
広範な実験を通じて、埋め込み方法と検出方法との相互作用を分析し、さまざまなタスクへの強み、弱点、適用性を明らかにします。
これらの調査結果は、実際のアプリケーション向けに、より堅牢で効率的で一般化可能な異常検出システムの構築に関する新しい視点を提供します。

要約(オリジナル)

Text anomaly detection is crucial for identifying spam, misinformation, and offensive language in natural language processing tasks. Despite the growing adoption of embedding-based methods, their effectiveness and generalizability across diverse application scenarios remain under-explored. To address this, we present TAD-Bench, a comprehensive benchmark designed to systematically evaluate embedding-based approaches for text anomaly detection. TAD-Bench integrates multiple datasets spanning different domains, combining state-of-the-art embeddings from large language models with a variety of anomaly detection algorithms. Through extensive experiments, we analyze the interplay between embeddings and detection methods, uncovering their strengths, weaknesses, and applicability to different tasks. These findings offer new perspectives on building more robust, efficient, and generalizable anomaly detection systems for real-world applications.

arxiv情報

著者 Yang Cao,Sikun Yang,Chen Li,Haolong Xiang,Lianyong Qi,Bo Liu,Rongsheng Li,Ming Liu
発行日 2025-05-23 14:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection はコメントを受け付けていません

AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web

要約

テキストの主張には、多くの場合、その信頼性を高め、ソーシャルメディアでの広がりを伴う画像が伴いますが、これは誤った情報の拡大に関する懸念も生じます。
画像テキストのクレームの自動検証のための既存のデータセットは、多くの場合、合成の主張で構成されており、判決の背後にある推論を把握するための証拠注釈が不足しているため、限られたままです。
この作業では、1,297の実際の画像テキストクレームで構成されるデータセットであるAverimatecを紹介します。
各クレームには、評決に関する分解された推論を反映して、Webからの証拠を含む質問回答(QA)ペアが注釈されます。
クレーム正規化、時間的に制約された証拠注釈、2段階の十分なチェックを介して、コンテキスト依存、時間的漏れ、証拠不足などの実際のチェックデータセットにおける一般的な課題を軽減します。
Averimatecでの注釈の一貫性を、アノテーター間研究を介して評価し、Verdictsで$ \ Kappa = 0.742 $を達成し、QAペアで$ 74.7 \%$の一貫性を達成します。
また、証拠の検索に関する新しい評価方法を提案し、Open-WEBの証拠を使用して画像テキストの主張を検証するためのベースラインを確立するための広範な実験を実施します。

要約(オリジナル)

Textual claims are often accompanied by images to enhance their credibility and spread on social media, but this also raises concerns about the spread of misinformation. Existing datasets for automated verification of image-text claims remain limited, as they often consist of synthetic claims and lack evidence annotations to capture the reasoning behind the verdict. In this work, we introduce AVerImaTeC, a dataset consisting of 1,297 real-world image-text claims. Each claim is annotated with question-answer (QA) pairs containing evidence from the web, reflecting a decomposed reasoning regarding the verdict. We mitigate common challenges in fact-checking datasets such as contextual dependence, temporal leakage, and evidence insufficiency, via claim normalization, temporally constrained evidence annotation, and a two-stage sufficiency check. We assess the consistency of the annotation in AVerImaTeC via inter-annotator studies, achieving a $\kappa=0.742$ on verdicts and $74.7\%$ consistency on QA pairs. We also propose a novel evaluation method for evidence retrieval and conduct extensive experiments to establish baselines for verifying image-text claims using open-web evidence.

arxiv情報

著者 Rui Cao,Zifeng Ding,Zhijiang Guo,Michael Schlichtkrull,Andreas Vlachos
発行日 2025-05-23 14:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web はコメントを受け付けていません

Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation

要約

ビジュアルプログラミング言語(VPL)により、ユーザーはグラフィカルインターフェイスを介してプログラムを作成できるため、アクセシビリティが容易になり、さまざまなドメインでの広範な使用が行われます。
このアクセシビリティをさらに強化するために、最近の調査では、大規模な言語モデル(LLM)を使用したユーザー命令からVPLコードの生成に焦点を当てています。
具体的には、プロンプトベースの方法を採用することにより、これらの研究は有望な結果を示しています。
それにもかかわらず、このようなアプローチは、はしご図(LD)などの産業用VPLであまり効果的ではありません。
LDは、産業用自動化プロセスで使用される極めて重要な言語であり、広範なドメイン固有の構成を伴い、単一のプロンプトでキャプチャするのが困難です。
この作業では、バックボーンモデルが小さい場合でも、トレーニングベースの方法がLD生成の精度のためのプロンプトベースの方法を上回ることを実証します。
これらの調査結果に基づいて、VPLの生成をさらに強化するための2段階のトレーニング戦略を提案します。
まず、産業用VPLで一般的に見られるサブルーチンの繰り返し使用を活用するために、検索式の高度な微調整を採用しています。
第二に、グラフ編集操作を介して体系的に生成された優先ペアを使用して、モデルを正確な出力に向けてモデルをさらに導くために、直接設定最適化(DPO)を適用します。
実世界のLDデータに関する広範な実験は、私たちのアプローチが、産業の自動化を進める可能性を強調する、監視された微調整と比較して、プログラムレベルの精度を10%以上改善することを示しています。

要約(オリジナル)

Visual programming languages (VPLs) allow users to create programs through graphical interfaces, which results in easier accessibility and their widespread usage in various domains. To further enhance this accessibility, recent research has focused on generating VPL code from user instructions using large language models (LLMs). Specifically, by employing prompting-based methods, these studies have shown promising results. Nevertheless, such approaches can be less effective for industrial VPLs such as Ladder Diagram (LD). LD is a pivotal language used in industrial automation processes and involves extensive domain-specific configurations, which are difficult to capture in a single prompt. In this work, we demonstrate that training-based methods outperform prompting-based methods for LD generation accuracy, even with smaller backbone models. Building on these findings, we propose a two-stage training strategy to further enhance VPL generation. First, we employ retrieval-augmented fine-tuning to leverage the repetitive use of subroutines commonly seen in industrial VPLs. Second, we apply direct preference optimization (DPO) to further guide the model toward accurate outputs, using systematically generated preference pairs through graph editing operations. Extensive experiments on real-world LD data demonstrate that our approach improves program-level accuracy by over 10% compared to supervised fine-tuning, which highlights its potential to advance industrial automation.

arxiv情報

著者 Deokhyung Kang,Jeonghun Cho,Yejin Jeon,Sunbin Jang,Minsub Lee,Jawoon Cho,Gary Geunbae Lee
発行日 2025-05-23 14:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Retrieval-Augmented Fine-Tuning With Preference Optimization For Visual Program Generation はコメントを受け付けていません

The AI Gap: How Socioeconomic Status Affects Language Technology Interactions

要約

社会経済的地位(SES)は、大規模な言語モデル(LLM)のようなデジタルテクノロジーと、人々が互いにどのように相互作用し、最近相互作用するかに根本的に影響します。
以前の研究では、SESと言語技術の間の相互作用を強調していましたが、プロキシメトリックと合成データへの依存によって制限されていました。
私たちは、言語技術と生成AIの使用に関する多様な社会経済的背景から1,000人の個人を調査し、LLMとの以前の相互作用から6,482のプロンプトを収集します。
言語技術の使用(すなわち、頻度、実行されたタスク)、インタラクションスタイル、およびトピックにおいて、SESグループ間の体系的な違いがあります。
より高いSESは、より高いレベルの抽象化を伴い、より簡潔にリクエストを伝え、「包括性」や「旅行」などのトピックを伝えます。
より低いSESは、LLMSのより高い擬人化(「hello」と「noly you」を使用)およびより具体的な言語と相関しています。
私たちの調査結果は、生成言語技術が誰にとってもアクセスしやすくなっている一方で、社会経済的言語の違いは依然としてデジタル格差を悪化させるための使用を層別化していることを示唆しています。
これらの違いは、社会経済的要因に根ざしたさまざまな言語的ニーズに対応し、SESグループ全体のAIギャップを制限するために、言語技術の開発におけるSESを考慮することの重要性を強調しています。

要約(オリジナル)

Socioeconomic status (SES) fundamentally influences how people interact with each other and more recently, with digital technologies like Large Language Models (LLMs). While previous research has highlighted the interaction between SES and language technology, it was limited by reliance on proxy metrics and synthetic data. We survey 1,000 individuals from diverse socioeconomic backgrounds about their use of language technologies and generative AI, and collect 6,482 prompts from their previous interactions with LLMs. We find systematic differences across SES groups in language technology usage (i.e., frequency, performed tasks), interaction styles, and topics. Higher SES entails a higher level of abstraction, convey requests more concisely, and topics like ‘inclusivity’ and ‘travel’. Lower SES correlates with higher anthropomorphization of LLMs (using ”hello” and ”thank you”) and more concrete language. Our findings suggest that while generative language technologies are becoming more accessible to everyone, socioeconomic linguistic differences still stratify their use to exacerbate the digital divide. These differences underscore the importance of considering SES in developing language technologies to accommodate varying linguistic needs rooted in socioeconomic factors and limit the AI Gap across SES groups.

arxiv情報

著者 Elisa Bassignana,Amanda Cercas Curry,Dirk Hovy
発行日 2025-05-23 14:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The AI Gap: How Socioeconomic Status Affects Language Technology Interactions はコメントを受け付けていません

Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective

要約

VAPOフレームワークは、大規模な言語モデル(LLM)を使用した長いチェーン(COT)推論タスクの強化学習の効率と信頼性を高める上で、大きな経験的成功を実証しています。
バリューモデルバイアス、不均一なシーケンス長、まばらな報酬信号などの課題に体系的に対処することにより、VAPOは最先端のパフォーマンスを達成します。
その実際の利点は明らかですが、その根本的なメカニズムと潜在的な制限のより深い理論的理解は、将来の進歩を導くために不可欠です。
このペーパーは、理論的な観点からVAPOを調査し​​、その仮定が挑戦される可能性がある領域を強調し、さらなる調査がより堅牢で一般化可能な推論エージェントを生み出す可能性のある領域を強調することにより、このような議論を開始することを目的としています。
複雑な推論スペースにおける値関数近似の複雑さ、適応アドバンテージ推定の最適性、トークンレベルの最適化の影響、および探索と一般化の永続的な課題を掘り下げます。

要約(オリジナル)

The VAPO framework has demonstrated significant empirical success in enhancing the efficiency and reliability of reinforcement learning for long chain-of-thought (CoT) reasoning tasks with large language models (LLMs). By systematically addressing challenges such as value model bias, heterogeneous sequence lengths, and sparse reward signals, VAPO achieves state-of-the-art performance. While its practical benefits are evident, a deeper theoretical understanding of its underlying mechanisms and potential limitations is crucial for guiding future advancements. This paper aims to initiate such a discussion by exploring VAPO from a theoretical perspective, highlighting areas where its assumptions might be challenged and where further investigation could yield more robust and generalizable reasoning agents. We delve into the intricacies of value function approximation in complex reasoning spaces, the optimality of adaptive advantage estimation, the impact of token-level optimization, and the enduring challenges of exploration and generalization.

arxiv情報

著者 Jintian Shao,Yiming Cheng,Hongyi Huang,Beiwen Zhang,Zhiyu Wu,You Shan,Mingkai Zheng
発行日 2025-05-23 15:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective はコメントを受け付けていません