Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

要約

最近、O1のようなモデルが大きな注目を集めており、これらのモデルは、既存の大手言語モデル(LLM)の推論能力を改善するための長い考え方(COT)の推論ステップを生成します。
このホワイトペーパーでは、これらの長いコットの品質を理解し、これらの長いコットの既存のLLMの批評能力を測定するために、さまざまな推論タスク(例:数学、コード、一般的な推論)のために、さまざまなO1様モデル(例:QWQ、DeepSeek-R1)から生成された長いコットを含むデルタベンチを紹介します。
Deltabenchに基づいて、最初に生成された長いCOTの細粒分析を実行して、異なるO1様モデルの有効性と効率を発見します。
次に、既存のプロセス報酬モデル(PRM)と批評家モデルの広範な評価を実施して、既存のPRMSおよび批評家モデルの境界と制限を調査することを目的とした各注釈プロセスのエラーを検出します。
最後に、Deltabenchが開発者がモデルの長いCOT推論能力をよりよく理解できるように導くことができることを願っています。

要約(オリジナル)

Recently, o1-like models have drawn significant attention, where these models produce the long Chain-of-Thought (CoT) reasoning steps to improve the reasoning abilities of existing Large Language Models (LLMs). In this paper, to understand the qualities of these long CoTs and measure the critique abilities of existing LLMs on these long CoTs, we introduce the DeltaBench, including the generated long CoTs from different o1-like models (e.g., QwQ, DeepSeek-R1) for different reasoning tasks (e.g., Math, Code, General Reasoning), to measure the ability to detect errors in long CoT reasoning. Based on DeltaBench, we first perform fine-grained analysis of the generated long CoTs to discover the effectiveness and efficiency of different o1-like models. Then, we conduct extensive evaluations of existing process reward models (PRMs) and critic models to detect the errors of each annotated process, which aims to investigate the boundaries and limitations of existing PRMs and critic models. Finally, we hope that DeltaBench could guide developers to better understand the long CoT reasoning abilities of their models.

arxiv情報

著者 Yancheng He,Shilong Li,Jiaheng Liu,Weixun Wang,Xingyuan Bu,Ge Zhang,Zhongyuan Peng,Zhaoxiang Zhang,Wenbo Su,Bo Zheng
発行日 2025-02-26 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? はコメントを受け付けていません

Residual Speech Embeddings for Tone Classification: Removing Linguistic Content to Enhance Paralinguistic Analysis

要約

WAV2VEC2、Hubert、WAVLM、Whisperなどの音声処理の自己監視学習モデルは、言語的情報と麻痺情報の両方をキャプチャする埋め込みを生成し、話されたコンテンツとは独立してトーンを分析することを困難にします。
この作業では、音声埋め込みを対応するテキストの埋め込みに回帰させ、残差をボーカルトーンの表現として使用することにより、言語コンテンツから麻痺性の特徴を解き放つ方法を紹介します。
複数の自己監視された音声埋め込みにわたってこのアプローチを評価し、残留埋め込みが生の音声埋め込みと比較してトーン分類パフォーマンスを大幅に改善することを示しています。
私たちの結果は、この方法が線形分離性を高め、ロジスティック回帰などの単純なモデルでも分類が改善できることを示しています。
残留埋め込みの視覚化により、トーン関連の機能を保存しながら、言語情報の除去が成功したことがさらに確認されます。
これらの発見は、感情分析、スピーカーの特性評価、および麻痺性音声処理におけるアプリケーションの残留埋め込みの可能性を強調しています。

要約(オリジナル)

Self-supervised learning models for speech processing, such as wav2vec2, HuBERT, WavLM, and Whisper, generate embeddings that capture both linguistic and paralinguistic information, making it challenging to analyze tone independently of spoken content. In this work, we introduce a method for disentangling paralinguistic features from linguistic content by regressing speech embeddings onto their corresponding text embeddings and using the residuals as a representation of vocal tone. We evaluate this approach across multiple self-supervised speech embeddings, demonstrating that residual embeddings significantly improve tone classification performance compared to raw speech embeddings. Our results show that this method enhances linear separability, enabling improved classification even with simple models such as logistic regression. Visualization of the residual embeddings further confirms the successful removal of linguistic information while preserving tone-related features. These findings highlight the potential of residual embeddings for applications in sentiment analysis, speaker characterization, and paralinguistic speech processing.

arxiv情報

著者 Hamdan Al Ahbabi,Gautier Marti,Saeed AlMarri,Ibrahim Elfadel
発行日 2025-02-26 18:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Residual Speech Embeddings for Tone Classification: Removing Linguistic Content to Enhance Paralinguistic Analysis はコメントを受け付けていません

Learning Code-Edit Embedding to Model Student Debugging Behavior

要約

コンピューターサイエンス教育におけるプログラミングの割り当てのための効果的なフィードバックを提供することは困難です。学生は、コードを繰り返し提出し、それを実行し、コンパイラまたは自動卒業生からの限られたフィードバックを使用してデバッグすることで問題を解決します。
このプロセスでの学生のデバッグ行動を分析すると、知識に対する重要な洞察が明らかになり、より良いパーソナライズされたサポートツールが通知する可能性があります。
この作業では、デバッグ動作をキャプチャするために、連続した学生コード提出の間の意味のあるコード編集埋め込みを学習するエンコーダーデコダーベースのモデルを提案します。
私たちのモデルは、学生コードの提出が各テストケースを通過して大規模な言語モデル(LLM)を微調整してコード編集表現を微調整するかどうかについての情報を活用しています。
これにより、テストケースの正確性を改善しながら、生徒のコーディングスタイルを維持するパーソナライズされたネクストステップコードの提案が可能になります。
また、私たちのモデルにより、学生コード編集パターンを分析して、クラスタリング技術を使用して、一般的な学生のエラーとデバッグ行動を明らかにします。
実世界の学生コード提出データセットの実験結果は、学生のデバッグ行動の興味深いパターンを明らかにしながら、モデルがコードの再構成とパーソナライズされたコード提案に優れていることを示しています。

要約(オリジナル)

Providing effective feedback for programming assignments in computer science education can be challenging: students solve problems by iteratively submitting code, executing it, and using limited feedback from the compiler or the auto-grader to debug. Analyzing student debugging behavior in this process may reveal important insights into their knowledge and inform better personalized support tools. In this work, we propose an encoder-decoder-based model that learns meaningful code-edit embeddings between consecutive student code submissions, to capture their debugging behavior. Our model leverages information on whether a student code submission passes each test case to fine-tune large language models (LLMs) to learn code editing representations. It enables personalized next-step code suggestions that maintain the student’s coding style while improving test case correctness. Our model also enables us to analyze student code-editing patterns to uncover common student errors and debugging behaviors, using clustering techniques. Experimental results on a real-world student code submission dataset demonstrate that our model excels at code reconstruction and personalized code suggestion while revealing interesting patterns in student debugging behavior.

arxiv情報

著者 Hasnain Heickal,Andrew Lan
発行日 2025-02-26 18:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | Learning Code-Edit Embedding to Model Student Debugging Behavior はコメントを受け付けていません

The Mighty ToRR: A Benchmark for Table Reasoning and Robustness

要約

現実世界の重要性にもかかわらず、表形式データのモデルパフォーマンスは露出度の低いままであり、どのモデルに依存するモデルと採用する迅速な構成について不確実性を残します。
このギャップに対処するために、テーブルの推論と堅牢性のベンチマークであるTorrを作成します。これは、テーブル関連のタスクのモデルパフォーマンスと堅牢性を測定します。
ベンチマークには、さまざまなドメインにわたってさまざまなタイプのテーブル推論機能をカバーする10のデータセットが含まれています。
TORRはモデルのパフォーマンスランキングを超えており、さまざまな一般的なテーブル表現形式でモデルが表形式データを一貫して堅牢に処理できるかどうかを反映するように設計されています。
リーダーボードと、Torrを介した主要なモデルの結果の包括的な分析を提示します。
私たちの結果は、強力なモデルでさえ表形式のデータタスクで堅牢に実行することができない脆性モデルの動作の顕著なパターンを明らかにしています。
特定のテーブル形式が一貫してより良いパフォーマンスにつながることはありませんが、モデル機能を確実に推定するためには、複数の形式でのテストが重要であることを示しています。
さらに、複数のプロンプトのテストによる信頼性の向上は、より多くのテスト例を追加するのと同等である可能性があることを示します。
全体として、私たちの調査結果は、テーブルの理解と推論タスクが依然として大きな課題であることを示しています。

要約(オリジナル)

Despite its real-world significance, model performance on tabular data remains underexplored, leaving uncertainty about which model to rely on and which prompt configuration to adopt. To address this gap, we create ToRR, a benchmark for Table Reasoning and Robustness, that measures model performance and robustness on table-related tasks. The benchmark includes 10 datasets that cover different types of table reasoning capabilities across varied domains. ToRR goes beyond model performance rankings, and is designed to reflect whether models can handle tabular data consistently and robustly, across a variety of common table representation formats. We present a leaderboard as well as comprehensive analyses of the results of leading models over ToRR. Our results reveal a striking pattern of brittle model behavior, where even strong models are unable to perform robustly on tabular data tasks. Although no specific table format leads to consistently better performance, we show that testing over multiple formats is crucial for reliably estimating model capabilities. Moreover, we show that the reliability boost from testing multiple prompts can be equivalent to adding more test examples. Overall, our findings show that table understanding and reasoning tasks remain a significant challenge.

arxiv情報

著者 Shir Ashury-Tahan,Yifan Mai,Rajmohan C,Ariel Gera,Yotam Perlitz,Asaf Yehudai,Elron Bandel,Leshem Choshen,Eyal Shnarch,Percy Liang,Michal Shmueli-Scheuer
発行日 2025-02-26 18:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Mighty ToRR: A Benchmark for Table Reasoning and Robustness はコメントを受け付けていません

Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

要約

専門家(MOE)アーキテクチャの混合は、同等の能力の密なモデルと比較して、トレーニングと推論コストを大幅に削減します。
アップサイクリングは、事前に訓練された高密度モデルを使用してMOEモデルを初期化およびトレーニングするアプローチです。
アップサイクリングは初期のパフォーマンスの向上につながりますが、トレーニングはゼロから訓練されたときよりも遅くなり、長期的には最適ではないパフォーマンスにつながります。
ドロップアップサイクリングを提案します – この問題に効果的に対処する方法。
ドロップアップサイクリングは、一見矛盾する2つのアプローチを組み合わせています。事前に訓練された高密度モデルの知識を利用しながら、重量の一部を統計的に再現します。
このアプローチは、専門家の専門化を戦略的に促進し、MOEモデルの知識習得効率を大幅に向上させます。
大規模な大規模な実験は、ドロップアップサイクルが長期的に以前のMOE構築方法を大幅に上回ることを示しています。
その結果、5.9Bのアクティブパラメーターを備えたMOEモデルは、同じモデルファミリで13Bの密なモデルに匹敵するパフォーマンスを実現し、約1/4のトレーニングフロップを必要とします。
ソースコード、トレーニングデータ、モデルチェックポイント、ログを含むすべての実験リソースは、MOEの再現性と将来の研究を促進するために公開されています。

要約(オリジナル)

The Mixture of Experts (MoE) architecture reduces the training and inference cost significantly compared to a dense model of equivalent capacity. Upcycling is an approach that initializes and trains an MoE model using a pre-trained dense model. While upcycling leads to initial performance gains, the training progresses slower than when trained from scratch, leading to suboptimal performance in the long term. We propose Drop-Upcycling – a method that effectively addresses this problem. Drop-Upcycling combines two seemingly contradictory approaches: utilizing the knowledge of pre-trained dense models while statistically re-initializing some parts of the weights. This approach strategically promotes expert specialization, significantly enhancing the MoE model’s efficiency in knowledge acquisition. Extensive large-scale experiments demonstrate that Drop-Upcycling significantly outperforms previous MoE construction methods in the long term, specifically when training on hundreds of billions of tokens or more. As a result, our MoE model with 5.9B active parameters achieves comparable performance to a 13B dense model in the same model family, while requiring approximately 1/4 of the training FLOPs. All experimental resources, including source code, training data, model checkpoints and logs, are publicly available to promote reproducibility and future research on MoE.

arxiv情報

著者 Taishi Nakamura,Takuya Akiba,Kazuki Fujii,Yusuke Oda,Rio Yokota,Jun Suzuki
発行日 2025-02-26 16:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization はコメントを受け付けていません

Predicting Quality of Video Gaming Experience Using Global-Scale Telemetry Data and Federated Learning

要約

フレームあたりのフレーム(FPS)は、ゲームエクスペリエンスに大きく影響します。
プレーヤーにプレーヤーとゲーム開発者の両方の利益をもたらす前に、プレーヤーに正確なFPSの見積もりを提供します。
ただし、特定のデバイスでゲームのFPSパフォーマンスを予測する方法についての理解は限られています。
この論文では、まず、グローバルスケールデータセットのゲームFPSに影響を与える可能性のある幅広い要因の包括的な分析を実施して、FPSの決定要因を特定します。
これには、プレーヤー側とゲーム側の特性、および国レベルの社会経済統計が含まれます。
さらに、正確なFPS予測には、プライバシーの懸念を引き起こす広範なユーザーデータが必要であることを認識すると、ユーザーのプライバシーを確​​保するために連邦学習ベースのモデルを提案します。
各プレイヤーとゲームには、精度が向上するために潜在的な機能を徐々に抽出するユニークな学習可能な知識カーネルが割り当てられます。
また、これらのカーネルが動的にプラグアンドプレイできるようにする新しいトレーニングと予測スキームを紹介し、コールドスタートの問題に効果的に対処します。
このモデルを最小限のバイアスでトレーニングするために、224か国と地域、100,000人のユーザー、835ゲームから大きなテレメトリデータセットを収集しました。
私たちのモデルは、予測された真理FPS分布とグラウンドトゥルースFPS分布の間で0.469の平均波線距離を達成し、すべてのベースラインメソッドを上回りました。

要約(オリジナル)

Frames Per Second (FPS) significantly affects the gaming experience. Providing players with accurate FPS estimates prior to purchase benefits both players and game developers. However, we have a limited understanding of how to predict a game’s FPS performance on a specific device. In this paper, we first conduct a comprehensive analysis of a wide range of factors that may affect game FPS on a global-scale dataset to identify the determinants of FPS. This includes player-side and game-side characteristics, as well as country-level socio-economic statistics. Furthermore, recognizing that accurate FPS predictions require extensive user data, which raises privacy concerns, we propose a federated learning-based model to ensure user privacy. Each player and game is assigned a unique learnable knowledge kernel that gradually extracts latent features for improved accuracy. We also introduce a novel training and prediction scheme that allows these kernels to be dynamically plug-and-play, effectively addressing cold start issues. To train this model with minimal bias, we collected a large telemetry dataset from 224 countries and regions, 100,000 users, and 835 games. Our model achieved a mean Wasserstein distance of 0.469 between predicted and ground truth FPS distributions, outperforming all baseline methods.

arxiv情報

著者 Zhongyang Zhang,Jinhe Wen,Zixi Chen,Dara Arbab,Sruti Sahani,Kent Giard,Bijan Arbab,Haojian Jin,Tauhidur Rahman
発行日 2025-02-26 16:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.IR | Predicting Quality of Video Gaming Experience Using Global-Scale Telemetry Data and Federated Learning はコメントを受け付けていません

Multiview graph dual-attention deep learning and contrastive learning for multi-criteria recommender systems

要約

ディープラーニングモデルを活用する推奨システムは、ユーザーが好みや関心に沿ったアイテムを選択するのを支援するために重要でした。
ただし、単一基準の推奨システムでは重要な課題が存続します。これは、多基準推奨システム(MCRS)で対処されているアイテムの多様な属性を見落とすことがよくあります。
マルチ基準のアイテム評価のための共有埋め込みベクトルですが、特定の基準に基づいてユーザーとアイテムの間の微妙な関係を把握するのに苦労しています。
この研究では、各エッジがユーザーによるアイテムの1つの基準定格を表すマルチエッジ二部グラフに基づいたマルチ基準推奨システム(MCRS)の新しい表現を提示し、マルチビューデュアルグラフ注意ネットワーク(MDGAT)を提示します。
MDGATを採用することは、ローカル(基準ベース)とグローバル(マルチ基準)の両方の関係の両方が存在することを考えると、ユーザーとアイテム間のすべての関係を適切に検討するために有益であり、重要です。
さらに、類似性に基づいて各ビューのアンカーポイントを定義し、各ビューとグラフ全体の正と負のサンプルを区別するためにローカルおよびグローバルな対照学習を使用します。
2つの実際のデータセットでの方法を評価し、アイテム評価の予測に基づいてそのパフォーマンスを評価します。
結果は、同じデータセットのアイテム評価を予測するためのベースライン方法と比較して、この方法がより高い精度を達成することを示しています。
MDGATは、隣人のローカルおよびグローバルな影響とノード間の類似性を効果的に捉えています。

要約(オリジナル)

Recommender systems leveraging deep learning models have been crucial for assisting users in selecting items aligned with their preferences and interests. However, a significant challenge persists in single-criteria recommender systems, which often overlook the diverse attributes of items that have been addressed by Multi-Criteria Recommender Systems (MCRS). Shared embedding vector for multi-criteria item ratings but have struggled to capture the nuanced relationships between users and items based on specific criteria. In this study, we present a novel representation for Multi-Criteria Recommender Systems (MCRS) based on a multi-edge bipartite graph, where each edge represents one criterion rating of items by users, and Multiview Dual Graph Attention Networks (MDGAT). Employing MDGAT is beneficial and important for adequately considering all relations between users and items, given the presence of both local (criterion-based) and global (multi-criteria) relations. Additionally, we define anchor points in each view based on similarity and employ local and global contrastive learning to distinguish between positive and negative samples across each view and the entire graph. We evaluate our method on two real-world datasets and assess its performance based on item rating predictions. The results demonstrate that our method achieves higher accuracy compared to the baseline method for predicting item ratings on the same datasets. MDGAT effectively capture the local and global impact of neighbours and the similarity between nodes.

arxiv情報

著者 Saman Forouzandeh,Pavel N. Krivitsky,Rohitash Chandra
発行日 2025-02-26 16:25:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG, stat.ML | Multiview graph dual-attention deep learning and contrastive learning for multi-criteria recommender systems はコメントを受け付けていません

Integrating Biological and Machine Intelligence: Attention Mechanisms in Brain-Computer Interfaces

要約

深い学習の急速な進歩により、注意メカニズムは脳波(EEG)シグナル分析で不可欠になり、脳コンピューターインターフェイス(BCI)アプリケーションを大幅に強化しています。
このペーパーでは、マルチモーダルデータ融合に特に重点を置いて、従来のトランスベースの注意メカニズム、その埋め込み戦略、およびEEGベースのBCIでのアプリケーションの包括的なレビューを提示します。
時間、周波数、および空間チャネルにわたるEEGの変動をキャプチャすることにより、注意メカニズムにより、特徴の抽出、表現学習、モデルの堅牢性が向上します。
これらの方法は、通常、畳み込みおよび再発性のネットワークと統合する従来の注意メカニズム、および長距離依存関係のキャプチャに優れているトランスベースのマルチヘッドの自己触たちに統合する従来の注意メカニズムに広く分類できます。
シングルモダリティ分析を超えて、注意メカニズムはマルチモーダルEEGアプリケーションを強化し、EEGと他の生理学的または感覚データの間の効果的な融合を促進します。
最後に、BCIテクノロジーを進めるための将来の方向性を強調して、注意ベースのEEGモデリングにおける既存の課題と新たな傾向について説明します。
このレビューは、EEGの解釈と応用の改善のために注意メカニズムを活用しようとする研究者に貴重な洞察を提供することを目的としています。

要約(オリジナル)

With the rapid advancement of deep learning, attention mechanisms have become indispensable in electroencephalography (EEG) signal analysis, significantly enhancing Brain-Computer Interface (BCI) applications. This paper presents a comprehensive review of traditional and Transformer-based attention mechanisms, their embedding strategies, and their applications in EEG-based BCI, with a particular emphasis on multimodal data fusion. By capturing EEG variations across time, frequency, and spatial channels, attention mechanisms improve feature extraction, representation learning, and model robustness. These methods can be broadly categorized into traditional attention mechanisms, which typically integrate with convolutional and recurrent networks, and Transformer-based multi-head self-attention, which excels in capturing long-range dependencies. Beyond single-modality analysis, attention mechanisms also enhance multimodal EEG applications, facilitating effective fusion between EEG and other physiological or sensory data. Finally, we discuss existing challenges and emerging trends in attention-based EEG modeling, highlighting future directions for advancing BCI technology. This review aims to provide valuable insights for researchers seeking to leverage attention mechanisms for improved EEG interpretation and application.

arxiv情報

著者 Jiyuan Wang,Weishan Ye,Jialin He,Li Zhang,Gan Huang,Zhuliang Yu,Zhen Liang
発行日 2025-02-26 16:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP | Integrating Biological and Machine Intelligence: Attention Mechanisms in Brain-Computer Interfaces はコメントを受け付けていません

Interpreting Language Reward Models via Contrastive Explanations

要約

報酬モデル(RMS)は、人間の価値を持つ大規模な言語モデル(LLMS)出力のアライメントにおける重要なコンポーネントです。
RMSは、報酬スコアを予測および比較することにより、同じプロンプトに対するLLM応答の可能性よりも人間の好みを近似します。
ただし、通常はスカラー出力ヘッドを備えたLLMSの変更されたバージョンであるため、RMSは予測が説明できない大きなブラックボックスです。
より透明なRMSにより、LLMSのアライメントに対する信頼の改善が可能になります。
この作業では、RMによって行われたバイナリ応答の比較を説明するために、対照的な説明を使用することを提案します。
具体的には、RMのローカルな動作を特徴付けるために、元の比較と同様の新しい比較の多様なセットを生成します。
新しい比較を形成する混乱した応答は、RMの動作の分析が接地されている手動で指定された高レベルの評価属性を明示的に変更するために生成されます。
定量的実験では、高品質の対照的な説明を見つけるための方法の有効性を検証します。
次に、各評価属性に対するRMSのグローバルな感度を調査するための方法の定性的有用性を紹介し、異なるRMSの行動を説明および比較するために代表的な例を自動的に抽出する方法を示します。
私たちの方法は、RM説明の柔軟なフレームワークと考えており、より解釈可能で信頼できるLLMアライメントの基礎を提供します。

要約(オリジナル)

Reward models (RMs) are a crucial component in the alignment of large language models’ (LLMs) outputs with human values. RMs approximate human preferences over possible LLM responses to the same prompt by predicting and comparing reward scores. However, as they are typically modified versions of LLMs with scalar output heads, RMs are large black boxes whose predictions are not explainable. More transparent RMs would enable improved trust in the alignment of LLMs. In this work, we propose to use contrastive explanations to explain any binary response comparison made by an RM. Specifically, we generate a diverse set of new comparisons similar to the original one to characterise the RM’s local behaviour. The perturbed responses forming the new comparisons are generated to explicitly modify manually specified high-level evaluation attributes, on which analyses of RM behaviour are grounded. In quantitative experiments, we validate the effectiveness of our method for finding high-quality contrastive explanations. We then showcase the qualitative usefulness of our method for investigating global sensitivity of RMs to each evaluation attribute, and demonstrate how representative examples can be automatically extracted to explain and compare behaviours of different RMs. We see our method as a flexible framework for RM explanation, providing a basis for more interpretable and trustworthy LLM alignment.

arxiv情報

著者 Junqi Jiang,Tom Bewley,Saumitra Mishra,Freddy Lecue,Manuela Veloso
発行日 2025-02-26 16:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Interpreting Language Reward Models via Contrastive Explanations はコメントを受け付けていません

Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code

要約

このペーパーでは、視覚データ探索のアシスタントとしての言語モデルの有効性を評価するために設計された、人間がキュレーションしたPandasplotbench Datasetを紹介します。
当社のベンチマークは、自然言語の指示に基づいて、パンダデータフレームなどの表形式データを視覚化するためのコードの生成に焦点を当て、現在の評価ツールを補完し、範囲を拡大します。
データセットには、175の一意のタスクが含まれています。
私たちの実験は、Matplotlib、Seaborn、およびPlotlyの3つの視覚化ライブラリにわたって、いくつかの主要な大手言語モデル(LLM)を評価します。
タスクの短縮は、機能のプロットに最小限の影響を与え、機能性や精度を犠牲にすることなく簡潔なユーザー入力に対応するユーザーインターフェイスを可能にすることを示します。
私たちの調査結果のもう1つは、LLMSがMatplotlibやSeabornなどの人気のあるライブラリでうまく機能しますが、課題は陰謀に続き、改善の領域を強調しています。
ベンチマークのモジュール設計により、視覚化の生成に関する現在の研究が拡大することを願っています。
データセットとベンチマークコードは、オンラインで入手できます:https://huggingface.co/datasets/jetbrains-research/pandasplotbench;
https://github.com/jetbrains-research/pandasplotbench。

要約(オリジナル)

This paper introduces the human-curated PandasPlotBench dataset, designed to evaluate language models’ effectiveness as assistants in visual data exploration. Our benchmark focuses on generating code for visualizing tabular data – such as a Pandas DataFrame – based on natural language instructions, complementing current evaluation tools and expanding their scope. The dataset includes 175 unique tasks. Our experiments assess several leading Large Language Models (LLMs) across three visualization libraries: Matplotlib, Seaborn, and Plotly. We show that the shortening of tasks has a minimal effect on plotting capabilities, allowing for the user interface that accommodates concise user input without sacrificing functionality or accuracy. Another of our findings reveals that while LLMs perform well with popular libraries like Matplotlib and Seaborn, challenges persist with Plotly, highlighting areas for improvement. We hope that the modular design of our benchmark will broaden the current studies on generating visualizations. Our dataset and benchmark code are available online: https://huggingface.co/datasets/JetBrains-Research/PandasPlotBench; https://github.com/JetBrains-Research/PandasPlotBench.

arxiv情報

著者 Timur Galimzyanov,Sergey Titov,Yaroslav Golubev,Egor Bogomolov
発行日 2025-02-26 16:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | Drawing Pandas: A Benchmark for LLMs in Generating Plotting Code はコメントを受け付けていません