Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks

要約

ダウンストリームプローブは、モデル表現を評価するための支配的な方法であり、自己教師の学習モデルと基礎モデルの卓越性が高まっていることを考えると重要なプロセスです。
ただし、ダウンストリームプローブは、主にモデルの潜在空間でのタスク関連情報の可用性を評価し、実際のアプリケーションにおける解釈可能性、適応性、および実用性に貢献する等掘り、不変性、解き分析などの属性を見下ろしています。
表現でこれらの品質を測定するためのいくつかの試みがなされていますが、モジュール式、一般化可能、および解釈可能なメトリックを備えた統一された評価フレームワークは存在しません。
この論文では、下流の調査を超えた表現評価の重要性について主張します。
標準化されたプロトコルを導入して、モデル表現の変動因子の情報性、同等性、不変性、および解体を定量化します。
それを使用して、さまざまなアーキテクチャと特定された制御可能なバリエーション因子での事前削除アプローチを使用して、画像および音声ドメインのさまざまなモデルからの表現を評価します。
同様の下流のパフォーマンスを持つモデルからの表現は、これらの属性に関して実質的に異なる動作をすることができることがわかります。
これは、下流のパフォーマンスの根底にあるそれぞれのメカニズムが機能的に異なっており、表現を理解し、改善するための新しい研究の方向性を促していることを示唆しています。

要約(オリジナル)

Downstream probing has been the dominant method for evaluating model representations, an important process given the increasing prominence of self-supervised learning and foundation models. However, downstream probing primarily assesses the availability of task-relevant information in the model’s latent space, overlooking attributes such as equivariance, invariance, and disentanglement, which contribute to the interpretability, adaptability, and utility of representations in real-world applications. While some attempts have been made to measure these qualities in representations, no unified evaluation framework with modular, generalizable, and interpretable metrics exists. In this paper, we argue for the importance of representation evaluation beyond downstream probing. We introduce a standardized protocol to quantify informativeness, equivariance, invariance, and disentanglement of factors of variation in model representations. We use it to evaluate representations from a variety of models in the image and speech domains using different architectures and pretraining approaches on identified controllable factors of variation. We find that representations from models with similar downstream performance can behave substantially differently with regard to these attributes. This hints that the respective mechanisms underlying their downstream performance are functionally different, prompting new research directions to understand and improve representations.

arxiv情報

著者 Christos Plachouras,Julien Guinot,George Fazekas,Elio Quinton,Emmanouil Benetos,Johan Pauwels
発行日 2025-05-09 17:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks はコメントを受け付けていません

A Machine-Learning Compositional Study of Exoplanetary Material Accreted Onto Five Helium-Atmosphere White Dwarfs with $\texttt{cecilia}$

要約

機械学習(ML)パイプライン$ \ texttt {cecilia} $の最初のアプリケーションを提示して、5つの金属汚染されたHe-Atmosphere白色小人の物理的パラメーターと光球体構成を決定します。
これを実現するために、$ \ textit {sdss} $(r = 2,000)および$ \ textit {keck/esi} $(r = 4,500)光スペクトルに合わせてジョイントと反復的なベイジアンフィットを実行します。
私たちの分析は、従来のWD分析技術($ \ $ 0.20 DEX)と同様の予測精度で、大気中の少なくとも2つの$-$-$と最大6ドルの化学元素の存在量を測定します。
検出された重元素の最大数を持つ白い小人は、SDSS J0859 $+$ 5732およびSDSS J2311 $ – $ 0041です。
すべてのシステムについて、それらの汚染物質のバルク組成は、原始CIコンドライトの大量組成と1-2 $ \ sigma $以内のものとほぼ一致していることがわかります。
また、SDSS J0859 $+$ 5732およびSDSS J2311 $-$ 0041の統計的に有意な酸素過剰の証拠を見つけます。
将来的には、広場の天文調査が科学コミュニティに何百万もの公共のWDスペクトルを提供するにつれて、$ \ texttt {cecilia} $は、汚染されたWDの人口全体の研究のロックを解除することを目指しており、したがって、胞子組成の統計的知識を改善するのに役立ちます。

要約(オリジナル)

We present the first application of the Machine Learning (ML) pipeline $\texttt{cecilia}$ to determine the physical parameters and photospheric composition of five metal-polluted He-atmosphere white dwarfs without well-characterised elemental abundances. To achieve this, we perform a joint and iterative Bayesian fit to their $\textit{SDSS}$ (R=2,000) and $\textit{Keck/ESI}$ (R=4,500) optical spectra, covering the wavelength range from about 3,800\r{A} to 9,000\r{A}. Our analysis measures the abundances of at least two $-$and up to six$-$ chemical elements in their atmospheres with a predictive accuracy similar to that of conventional WD analysis techniques ($\approx$0.20 dex). The white dwarfs with the largest number of detected heavy elements are SDSS J0859$+$5732 and SDSS J2311$-$0041, which simultaneously exhibit O, Mg, Si, Ca, and Fe in their $\textit{Keck/ESI}$ spectra. For all systems, we find that the bulk composition of their pollutants is largely consistent with those of primitive CI chondrites to within 1-2$\sigma$. We also find evidence of statistically significant ($>2\sigma$) oxygen excesses for SDSS J0859$+$5732 and SDSS J2311$-$0041, which could point to the accretion of oxygen-rich exoplanetary material. In the future, as wide-field astronomical surveys deliver millions of public WD spectra to the scientific community, $\texttt{cecilia}$ aspires to unlock population-wide studies of polluted WDs, therefore helping to improve our statistical knowledge of extrasolar compositions.

arxiv情報

著者 Mariona Badenas-Agusti,Siyi Xu,Andrew Vanderburg,Kishalay De,Patrick Dufour,Laura K. Rogers,Susana Hoyos,Simon Blouin,Javier Viaña,Amy Bonsor,Ben Zuckerman
発行日 2025-05-09 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.EP, astro-ph.IM, astro-ph.SR, cs.LG | A Machine-Learning Compositional Study of Exoplanetary Material Accreted Onto Five Helium-Atmosphere White Dwarfs with $\texttt{cecilia}$ はコメントを受け付けていません

Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions

要約

それに続くトークンを1つずつ「左から右に」予測するオートレーリングモデル(ARMS)は、幅広いシーケンス生成タスクで大きな成功を収めています。
ただし、満足のいく洗練された制約を必要とする、またはそのシーケンシャル依存性がオーダーアウトの生成により適切に対処されるシーケンスを正確に表すのに苦労しています。
マスクされた拡散モデル(MDMS)はこれらの制限のいくつかに対処しますが、MDMSで複数のトークンを同時にマスクするプロセスでは、一貫性が導入され、MDMが埋めるトークンの数が前に不明になった場合、任意の浸漬制約を処理できません。
この作業では、シーケンスで任意の位置にトークンを挿入することを学ぶ挿入言語モデル(ILMS)を導入します。つまり、挿入する位置と語彙要素の両方を共同で選択します。
トークンを一度に1つずつ挿入することにより、ILMSはトークン間の強い依存関係を表すことができ、任意の順序でシーケンスを生成する能力により、トークン依存関係が左から右へのシーケンシャル構造に従わないシーケンスを正確にモデル化できます。
ILMSをトレーニングするために、カスタマイズされたネットワークパラメーター化を提案し、単純な除去目標を使用します。
私たちの経験的評価は、ILMが一般的な計画タスクで両手とMDMを上回ることを示しています。
さらに、ILMSはMDMSを上回り、無条件のテキスト生成タスクでARMSと同等のパフォーマンスを発揮しながら、任意の長さのテキストの浸透でMDMよりも柔軟性を提供することを示します。

要約(オリジナル)

Autoregressive models (ARMs), which predict subsequent tokens one-by-one “from left to right,” have achieved significant success across a wide range of sequence generation tasks. However, they struggle to accurately represent sequences that require satisfying sophisticated constraints or whose sequential dependencies are better addressed by out-of-order generation. Masked Diffusion Models (MDMs) address some of these limitations, but the process of unmasking multiple tokens simultaneously in MDMs can introduce incoherences, and MDMs cannot handle arbitrary infilling constraints when the number of tokens to be filled in is not known in advance. In this work, we introduce Insertion Language Models (ILMs), which learn to insert tokens at arbitrary positions in a sequence — that is, they select jointly both the position and the vocabulary element to be inserted. By inserting tokens one at a time, ILMs can represent strong dependencies between tokens, and their ability to generate sequences in arbitrary order allows them to accurately model sequences where token dependencies do not follow a left-to-right sequential structure. To train ILMs, we propose a tailored network parameterization and use a simple denoising objective. Our empirical evaluation demonstrates that ILMs outperform both ARMs and MDMs on common planning tasks. Furthermore, we show that ILMs outperform MDMs and perform on par with ARMs in an unconditional text generation task while offering greater flexibility than MDMs in arbitrary-length text infilling.

arxiv情報

著者 Dhruvesh Patel,Aishwarya Sahoo,Avinash Amballa,Tahira Naseem,Tim G. J. Rudner,Andrew McCallum
発行日 2025-05-09 03:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions はコメントを受け付けていません

BMMDetect: A Multimodal Deep Learning Framework for Comprehensive Biomedical Misconduct Detection

要約

生物医学研究における学術的不正行為の検出既存の方法と断片化された分析パイプラインのアルゴリズムの狭さにより、依然として困難な依然として困難です。
Journal Metadata(SJR、Institutional Data)、Semantic Embeddings(PubMedbert)、およびGPT-4Oマイインドのテキスト属性(方法統計、データの異常)を総合的な原稿評価のために統合するマルチモーダルディープラーニングフレームワークであるBmmdetectを提示します。
主要な革新には以下が含まれます。(1)検出バイアスを減らすためのドメイン固有の特徴のマルチモーダル融合。
(2)特徴の重要性の定量的評価、ジャーナル当局のメトリック(例:SJR-Index)およびテキストの異常(例:統計的外れ値)を支配的な予測因子として識別する。
(3)BIOMCDデータセット、13,160の撤回された記事と53,411のコントロールを備えた大規模なベンチマーク。
BMMDETECTは74.33%のAUCを達成し、シングルモダリティのベースラインを8.6%上回り、生物医学サブフィールド間の移動性を示しています。
この作業は、研究の完全性を保護するためのスケーラブルで解釈可能なツールを進めます。

要約(オリジナル)

Academic misconduct detection in biomedical research remains challenging due to algorithmic narrowness in existing methods and fragmented analytical pipelines. We present BMMDetect, a multimodal deep learning framework that integrates journal metadata (SJR, institutional data), semantic embeddings (PubMedBERT), and GPT-4o-mined textual attributes (methodological statistics, data anomalies) for holistic manuscript evaluation. Key innovations include: (1) multimodal fusion of domain-specific features to reduce detection bias; (2) quantitative evaluation of feature importance, identifying journal authority metrics (e.g., SJR-index) and textual anomalies (e.g., statistical outliers) as dominant predictors; and (3) the BioMCD dataset, a large-scale benchmark with 13,160 retracted articles and 53,411 controls. BMMDetect achieves 74.33% AUC, outperforming single-modality baselines by 8.6%, and demonstrates transferability across biomedical subfields. This work advances scalable, interpretable tools for safeguarding research integrity.

arxiv情報

著者 Yize Zhou,Jie Zhang,Meijie Wang,Lun Yu
発行日 2025-05-09 03:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BMMDetect: A Multimodal Deep Learning Framework for Comprehensive Biomedical Misconduct Detection はコメントを受け付けていません

RWKV-X: A Linear Complexity Hybrid Language Model

要約

このペーパーでは、RWKV-Xを紹介します。RWKV-Xは、短距離モデリングのRWKVの効率を組み合わせた新しいハイブリッドアーキテクチャと、長距離コンテキストをキャプチャするように設計されたまばらな注意メカニズムを紹介します。
完全な注意層に依存し、二次の複雑さを保持する以前のハイブリッドアプローチとは異なり、RWKV-Xは、トレーニングで直線的な時間の複雑さを実現し、推論デコードに一定の時間の複雑さを実現します。
RWKV-Xは、64Kトークンシーケンスで継続的に前提としている場合、64K PassKey検索ベンチマークでほぼ完璧な精度を達成することを実証します。
ショートテキストタスクの強力なパフォーマンスを維持しながら、長いコンテキストベンチマークで以前のRWKV-7モデルを常に上回ります。
これらの結果は、RWKV-Xが一般的な段階的な言語モデリングのスケーラブルで効率的なバックボーンとして強調し、安定した速度とメモリ使用量を備えた最大100万トークンまでシーケンスを解読できることを強調しています。
さらなる研究と分析を促進するために、チェックポイントと関連するコードに公開されているようになりました:https://github.com/howard-hou/rwkv-x。

要約(オリジナル)

In this paper, we introduce RWKV-X, a novel hybrid architecture that combines the efficiency of RWKV for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches that rely on full attention layers and retain quadratic complexity, RWKV-X achieves linear-time complexity in training and constant-time complexity in inference decoding. We demonstrate that RWKV-X, when continually pretrained on 64K-token sequences, achieves near-perfect accuracy on the 64K passkey retrieval benchmark. It consistently outperforms prior RWKV-7 models on long-context benchmarks, while maintaining strong performance on short-context tasks. These results highlight RWKV-X as a scalable and efficient backbone for general-purpose language modeling, capable of decoding sequences up to 1 million tokens with stable speed and memory usage. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at: https://github.com/howard-hou/RWKV-X.

arxiv情報

著者 Haowen Hou,Zhiyi Huang,Kaifeng Tan,Rongchang Lu,Fei Richard Yu
発行日 2025-05-09 03:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RWKV-X: A Linear Complexity Hybrid Language Model はコメントを受け付けていません

Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM

要約

変圧器ベースのモデルは、最新の機械学習の基礎ですが、特に大規模な言語モデル(LLM)での自己回帰デコード中の実行は、頻繁なメモリアクセスとキー価値(KV)キャッシュの増加により、メモリシステムに大きな圧力をかけます。
これにより、特にコンテキストの長さが増加するにつれて、メモリ帯域幅にボトルネックが作成されます。
メモリ(PIM)の処理(PIM)アーキテクチャは有望なソリューションであり、高い内部帯域幅を提供し、メモリの近くで並列性を計算します。
ただし、現在のPIMデザインは主に密な注意のために最適化されており、最新のKVキャッシュスパーステクニックによって導入された動的で不規則なアクセスパターンとの闘いです。
その結果、彼らはワークロードの不均衡に苦しみ、スループットとリソースの利用を減らします。
この作業では、PIMアーキテクチャでの効率的なLLMデコードのために特別に調整された新しいスパース最適化データマッピングスキームであるSTARCを提案します。
STARCクラスターKVペアはセマンティックな類似性でペアを付け、PIMバンク構造に沿った隣接するメモリ領域にマッピングします。
デコード中、クエリは、事前計算された重心と一致することにより、クラスター粒度で関連するトークンを取得し、頻繁にリクラスタリングまたはデータ移動オーバーヘッドをせずに選択的注意と並列処理を可能にします。
HBM-PIMシステムでの実験は、一般的なトークンごとのスパースの方法と比較して、STARCが注意レイヤーの遅延を19%から31%、エネルギー消費を19%-27%減らすことを示しています。
1024年のKVキャッシュ予算では、完全なKVキャッシュ検索と比較して、最大54% – 74%のレイテンシー削減と45% – 67%のエネルギー削減を達成します。
一方、STARCは、最先端のまばらな注意方法に匹敵するモデルの精度を維持し、PIMアーキテクチャで効率的でハードウェアに優しい長いコンテキストLLM推論を可能にする際のその効果を示しています。

要約(オリジナル)

Transformer-based models are the foundation of modern machine learning, but their execution, particularly during autoregressive decoding in large language models (LLMs), places significant pressure on memory systems due to frequent memory accesses and growing key-value (KV) caches. This creates a bottleneck in memory bandwidth, especially as context lengths increase. Processing-in-memory (PIM) architectures are a promising solution, offering high internal bandwidth and compute parallelism near memory. However, current PIM designs are primarily optimized for dense attention and struggle with the dynamic, irregular access patterns introduced by modern KV cache sparsity techniques. Consequently, they suffer from workload imbalance, reducing throughput and resource utilization. In this work, we propose STARC, a novel sparsity-optimized data mapping scheme tailored specifically for efficient LLM decoding on PIM architectures. STARC clusters KV pairs by semantic similarity and maps them to contiguous memory regions aligned with PIM bank structures. During decoding, queries retrieve relevant tokens at cluster granularity by matching against precomputed centroids, enabling selective attention and parallel processing without frequent reclustering or data movement overhead. Experiments on the HBM-PIM system show that, compared to common token-wise sparsity methods, STARC reduces attention-layer latency by 19%–31% and energy consumption by 19%–27%. Under a KV cache budget of 1024, it achieves up to 54%–74% latency reduction and 45%–67% energy reduction compared to full KV cache retrieval. Meanwhile, STARC maintains model accuracy comparable to state-of-the-art sparse attention methods, demonstrating its effectiveness in enabling efficient and hardware-friendly long-context LLM inference on PIM architectures.

arxiv情報

著者 Zehao Fan,Garrett Gagnon,Zhenyu Liu,Liu Liu
発行日 2025-05-09 04:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM はコメントを受け付けていません

JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models

要約

論理的推論は、大規模な言語モデル(LLM)の重要な要素であり、近年の実質的な研究努力は、演ductive控除能力を強化することを目的としています。
ただし、LLMSの評価と前進に不可欠な既存の演ductiveな推論ベンチマークは、タスクの複雑さの欠如、交絡因子としての事前知識の存在、および表面的なエラー分析のために不十分です。
これらの欠陥に対処するために、LLMの厳密な評価のために設計された合成的に生成された演ductiveな推論ベンチマークであるJustLogicを紹介します。
JustLogicは(i)非常に複雑で、多様な言語パターン、語彙、および引数構造を生成することができます。
(ii)事前知識は独立しており、事前知識を持っているモデルの利点を排除し、質問に答えるために演ductiveな推論のみが使用されることを保証する。
(iii)モデルの精度に対する推論の深さと議論形式の不均一な影響に関する詳細なエラー分析が可能です。
JustLogicでの実験結果は、(i)最先端の(SOTA)推論LLMが人間の平均よりもPARまたはそれ以上に機能するが、人間の天井よりも著しく悪いことを明らかにしています。
すべてのコードとデータは、https://github.com/michaelchen-lab/justlogicで入手できます

要約(オリジナル)

Logical reasoning is a critical component of Large Language Models (LLMs), and substantial research efforts in recent years have aimed to enhance their deductive reasoning capabilities. However, existing deductive reasoning benchmarks, which are crucial for evaluating and advancing LLMs, are inadequate due to their lack of task complexity, presence of prior knowledge as a confounder, and superficial error analysis. To address these deficiencies, we introduce JustLogic, a synthetically generated deductive reasoning benchmark designed for rigorous evaluation of LLMs. JustLogic is (i) highly complex, capable of generating a diverse range of linguistic patterns, vocabulary, and argument structures; (ii) prior knowledge independent, eliminating the advantage of models possessing prior knowledge and ensuring that only deductive reasoning is used to answer questions; and (iii) capable of in-depth error analysis on the heterogeneous effects of reasoning depth and argument form on model accuracy. Our experimental results on JustLogic reveal that (i) state-of-the-art (SOTA) reasoning LLMs perform on par or better than the human average but significantly worse than the human ceiling, and (ii) SOTA non-reasoning models still underperform the human average. All code and data are available at https://github.com/michaelchen-lab/JustLogic

arxiv情報

著者 Michael K. Chen,Xikun Zhang,Dacheng Tao
発行日 2025-05-09 05:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.LO | JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models はコメントを受け付けていません

Estimating LLM Uncertainty with Evidence

要約

過去数年にわたって、大規模な言語モデル(LLM)は急速に開発されており、さまざまなドメインに広く適用されています。
ただし、LLMSは幻覚の問題に直面しており、モデルに関連する知識がない場合に信頼できない可能性のある応答を生成します。
潜在的な幻覚を認識するために、不確実性の推定方法が導入されており、それらのほとんどは、信頼性が重要なトークンにあることを確認しています。
ただし、確率ベースのメソッドは、トークンの信頼性を特定する際にパフォーマンスが低く、実用性を制限します。
この論文では、トレーニング段階に蓄積されている証拠強度情報の喪失により、確率ベースの方法がトークンの信頼性を推定できないことを明らかにします。
したがって、LLMSの分離されたトークンの不確実性を推定するためのフレームワークであるロジット誘発トークンの不確実性(logtoku)を提示し、複数のサンプリングプロセスを必要とせずにリアルタイムの不確実性推定を可能にします。
ログトクを実装するために証拠モデリングを採用し、推定不確実性を使用してダウンストリームタスクを導きます。
実験結果は、Logtokuが有効性と約束を持っていることを示しています。

要約(オリジナル)

Over the past few years, Large Language Models (LLMs) have developed rapidly and are widely applied in various domains. However, LLMs face the issue of hallucinations, generating responses that may be unreliable when the models lack relevant knowledge. To be aware of potential hallucinations, uncertainty estimation methods have been introduced, and most of them have confirmed that reliability lies in critical tokens. However, probability-based methods perform poorly in identifying token reliability, limiting their practical utility. In this paper, we reveal that the probability-based method fails to estimate token reliability due to the loss of evidence strength information which is accumulated in the training stage. Therefore, we present Logits-induced token uncertainty (LogTokU), a framework for estimating decoupled token uncertainty in LLMs, enabling real-time uncertainty estimation without requiring multiple sampling processes. We employ evidence modeling to implement LogTokU and use the estimated uncertainty to guide downstream tasks. The experimental results demonstrate that LogTokU has significant effectiveness and promise.

arxiv情報

著者 Huan Ma,Jingdong Chen,Joey Tianyi Zhou,Guangyu Wang,Changqing Zhang
発行日 2025-05-09 05:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Estimating LLM Uncertainty with Evidence はコメントを受け付けていません

AdaCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Chain-of-Thought

要約

大規模な言語モデルは、多様なコーパスを事前に削除することにより、印象的な多言語機能を示しています。
これらのモデルは強力な推論能力を示していますが、そのパフォーマンスは、不均衡なトレーニングデータの分布により、言語によって大きく異なります。
サンプルレベルの翻訳を使用した既存のアプローチは、広範な多言語の事前トレーニングおよび横断的なチューニングに直面するスケーラビリティの課題を使用し、言語間で微妙な推論プロセスをキャプチャできないことがよくあります。
このペーパーでは、ターゲット言語応答を生成する前に、中間の「思考言語」で思考プロセスを動的にルーティングすることにより、多言語の事実上の推論を強化するフレームワークであるAdacot(適応型チェーンオブ考え)を紹介します。
Adacotは、言語に依存しないコアを活用し、追加の事前測定を必要とせずに最適な推論経路を選択するための適応的で報酬ベースのメカニズムを組み込んでいます。
複数のベンチマークにわたる当社の包括的な評価は、事実上の推論の質と横断的な一貫性の両方の大幅な改善を示しており、特に低リソースの言語設定ではパフォーマンスが強力になります。
結果は、適応的な推論パスが、文化的および言語的ニュアンスを維持しながら、高リソース言語と低リソース言語の間のパフォーマンスギャップを効果的に埋めることができることを示唆しています。

要約(オリジナル)

Large language models have shown impressive multilingual capabilities through pretraining on diverse corpora. While these models show strong reasoning abilities, their performance varies significantly across languages due to imbalanced training data distribution. Existing approaches using sample-level translation for extensive multilingual pretraining and cross-lingual tuning face scalability challenges and often fail to capture nuanced reasoning processes across languages. In this paper, we introduce AdaCoT (Adaptive Chain-of-Thought), a framework that enhances multilingual factual reasoning by dynamically routing thought processes in intermediary “thinking languages” before generating target-language responses. AdaCoT leverages a language-agnostic core and incorporates an adaptive, reward-based mechanism for selecting optimal reasoning pathways without requiring additional pretraining. Our comprehensive evaluation across multiple benchmarks demonstrates substantial improvements in both factual reasoning quality and cross-lingual consistency, with particularly strong performance gains in low-resource language settings. The results suggest that adaptive reasoning paths can effectively bridge the performance gap between high and low-resource languages while maintaining cultural and linguistic nuances.

arxiv情報

著者 Xin Huang,Tarun Kumar Vangani,Zhengyuan Liu,Bowei Zou,Ai Ti Aw
発行日 2025-05-09 05:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AdaCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Chain-of-Thought はコメントを受け付けていません

Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students’ (Mis)Understanding Is Hinted

要約

この研究の主な目標は、事前に訓練された大規模な言語モデルを使用して複数選択の質問(MCQ)を生成するために、革新的なプロンプト技術であるAnaquestを開発および評価することです。
Anaquestでは、選択項目は複雑な概念に関する文レベルの主張です。
この手法は、形成的評価と総合評価を統合します。
形成段階では、学生は無料のテキストのターゲット概念の自由回答形式の質問に答えます。
総合評価のために、Anaquestはこれらの応答を分析して、正しいアサーションと誤ったアサーションの両方を生成します。
生成されたMCQの妥当性を評価するために、アイテム応答理論(IRT)を適用して、Anaquest、BaseLine ChatGPTプロンプト、および人為的なアイテムによって生成されたMCQ間のアイテム特性を比較しました。
経験的研究では、専門家のインストラクターは、両方のAIモデルによって生成されたMCQを、人間のインストラクターが作成したものと同じくらい有効であると評価していることがわかりました。
しかし、IRTベースの分析により、Anaquest生成された質問、特に誤ったアサーション(フォイル)がある質問 – は、ChatGptが生み出したものよりも難易度と差別の観点から、人間が作成したアイテムに類似していることが明らかになりました。

要約(オリジナル)

The primary goal of this study is to develop and evaluate an innovative prompting technique, AnaQuest, for generating multiple-choice questions (MCQs) using a pre-trained large language model. In AnaQuest, the choice items are sentence-level assertions about complex concepts. The technique integrates formative and summative assessments. In the formative phase, students answer open-ended questions for target concepts in free text. For summative assessment, AnaQuest analyzes these responses to generate both correct and incorrect assertions. To evaluate the validity of the generated MCQs, Item Response Theory (IRT) was applied to compare item characteristics between MCQs generated by AnaQuest, a baseline ChatGPT prompt, and human-crafted items. An empirical study found that expert instructors rated MCQs generated by both AI models to be as valid as those created by human instructors. However, IRT-based analysis revealed that AnaQuest-generated questions – particularly those with incorrect assertions (foils) – more closely resembled human-crafted items in terms of difficulty and discrimination than those produced by ChatGPT.

arxiv情報

著者 Machi Shimmei,Masaki Uto,Yuichiroh Matsubayashi,Kentaro Inui,Aditi Mallavarapu,Noboru Matsuda
発行日 2025-05-09 06:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Tell Me Who Your Students Are: GPT Can Generate Valid Multiple-Choice Questions When Students’ (Mis)Understanding Is Hinted はコメントを受け付けていません