Explainable Bayesian deep learning through input-skip Latent Binary Bayesian Neural Networks

要約

人工ニューラルネットワーク(ANN)を使用した自然現象のモデリングは、多くの場合、非常に正確な予測を提供します。
しかし、アンはしばしば過剰パラメーター化、解釈を複雑にし、不確実性の問題を提起することに苦しんでいます。
ベイジアンニューラルネットワーク(BNNS)は、重みを確率分布として表すことにより、後者に対処し、予測不確実性評価を可能にします。
潜在的なバイナリベイジアンニューラルネットワーク(LBBNNS)は、構造の不確実性をさらに処理し、冗長な重量を除去することによりモデルをスパル化します。
この記事は、共変量が後続の層にスキップできるか、除外し、ネットワークを簡素化し、予測に対する入力への影響を明確にすることにより、LBBNNSを前進させます。
最終的に、線形モデルまたは定数でさえ、手元の特定の問題に最適であることがわかります。
さらに、入力SKIP LBBNNアプローチは、標準のLBBNNと比較してネットワーク密度を大幅に減らし、小規模ネットワークで99%を超える削減を達成し、高い予測精度と不確実性測定を維持しながら、99.9%を超えています。
たとえば、MNISTでは、わずか935重量で97%の精度と優れたキャリブレーションに達し、ニューラルネットワークの圧縮のために最先端に達しました。
さらに、提案された方法は、真の共変量を正確に識別し、システムの非線形性を調整します。
主な貢献は、アクティブパスの導入であり、LBBNNフレームワーク内で直接設計されたグローバルおよびローカルの説明を強化します。これは、理論的保証があり、説明のために事後外部ツールを必要としません。

要約(オリジナル)

Modeling natural phenomena with artificial neural networks (ANNs) often provides highly accurate predictions. However, ANNs often suffer from over-parameterization, complicating interpretation and raising uncertainty issues. Bayesian neural networks (BNNs) address the latter by representing weights as probability distributions, allowing for predictive uncertainty evaluation. Latent binary Bayesian neural networks (LBBNNs) further handle structural uncertainty and sparsify models by removing redundant weights. This article advances LBBNNs by enabling covariates to skip to any succeeding layer or be excluded, simplifying networks and clarifying input impacts on predictions. Ultimately, a linear model or even a constant can be found to be optimal for a specific problem at hand. Furthermore, the input-skip LBBNN approach reduces network density significantly compared to standard LBBNNs, achieving over 99% reduction for small networks and over 99.9% for larger ones, while still maintaining high predictive accuracy and uncertainty measurement. For example, on MNIST, we reached 97% accuracy and great calibration with just 935 weights, reaching state-of-the-art for compression of neural networks. Furthermore, the proposed method accurately identifies the true covariates and adjusts for system non-linearity. The main contribution is the introduction of active paths, enhancing directly designed global and local explanations within the LBBNN framework, that have theoretical guarantees and do not require post hoc external tools for explanations.

arxiv情報

著者 Eirik Høyheim,Lars Skaaret-Lund,Solve Sæbø,Aliaksandr Hubin
発行日 2025-03-13 15:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 05A16, 60J22, 62-02, 62-09, 62F07, 62F15, 62J05, 62J12, 62J99, 62M05, 90C27, 90C59, 92D20, cs.AI, cs.LG, G.1.6, stat.CO, stat.ME, stat.ML | Explainable Bayesian deep learning through input-skip Latent Binary Bayesian Neural Networks はコメントを受け付けていません

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

要約

大規模な言語モデルの高度な推論は、挑戦的なタスクで顕著なパフォーマンスを達成しましたが、一般的な長いコンテキストの推論パラダイムは、シーケンス長、最大コンテキスト境界に制約された推論、およびトレーニング前のコンテキストウィンドウを超えたパフォーマンスの分解を伴う二次計算スケーリングに直面しています。
既存のアプローチは、基本的なスケーリング問題に対処することなく、主に推論チェーンを圧縮します。
これらの課題を克服するために、中間要約を伴うモノリシックな推論を反復プロセスに変換するパラダイムであるInfthinkを紹介します。
簡潔な進捗概要を備えた短い推論セグメントをインターリーでインテリアすることにより、私たちのアプローチにより、境界のある計算コストを維持しながら、無制限の推論の深さが可能になります。
これにより、従来のアプローチと比較して計算の複雑さを大幅に削減する特徴的な鋸歯状記憶パターンが作成されます。
さらに、OpenR1-Mathを333Kトレーニングインスタンスに変換して、ロングコンテキストの推論データセットを反復形式に再構築する方法を開発します。
複数のモデルアーキテクチャの実験により、このアプローチがパフォーマンスを改善しながら計算コストを削減し、QWEN2.5-MATH-7BがMath500、AIME24、およびGPQA_Diamondベンチマーク全体で3-13%の改善を示していることが示されています。
私たちの仕事は、推論の深さと計算効率との間の想定されるトレードオフに挑戦し、建築的修正なしで複雑な推論に対してよりスケーラブルなアプローチを提供します。

要約(オリジナル)

Advanced reasoning in large language models has achieved remarkable performance on challenging tasks, but the prevailing long-context reasoning paradigm faces critical limitations: quadratic computational scaling with sequence length, reasoning constrained by maximum context boundaries, and performance degradation beyond pre-training context windows. Existing approaches primarily compress reasoning chains without addressing the fundamental scaling problem. To overcome these challenges, we introduce InftyThink, a paradigm that transforms monolithic reasoning into an iterative process with intermediate summarization. By interleaving short reasoning segments with concise progress summaries, our approach enables unbounded reasoning depth while maintaining bounded computational costs. This creates a characteristic sawtooth memory pattern that significantly reduces computational complexity compared to traditional approaches. Furthermore, we develop a methodology for reconstructing long-context reasoning datasets into our iterative format, transforming OpenR1-Math into 333K training instances. Experiments across multiple model architectures demonstrate that our approach reduces computational costs while improving performance, with Qwen2.5-Math-7B showing 3-13% improvements across MATH500, AIME24, and GPQA_diamond benchmarks. Our work challenges the assumed trade-off between reasoning depth and computational efficiency, providing a more scalable approach to complex reasoning without architectural modifications.

arxiv情報

著者 Yuchen Yan,Yongliang Shen,Yang Liu,Jin Jiang,Mengdi Zhang,Jian Shao,Yueting Zhuang
発行日 2025-03-13 16:00:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models はコメントを受け付けていません

Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation

要約

Rehnection Learning(RL)は、ロボットナビゲーションの有望なアプローチであり、ロボットが試行錯誤を介して学習できるようにします。
ただし、現実世界のロボットタスクは、多くの場合、まばらな報酬に悩まされ、RLのサンプル非効率性による非効率的な探索と次のポリシーにつながります。
この作業では、報酬関数を変更せずにRLベースのロボットナビゲーションのサンプル効率を改善する新しい方法である、信頼制御探査(CCE)を紹介します。
エントロピーの正規化や報酬形状などの既存のアプローチとは異なり、報酬を変更することで不安定性を導入できます。CCEは、ポリシーエントロピーに基づいて軌道の長さを動的に調整します。
具体的には、探索を強化するために不確実性が高いときに軌跡を短くし、搾取を優先するために自信が高いときにそれらを拡張します。
CCEは、ポリシーエントロピーと勾配推定の間の理論的なつながりに触発された原則的で実用的なソリューションです。
シームレスにオンポリティおよびオフポリティRLメソッドを統合し、最小限の変更を必要とします。
シミュレートされたナビゲーションタスクと実際のナビゲーションタスクの両方で、強化、PPO、およびSAC全体でCCEを検証します。
CCEは、固定軌道とエントロピー正規化ベースラインを上回り、18 \%の成功率、20-38 \%の短いパス、および固定トレーニングサンプル予算の下で9.32 \%の標高コストを9.32%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%\%が達成します。
最後に、CLEARPATHハスキーロボットにCCEを展開し、複雑な屋外環境でその有効性を示しています。

要約(オリジナル)

Reinforcement learning (RL) is a promising approach for robotic navigation, allowing robots to learn through trial and error. However, real-world robotic tasks often suffer from sparse rewards, leading to inefficient exploration and suboptimal policies due to sample inefficiency of RL. In this work, we introduce Confidence-Controlled Exploration (CCE), a novel method that improves sample efficiency in RL-based robotic navigation without modifying the reward function. Unlike existing approaches, such as entropy regularization and reward shaping, which can introduce instability by altering rewards, CCE dynamically adjusts trajectory length based on policy entropy. Specifically, it shortens trajectories when uncertainty is high to enhance exploration and extends them when confidence is high to prioritize exploitation. CCE is a principled and practical solution inspired by a theoretical connection between policy entropy and gradient estimation. It integrates seamlessly with on-policy and off-policy RL methods and requires minimal modifications. We validate CCE across REINFORCE, PPO, and SAC in both simulated and real-world navigation tasks. CCE outperforms fixed-trajectory and entropy-regularized baselines, achieving an 18\% higher success rate, 20-38\% shorter paths, and 9.32\% lower elevation costs under a fixed training sample budget. Finally, we deploy CCE on a Clearpath Husky robot, demonstrating its effectiveness in complex outdoor environments.

arxiv情報

著者 Bhrij Patel,Kasun Weerakoon,Wesley A. Suttle,Alec Koppel,Brian M. Sadler,Tianyi Zhou,Amrit Singh Bedi,Dinesh Manocha
発行日 2025-03-13 16:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation はコメントを受け付けていません

When Text Embedding Meets Large Language Model: A Comprehensive Survey

要約

テキストの埋め込みは、深い学習時代に自然言語処理(NLP)の基礎技術となっており、幅広い下流のタスクにわたって進歩を促進しています。
多くの自然言語の理解の課題は、生成パラダイムを使用してモデル化し、大規模な言語モデル(LLM)の堅牢な生成および理解能力を活用することができますが、セマンティックマッチング、クラスタリング、情報検索など、効率と効率のためにテキストの組み込みに依存するようになります。
したがって、LLMとテキストの埋め込みを組み合わせる方法は、近年、学術的な注目のホットスポットの1つになりました。
この調査では、LLMとテキストの埋め込みとの相互作用を3つの包括的なテーマに分類します。(1)LLMの高度テキスト埋め込み、LLMによる従来の埋め込み方法を強化します。
(2)テキスト埋め込み者としてのLLMS。高品質の埋め込みのために生来の機能を適応させます。
(3)LLMを使用して理解を埋め込み、LLMを活用して埋め込みを分析および解釈するテキスト。
特定のダウンストリームアプリケーションではなく相互作用パターンに基づいて最近の作品を整理することにより、LLMSの時代におけるさまざまな研究およびアプリケーションドメインからの貢献の斬新かつ体系的な概要を提供します。
さらに、事前に訓練された言語モデル(PLMS)を使用して、LLM以前の時代に持続した未解決の課題を強調し、LLMSによってもたらされる新しい障害を調査します。
この分析に基づいて、テキストの埋め込みの進化に関する将来の方向性の概要を説明し、NLPの急速に前進する景観における理論的および実用的な機会の両方に対処します。

要約(オリジナル)

Text embedding has become a foundational technology in natural language processing (NLP) during the deep learning era, driving advancements across a wide array of downstream tasks. While many natural language understanding challenges can now be modeled using generative paradigms and leverage the robust generative and comprehension capabilities of large language models (LLMs), numerous practical applications-such as semantic matching, clustering, and information retrieval-continue to rely on text embeddings for their efficiency and effectiveness. Therefore, how to combine the LLMs and the text embeddings has become one of the hotspots of academic attention in recent years. In this survey, we categorize the interplay between LLMs and text embeddings into three overarching themes: (1) LLM-augmented text embedding, enhancing traditional embedding methods with LLMs; (2) LLMs as text embedders, adapting their innate capabilities for high-quality embedding; and (3) Text embedding understanding with LLMs, leveraging LLMs to analyze and interpret embeddings. By organizing recent works based on interaction patterns rather than specific downstream applications, we offer a novel and systematic overview of contributions from various research and application domains in the era of LLMs. Furthermore, we highlight the unresolved challenges that persisted in the pre-LLM era with pre-trained language models (PLMs) and explore the emerging obstacles brought forth by LLMs. Building on this analysis, we outline prospective directions for the evolution of text embedding, addressing both theoretical and practical opportunities in the rapidly advancing landscape of NLP.

arxiv情報

著者 Zhijie Nie,Zhangchi Feng,Mingxin Li,Cunwang Zhang,Yanzhao Zhang,Dingkun Long,Richong Zhang
発行日 2025-03-13 16:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | When Text Embedding Meets Large Language Model: A Comprehensive Survey はコメントを受け付けていません

Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation

要約

LLMの自己評価は、展開の信頼性を大幅に改善する可能性のある応答の正確性を推定するLLM自身の能力に依存しています。
この研究トラックでは、LLMが出力のない自己評価を実行できるようにするために、潜在スペースに埋め込み鎖(COE)を提案します。
COEは、推論時間中に生成されたすべての進行性の隠された状態で構成されており、LLMSの潜在的な思考経路として扱うことができます。
LLMSが正しくかつ誤って反応すると、COEの特徴が異なる場合、これらの矛盾はLLM応答の正確性を推定するのに役立つことがわかります。
4つの多様なドメインと7つのLLMでの実験は、私たちの方法の有効性を完全に示しています。
一方、トレーニングなしのラベルフリーの設計意図とミリ秒レベルの計算コストにより、大規模なシナリオでのリアルタイムフィードバックが保証されます。
さらに重要なことは、LLM内の隠れた状態の変化の観点から、LLM応答の正確性に関する興味深い洞察を提供します。

要約(オリジナル)

LLM self-evaluation relies on the LLM’s own ability to estimate response correctness, which can greatly improve its deployment reliability. In this research track, we propose the Chain-of-Embedding (CoE) in the latent space to enable LLMs to perform output-free self-evaluation. CoE consists of all progressive hidden states produced during the inference time, which can be treated as the latent thinking path of LLMs. We find that when LLMs respond correctly and incorrectly, their CoE features differ, these discrepancies assist us in estimating LLM response correctness. Experiments in four diverse domains and seven LLMs fully demonstrate the effectiveness of our method. Meanwhile, its label-free design intent without any training and millisecond-level computational cost ensures real-time feedback in large-scale scenarios. More importantly, we provide interesting insights into LLM response correctness from the perspective of hidden state changes inside LLMs.

arxiv情報

著者 Yiming Wang,Pei Zhang,Baosong Yang,Derek F. Wong,Rui Wang
発行日 2025-03-13 16:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Latent Space Chain-of-Embedding Enables Output-free LLM Self-Evaluation はコメントを受け付けていません

Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal Regression

要約

特定の入力のブラックボックスディープ生成モデル(テキストプロンプトなど)から出力(ソフトウェアコードや自然言語テキストなど)をサンプリングすることにより、有効な予測セットを生成する問題を検討します。
予測セットの妥当性は、ターゲットアプリケーションに応じてユーザー定義のバイナリ許容機能によって決定されます。
たとえば、セット内の少なくとも1つのプログラムがコード生成アプリケーションですべてのテストケースに合格するために必要です。
この問題に対処するために、生成予測セット(GPS)と呼ばれるシンプルで効果的な立法推論アルゴリズムを開発します。
一連のキャリブレーションの例と深い生成モデルへのブラックボックスアクセスを考えると、GPSは証明可能な保証で予測セットを生成できます。
GPSの背後にある重要な洞察は、最小サンプル数にわたって単純なコンフォーマル回帰アプローチを開発するために許容可能な出力を取得するために必要なサンプルの最小数にわたって分布内の固有の構造を活用することです。
異なる大規模な言語モデルを使用したコードおよび数学の単語の問題の複数のデータセットでの実験は、最先端の方法よりもGPSの有効性を示しています。

要約(オリジナル)

We consider the problem of generating valid and small prediction sets by sampling outputs (e.g., software code and natural language text) from a black-box deep generative model for a given input (e.g., textual prompt). The validity of a prediction set is determined by a user-defined binary admissibility function depending on the target application. For example, requiring at least one program in the set to pass all test cases in code generation application. To address this problem, we develop a simple and effective conformal inference algorithm referred to as Generative Prediction Sets (GPS). Given a set of calibration examples and black-box access to a deep generative model, GPS can generate prediction sets with provable guarantees. The key insight behind GPS is to exploit the inherent structure within the distribution over the minimum number of samples needed to obtain an admissible output to develop a simple conformal regression approach over the minimum number of samples. Experiments on multiple datasets for code and math word problems using different large language models demonstrate the efficacy of GPS over state-of-the-art methods.

arxiv情報

著者 Hooman Shahrokhi,Devjeet Raj Roy,Yan Yan,Venera Arnaoudova,Janaradhan Rao Doppa
発行日 2025-03-13 16:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal Regression はコメントを受け付けていません

Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

要約

LinformerやMambaなどのアーキテクチャは、最近、変圧器の競合的な線形時間置換として浮上しています。
ただし、特に非テキストドメインでは、対応する大規模な事前に保護されたモデルは利用できないことがよくあります。
これを改善するために、トランスモデルを共同で線形時間代替に変換し、それをターゲットタスクに微調整するクロスアーキテクチャ層状蒸留(CALD)アプローチを提示します。
また、いくつかの手段を比較して、微調整を導き、元のモデルから望ましい推論機能を最適に保持します。
方法は、ターゲットモデルの使用とパラメーターの軌跡が異なります。
言語処理、言語モデリング、音声処理に関する一連の実証研究では、CALDが元のモデルの結果を効果的に回復できること、およびガイド戦略が結果に貢献できることを示しています。
バリエーションのいくつかの理由が提案されています。

要約(オリジナル)

Architectures such as Linformer and Mamba have recently emerged as competitive linear time replacements for transformers. However, corresponding large pretrained models are often unavailable, especially in non-text domains. To remedy this, we present a Cross-Architecture Layerwise Distillation (CALD) approach that jointly converts a transformer model to a linear time substitute and fine-tunes it to a target task. We also compare several means to guide the fine-tuning to optimally retain the desired inference capability from the original model. The methods differ in their use of the target model and the trajectory of the parameters. In a series of empirical studies on language processing, language modeling, and speech processing, we show that CALD can effectively recover the result of the original model, and that the guiding strategy contributes to the result. Some reasons for the variation are suggested.

arxiv情報

著者 Mutian He,Philip N. Garner
発行日 2025-03-13 16:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity はコメントを受け付けていません

YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification

要約

皮肉の検出は、特に意図された意味が文字通りの表現から逸脱している意見を伝えるという性質上、感情分析における重要な課題です。
この課題は、特にドラヴィダ語の言語でコードミキシングが一般的であるソーシャルメディアのコンテキストで高められます。
コードミックスには、多くの場合、非ネイティブスクリプトを使用して単一の発話内で複数の言語のブレンドが含まれ、単一言語データでトレーニングされたシステムのタスクを複雑にします。
この共有タスクは、特にタミル語とマラヤーラム語の英語言語で、コードミックスされたテキスト内で皮肉と感情の検出用に設計された新しいゴールドスタンダードコーパスを導入します。
このタスクの主な目的は、ソーシャルメディアプラットフォームから収集されたタミル語とマラヤラム語のコメントと投稿のコード混合データセット内で、皮肉と感情の極性を特定することです。
各コメントまたは投稿には、センチメントの極性のためにメッセージレベルで注釈が付けられ、特にクラスの不均衡がもたらす課題に注意を払って、実際のシナリオを反映しています。この作業では、GPT-3.5ターボなどの最先端の大規模な言語モデルを皮肉または非虐待カテゴリに分類するよう促すことを介して実験します。
タミル語で0.61のMacro-F1スコアを取得しました。
マラヤラム語で0.50のマクロ-F1スコアを取得しました。

要約(オリジナル)

Sarcasm detection is a significant challenge in sentiment analysis, particularly due to its nature of conveying opinions where the intended meaning deviates from the literal expression. This challenge is heightened in social media contexts where code-mixing, especially in Dravidian languages, is prevalent. Code-mixing involves the blending of multiple languages within a single utterance, often with non-native scripts, complicating the task for systems trained on monolingual data. This shared task introduces a novel gold standard corpus designed for sarcasm and sentiment detection within code-mixed texts, specifically in Tamil-English and Malayalam-English languages. The primary objective of this task is to identify sarcasm and sentiment polarity within a code-mixed dataset of Tamil-English and Malayalam-English comments and posts collected from social media platforms. Each comment or post is annotated at the message level for sentiment polarity, with particular attention to the challenges posed by class imbalance, reflecting real-world scenarios.In this work, we experiment with state-of-the-art large language models like GPT-3.5 Turbo via prompting to classify comments into sarcastic or non-sarcastic categories. We obtained a macro-F1 score of 0.61 for Tamil language. We obtained a macro-F1 score of 0.50 for Malayalam language.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-13 16:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification はコメントを受け付けていません

Why the Brain Cannot Be a Digital Computer: History-Dependence and the Computational Limits of Consciousness

要約

このペーパーでは、現在理解されている人間の脳が古典的なデジタルコンピューターとして機能できないことを示す新しい情報理論的証拠を提示します。
識別可能な意識状態とその歴史的依存関係を体系的に定量化することにより、意識状態を指定するために必要な最小情報が、重要な要因によって人間の脳の物理情報能力を超えることを確立します。
分析は、意識的に区別できる感覚「刺激フレーム」を表現するためのビット長要件を計算し、意識がこれらの要件を脳の貯蔵能力を超えて掛ける必須の時間的歴史的依存関係を示すことを示しています。
この数学的アプローチは、意識の計算モデルの基本的な制限に関する新しい洞察を提供し、意識的な経験を説明するために非古典的な情報処理メカニズムが必要であることを示唆しています。

要約(オリジナル)

This paper presents a novel information-theoretic proof demonstrating that the human brain as currently understood cannot function as a classical digital computer. Through systematic quantification of distinguishable conscious states and their historical dependencies, we establish that the minimum information required to specify a conscious state exceeds the physical information capacity of the human brain by a significant factor. Our analysis calculates the bit-length requirements for representing consciously distinguishable sensory ‘stimulus frames’ and demonstrates that consciousness exhibits mandatory temporal-historical dependencies that multiply these requirements beyond the brain’s storage capabilities. This mathematical approach offers new insights into the fundamental limitations of computational models of consciousness and suggests that non-classical information processing mechanisms may be necessary to account for conscious experience.

arxiv情報

著者 Andrew Knight
発行日 2025-03-13 16:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.hist-ph, q-bio.NC | Why the Brain Cannot Be a Digital Computer: History-Dependence and the Computational Limits of Consciousness はコメントを受け付けていません

The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory

要約

高品質のテスト項目は、特にアイテム応答理論(IRT)内の教育評価に不可欠です。
従来の検証方法は、アイテムの難易度と差別を推定するために、リソース集約型のパイロットテストに依存しています。
最近では、項目執筆の欠陥(IWF)ルーブリックは、テキスト機能に基づいてテスト項目を評価するためのドメインジェネラルアプローチとして登場しました。
ただし、IRTパラメーターとの関係は未定のままです。
このギャップに対処するために、さまざまなSTEM被験者(たとえば、数学や生物学)にわたって7,000を超える多肢選択式の質問を含む研究を実施しました。
自動化されたアプローチを使用して、各質問に19基準IWFルーブリックを注釈し、データ駆動型のIRTパラメーターとの関係を研究しました。
私たちの分析により、特に生命と物理科学の領域におけるIWFの数とIRTの難易度と識別パラメーターの間の統計的に有意なリンクが明らかになりました。
さらに、特定のIWF基準がアイテムの品質にますます深刻な影響を与えることができることを観察しました(たとえば、否定的な言葉遣いと信じがたいディストラクタ)。
全体として、IWFはIRTパラメーター(特に低難しいMCQのスクリーニングのために)を予測するのに役立ちますが、従来のデータ駆動型検証方法を置き換えることはできません。
私たちの調査結果は、堅牢なアイテム検証のためにドメイン固有のコンテンツを理解するドメイン総評価ルーブリックとアルゴリズムに関するさらなる研究の必要性を強調しています。

要約(オリジナル)

High-quality test items are essential for educational assessments, particularly within Item Response Theory (IRT). Traditional validation methods rely on resource-intensive pilot testing to estimate item difficulty and discrimination. More recently, Item-Writing Flaw (IWF) rubrics emerged as a domain-general approach for evaluating test items based on textual features. However, their relationship to IRT parameters remains underexplored. To address this gap, we conducted a study involving over 7,000 multiple-choice questions across various STEM subjects (e.g., math and biology). Using an automated approach, we annotated each question with a 19-criteria IWF rubric and studied relationships to data-driven IRT parameters. Our analysis revealed statistically significant links between the number of IWFs and IRT difficulty and discrimination parameters, particularly in life and physical science domains. We further observed how specific IWF criteria can impact item quality more and less severely (e.g., negative wording vs. implausible distractors). Overall, while IWFs are useful for predicting IRT parameters–particularly for screening low-difficulty MCQs–they cannot replace traditional data-driven validation methods. Our findings highlight the need for further research on domain-general evaluation rubrics and algorithms that understand domain-specific content for robust item validation.

arxiv情報

著者 Robin Schmucker,Steven Moore
発行日 2025-03-13 16:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory はコメントを受け付けていません