Predicting BVD Re-emergence in Irish Cattle From Highly Imbalanced Herd-Level Data Using Machine Learning Algorithms

要約

ウシウイルス下痢(BVD)はアイルランドでの根絶プログラムの成功の焦点であり、群れレベルの有病率は2013年の11.3%から2023年の0.2%にわずか0.2%に減少しました。
この研究では、非常に不均衡な群れレベルのデータを使用してBVD陽性の群れを予測するための、バイナリ分類や異常検出技術を含むさまざまな機械学習アルゴリズムのパフォーマンスを評価します。
さまざまなサンプルサイズとクラスの不均衡比にわたってモデルのパフォーマンスを評価するための広範なシミュレーション研究を実施し、再サンプリング、クラスの重み付け、適切な評価メトリック(感度、正の予測値、F1スコア、AUC値)を組み込みます。
ランダムフォレストとXgboostモデルは、2023年の群れステータスの実世界の予測を含むランダムフォレストモデルがシナリオ全体で最高の感度とAUCを達成し、250の陽性群のうち219を正しく識別しながら、ブランケットテスト戦略と比較して必要な群れの数を半分にしながら、シナリオ全体で一貫して他の方法を上回っていました。

要約(オリジナル)

Bovine Viral Diarrhoea (BVD) has been the focus of a successful eradication programme in Ireland, with the herd-level prevalence declining from 11.3% in 2013 to just 0.2% in 2023. As the country moves toward BVD freedom, the development of predictive models for targeted surveillance becomes increasingly important to mitigate the risk of disease re-emergence. In this study, we evaluate the performance of a range of machine learning algorithms, including binary classification and anomaly detection techniques, for predicting BVD-positive herds using highly imbalanced herd-level data. We conduct an extensive simulation study to assess model performance across varying sample sizes and class imbalance ratios, incorporating resampling, class weighting, and appropriate evaluation metrics (sensitivity, positive predictive value, F1-score and AUC values). Random forests and XGBoost models consistently outperformed other methods, with the random forest model achieving the highest sensitivity and AUC across scenarios, including real-world prediction of 2023 herd status, correctly identifying 219 of 250 positive herds while halving the number of herds that require compared to a blanket-testing strategy.

arxiv情報

著者 Niamh Mimnagh,Andrew Parnell,Conor McAloon,Jaden Carlson,Maria Guelbenzu,Jonas Brock,Damien Barrett,Guy McGrath,Jamie Tratalos,Rafael Moral
発行日 2025-04-17 17:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Predicting BVD Re-emergence in Irish Cattle From Highly Imbalanced Herd-Level Data Using Machine Learning Algorithms はコメントを受け付けていません

MalMixer: Few-Shot Malware Classification with Retrieval-Augmented Semi-Supervised Learning

要約

マルウェアの最近の成長と増殖により、実践者は、マルウェアファミリに従って新しいサンプルを迅速に分類する能力をテストしました。
労働集約的なリバースエンジニアリングの取り組みとは対照的に、機械学習アプローチは速度と精度の向上を実証しています。
ただし、ほとんどの既存のディープラーニングマルウェアファミリ分類器は、トレーニング前に手動で分析される多数のサンプルを使用して調整する必要があります。
さらに、トレーニングセットの範囲を超えた新しいマルウェアサンプルが発生するにつれて、トレーニングセットを更新するために追加のリバースエンジニアリングの努力を採用する必要があります。
野生で見つかった新しいサンプルの膨大な量は、実務家に、最新の分類器を適切にトレーニングするのに十分なマルウェアをリバースエンジニアリングする能力にかなりの圧力をかけます。
この論文では、まばらなトレーニングデータで高精度を達成する半監視学習を使用して、マルウェアファミリ分類器であるMalmixerを提示します。
マルウェア特徴表現のためのドメイン知識認識データ増強手法を提示し、半監視されたマルウェアファミリ分類の少数のパフォーマンスを向上させます。
Malmixerが、少数のショットマルウェアファミリ分類設定で最先端のパフォーマンスを達成していることを示しています。
私たちの調査では、マルウェアの特徴のための軽量のドメイン知識認識データ増強方法の実現可能性と有効性を確認し、マルウェア分類の問題に対処する際の同様の半監視分類器の機能を示しています。

要約(オリジナル)

Recent growth and proliferation of malware have tested practitioners ability to promptly classify new samples according to malware families. In contrast to labor-intensive reverse engineering efforts, machine learning approaches have demonstrated increased speed and accuracy. However, most existing deep-learning malware family classifiers must be calibrated using a large number of samples that are painstakingly manually analyzed before training. Furthermore, as novel malware samples arise that are beyond the scope of the training set, additional reverse engineering effort must be employed to update the training set. The sheer volume of new samples found in the wild creates substantial pressure on practitioners ability to reverse engineer enough malware to adequately train modern classifiers. In this paper, we present MalMixer, a malware family classifier using semi-supervised learning that achieves high accuracy with sparse training data. We present a domain-knowledge-aware data augmentation technique for malware feature representations, enhancing few-shot performance of semi-supervised malware family classification. We show that MalMixer achieves state-of-the-art performance in few-shot malware family classification settings. Our research confirms the feasibility and effectiveness of lightweight, domain-knowledge-aware data augmentation methods for malware features and shows the capabilities of similar semi-supervised classifiers in addressing malware classification issues.

arxiv情報

著者 Jiliang Li,Yifan Zhang,Yu Huang,Kevin Leach
発行日 2025-04-17 17:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | MalMixer: Few-Shot Malware Classification with Retrieval-Augmented Semi-Supervised Learning はコメントを受け付けていません

Transfer Learning via Auxiliary Labels with Application to Cold-Hardiness Prediction

要約

寒い気温は、休眠期を通して変化する弾力性や寒さに応じて、果物の作物に重大な霜による損傷を引き起こす可能性があります。
これにより、予測的な冷たさモデルの開発が行われ、農家は高価な霜緩和策をいつ展開するかを決定するのに役立ちます。
残念ながら、モデルトレーニング用の冷たい硬さデータは、特殊な機器と専門知識が必要なため、一部の果物栽培品種でのみ利用できます。
むしろ、農民はしばしば、作物のために定期的に収集する長年の生物季節データ(例えば、芽の日付)を持っています。
この作業では、補助ラベル(TAL)を介した新しいトランスファーラーニングフレームワークを導入します。これにより、農民は、特定の作物に冷酷さデータが利用できない場合でも、より正確な冷酷さの予測を生成して、より正確な冷酷さの予測を生成できます。
フレームワークは、それぞれがプライマリラベル(冷たい丈夫さ)と補助ラベル(フェノロジー)を関連付けているソースタスク(品種)のセットを想定しています。
ただし、ターゲットタスク(新しい品種)は、補助ラベルのみがあると想定されています。
TALの目標は、ソースタスクからの転送を介してターゲットタスクのプライマリラベルを予測することです。
驚くべきことに、転送学習に関する膨大な文献にもかかわらず、私たちの知る限り、タルの定式化は以前に扱われていません。
したがって、モデルの選択と、最近の深いマルチタスクモデルを活用して、寒冷性予測の平均化に基づいて、いくつかの新しいTALアプローチを提案します。
複数のブドウ品種の現実世界の寒さと生理学的データに関する我々の結果は、TALが生物季節データを活用して、寒冷性データがない場合に寒冷性予測を改善できることを示しています。

要約(オリジナル)

Cold temperatures can cause significant frost damage to fruit crops depending on their resilience, or cold hardiness, which changes throughout the dormancy season. This has led to the development of predictive cold-hardiness models, which help farmers decide when to deploy expensive frost-mitigation measures. Unfortunately, cold-hardiness data for model training is only available for some fruit cultivars due to the need for specialized equipment and expertise. Rather, farmers often do have years of phenological data (e.g. date of budbreak) that they regularly collect for their crops. In this work, we introduce a new transfer-learning framework, Transfer via Auxiliary Labels (TAL), that allows farmers to leverage the phenological data to produce more accurate cold-hardiness predictions, even when no cold-hardiness data is available for their specific crop. The framework assumes a set of source tasks (cultivars) where each has associated primary labels (cold hardiness) and auxiliary labels (phenology). However, the target task (new cultivar) is assumed to only have the auxiliary labels. The goal of TAL is to predict primary labels for the target task via transfer from the source tasks. Surprisingly, despite the vast literature on transfer learning, to our knowledge, the TAL formulation has not been previously addressed. Thus, we propose several new TAL approaches based on model selection and averaging that can leverage recent deep multi-task models for cold-hardiness prediction. Our results on real-world cold-hardiness and phenological data for multiple grape cultivars demonstrate that TAL can leverage the phenological data to improve cold-hardiness predictions in the absence of cold-hardiness data.

arxiv情報

著者 Kristen Goebel,Paola Pesantez-Cabrera,Markus Keller,Alan Fern
発行日 2025-04-17 17:51:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Transfer Learning via Auxiliary Labels with Application to Cold-Hardiness Prediction はコメントを受け付けていません

Aligning Constraint Generation with Design Intent in Parametric CAD

要約

LLMSの推論から、コンピューター支援設計(CAD)モデルで見つかったエンジニアリングスケッチの制約を生成するタスクに合わせて調整手法を適応させます。
エンジニアリングのスケッチは、それらの間の関係を定義する制約(例:垂直、接線)で接続された幾何学的プリミティブ(例:ポイント、線)で構成されています。
設計が簡単に編集できるためには、制約は設計の意図を効果的にキャプチャし、パラメーターが変更されたときにジオメトリの更新が予測できるようにする必要があります。
現在のアプローチはCAD設計を生成する可能性がありますが、モデルの出力を設計意図と整列させるというオープンな課題は残っていますが、この問題「設計アライメント」とラベル付けされます。
生成CADモデルを調整するための重要な最初のステップは、スケッチのジオメトリを過剰に制約または歪めずに、すべての幾何学的プリミティブを完全に構成する制約を生成することです。
アライメント手法を使用して、制約ソルバーからのフィードバックを使用して既存の制約生成モデルをトレーニングすると、Na \ ‘Iveの監視付き微調整(SFT)ベースラインを使用する場合、34%とアライメントなしで8.9%のみを使用する場合、スケッチの93%を完全に制約することができます。
当社のアプローチは、既存の制約生成モデルに適用でき、言語と設計ドメインの間のアライメント戦略をさらに研究するための段階を設定できます。

要約(オリジナル)

We adapt alignment techniques from reasoning LLMs to the task of generating engineering sketch constraints found in computer-aided design (CAD) models. Engineering sketches consist of geometric primitives (e.g. points, lines) connected by constraints (e.g. perpendicular, tangent) that define the relationships between them. For a design to be easily editable, the constraints must effectively capture design intent, ensuring the geometry updates predictably when parameters change. Although current approaches can generate CAD designs, an open challenge remains to align model outputs with design intent, we label this problem `design alignment’. A critical first step towards aligning generative CAD models is to generate constraints which fully-constrain all geometric primitives, without over-constraining or distorting sketch geometry. Using alignment techniques to train an existing constraint generation model with feedback from a constraint solver, we are able to fully-constrain 93% of sketches compared to 34% when using a na\’ive supervised fine-tuning (SFT) baseline and only 8.9% without alignment. Our approach can be applied to any existing constraint generation model and sets the stage for further research bridging alignment strategies between the language and design domains.

arxiv情報

著者 Evan Casey,Tianyu Zhang,Shu Ishida,John Roger Thompson,Amir Khasahmadi,Joseph George Lambourne,Pradeep Kumar Jayaraman,Karl D. D. Willis
発行日 2025-04-17 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Aligning Constraint Generation with Design Intent in Parametric CAD はコメントを受け付けていません

Towards Lossless Token Pruning in Late-Interaction Retrieval Models

要約

コルバートのような後期相互作用の神経IRモデルは、多くのベンチマークにわたって競争効果効率の高いトレードオフを提供します。
ただし、すべてのドキュメントトークンのコンテキスト表現を保存するには、巨大なメモリスペースが必要です。
一部の作品は、各ドキュメントからトークンを剪定するために、ヒューリスティックまたは統計ベースの手法を使用して提案しています。
ただし、これは、削除されたトークンが検索スコアに影響を与えないことを保証するものではありません。
私たちの作品は、原則的なアプローチを使用して、ドキュメントとクエリの間のスコアに影響を与えることなくトークンを剪定する方法を定義します。
3つの正規化損失を導入します。これは、剪定比が高いソリューションと2つの剪定戦略を誘発します。
私たちはそれらを実験的に(内外のドメイン)研究し、トークンの30 \%しか使用しないでコルバートのパフォーマンスを維持できることを示しています。

要約(オリジナル)

Late interaction neural IR models like ColBERT offer a competitive effectiveness-efficiency trade-off across many benchmarks. However, they require a huge memory space to store the contextual representation for all the document tokens. Some works have proposed using either heuristics or statistical-based techniques to prune tokens from each document. This however doesn’t guarantee that the removed tokens have no impact on the retrieval score. Our work uses a principled approach to define how to prune tokens without impacting the score between a document and a query. We introduce three regularization losses, that induce a solution with high pruning ratios, as well as two pruning strategies. We study them experimentally (in and out-domain), showing that we can preserve ColBERT’s performance while using only 30\% of the tokens.

arxiv情報

著者 Yuxuan Zong,Benjamin Piwowarski
発行日 2025-04-17 09:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Towards Lossless Token Pruning in Late-Interaction Retrieval Models はコメントを受け付けていません

FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion

要約

異種モデルの融合は、複数の構造的に多様なモデルの知識と能力を統合することにより、LLMのパフォーマンスを向上させます。
ただし、既存のアプローチは、ソースモデルから各プロンプトに最適な出力を選択することにのみ依存していることが多く、ソースの知識が限られているため、最適化信号がまばらになるため、潜在能力を最大限に活用していません。
この制限に対処するために、FusesftとFusepoを含む2段階の新しいフレームワークであるFuserlを提案して、ソースLLMの利用を最大化します。
Fusesftは、各プロンプトの多様な出力に加重された監視された微調整(SFT)を介して不均一なソースモデルの強度を統合することにより、堅牢な初期化を確立します。
FUSEPOは、複数のソースモデルの出力に基づいて加重設定を最適化して、優れたアライメントパフォーマンスを可能にします。
広範な実験は、RLOO、DPO、SIMPOなど、さまざまな好みのアライメント方法にわたるフレームワークの有効性を示しています。
ターゲットモデルとしてllama-3.1-8b-instructを使用して、私たちのアプローチは、Alpacaeval-2およびArena-Hardベンチマークで8B LLMの最先端のパフォーマンスを達成します。
さらなる分析では、Fusesftがトレーニングプロセスを正規化して過剰適合を減らすことが示唆され、Fusepoは好みの最適化のために密集した多様なシグナルを導入します。

要約(オリジナル)

Heterogeneous model fusion enhances the performance of LLMs by integrating the knowledge and capabilities of multiple structurally diverse models. However, existing approaches often rely solely on selecting the best output for each prompt from source models, which underutilizes their full potential due to limited source knowledge and results in sparse optimization signals. To address this limitation, we propose FuseRL, a novel two-stage framework comprising FuseSFT and FusePO to maximize the utilization of source LLMs. FuseSFT establishes a robust initialization by integrating the strengths of heterogeneous source models through weighted supervised fine-tuning (SFT) on diverse outputs for each prompt. FusePO optimizes weighted preferences based on the outputs of multiple source models to enable superior alignment performance. Extensive experiments demonstrate the effectiveness of our framework across various preference alignment methods, including RLOO, DPO, and SimPO. Using Llama-3.1-8B-Instruct as the target model, our approach achieves state-of-the-art performance among 8B LLMs on the AlpacaEval-2 and Arena-Hard benchmarks. Further analysis suggests that FuseSFT regularizes the training process to reduce overfitting, while FusePO introduces dense and diverse signals for preference optimization.

arxiv情報

著者 Longguang Zhong,Fanqi Wan,Ziyi Yang,Guosheng Liang,Tianyuan Shi,Xiaojun Quan
発行日 2025-04-17 09:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FuseRL: Dense Preference Optimization for Heterogeneous Model Fusion はコメントを受け付けていません

Assesing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation

要約

この研究では、アートに関連する2つの領域での大規模な言語モデル(LLM)がどのように機能するかを調査しました。アート関連の状況における精神状態(心の理論、またはトム)についての芸術の批評と推論を書くことです。
批評家の部分のために、ノエル・キャロルの評価枠組みと幅広い芸術批評理論を組み合わせたシステムを構築しました。
このモデルは、最初にフルレングスの批評を書くように求められ、次にステップバイステップのプロンプトプロセスを使用して、より短く、よりコヒーレントなバージョンを作成するように求められました。
次に、これらのAIに生成された批評は、チューリングテストスタイルの評価で人間の専門家によって書かれたものと比較されました。
多くの場合、人間の被験者はどちらがどちらであるかを伝えるのが困難であり、結果は、LLMが慎重に導かれている限り、スタイルがもっともらしいだけでなく、解釈が豊富な批評を生み出すことができることを示唆しています。
第2部では、解釈、感情、道徳的緊張を含む状況に基づいて、芸術の文脈に現れる可能性のある新しいシンプルなトムタスクを導入しました。
これらは標準的な偽の信念テストを超えており、より複雑で社会的に組み込まれた推論の形式を可能にします。
最近の41のLLMSをテストし、そのパフォーマンスがタスクとモデルによって異なることを発見しました。
特に、感情的または曖昧な状況を伴うタスクは、より明確な違いを明らかにする傾向がありました。
総合すると、これらの結果は、LLMが複雑な解釈的課題にどのように反応するかを明確にし、認知的制限と可能性の両方を明らかにします。
私たちの調査結果は、いわゆる生成AIパラドックス(LLMが真の理解せずに専門家のような出力を生成できるという考え)と直接矛盾するわけではありませんが、慎重に設計されたプロンプトなど、LLMがどのように指示されるかに応じて、これらのモデルは想像するよりも密接に似ている行動を示すことを示唆しています。

要約(オリジナル)

This study explored how large language models (LLMs) perform in two areas related to art: writing critiques of artworks and reasoning about mental states (Theory of Mind, or ToM) in art-related situations. For the critique generation part, we built a system that combines Noel Carroll’s evaluative framework with a broad selection of art criticism theories. The model was prompted to first write a full-length critique and then shorter, more coherent versions using a step-by-step prompting process. These AI-generated critiques were then compared with those written by human experts in a Turing test-style evaluation. In many cases, human subjects had difficulty telling which was which, and the results suggest that LLMs can produce critiques that are not only plausible in style but also rich in interpretation, as long as they are carefully guided. In the second part, we introduced new simple ToM tasks based on situations involving interpretation, emotion, and moral tension, which can appear in the context of art. These go beyond standard false-belief tests and allow for more complex, socially embedded forms of reasoning. We tested 41 recent LLMs and found that their performance varied across tasks and models. In particular, tasks that involved affective or ambiguous situations tended to reveal clearer differences. Taken together, these results help clarify how LLMs respond to complex interpretative challenges, revealing both their cognitive limitations and potential. While our findings do not directly contradict the so-called Generative AI Paradox–the idea that LLMs can produce expert-like output without genuine understanding–they suggest that, depending on how LLMs are instructed, such as through carefully designed prompts, these models may begin to show behaviors that resemble understanding more closely than we might assume.

arxiv情報

著者 Takaya Arita,Wenxian Zheng,Reiji Suzuki,Fuminori Akiba
発行日 2025-04-17 10:10:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.HC | Assesing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation はコメントを受け付けていません

SMARTe: Slot-based Method for Accountable Relational Triple extraction

要約

リレーショナルトリプル抽出(RTE)は、自然言語処理(NLP)の基本的なタスクです。
ただし、以前の研究では、主にモデルのパフォーマンスの最適化に焦点を当てており、これらのモデルを駆動する内部メカニズムを理解するための限られた取り組みがあります。
多くの既存の方法は、特定の相互作用を誘導するために複雑な前処理に依存しており、多くの場合、理論的基礎と完全に整合しない不透明なシステムをもたらすことがよくあります。
これらの制限に対処するために、Smarte:説明責任のあるリレーショナルトリプル抽出のためのスロットベースの方法を提案します。
Smarteは、スロット注意メカニズムを通じて本質的な解釈可能性を導入し、タスクを設定された予測問題としてフレーム化します。
スロット注意関連情報を明確なスロットに統合し、学習したスロット表現と予測される各リレーショナルトリプルに寄与するトークンに対してすべての予測を明示的に追跡できるようにします。
解釈可能性を強調しながら、Smarteは最先端のモデルに匹敵するパフォーマンスを達成します。
NYTおよびWebNLGデータセットの評価は、解釈性を追加してもパフォーマンスを損なうことがないことを示しています。
さらに、それぞれのトークンにマッピングする注意ヒートマップを使用して、Smarteが提供する説明を紹介するために定性的評価を実施しました。
私たちは私たちの調査結果について議論し、将来の研究の方向性を提案します。

要約(オリジナル)

Relational Triple Extraction (RTE) is a fundamental task in Natural Language Processing (NLP). However, prior research has primarily focused on optimizing model performance, with limited efforts to understand the internal mechanisms driving these models. Many existing methods rely on complex preprocessing to induce specific interactions, often resulting in opaque systems that may not fully align with their theoretical foundations. To address these limitations, we propose SMARTe: a Slot-based Method for Accountable Relational Triple extraction. SMARTe introduces intrinsic interpretability through a slot attention mechanism and frames the task as a set prediction problem. Slot attention consolidates relevant information into distinct slots, ensuring all predictions can be explicitly traced to learned slot representations and the tokens contributing to each predicted relational triple. While emphasizing interpretability, SMARTe achieves performance comparable to state-of-the-art models. Evaluations on the NYT and WebNLG datasets demonstrate that adding interpretability does not compromise performance. Furthermore, we conducted qualitative assessments to showcase the explanations provided by SMARTe, using attention heatmaps that map to their respective tokens. We conclude with a discussion of our findings and propose directions for future research.

arxiv情報

著者 Xue Wen Tan,Stanley Kok
発行日 2025-04-17 10:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SMARTe: Slot-based Method for Accountable Relational Triple extraction はコメントを受け付けていません

Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks

要約

多くの場合、人気のあるヘイスタックテストに基づいている既存の多言語の長いコンテストベンチマークは、主に、無関係なテキストに埋もれた特定の情報を見つけるモデルの能力を評価します。
ただし、このような回収中心のアプローチは近視であり、本質的に制限されています。これは、リコールだけでは、拡張されたコンテキストを推論するモデルの能力を示していないためです。
さらに、これらのベンチマークは、データの漏れ、短絡、およびリスクの影響を受けやすく、評価を先験的に識別可能にします。
これらの制限に対処するために、多言語の長いコンテキスト推論のための新しい合成ベンチマークであるMlrbenchを紹介します。
既存のベンチマークとは異なり、MLRBenchは、マルチホップ推論、集約、認識論的推論を評価するタスクを含めることにより、表面レベルの検索を超えています。
7つの言語にまたがるMlrbenchは、並行して漏れに耐性があり、任意のコンテキストの長さに対してスケーラブルであるように設計されています。
オープンウェイトの大型言語モデル(LLM)を使用した広範な実験は、特にモデルが複数の事実を集約したり、情報の欠如を予測する必要があるタスクで、高リソース言語と低リソース言語の間の顕著なギャップを明らかにしています。
また、多言語設定では、LLMが請求されたコンテキストの長さの30%未満を効果的に利用することがわかります。
既製の検索された増強された世代は、これをある程度緩和するのに役立ちますが、長いコンテキストの問題は解決しません。
多言語LLMの評価とトレーニングの改善における将来の研究を可能にするために、MLRBenchをオープンソースします。

要約(オリジナル)

Existing multilingual long-context benchmarks, often based on the popular needle-in-a-haystack test, primarily evaluate a model’s ability to locate specific information buried within irrelevant texts. However, such a retrieval-centric approach is myopic and inherently limited, as successful recall alone does not indicate a model’s capacity to reason over extended contexts. Moreover, these benchmarks are susceptible to data leakage, short-circuiting, and risk making the evaluation a priori identifiable. To address these limitations, we introduce MLRBench, a new synthetic benchmark for multilingual long-context reasoning. Unlike existing benchmarks, MLRBench goes beyond surface-level retrieval by including tasks that assess multi-hop inference, aggregation, and epistemic reasoning. Spanning seven languages, MLRBench is designed to be parallel, resistant to leakage, and scalable to arbitrary context lengths. Our extensive experiments with an open-weight large language model (LLM) reveal a pronounced gap between high- and low-resource languages, particularly for tasks requiring the model to aggregate multiple facts or predict the absence of information. We also find that, in multilingual settings, LLMs effectively utilize less than 30% of their claimed context length. Although off-the-shelf Retrieval Augmented Generation helps alleviate this to a certain extent, it does not solve the long-context problem. We open-source MLRBench to enable future research in improved evaluation and training of multilingual LLMs.

arxiv情報

著者 Amey Hengle,Prasoon Bajpai,Soham Dan,Tanmoy Chakraborty
発行日 2025-04-17 11:02:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks はコメントを受け付けていません

Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation

要約

深い学習と象徴的な論理推論を組み合わせることは、両方の分野の成功を活用することを目的としており、注目を集めています。
ロジックプログラムに推論を実行するように訓練されたエンドツーエンドモデルであるDeeplogicに触発され、自然言語で表現されたマルチステップ推論のための反復的な神経推論ネットワークであるIMA-Glove-gaを紹介します。
私たちのモデルでは、ゲートの注意メカニズムを備えたRNNに基づく反復メモリニューラルネットワークを使用して推論が実行されます。
IMA-Glove-gaを3つのデータセットで評価します:パラル、コンセプトールV1、コンセプトールV2。
実験結果は、ゲートの注意を払ってディープロージックがディープロジックモデルや他のRNNベースラインモデルよりも高いテスト精度を達成できることを示しています。
私たちのモデルは、ルールがシャッフルされたときに、ロベルタ・ラージよりもディストロイストリーションの一般化をよりよく達成します。
さらに、現在のマルチステップ推論データセットにおける推論深度の不均衡な分布の問題に対処するために、より深い推論ステップを必要とするより多くの例を備えた大規模なデータセットであるpararule-plusを開発します。
実験結果は、Pararule-Plusの追加が、より深い推論の深さを必要とする例でモデルのパフォーマンスを向上させる可能性があることを示しています。
ソースコードとデータは、https://github.com/strong-ai-lab/multi-step-deductive-rasoning-over-anatural-languageで入手できます。

要約(オリジナル)

Combining deep learning with symbolic logic reasoning aims to capitalize on the success of both fields and is drawing increasing attention. Inspired by DeepLogic, an end-to-end model trained to perform inference on logic programs, we introduce IMA-GloVe-GA, an iterative neural inference network for multi-step reasoning expressed in natural language. In our model, reasoning is performed using an iterative memory neural network based on RNN with a gated attention mechanism. We evaluate IMA-GloVe-GA on three datasets: PARARULES, CONCEPTRULES V1 and CONCEPTRULES V2. Experimental results show DeepLogic with gated attention can achieve higher test accuracy than DeepLogic and other RNN baseline models. Our model achieves better out-of-distribution generalisation than RoBERTa-Large when the rules have been shuffled. Furthermore, to address the issue of unbalanced distribution of reasoning depths in the current multi-step reasoning datasets, we develop PARARULE-Plus, a large dataset with more examples that require deeper reasoning steps. Experimental results show that the addition of PARARULE-Plus can increase the model’s performance on examples requiring deeper reasoning depths. The source code and data are available at https://github.com/Strong-AI-Lab/Multi-Step-Deductive-Reasoning-Over-Natural-Language.

arxiv情報

著者 Qiming Bao,Alex Yuxuan Peng,Tim Hartill,Neset Tan,Zhenyun Deng,Michael Witbrock,Jiamou Liu
発行日 2025-04-17 11:11:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.LO | Multi-Step Deductive Reasoning Over Natural Language: An Empirical Study on Out-of-Distribution Generalisation はコメントを受け付けていません