ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation

要約

現在の手話機械の翻訳システムは、標識をテキストに変換するために、手の動き、表情と身体の姿勢、自然言語処理の認識に依存しています。
最近のアプローチでは、トランスアーキテクチャを使用して、位置エンコーディングを介して長距離依存関係をモデル化しています。
しかし、それらは、高フレームレートでキャプチャされたジェスチャー間の細かく密接な短距離の時間的依存性を認識する際の精度がありません。
さらに、彼らの高い計算の複雑さは、非効率的なトレーニングにつながります。
これらの問題を緩和するために、ゲーティングメカニズムを介した機能抽出と適応機能の重み付けのためのコンポーネントを組み込んだアダプティブトランス(ADAT)を提案します。
ADATを評価するために、最初の公共医療アメリカの手話データセットであるMedaslを紹介します。
サインツーグロスからテキストへの実験では、ADATはエンコーダデコーダートランスを上回り、BLEU-4の精度を0.1%改善しながら、トレーニング時間をPHOENIX14Tで14.33%、MEDASLで3.24%削減します。
サインツーテキスト実験では、精度を8.7%向上させ、Phoenix14Tでトレーニング時間を2.8%削減し、MEDASLでの精度が4.7%高く、7.17%のトレーニングを達成します。
サインツーテキストのエンコーダーのみおよびデコーダーのみのベースラインと比較して、ADATは、デュアルストリーム構造のために最大12.1%遅くなっているにもかかわらず、少なくとも6.8%の精度です。

要約(オリジナル)

Current sign language machine translation systems rely on recognizing hand movements, facial expressions and body postures, and natural language processing, to convert signs into text. Recent approaches use Transformer architectures to model long-range dependencies via positional encoding. However, they lack accuracy in recognizing fine-grained, short-range temporal dependencies between gestures captured at high frame rates. Moreover, their high computational complexity leads to inefficient training. To mitigate these issues, we propose an Adaptive Transformer (ADAT), which incorporates components for enhanced feature extraction and adaptive feature weighting through a gating mechanism to emphasize contextually relevant features while reducing training overhead and maintaining translation accuracy. To evaluate ADAT, we introduce MedASL, the first public medical American Sign Language dataset. In sign-to-gloss-to-text experiments, ADAT outperforms the encoder-decoder transformer, improving BLEU-4 accuracy by 0.1% while reducing training time by 14.33% on PHOENIX14T and 3.24% on MedASL. In sign-to-text experiments, it improves accuracy by 8.7% and reduces training time by 2.8% on PHOENIX14T and achieves 4.7% higher accuracy and 7.17% faster training on MedASL. Compared to encoder-only and decoder-only baselines in sign-to-text, ADAT is at least 6.8% more accurate despite being up to 12.1% slower due to its dual-stream structure.

arxiv情報

著者 Nada Shahin,Leila Ismail
発行日 2025-04-16 10:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | ADAT: Time-Series-Aware Adaptive Transformer Architecture for Sign Language Translation はコメントを受け付けていません

Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation

要約

シーケンシャル推奨(SEQREC)は、ユーザーの歴史的相互作用からシーケンシャルパターンをキャプチャし、多くの実際の推奨システムで重要な役割を果たすことにより、次の項目を予測することを目的としています。
ただし、既存のアプローチは、主に直接的なフォワード計算パラダイムを採用しています。ここでは、シーケンスエンコーダの最終的な隠された状態がユーザー表現として機能します。
この推論パラダイムは、計算の深さが限られているため、ユーザーの好みの複雑な進化性の性質をモデル化するのに苦労し、長期尾アイテムの微妙な理解を欠いて、最適ではないパフォーマンスにつながると主張します。
この問題に対処するために、暗黙のマルチステップ推論を通じてユーザー表現を強化する推奨システムの最初の推論時間コンピューティングフレームワークである\ textBf {Recec}を提案します。
具体的には、Recherecは、マルチステップ推論スペースからスペースをエンコードする元のアイテムを分離するための特別な推論位置の埋め込みを組み込んでいる間、シーケンスの最後の隠し状態をシーケンシャルな推奨に自動網羅してフィードします。
さらに、2つの軽量の推論ベースの学習方法、アンサンブル推論学習(ERL)と進歩的な推論学習(PRL)を導入して、ReceCの推論の可能性をさらに活用します。
5つの公開現実世界のデータセットとさまざまなSEQRECアーキテクチャに関する広範な実験は、提案されたREECの一般性と有効性を示しています。
驚くべきことに、事後分析により、RECECは複数の連続的な推奨バックボーンの性能上限を約30 \%-50 \%増加させることが明らかになりました。
したがって、この作業は、連続的な推奨のための推論時間コンピューティングの将来の研究のための新しい有望な手段を開くことができると考えています。

要約(オリジナル)

Sequential Recommendation (SeqRec) aims to predict the next item by capturing sequential patterns from users’ historical interactions, playing a crucial role in many real-world recommender systems. However, existing approaches predominantly adopt a direct forward computation paradigm, where the final hidden state of the sequence encoder serves as the user representation. We argue that this inference paradigm, due to its limited computational depth, struggles to model the complex evolving nature of user preferences and lacks a nuanced understanding of long-tail items, leading to suboptimal performance. To address this issue, we propose \textbf{ReaRec}, the first inference-time computing framework for recommender systems, which enhances user representations through implicit multi-step reasoning. Specifically, ReaRec autoregressively feeds the sequence’s last hidden state into the sequential recommender while incorporating special reasoning position embeddings to decouple the original item encoding space from the multi-step reasoning space. Moreover, we introduce two lightweight reasoning-based learning methods, Ensemble Reasoning Learning (ERL) and Progressive Reasoning Learning (PRL), to further effectively exploit ReaRec’s reasoning potential. Extensive experiments on five public real-world datasets and different SeqRec architectures demonstrate the generality and effectiveness of our proposed ReaRec. Remarkably, post-hoc analyses reveal that ReaRec significantly elevates the performance ceiling of multiple sequential recommendation backbones by approximately 30\%-50\%. Thus, we believe this work can open a new and promising avenue for future research in inference-time computing for sequential recommendation.

arxiv情報

著者 Jiakai Tang,Sunhao Dai,Teng Shi,Jun Xu,Xu Chen,Wen Chen,Wu Jian,Yuning Jiang
発行日 2025-04-16 10:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation はコメントを受け付けていません

Robust and Fine-Grained Detection of AI Generated Texts

要約

マシン生成コンテンツの理想的な検出システムは、より多くの高度なLLMが日々存在するため、あらゆる発電機でうまく機能するはずです。
既存のシステムは、短いテキストよりもAIに生成されたコンテンツを正確に識別することに苦労しています。
さらに、すべてのテキストが人間またはLLMによって完全に執筆されるわけではないため、部分的なケース、つまり人間のllmの共著テキストに焦点を当てました。
私たちの論文では、トークン分類のタスクのために構築された一連のモデルを紹介します。トークン分類は、目に見えないドメイン、目に見えないジェネレーター、非ネイティブスピーカーによるテキスト、および逆境の入力を持つテキストのテキストよりもかなり上回っている、人間のマシンの共著テキストの広範なコレクションで訓練されています。
また、23の言語を超えるいくつかの人気のあるLLMによって主に共著される2.4mを超えるこのようなテキストの新しいデータセットを紹介します。
また、各ドメインとジェネレーターの各テキストに対するモデルのパフォーマンスの調査結果を提示します。
追加の調査結果には、各敵対的な方法とのパフォーマンスの比較、入力テキストの長さ、元の人間の著者テキストと比較した生成されたテキストの特性が含まれます。

要約(オリジナル)

An ideal detection system for machine generated content is supposed to work well on any generator as many more advanced LLMs come into existence day by day. Existing systems often struggle with accurately identifying AI-generated content over shorter texts. Further, not all texts might be entirely authored by a human or LLM, hence we focused more over partial cases i.e human-LLM co-authored texts. Our paper introduces a set of models built for the task of token classification which are trained on an extensive collection of human-machine co-authored texts, which performed well over texts of unseen domains, unseen generators, texts by non-native speakers and those with adversarial inputs. We also introduce a new dataset of over 2.4M such texts mostly co-authored by several popular proprietary LLMs over 23 languages. We also present findings of our models’ performance over each texts of each domain and generator. Additional findings include comparison of performance against each adversarial method, length of input texts and characteristics of generated texts compared to the original human authored texts.

arxiv情報

著者 Ram Mohan Rao Kadiyala,Siddartha Pullakhandam,Kanwal Mehreen,Drishti Sharma,Siddhant Gupta,Jebish Purbey,Ashay Srivastava,Subhasya TippaReddy,Arvind Reddy Bobbili,Suraj Telugara Chandrashekhar,Modabbir Adeeb,Srinadh Vura,Hamza Farooq
発行日 2025-04-16 10:29:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Robust and Fine-Grained Detection of AI Generated Texts はコメントを受け付けていません

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

要約

大規模なマルチモーダル言語モデルの出現により、Scienceは現在、AIベースの技術変換のしきい値になりました。
最近、多数の新しいAIモデルとツールが提案されており、世界中の研究者と学者がより効果的かつ効率的に研究を行うことを約束しています。
これには、研究サイクルのすべての側面、特に(1)関連する文献の検索が含まれます。
(2)研究のアイデアを生成し、実験を実施する。
(3)テキストベースおよび(4)マルチモーダルコンテンツ(例:科学者や図);
(5)AIベースの自動ピアレビュー。
この調査では、これらのエキサイティングな最近の開発に関する詳細な概要を提供します。
私たちの調査では、上記の5つの側面について説明し、関連するデータセット、方法、結果(評価を含む)、および将来の研究の制限と範囲を示しています。
これらのツールの欠点と誤用の可能性に関する倫理的懸念(偽の科学、盗作、研究の完全性への害)は、私たちの議論で特に顕著な位置を占めています。
私たちの調査が、この分野への新参者の参照ガイドになるだけでなく、「AI4Science」の分野での新しいAIベースのイニシアチブの触媒になることを願っています。

要約(オリジナル)

With the advent of large multimodal language models, science is now at a threshold of an AI-based technological transformation. Recently, a plethora of new AI models and tools has been proposed, promising to empower researchers and academics worldwide to conduct their research more effectively and efficiently. This includes all aspects of the research cycle, especially (1) searching for relevant literature; (2) generating research ideas and conducting experimentation; generating (3) text-based and (4) multimodal content (e.g., scientific figures and diagrams); and (5) AI-based automatic peer review. In this survey, we provide an in-depth overview over these exciting recent developments, which promise to fundamentally alter the scientific research process for good. Our survey covers the five aspects outlined above, indicating relevant datasets, methods and results (including evaluation) as well as limitations and scope for future research. Ethical concerns regarding shortcomings of these tools and potential for misuse (fake science, plagiarism, harms to research integrity) take a particularly prominent place in our discussion. We hope that our survey will not only become a reference guide for newcomers to the field but also a catalyst for new AI-based initiatives in the area of ‘AI4Science’.

arxiv情報

著者 Steffen Eger,Yong Cao,Jennifer D’Souza,Andreas Geiger,Christian Greisinger,Stephanie Gross,Yufang Hou,Brigitte Krenn,Anne Lauscher,Yizhi Li,Chenghua Lin,Nafise Sadat Moosavi,Wei Zhao,Tristan Miller
発行日 2025-04-16 10:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation はコメントを受け付けていません

LLM-as-a-Judge: Reassessing the Performance of LLMs in Extractive QA

要約

抽出読解力質問応答(QA)データセットは通常、正確な一致(EM)とF1スコアを使用して評価されますが、これらのメトリックはモデルのパフォーマンスを完全にキャプチャできないことがよくあります。
大規模な言語モデル(LLM)の成功により、審査員(LLM-As-a-judge)としてのサービスを含むさまざまなタスクで採用されています。
このホワイトペーパーでは、4つの読解力データセットにわたってLLM-A-A-Judgeを使用して、QAモデルのパフォーマンスを再評価します。
これらのタスクにおけるLLM-A-a-Judgeの有効性を評価するために、LLMのさまざまなファミリーとさまざまな回答タイプを調べます。
私たちの結果は、LLM-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-deudgeが人間の判断と非常に相関しており、従来のEM/F1メトリックに取って代わることができることを示しています。
LLM-as-a-judgeを使用することにより、人間の判断との相関は、0.17(EM)および0.36(F1スコア)から0.85に大幅に改善されます。
これらの調査結果は、EMおよびF1メトリックがQAモデルの真のパフォーマンスを過小評価していることを確認しています。
LLM-as-a-judgeは、より難しい回答タイプ(ヨブなど)には完璧ではありませんが、依然としてEM/F1を上回ります。また、同じモデルがQAと判断タスクの両方で使用される場合、自己プレーファレンスなどのバイアスの問題は観察されません。

要約(オリジナル)

Extractive reading comprehension question answering (QA) datasets are typically evaluated using Exact Match (EM) and F1-score, but these metrics often fail to fully capture model performance. With the success of large language models (LLMs), they have been employed in various tasks, including serving as judges (LLM-as-a-judge). In this paper, we reassess the performance of QA models using LLM-as-a-judge across four reading comprehension QA datasets. We examine different families of LLMs and various answer types to evaluate the effectiveness of LLM-as-a-judge in these tasks. Our results show that LLM-as-a-judge is highly correlated with human judgments and can replace traditional EM/F1 metrics. By using LLM-as-a-judge, the correlation with human judgments improves significantly, from 0.17 (EM) and 0.36 (F1-score) to 0.85. These findings confirm that EM and F1 metrics underestimate the true performance of the QA models. While LLM-as-a-judge is not perfect for more difficult answer types (e.g., job), it still outperforms EM/F1, and we observe no bias issues, such as self-preference, when the same model is used for both the QA and judgment tasks.

arxiv情報

著者 Xanh Ho,Jiahao Huang,Florian Boudin,Akiko Aizawa
発行日 2025-04-16 11:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-as-a-Judge: Reassessing the Performance of LLMs in Extractive QA はコメントを受け付けていません

SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes

要約

MU-Shroom共有タスクを提示します。これは、命令チューニングされた大手言語モデル(LLM)の出力における幻覚やその他の過剰な過剰な間違いの検出に焦点を当てています。
MU-Shroomは、14の言語で汎用LLMに対処し、幻覚検出の問題をスパンラベルのタスクとしてフレーム化します。
多様な方法論を採用している43の参加チームから2,618の提出物を受け取りました。
多数の提出物は、幻覚検出におけるコミュニティの関心を強調しています。
参加システムの結果を提示し、経験的分析を実施して、このタスクの強力なパフォーマンスに寄与する重要な要因を特定します。
また、関連する現在の課題、特に言語間のさまざまな幻覚の程度と、幻覚スパンにラベルを付ける際の高いアノテーターの意見の不一致を強調します。

要約(オリジナル)

We present the Mu-SHROOM shared task which is focused on detecting hallucinations and other overgeneration mistakes in the output of instruction-tuned large language models (LLMs). Mu-SHROOM addresses general-purpose LLMs in 14 languages, and frames the hallucination detection problem as a span-labeling task. We received 2,618 submissions from 43 participating teams employing diverse methodologies. The large number of submissions underscores the interest of the community in hallucination detection. We present the results of the participating systems and conduct an empirical analysis to identify key factors contributing to strong performance in this task. We also emphasize relevant current challenges, notably the varying degree of hallucinations across languages and the high annotator disagreement when labeling hallucination spans.

arxiv情報

著者 Raúl Vázquez,Timothee Mickus,Elaine Zosa,Teemu Vahtola,Jörg Tiedemann,Aman Sinha,Vincent Segonne,Fernando Sánchez-Vega,Alessandro Raganato,Jindřich Libovický,Jussi Karlgren,Shaoxiong Ji,Jindřich Helcl,Liane Guillou,Ona de Gibert,Jaione Bengoetxea,Joseph Attieh,Marianna Apidianaki
発行日 2025-04-16 11:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes はコメントを受け付けていません

Language Models as Quasi-Crystalline Thought: Structure, Constraint, and Emergence in Generative Systems

要約

このエッセイは、大規模な言語モデル(LLM)と準結晶の類似性を提案しています。周期的な繰り返しなしにグローバルな一貫性を示すシステムと、局所的な制約によって生成されるシステムです。
LLMは予測精度、事実、または整列の観点から評価されることがよくありますが、この構造的視点は、それらの最も特徴的な行動が内部的に共鳴する言語パターンの生成であることを示唆しています。
準クリスタルが物理システムの順序の再定義を強制したように、LLMを準構造化言語の発電機として見ていると、評価と設計のための新しいパスが開かれます。トークンレベルの精度よりも制約の伝播を特権化し、固定された意味よりもフォームの一貫性を示します。
LLM出力は、彼らが言うことだけでなく、それらを整理する制約と一貫性のパターンのために読む必要があります。
このシフトは、生成言語を緊急パターンの空間として再構成します。LLMは完全にランダムでも厳密にもルールベースではありませんが、制約、共鳴、構造の深さの論理によって定義されます。

要約(オリジナル)

This essay proposes an analogy between large language models (LLMs) and quasicrystals: systems that exhibit global coherence without periodic repetition and that are generated through local constraints. While LLMs are often evaluated in terms of predictive accuracy, factuality, or alignment, this structural perspective suggests that their most characteristic behavior is the production of internally resonant linguistic patterns. Just as quasicrystals forced a redefinition of order in physical systems, viewing LLMs as generators of quasi-structured language opens new paths for evaluation and design: privileging propagation of constraint over token-level accuracy, and coherence of form over fixed meaning. LLM outputs should be read not only for what they say, but for the patterns of constraint and coherence that organize them. This shift reframes generative language as a space of emergent patterning: LLMs are neither fully random nor strictly rule-based, but defined by a logic of constraint, resonance, and structural depth.

arxiv情報

著者 Jose Manuel Guevara-Vela
発行日 2025-04-16 11:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Models as Quasi-Crystalline Thought: Structure, Constraint, and Emergence in Generative Systems はコメントを受け付けていません

Bayesian dynamic borrowing considering semantic similarity between outcomes for disproportionality analysis in FAERS

要約

自発的な報告システム(SRSS)の有害事象(AES)の定量的識別を強化するためのベイジアンダイナミック借入(BDB)アプローチを提示します。
このメソッドは、ベイジアン階層モデル内に事前に堅牢なメタ分析予測(MAP)を埋め込み、セマンティック類似性測定(SSM)を組み込んで、ターゲットPTと同様のMEDDRA優先項(PTS)から加重情報共有を可能にします。
この連続類似性ベースの借入は、現在の不均衡分析(DPA)における剛性階層グループの制限に対処します。
2015年から2019年の間にFDAの有害事象報告システム(FAERS)のデータを使用して、MEDDRA高レベルグループ(HLGT)レベルでの借入とともに、標準情報コンポーネント(IC)分析と標準情報コンポーネント(IC)分析と呼ばれるこのアプローチを評価します。
FDA製品ラベルの更新から派生した新しい参照セット(PVLENS)は、公式ラベル付けの前にAEを識別する際のメソッドパフォーマンスの将来の評価を可能にしました。
IC SSMアプローチは、従来のICとHLGTベースの借入の両方に比べて感度が向上し、F1スコアのマイナーなトレードオフとYoudenのインデックスを実証しました。
IC SSMは、従来のICよりも早く5か月以上にわたってより多くの真の陽性を特定し、検出された信号を一貫して特定しました。
わずかに低い凝集体のユーデンのインデックスにもかかわらず、IC SSMは市場後期初期の期間でより高いパフォーマンスを示し、HLGTベースの借入および従来のICよりも安定した関連する推定値を提供しました。
これらの発見は、従来のDPAメソッドに対するスケーラブルでコンテキスト対応の強化としてのSSMに基づいたベイジアン借入の使用をサポートしています。
将来の研究では、他のデータセット全体でこのアプローチを検証し、ケースレベルのデータを使用して追加の類似性メトリックとベイジアン推論戦略を調査する必要があります。

要約(オリジナル)

We present a Bayesian dynamic borrowing (BDB) approach to enhance the quantitative identification of adverse events (AEs) in spontaneous reporting systems (SRSs). The method embeds a robust meta-analytic predictive (MAP) prior within a Bayesian hierarchical model and incorporates semantic similarity measures (SSMs) to enable weighted information sharing from MedDRA Preferred Terms (PTs) that are clinical similar to the target PT. This continuous similarity-based borrowing addresses limitation of rigid hierarchical grouping in current disproportionality analysis (DPA). Using data from the FDA Adverse Event Reporting System (FAERS) between 2015 and 2019, we evalute this approach – termed IC SSM – against standard Information Component (IC) analysis and IC with borrowing at the MedDRA high-level group term (HLGT) level. A novel references set (PVLens), derived from FDA product label updates, enabled prospective evaluation of method performance in identifying AEs prior to official labeling. The IC SSM approach demonstrated improved sensitivity compared to both traditional IC and HLGT-based borrowing, with minor trade-offs in F1 scores and Youden’s index. IC SSM consistently identified more true positives and detected signals over 5 months sooner than traditional IC. Despite a marginally lower aggregate Youden’s index, IC SSM showed higher performance in the early post-marketing period, providing more stable and relevant estimates than HLGT-based borrowing and traditional IC. These findings support the use of SSM-informed Bayesian borrowing as a scalable and context-aware enhancement to traditional DPA methods. Future research should validate this approach across other datasets and explore additional similarity metrics and Bayesian inference strategies using case-level data.

arxiv情報

著者 François Haguinet,Jeffery L Painter,Gregory E Powell,Andrea Callegaro,Andrew Bate
発行日 2025-04-16 13:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, G.3 | Bayesian dynamic borrowing considering semantic similarity between outcomes for disproportionality analysis in FAERS はコメントを受け付けていません

Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings

要約

強化学習(RL)は、特に翻訳の品質を正確に評価する強力な報酬モデルと組み合わせた場合、神経機械翻訳システムをトレーニングするための効果的で堅牢な方法であることが証明されています。
ただし、ほとんどの研究では、文レベルのフィードバックを使用するRLメソッドに焦点を当てており、報酬スパースの問題により非効率的な学習信号につながります。モデルは文全体の単一スコアを受け取ります。
これに対処するために、RLメソッドを使用してエラーの重大度レベルとともに、細粒のトークンレベルの品質評価を活用する新しいアプローチを提案します。
具体的には、トークンレベルの報酬モデルとして、最先端の品質推定システムであるXcometを使用しています。
標準のエンコーダーデコーダーと大規模な言語モデルベースの機械翻訳システムを使用して、大小の翻訳データセットで実験を実施し、翻訳品質に対する文レベルと細粒の報酬信号の影響を比較します。
我々の結果は、トークンレベルの報酬を使用したトレーニングにより、自動評価と人間の評価に従って、ベースライン上の言語ペア全体の翻訳品質が向上することを示しています。
さらに、トークンレベルの報酬の最適化は、トレーニングエポックに対する平均報酬の着実な増加によって証明されるトレーニングの安定性を改善します。

要約(オリジナル)

Reinforcement learning (RL) has been proven to be an effective and robust method for training neural machine translation systems, especially when paired with powerful reward models that accurately assess translation quality. However, most research has focused on RL methods that use sentence-level feedback, leading to inefficient learning signals due to the reward sparsity problem — the model receives a single score for the entire sentence. To address this, we propose a novel approach that leverages fine-grained, token-level quality assessments along with error severity levels using RL methods. Specifically, we use xCOMET, a state-of-the-art quality estimation system, as our token-level reward model. We conduct experiments on small and large translation datasets with standard encoder-decoder and large language models-based machine translation systems, comparing the impact of sentence-level versus fine-grained reward signals on translation quality. Our results show that training with token-level rewards improves translation quality across language pairs over baselines according to both automatic and human evaluation. Furthermore, token-level reward optimization improves training stability, evidenced by a steady increase in mean rewards over training epochs.

arxiv情報

著者 Miguel Moura Ramos,Tomás Almeida,Daniel Vareta,Filipe Azevedo,Sweta Agrawal,Patrick Fernandes,André F. T. Martins
発行日 2025-04-16 13:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings はコメントを受け付けていません

Gauging Overprecision in LLMs: An Empirical Study

要約

最近、大規模な言語モデル(LLMS)の自信過剰は、LLM世代の信頼性を定量化する際の根本的な重要性のために、かなりの注目を集めています。
ただし、既存のアプローチでは、\ textit {ブラックボックスLLMS}に自信(\ textit {verbalized conestion})を生み出すように促します。
\ textit {overprecision}と呼ばれる認知科学の自信過剰の異なる側面に触発され、ブラックボックスLLMSでの研究のためのフレームワークを設計しました。
このフレームワークには、3つの主要なフェーズが含まれています。1)生成、2)洗練、3)評価。
生成段階では、LLMに、ある程度の信頼性を持つ間隔の形で数値の質問に対する回答を生成するよう促します。
この信頼レベルはプロンプトに課されており、LLMが以前のアプローチと同様に生成する必要はありません。
さまざまなプロンプト技術を使用し、同じプロンプトを複数回使用して、生成プロセスにおけるランダム性の影響を評価します。
改良段階では、前の段階からの回答が改良され、より良い答えが生成されます。
LLMの回答は、評価段階で評価および研究され、その内部作業を理解します。
この研究により、LLMの過剰受容に関するさまざまな洞察を得ることができました:1)LLMは数値タスクのために非常に非調整されています。
{\ color {blue} 3)} llm数値精度は、タスク、回答のスケール、およびプロンプトテクニック{\ color {blue} 4)回答の改良は、ほとんどの場合精度を改善しません}。
この研究は、LLMの過度の自信に関する新しい視点を提供し、LLMの過剰予測の強力なベースラインとして機能すると考えています。

要約(オリジナル)

Recently, overconfidence in large language models (LLMs) has garnered considerable attention due to its fundamental importance in quantifying the trustworthiness of LLM generation. However, existing approaches prompt the \textit{black box LLMs} to produce their confidence (\textit{verbalized confidence}), which can be subject to many biases and hallucinations. Inspired by a different aspect of overconfidence in cognitive science called \textit{overprecision}, we designed a framework for its study in black box LLMs. This framework contains three main phases: 1) generation, 2) refinement and 3) evaluation. In the generation phase we prompt the LLM to generate answers to numerical questions in the form of intervals with a certain level of confidence. This confidence level is imposed in the prompt and not required for the LLM to generate as in previous approaches. We use various prompting techniques and use the same prompt multiple times to gauge the effects of randomness in the generation process. In the refinement phase, answers from the previous phase are refined to generate better answers. The LLM answers are evaluated and studied in the evaluation phase to understand its internal workings. This study allowed us to gain various insights into LLM overprecision: 1) LLMs are highly uncalibrated for numerical tasks 2) {\color{blue}there is no correlation between the length of the interval and the imposed confidence level, which can be symptomatic of a a) lack of understanding of the concept of confidence or b) inability to adjust self-confidence by following instructions}, {\color{blue}3)} LLM numerical precision differs depending on the task, scale of answer and prompting technique {\color{blue}4) Refinement of answers doesn’t improve precision in most cases}. We believe this study offers new perspectives on LLM overconfidence and serves as a strong baseline for overprecision in LLMs.

arxiv情報

著者 Adil Bahaj,Hamed Rahimi,Mohamed Chetouani,Mounir Ghogho
発行日 2025-04-16 14:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Gauging Overprecision in LLMs: An Empirical Study はコメントを受け付けていません