Semantically Encoding Activity Labels for Context-Aware Human Activity Recognition

要約

以前の作業は、主にマルチラベル分類問題としてCa-HARを定式化しています。モデル入力は時系列センサーデータであり、ターゲットラベルは、特定のアクティビティまたはコンテキストが発生するかどうかを表すバイナリエンコーディングです。
これらのCa-HARメソッドは、各ラベルを独立して予測するか、グラフを使用して関係を手動で課しました。
ただし、両方の戦略はしばしば重要な側面を無視します。アクティビティラベルは豊富なセマンティック関係を持っています。
たとえば、ウォーキング、ジョギング、ランニングアクティビティは、同様の動きのパターンを共有しますが、ペースと強度が異なり、意味的に関連していることを示しています。
その結果、以前のCA-HARメソッドは、特に理想的なセンサータイプが利用できない場合(たとえば、オーディオセンサーのない音声を認識する)CAハーまたは状況に通常使用される騒々しいラベルを持つデータセットで、これらの固有の微妙な関係を正確にキャプチャするのに苦労しました。
この制限に対処するために、LMSを活用してCA-HARアクティビティラベルをエンコードしてセマンティック関係をキャプチャするシールを提案します。
LMSは、自然言語からの豊富なセマンティック情報を保持するベクトル埋め込みを生成します。
当社のシールアプローチは、スマートデバイスからの入力時間シリーズセンサーデータと、関連するアクティビティとコンテキストラベル(テキスト)をベクトル埋め込みとしてエンコードします。
トレーニング中、SEALは、センサーデータの表現を、共有された埋め込みスペースに対応するアクティビティ/コンテキストラベルの埋め込みに合わせます。
推論時に、シールは類似性検索を実行し、入力データに最も近い埋め込み表現を備えたCa-HARラベルを返します。
LMSは他のドメインで広く調査されていますが、驚くべきことに、Ca-HARでのその可能性は露出不足であり、私たちのアプローチがフィールドに新しい貢献をしています。
私たちの研究は、より高度なLMSをCA-HARタスクに統合するための新しい可能性を開きます。

要約(オリジナル)

Prior work has primarily formulated CA-HAR as a multi-label classification problem, where model inputs are time-series sensor data and target labels are binary encodings representing whether a given activity or context occurs. These CA-HAR methods either predicted each label independently or manually imposed relationships using graphs. However, both strategies often neglect an essential aspect: activity labels have rich semantic relationships. For instance, walking, jogging, and running activities share similar movement patterns but differ in pace and intensity, indicating that they are semantically related. Consequently, prior CA-HAR methods often struggled to accurately capture these inherent and nuanced relationships, particularly on datasets with noisy labels typically used for CA-HAR or situations where the ideal sensor type is unavailable (e.g., recognizing speech without audio sensors). To address this limitation, we propose SEAL, which leverage LMs to encode CA-HAR activity labels to capture semantic relationships. LMs generate vector embeddings that preserve rich semantic information from natural language. Our SEAL approach encodes input-time series sensor data from smart devices and their associated activity and context labels (text) as vector embeddings. During training, SEAL aligns the sensor data representations with their corresponding activity/context label embeddings in a shared embedding space. At inference time, SEAL performs a similarity search, returning the CA-HAR label with the embedding representation closest to the input data. Although LMs have been widely explored in other domains, surprisingly, their potential in CA-HAR has been underexplored, making our approach a novel contribution to the field. Our research opens up new possibilities for integrating more advanced LMs into CA-HAR tasks.

arxiv情報

著者 Wen Ge,Guanyi Mou,Emmanuel O. Agu,Kyumin Lee
発行日 2025-04-10 17:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Semantically Encoding Activity Labels for Context-Aware Human Activity Recognition はコメントを受け付けていません

Trading Graph Neural Network

要約

このペーパーでは、新しいアルゴリズム – トレーディングネットワークの資産価格に対する資産機能、ディーラー機能、および関係機能の影響を構造的に推定できる新しいアルゴリズム – トレーディンググラフネットワーク(TGNN)を提案します。
従来のシミュレートされたモーメント方法(SMM)と最近の機械学習技術の強度、グラフニューラルネットワーク(GNN)を組み合わせています。
予測精度のネットワーク中心性測定を備えた既存の縮小形式の方法よりも優れています。
この方法は、任意の構造を持つネットワークで使用でき、トレーダーと資産の両方の不均一性を可能にします。

要約(オリジナル)

This paper proposes a new algorithm — Trading Graph Neural Network (TGNN) that can structurally estimate the impact of asset features, dealer features and relationship features on asset prices in trading networks. It combines the strength of the traditional simulated method of moments (SMM) and recent machine learning techniques — Graph Neural Network (GNN). It outperforms existing reduced-form methods with network centrality measures in prediction accuracy. The method can be used on networks with any structure, allowing for heterogeneity among both traders and assets.

arxiv情報

著者 Xian Wu
発行日 2025-04-10 17:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.GN, q-fin.EC, q-fin.PR, q-fin.TR | Trading Graph Neural Network はコメントを受け付けていません

C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

要約

混合混合物(MOE)大手言語モデル(LLMS)は厳しい最適な専門家の経路に苦しんでいます。私たちの研究は、事前トレーニングから学んだ素朴な専門家の選択が改善のために驚くべき10-20%の精度ギャップを残していることを明らかにしています。
この観察に動機付けられて、各テストサンプルの異なる層の専門家を再重視または「再混合」するためのテスト時間最適化方法の新しいクラスを開発します。
テストサンプルのグラウンドトゥルースは不明であるため、サンプルのサンプルの参照セットからサンプルの「成功した隣人」によって定義された代理目標を最適化することを提案します。
モード検索、カーネル回帰、および同様の参照サンプル/タスクの平均損失に基づいて、3つのサロゲートとアルゴリズムを導入します。
経路全体を最適化するコストを削減するために、アルゴリズムを単にコア専門家の混合重量を臨界層の混合に適用します。
これは、「クリティカルレイヤー、コアエンパート、共同経路最適化(C3PO)」につながります。
C3POを最近2つのMOE LLMSに適用し、6つの広く使用されているベンチマークで調べます。
基本モデルは一貫して精度が7〜15%改善され、広く使用されているテスト時間学習ベースライン、たとえばコンテキスト内学習やプロンプト/プレフィックスチューニングを大きなマージンで上回ります。
さらに、C3P​​Oは、1-3Bのアクティブパラメーターを備えたMOE LLMSが7-9BパラメーターのLLMSを上回ることができるため、効率に対するMOEの利点を改善します。
私たちの徹底的なアブレーション研究は、MOEでのテスト時間の改善を達成することに関する新しい洞察をさらに断ります。

要約(オリジナル)

Mixture-of-Experts (MoE) Large Language Models (LLMs) suffer from severely sub-optimal expert pathways-our study reveals that naive expert selection learned from pretraining leaves a surprising 10-20% accuracy gap for improvement. Motivated by this observation, we develop a novel class of test-time optimization methods to re-weight or ‘re-mixing’ the experts in different layers jointly for each test sample. Since the test sample’s ground truth is unknown, we propose to optimize a surrogate objective defined by the sample’s ‘successful neighbors’ from a reference set of samples. We introduce three surrogates and algorithms based on mode-finding, kernel regression, and the average loss of similar reference samples/tasks. To reduce the cost of optimizing whole pathways, we apply our algorithms merely to the core experts’ mixing weights in critical layers, which enjoy similar performance but save significant computation. This leads to ‘Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)’. We apply C3PO to two recent MoE LLMs and examine it on six widely-used benchmarks. It consistently improves the base model by 7-15% in accuracy and outperforms widely used test-time learning baselines, e.g., in-context learning and prompt/prefix tuning, by a large margin. Moreover, C3PO enables MoE LLMs with 1-3B active parameters to outperform LLMs of 7-9B parameters, hence improving MoE’s advantages on efficiency. Our thorough ablation study further sheds novel insights on achieving test-time improvement on MoE.

arxiv情報

著者 Zhongyang Li,Ziyue Li,Tianyi Zhou
発行日 2025-04-10 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing はコメントを受け付けていません

Large corpora and large language models: a replicable method for automating grammatical annotation

要約

多くの言語研究は、テキストコーパスから抽出された特徴の注釈付きデータセットに依存していますが、これらのコーパスの急速な定量的成長は、言語学者が手動で大規模なデータサンプルを注釈することを実用的な困難にしています。
この論文では、迅速なエンジニアリング、トレーニング、および評価を通じて、文法的注釈において言語学者を支援するための大規模な言語モデルを活用する複製可能な監視可能な方法を提示します。
英語の評価動詞構造の正式な変動のケーススタディに適用された方法論的なパイプラインを紹介します。
全体として、少量のトレーニングデータを使用して、保有されたテストサンプルで90%以上のモデル精度に達し、将来の非常に大量の建設トークンの注釈の方法を検証します。
いくつかの重要な警告にかかわらず、将来の言語研究のツールとしてのAIカピロットの価値を強調して、文法的構造と文法的な変動と変化のより広い範囲のケーススタディに対する結果の一般化可能性について説明します。

要約(オリジナル)

Much linguistic research relies on annotated datasets of features extracted from text corpora, but the rapid quantitative growth of these corpora has created practical difficulties for linguists to manually annotate large data samples. In this paper, we present a replicable, supervised method that leverages large language models for assisting the linguist in grammatical annotation through prompt engineering, training, and evaluation. We introduce a methodological pipeline applied to the case study of formal variation in the English evaluative verb construction ‘consider X (as) (to be) Y’, based on the large language model Claude 3.5 Sonnet and corpus data from Davies’ NOW and EnTenTen21 (SketchEngine). Overall, we reach a model accuracy of over 90% on our held-out test samples with only a small amount of training data, validating the method for the annotation of very large quantities of tokens of the construction in the future. We discuss the generalisability of our results for a wider range of case studies of grammatical constructions and grammatical variation and change, underlining the value of AI copilots as tools for future linguistic research, notwithstanding some important caveats.

arxiv情報

著者 Cameron Morin,Matti Marttinen Larsson
発行日 2025-04-10 07:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large corpora and large language models: a replicable method for automating grammatical annotation はコメントを受け付けていません

MedCT: A Clinical Terminology Graph for Generative AI Applications in Healthcare

要約

中国の医療コミュニティ、すなわちMEDCTのために世界初の臨床用語を紹介します。これは、臨床基盤モデルのMedbertとモデルのMedlinkをリンクするエンティティを伴います。
MEDCTシステムは、中国の臨床データの標準化されたプログラム可能な表現を可能にし、人口の多い中国のコミュニティの新しい薬、治療経路、およびより良い患者の転帰の開発を連続的に刺激します。
さらに、MEDCT知識グラフは、大規模な言語モデル(LLM)の幻覚の問題を最小限に抑えるための原則的なメカニズムを提供するため、LLMベースの臨床応用でかなりのレベルの精度と安全性を達成します。
生成性と表現力のLLMSの緊急能力を活用することにより、生産品質の用語システムを迅速に構築し、3か月以内に現実世界の臨床分野に展開することができましたが、Snomed CTのような古典的な用語は20年以上の開発を経験しました。
私たちの実験は、MEDCTシステムが、中国語だけでなく英語のために、セマンティックマッチングとエンティティをリンクするエンティティで最先端の(SOTA)パフォーマンスを達成していることを示しています。
また、電子健康記録(EHR)の自動生成や診断意思決定の医療文書検索など、臨床タスクの代表的なスペクトルにMedCTとLLMを適用することにより、縦方向のフィールド実験を実施しました。
私たちの研究は、特に臨床LLMアプリケーションの新しいジャンルで、臨床ワークフローと患者の転帰のためのMEDCTの多数の値を示しています。
私たちは、他の非英語社会のために臨床用語を実装することを容易に再現できるように、十分なエンジニアリングの詳細でアプローチを提示します。
開発のための実際の臨床データセットとともに、用語、モデル、およびアルゴリズムを公然とリリースします。

要約(オリジナル)

We introduce the world’s first clinical terminology for the Chinese healthcare community, namely MedCT, accompanied by a clinical foundation model MedBERT and an entity linking model MedLink. The MedCT system enables standardized and programmable representation of Chinese clinical data, successively stimulating the development of new medicines, treatment pathways, and better patient outcomes for the populous Chinese community. Moreover, the MedCT knowledge graph provides a principled mechanism to minimize the hallucination problem of large language models (LLMs), therefore achieving significant levels of accuracy and safety in LLM-based clinical applications. By leveraging the LLMs’ emergent capabilities of generativeness and expressiveness, we were able to rapidly built a production-quality terminology system and deployed to real-world clinical field within three months, while classical terminologies like SNOMED CT have gone through more than twenty years development. Our experiments show that the MedCT system achieves state-of-the-art (SOTA) performance in semantic matching and entity linking tasks, not only for Chinese but also for English. We also conducted a longitudinal field experiment by applying MedCT and LLMs in a representative spectrum of clinical tasks, including electronic health record (EHR) auto-generation and medical document search for diagnostic decision making. Our study shows a multitude of values of MedCT for clinical workflows and patient outcomes, especially in the new genre of clinical LLM applications. We present our approach in sufficient engineering detail, such that implementing a clinical terminology for other non-English societies should be readily reproducible. We openly release our terminology, models and algorithms, along with real-world clinical datasets for the development.

arxiv情報

著者 Ye Chen,Dongdong Huang,Haoyun Xu,Cong Fu,Lin Sheng,Qingli Zhou,Yuqiang Shen,Kai Wang
発行日 2025-04-10 07:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MedCT: A Clinical Terminology Graph for Generative AI Applications in Healthcare はコメントを受け付けていません

Wanting to be Understood

要約

この論文では、相互の認識のための本質的な動機を探り、人間は外因性の報酬がない場合でも理解し、理解されるための基本的な意欲を持っていると仮定しています。
知覚交差パラダイムのシミュレーションを通じて、強化学習エージェントにおけるさまざまな内部報酬機能の効果を調査します。
理解するためのドライブは、積極的な推論タイプの人工的な好奇心の報酬として実装されますが、理解されるドライブは、模倣、影響/印象性、および他者のサブ反応時間予測に対する本質的な報酬を通じて実装されます。
結果は、人工的な好奇心だけでは社会的相互作用の好みにつながるわけではないが、相互の理解が相互作用に優先順位を付けるように促進することを強調することを報酬であることを示しています。
この本質的な動機は、他の行動に対して外因性の報酬を受け取るエージェントが1人のエージェントだけであるタスクの協力を促進できることを実証します。

要約(オリジナル)

This paper explores an intrinsic motivation for mutual awareness, hypothesizing that humans possess a fundamental drive to understand and to be understood even in the absence of extrinsic rewards. Through simulations of the perceptual crossing paradigm, we explore the effect of various internal reward functions in reinforcement learning agents. The drive to understand is implemented as an active inference type artificial curiosity reward, whereas the drive to be understood is implemented through intrinsic rewards for imitation, influence/impressionability, and sub-reaction time anticipation of the other. Results indicate that while artificial curiosity alone does not lead to a preference for social interaction, rewards emphasizing reciprocal understanding successfully drive agents to prioritize interaction. We demonstrate that this intrinsic motivation can facilitate cooperation in tasks where only one agent receives extrinsic reward for the behaviour of the other.

arxiv情報

著者 Chrisantha Fernando,Dylan Banarse,Simon Osindero
発行日 2025-04-10 07:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Wanting to be Understood はコメントを受け付けていません

Supervised Optimism Correction: Be Confident When LLMs Are Sure

要約

この作業では、トークンレベルのマルコフ決定プロセスの下で、監視された微調整とオフラインの強化学習の間に新しい理論的なつながりを確立し、大きな言語モデルが実際に推論のための暗黙の$ Q $機能を学習することを明らかにします。
この理論的レンズを通じて、広く使用されているビーム検索方法は、容認できない過剰な最適主義に悩まされていることを実証します。この場合、$ Q $価値の推定の膨らんだことにより、推論エラーが必然的に増幅されます。
この制限に対処するために、監視された楽観補正(SOC)を提案します。これは、監視された微調整中にトークンレベルの$ Q $値の推定にシンプルでありながら効果的な損失をもたらします。
具体的には、補助損失は暗黙の価値の正規化を採用して、専門家が使用する反応に対するモデルの信頼を高め、それにより、監視されていない応答に対する過剰な最適主義を抑制します。
GSM8K、MATH、GAOKAOなどの数学的推論ベンチマークに関する広範な実験は、一連のオープンソースモデル全体でビーム検索で提案されたSOCの優位性を示しています。

要約(オリジナル)

In this work, we establish a novel theoretical connection between supervised fine-tuning and offline reinforcement learning under the token-level Markov decision process, revealing that large language models indeed learn an implicit $Q$-function for inference. Through this theoretical lens, we demonstrate that the widely used beam search method suffers from unacceptable over-optimism, where inference errors are inevitably amplified due to inflated $Q$-value estimations of suboptimal steps. To address this limitation, we propose Supervised Optimism Correction(SOC), which introduces a simple yet effective auxiliary loss for token-level $Q$-value estimations during supervised fine-tuning. Specifically, the auxiliary loss employs implicit value regularization to boost model confidence in expert-demonstrated responses, thereby suppressing over-optimism toward insufficiently supervised responses. Extensive experiments on mathematical reasoning benchmarks, including GSM8K, MATH, and GAOKAO, showcase the superiority of the proposed SOC with beam search across a series of open-source models.

arxiv情報

著者 Junjie Zhang,Rushuai Yang,Shunyu Liu,Ting-En Lin,Fei Huang,Yi Chen,Yongbin Li,Dacheng Tao
発行日 2025-04-10 07:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Supervised Optimism Correction: Be Confident When LLMs Are Sure はコメントを受け付けていません

AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation

要約

AIが生成したテキストは、創造的な執筆やジャーナリズムからマーケティングのコンテンツや科学記事まで、ドメイン全体で増殖しています。
モデルは、ユーザーが提供する指示に従ってコヒーレントで文法的に正しい出力を生成できますが、この作業では、より基本的な質問を研究します。AI生成テキストのライティング品質をどのように評価および改善しますか?
品質評価を書くことは、基本的に主観的で専門知識が必要であるため、コミュニティからあまり注目されていません。
最初に、5つのライティングプレーファレンスデータセットを4,729の執筆品質判断に統合することにより、執筆品質ベンチマーク(WQ)を紹介します。
私たちの実験は、推論タスクに優れている最先端のLLMを含む競争力のあるベースラインが、WQのランダムベースラインをかろうじて上回ることを示しています。
次に、4つの分散テストセットで強力な一般化とWQベンチマークで74%の精度を示すために、さまざまなサイズの専門的なライティング品質報酬モデル(WQRM)を訓練します。
推論中のWQRMの実際的な利点をさらに示すために、追加のテスト時間計算を活用して複数の候補の改訂を生成およびランク付けし、初期ドラフトから高品質の出力を選択できるようにします。
9人の経験豊富な作家との人間の評価は、WQRMベースの選択が、全体で66%の専門家が好む執筆サンプルを生成し、報酬ギャップが1ポイントを超えると72.2%を生成することを確認しています。
データセットとモデルをリリースして、人間の好みに合ったAIライティングシステムの品質評価と開発の作成とのコミュニティの関与を促進します。

要約(オリジナル)

AI-generated text is proliferating across domains, from creative writing and journalism to marketing content and scientific articles. Models can follow user-provided instructions to generate coherent and grammatically correct outputs but in this work, we study a more fundamental question: how do we evaluate and improve the writing quality of AI-generated text? Writing quality assessment has received less attention from the community, in part because it is fundamentally subjective and requires expertise. We first introduce the Writing Quality Benchmark (WQ) by consolidating five writing-preference datasets into 4,729 writing quality judgments. Our experiments show that competitive baselines, including state-of-the-art LLMs that excel at reasoning tasks, barely outperform random baselines on WQ. We then train specialized Writing Quality Reward Models (WQRM) of various sizes for writing quality assessment that demonstrate strong generalization on four out-of-distribution test sets and 74% accuracy on the WQ benchmark. To further show WQRM’s practical benefits during inference, we leverage additional test-time compute to generate and rank multiple candidate revisions, allowing us to select higher-quality outputs from an initial draft. Human evaluation with 9 experienced writers confirm that WQRM-based selection produces writing samples preferred by experts 66% overall, and 72.2% when the reward gap is larger than 1 point. We release our datasets and models to encourage community engagement with writing quality assessment and development of AI writing systems better aligned with human preferences.

arxiv情報

著者 Tuhin Chakrabarty,Philippe Laban,Chien-Sheng Wu
発行日 2025-04-10 07:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation はコメントを受け付けていません

How to Make LLMs Forget: On Reversing In-Context Knowledge Edits

要約

コンテキスト内の知識編集(IKE)により、パラメーターの変更なしおよびゼロコストで、大規模な言語モデル(LLM)出力を効率的に変更できます。
ただし、誤った情報や攻撃的なコンテンツを挿入するなど、反応を不透明に操作するために誤用する可能性があります。
このような悪意のある介入は、最終入力プロンプトがエンドユーザーに表示されない高レベルのラップAPIに組み込むことができます。
この問題に対処するために、IKE-Editsの検出と逆転を調査します。
まず、ブラックボックス設定であっても、次のトークンの上部10出力確率のみを使用して、IKE-EDITSを高精度(F1> 80 \%)で検出できることを実証します。
限られた出力情報を持つ独自のLLM。
さらに、特別に調整された反転トークンを使用して、Ike-Editsを逆転させるという新しいタスクを紹介します。
連続および離散反転トークンの両方を使用して検討し、複数のLLMにわたって元の編集されていない出力を回復する際に80を超える精度を達成します。
継続的な反転トークンは、編集されていないプロンプトへの影響を最小限に抑えて、特に効果的であることが証明されています。
出力分布、注意パターン、およびトークンランキングの分析を通じて、LLMに対するIKEの影響と、反転トークンがそれらをどのように緩和するかについての洞察を提供します。
この作業は、コンテキスト内の編集の潜在的な誤用に対するLLMの回復力を高め、透明性と信頼性を向上させるための重要なステップを表しています。

要約(オリジナル)

In-context knowledge editing (IKE) enables efficient modification of large language model (LLM) outputs without parameter changes and at zero-cost. However, it can be misused to manipulate responses opaquely, e.g., insert misinformation or offensive content. Such malicious interventions could be incorporated into high-level wrapped APIs where the final input prompt is not shown to end-users. To address this issue, we investigate the detection and reversal of IKE-edits. First, we demonstrate that IKE-edits can be detected with high accuracy (F1 > 80\%) using only the top-10 output probabilities of the next token, even in a black-box setting, e.g. proprietary LLMs with limited output information. Further, we introduce the novel task of reversing IKE-edits using specially tuned reversal tokens. We explore using both continuous and discrete reversal tokens, achieving over 80\% accuracy in recovering original, unedited outputs across multiple LLMs. Our continuous reversal tokens prove particularly effective, with minimal impact on unedited prompts. Through analysis of output distributions, attention patterns, and token rankings, we provide insights into IKE’s effects on LLMs and how reversal tokens mitigate them. This work represents a significant step towards enhancing LLM resilience against potential misuse of in-context editing, improving their transparency and trustworthiness.

arxiv情報

著者 Paul Youssef,Zhixue Zhao,Jörg Schlötterer,Christin Seifert
発行日 2025-04-10 09:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How to Make LLMs Forget: On Reversing In-Context Knowledge Edits はコメントを受け付けていません

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering

要約

機械翻訳評価の着実な進歩にもかかわらず、既存の自動メトリックは、文の境界を超えて意味がどれほどうまく保持されているかを把握するのに苦労しています。
人間の判断を模倣するために訓練された単一の内因性の品質スコアへの依存は、長く複雑な文章の翻訳を評価するには不十分である可能性があり、より正確に重要な情報がコンテキストの翻訳によって伝えられるかを評価する「実用的」アプローチが必要であると仮定します。
TREQA(質問回答による翻訳評価)を紹介します。これは、元のソースまたはリファレンステキストの重要な情報をターゲットにする翻訳の正確な翻訳にどのように正確に正確に回答するかを評価することにより、翻訳の品質を補外的に評価するフレームワークです。
文学テキストなどの長期的な理解を必要とする挑戦的なドメインでは、TREQAが競争力があり、場合によっては、人間の判断と相関するように明示的に最適化されることはありませんが、ランキングの代替段落レベルの翻訳で最先端のニューラルおよびLLMベースのメトリックを上回ることを示します。
さらに、生成された質問と回答は解釈可能性を提供します。経験的分析は、評価されたデータセットの専門家によって特定された翻訳エラーを効果的にターゲットにしていることを示しています。
私たちのコードは、https://github.com/deep-spin/treqaで入手できます

要約(オリジナル)

Despite the steady progress in machine translation evaluation, existing automatic metrics struggle to capture how well meaning is preserved beyond sentence boundaries. We posit that reliance on a single intrinsic quality score, trained to mimic human judgments, might be insufficient for evaluating translations of long, complex passages, and a more “pragmatic” approach that assesses how accurately key information is conveyed by a translation in context is needed. We introduce TREQA (Translation Evaluation via Question-Answering), a framework that extrinsically evaluates translation quality by assessing how accurately candidate translations answer reading comprehension questions that target key information in the original source or reference texts. In challenging domains that require long-range understanding, such as literary texts, we show that TREQA is competitive with and, in some cases, outperforms state-of-the-art neural and LLM-based metrics in ranking alternative paragraph-level translations, despite never being explicitly optimized to correlate with human judgments. Furthermore, the generated questions and answers offer interpretability: empirical analysis shows that they effectively target translation errors identified by experts in evaluated datasets. Our code is available at https://github.com/deep-spin/treqa

arxiv情報

著者 Patrick Fernandes,Sweta Agrawal,Emmanouil Zaranis,André F. T. Martins,Graham Neubig
発行日 2025-04-10 09:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering はコメントを受け付けていません