NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models

要約

パズル、シリーズ、アナロジーを含む認知的テキストおよび視覚的推論タスクは、テキストと空間の両方でパターンを迅速に推論し、解読し、評価する能力を要求します。
膨大な量の人間がキュレーションしたデータに関する広範なトレーニングにより、LLMSとVLMSは一般的な推論タスクで優れていますが、より深い認知的理解を必要とするより複雑な推論と格闘しています。
NTSEBENCHを紹介します。これは、大規模モデルの認知的マルチモーダル推論と問題解決スキルを評価するために設計された新しいデータセットです。
データセットには、26の異なるタイプに分類された合計4,642枚の画像を添付した2728の複数選択質問が含まれています。
これらの質問は、インドの全国的なNTSE試験から引き出されており、単なる暗示学習を超えて知性と批判的思考スキルを評価するために設計された視覚的およびテキストの一般的な適性の課題が組み合わされています。
最先端のLLMとVLMを使用して、データセットにベースラインを確立します。
オープンソースモデルと妥当性モデルの比較を容易にするために、データセットインスタンスで異なるモダリティ(テキストと画像)を処理する4つの異なるモデリング戦略を提案します。

要約(オリジナル)

Cognitive textual and visual reasoning tasks, including puzzles, series, and analogies, demand the ability to quickly reason, decipher, and evaluate patterns both textually and spatially. Due to extensive training on vast amounts of human-curated data, LLMs and VLMs excel in common-sense reasoning tasks, however still struggle with more complex reasoning that demands deeper cognitive understanding. We introduce NTSEBench, a new dataset designed to evaluate cognitive multi-modal reasoning and problem-solving skills of large models. The dataset contains 2728 multiple-choice questions, accompanied by a total of 4,642 images, categorized into 26 different types. These questions are drawn from the nationwide NTSE examination in India and feature a mix of visual and textual general aptitude challenges, designed to assess intelligence and critical thinking skills beyond mere rote learning. We establish baselines on the dataset using state-of-the-art LLMs and VLMs. To facilitate a comparison between open source and propriety models, we propose four distinct modeling strategies to handle different modalities — text and images — in the dataset instances.

arxiv情報

著者 Pranshu Pandya,Vatsal Gupta,Agney S Talwarr,Tushar Kataria,Dan Roth,Vivek Gupta
発行日 2025-04-01 17:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | NTSEBENCH: Cognitive Reasoning Benchmark for Vision Language Models はコメントを受け付けていません

ActiveGAMER: Active GAussian Mapping through Efficient Rendering

要約

3Dガウススプラッティング(3DG)を利用して高品質のリアルタイムシーンマッピングと探索を実現するアクティブマッピングシステムであるActiveGamerを紹介します。
アクティブマッピングパフォーマンスを計算的に要求し、制限する従来のNERFベースの方法とは異なり、このアプローチは3DGの効率的なレンダリング機能を活用し、複雑な環境で効果的かつ効率的な探索を可能にします。
システムのコアは、レンダリングベースの情報ゲインモジュールで、次のベストビュー計画の最も有益な視点を動的に識別し、幾何学的および測光再構成の精度の両方を強化します。
ActiveGamerは、粗から洗練された探索、補充後、グローバルローカルなキーフレーム選択戦略を組み合わせて、慎重にバランスの取れたフレームワークを統合し、再構成の完全性と忠実度を最大化します。
当社のシステムは、最先端の幾何学的および測光の精度と完全性で環境を自律的に調査および再構築し、両方の側面で既存のアプローチを大幅に上回ります。
レプリカやMP3Dなどのベンチマークデータセットに関する広範な評価は、アクティブマッピングタスクにおけるActiveGamerの有効性を強調しています。

要約(オリジナル)

We introduce ActiveGAMER, an active mapping system that utilizes 3D Gaussian Splatting (3DGS) to achieve high-quality, real-time scene mapping and exploration. Unlike traditional NeRF-based methods, which are computationally demanding and restrict active mapping performance, our approach leverages the efficient rendering capabilities of 3DGS, allowing effective and efficient exploration in complex environments. The core of our system is a rendering-based information gain module that dynamically identifies the most informative viewpoints for next-best-view planning, enhancing both geometric and photometric reconstruction accuracy. ActiveGAMER also integrates a carefully balanced framework, combining coarse-to-fine exploration, post-refinement, and a global-local keyframe selection strategy to maximize reconstruction completeness and fidelity. Our system autonomously explores and reconstructs environments with state-of-the-art geometric and photometric accuracy and completeness, significantly surpassing existing approaches in both aspects. Extensive evaluations on benchmark datasets such as Replica and MP3D highlight ActiveGAMER’s effectiveness in active mapping tasks.

arxiv情報

著者 Liyan Chen,Huangying Zhan,Kevin Chen,Xiangyu Xu,Qingan Yan,Changjiang Cai,Yi Xu
発行日 2025-04-01 17:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ActiveGAMER: Active GAussian Mapping through Efficient Rendering はコメントを受け付けていません

Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

要約

検証可能な報酬(RLVR)による強化学習は、特に構造化された参照回答が検証のためにアクセスできる場合、大規模な言語モデル(LLM)の数学的推論とコーディングパフォーマンスの強化に大きな成功を示しています。
ただし、より広範で構造化されていないドメインへの拡張は未開拓のままです。
この作業では、医学、化学、心理学、経済学、教育を含む多様な現実世界のドメインにわたるRLVRの有効性とスケーラビリティを調査します。
広範なドメインタスクに関するバイナリ検証判断は、専門家が書いた参照回答が存在する場合、さまざまなLLMで高い一貫性を示すことを明らかにします。
この発見に動機付けられて、私たちは、特に自由形式の非構造化された回答シナリオで、バイナリの検証によってもたらされる制限を克服するために、柔らかくモデルベースの報酬信号を生成する生成スコアリング手法を利用します。
さらに、ドメイン固有の広範な注釈を必要とせずに、比較的小(7b)LLMを使用して、クロスドメイン生成報酬モデルをトレーニングする可能性を実証します。
包括的な実験を通じて、RLVRフレームワークは明確なパフォーマンスの向上を確立し、フリーフォームの設定でドメイン全体でQWEN2.5-72BやDeepSeek-R1-Distill-QWEN-32Bなどの最先端のオープンソースアライメントモデルを大幅に上回ります。
私たちのアプローチは、RLVRの堅牢性、柔軟性、およびスケーラビリティを特に強化し、複雑でノイズの多いラベルシナリオにおける実用的な強化学習アプリケーションへの実質的なステップを表します。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has demonstrated significant success in enhancing mathematical reasoning and coding performance of large language models (LLMs), especially when structured reference answers are accessible for verification. However, its extension to broader, less structured domains remains unexplored. In this work, we investigate the effectiveness and scalability of RLVR across diverse real-world domains including medicine, chemistry, psychology, economics, and education, where structured reference answers are typically unavailable. We reveal that binary verification judgments on broad-domain tasks exhibit high consistency across various LLMs provided expert-written reference answers exist. Motivated by this finding, we utilize a generative scoring technique that yields soft, model-based reward signals to overcome limitations posed by binary verifications, especially in free-form, unstructured answer scenarios. We further demonstrate the feasibility of training cross-domain generative reward models using relatively small (7B) LLMs without the need for extensive domain-specific annotation. Through comprehensive experiments, our RLVR framework establishes clear performance gains, significantly outperforming state-of-the-art open-source aligned models such as Qwen2.5-72B and DeepSeek-R1-Distill-Qwen-32B across domains in free-form settings. Our approach notably enhances the robustness, flexibility, and scalability of RLVR, representing a substantial step towards practical reinforcement learning applications in complex, noisy-label scenarios.

arxiv情報

著者 Yi Su,Dian Yu,Linfeng Song,Juntao Li,Haitao Mi,Zhaopeng Tu,Min Zhang,Dong Yu
発行日 2025-04-01 14:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains はコメントを受け付けていません

TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

要約

通信詐欺の検出は、オーディオ信号を推論指向のテキスト分析と統合する高品質のマルチモーダルトレーニングデータがないため、重大な課題に直面しています。
このギャップに対処するために、自動化されたテレコム詐欺分析のために特別に設計された最初のオープンソースオーディオテキストスローチンキングデータセットであるTeleantifraud-28Kを提示します。
データセットは、3つの戦略を通じて構築されています。(1)プライバシーに保存されたテキストトゥルースサンプル生成自動的に音声認識(ASR)通話録音(匿名化された元のオーディオを使用)を使用し、テキストツースピーチ(TTS)モデル再生を通じて実世界の一貫性を確保します。
(2)シナリオカバレッジを拡大するための本物のASR出力に関する大規模な言語モデル(LLM)ベースの自己計算サンプリングを介したセマンティック強化。
(3)事前に定義されたコミュニケーションシナリオと詐欺の類型を通じて、新たな詐欺戦術をシミュレートするマルチエージェント敵対的統合。
生成されたデータセットには、28,511が厳密に処理された音声テキストペアが含まれており、詐欺の推論のための詳細な注釈が付いています。
データセットは、シナリオ分類、詐欺検出、詐欺タイプ分類の3つのタスクに分けられます。
さらに、テレコム詐欺検出タスクのモデルパフォーマンスの体系的なテストを容易にするために、データセットから比例してサンプリングされたインスタンスを含む標準化された評価ベンチマークであるTeleantifraud-benchを構築します。
また、ハイブリッドの実質/合成データで訓練された生産最適化された監視された微調整(SFT)モデルを貢献し、データ処理フレームワークをオープンソーシングして、コミュニティ駆動型のデータセット拡張を可能にします。
この作業は、データのプライバシーとシナリオの多様性における重要な課題に対処しながら、マルチモーダル反燃焼研究の基礎フレームワークを確立します。
このプロジェクトは、https://github.com/jimmyma99/teleantifraudでリリースされます。

要約(オリジナル)

The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.

arxiv情報

著者 Zhiming Ma,Peidong Wang,Minhua Huang,Jingpeng Wang,Kai Wu,Xiangzhao Lv,Yachun Pang,Yin Yang,Wenjie Tang,Yuchen Kang
発行日 2025-04-01 14:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection はコメントを受け付けていません

A Comparative Study of Scanpath Models in Graph-Based Visualization

要約

情報視覚化(Infovis)システムは、視覚表現を利用してデータ解釈を強化します。
インターフェイス設計を最適化するには、視覚的な注意がどのように割り当てられるかを理解することが不可欠です。
ただし、視力(ET)データを収集すると、コスト、プライバシー、スケーラビリティに関連する課題があります。
計算モデルは、視線パターンを予測するための代替案を提供し、それによってインフォビスの研究を進めます。
私たちの研究では、デジタルフォレンジックのコンテキスト内でさまざまな複雑さの質問に回答しながらグラフを分析した40人の参加者とのET実験を実施しました。
人間のスキャンパスを、deepgaze、umss、gazeformerなどのモデルによって生成された合成のスキャンと比較しました。
私たちの研究は、これらのモデルの精度を評価し、質問の複雑さとノードの数がパフォーマンスにどのように影響するかを調べます。
この作業は、視覚分析における予測モデリングの開発に貢献し、Infovisシステムの設計と有効性を高めることができる洞察を提供します。

要約(オリジナル)

Information Visualization (InfoVis) systems utilize visual representations to enhance data interpretation. Understanding how visual attention is allocated is essential for optimizing interface design. However, collecting Eye-tracking (ET) data presents challenges related to cost, privacy, and scalability. Computational models provide alternatives for predicting gaze patterns, thereby advancing InfoVis research. In our study, we conducted an ET experiment with 40 participants who analyzed graphs while responding to questions of varying complexity within the context of digital forensics. We compared human scanpaths with synthetic ones generated by models such as DeepGaze, UMSS, and Gazeformer. Our research evaluates the accuracy of these models and examines how question complexity and number of nodes influence performance. This work contributes to the development of predictive modeling in visual analytics, offering insights that can enhance the design and effectiveness of InfoVis systems.

arxiv情報

著者 Angela Lopez-Cardona,Parvin Emami,Sebastian Idesis,Saravanakumar Duraisamy,Luis A. Leiva,Ioannis Arapakis
発行日 2025-04-01 12:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | A Comparative Study of Scanpath Models in Graph-Based Visualization はコメントを受け付けていません

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

要約

多くのロボット工学およびVR/ARアプリケーションでは、カメラの動きが高速なモーションブラーを引き起こし、既存のカメラポーズ推定方法を失敗させます。
この作業では、モーションのぼやけを、それを望ましくないアーティファクトとして扱うのではなく、モーション推定の豊富な手がかりとして活用する新しいフレームワークを提案します。
私たちのアプローチは、単一のモーションブルーされた画像から直接、密なモーションフローフィールドと単眼深度マップを予測することで機能します。
次に、小さな動きの仮定の下で線形最小二乗問題を解くことにより、瞬時カメラ速度を回復します。
本質的に、私たちの方法は、高速で攻撃的なカメラの動きを堅牢にキャプチャするIMUのような測定を生成します。
モデルをトレーニングするために、Scannet ++ V2から導出された現実的な合成モーションブルールを使用して大規模なデータセットを構築し、完全に微分可能なパイプラインを使用して実際のデータでエンドツーエンドをトレーニングすることにより、モデルをさらに改良します。
現実世界のベンチマークでの広範な評価は、この方法が最先端の角度および翻訳速度推定値を達成し、Mast3RやColMapなどの現在の方法を上回ることを示しています。

要約(オリジナル)

In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

arxiv情報

著者 Jerred Chen,Ronald Clark
発行日 2025-04-01 09:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image はコメントを受け付けていません

Self-Supervised Pretraining for Aerial Road Extraction

要約

航空画像セグメンテーションのための深いニューラルネットワークには、大量のラベル付きデータが必要ですが、正確な注釈を備えた高品質の空中データセットは、生成するのに少ない費用がかかります。
この制限に対処するために、ラベル付けされたデータへの依存を減らしながらセグメンテーションパフォーマンスを改善する自己監視された事前削除方法を提案します。
私たちのアプローチでは、入力ベースの前orainingを使用します。モデルは、航空画像の不足している領域を再構築することを学習し、道路抽出のために微調整される前に固有の構造をキャプチャします。
この方法は、一般化を改善し、ドメインシフトへの堅牢性を高め、アーキテクチャとデータセットの選択をモデル化するために不変です。
実験では、当社の前登録は、特に低データレジームでセグメンテーションの精度を大幅に向上させ、航空画像分析のためのスケーラブルなソリューションになっていることが示されています。

要約(オリジナル)

Deep neural networks for aerial image segmentation require large amounts of labeled data, but high-quality aerial datasets with precise annotations are scarce and costly to produce. To address this limitation, we propose a self-supervised pretraining method that improves segmentation performance while reducing reliance on labeled data. Our approach uses inpainting-based pretraining, where the model learns to reconstruct missing regions in aerial images, capturing their inherent structure before being fine-tuned for road extraction. This method improves generalization, enhances robustness to domain shifts, and is invariant to model architecture and dataset choice. Experiments show that our pretraining significantly boosts segmentation accuracy, especially in low-data regimes, making it a scalable solution for aerial image analysis.

arxiv情報

著者 Rupert Polley,Sai Vignesh Abishek Deenadayalan,J. Marius Zöllner
発行日 2025-04-01 12:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Self-Supervised Pretraining for Aerial Road Extraction はコメントを受け付けていません

VET: A Visual-Electronic Tactile System for Immersive Human-Machine Interaction

要約

ヒューマンマシン相互作用に深い没入感を追求するために、単一のインターフェイスでより次元的な触覚入力と出力を達成することが重要な研究焦点になりました。
この研究では、視覚エレクトロニック触覚(VET)システムを紹介します。これは、視覚ベースの触覚センサー(VBT)に基づいており、電気刺激フィードバックを統合して双方向の触覚コミュニケーションを可能にします。
画面印刷準備プロセスを使用して、電気刺激フィルムをVBTとシームレスに統合し、従来の方法からの干渉を排除するシステムフレームワークを提案および実装します。
VBTSはvisuotactileシグナルを介して多次元入力をキャプチャしますが、電気刺激フィードバックは神経経路を直接刺激し、視覚型情報の干渉を防ぎます。
VETシステムの可能性は、指の電気刺激感度ゾーンの実験、およびインタラクティブなゲームおよびロボットアームの操作のアプリケーションを通じて実証されています。
このシステムは、双方向の触覚相互作用とその幅広いアプリケーションの新しい進歩への道を開きます。

要約(オリジナル)

In the pursuit of deeper immersion in human-machine interaction, achieving higher-dimensional tactile input and output on a single interface has become a key research focus. This study introduces the Visual-Electronic Tactile (VET) System, which builds upon vision-based tactile sensors (VBTS) and integrates electrical stimulation feedback to enable bidirectional tactile communication. We propose and implement a system framework that seamlessly integrates an electrical stimulation film with VBTS using a screen-printing preparation process, eliminating interference from traditional methods. While VBTS captures multi-dimensional input through visuotactile signals, electrical stimulation feedback directly stimulates neural pathways, preventing interference with visuotactile information. The potential of the VET system is demonstrated through experiments on finger electrical stimulation sensitivity zones, as well as applications in interactive gaming and robotic arm teleoperation. This system paves the way for new advancements in bidirectional tactile interaction and its broader applications.

arxiv情報

著者 Cong Zhang,Yisheng Yang,Shilong Mu,Chuqiao Lyu,Shoujie Li,Xinyue Chai,Wenbo Ding
発行日 2025-04-01 06:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VET: A Visual-Electronic Tactile System for Immersive Human-Machine Interaction はコメントを受け付けていません

Did ChatGPT or Copilot use alter the style of internet news headlines? A time series regression analysis

要約

ChatGptやCopilotなどの高度な大手言語モデル(LLM)のリリースは、テキストの作成方法を変更し、Webで見つけたコンテンツに影響を与える可能性があります。
この研究では、これら2つの人気のあるLLMSのリリースが、世界中のニュースWebサイトの見出しとリンクのライティングスタイルの変更と一致したかどうかを調査しました。
4億5100万人の見出し/リンクのデータセットで、各テキストに対して175のNLP機能が取得されました。
175のNLP機能のそれぞれに中断された時系列分析が適用され、ChatGPTおよび/またはCopilotのリリース日後に統計的に有意な持続的な変化があったかどうかを評価しました。
ChatGpt/Copilotのリリース後、合計44の機能が持続的な変化を持たないように見えました。
合計91のその他の機能は、ChatGPTおよび/またはCopilotで大きな変化を示しましたが、以前のコントロールLLMリリース日(GPT-1/2/3、Gopher)での重要性は考慮からそれらを削除しました。
この最初の分析は、これらの言語モデルが、いくつかのNLP測定のみに関して、個々のニュースヘッドライン/リンクのスタイルに限られた影響を与えた可能性があることを示唆しています。

要約(オリジナル)

The release of advanced Large Language Models (LLMs) such as ChatGPT and Copilot is changing the way text is created and may influence the content that we find on the web. This study investigated whether the release of these two popular LLMs coincided with a change in writing style in headlines and links on worldwide news websites. 175 NLP features were obtained for each text in a dataset of 451 million headlines/links. An interrupted time series analysis was applied for each of the 175 NLP features to evaluate whether there were any statistically significant sustained changes after the release dates of ChatGPT and/or Copilot. There were a total of 44 features that did not appear to have any significant sustained change after the release of ChatGPT/Copilot. A total of 91 other features did show significant change with ChatGPT and/or Copilot although significance with earlier control LLM release dates (GPT-1/2/3, Gopher) removed them from consideration. This initial analysis suggests these language models may have had a limited impact on the style of individual news headlines/links, with respect to only some NLP measures.

arxiv情報

著者 Chris Brogly,Connor McElroy
発行日 2025-04-01 06:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | Did ChatGPT or Copilot use alter the style of internet news headlines? A time series regression analysis はコメントを受け付けていません

You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation

要約

翻訳の目標は、人間であろうと機械によるものであろうと、ソース言語でいくつかのテキストが与えられ、同時にターゲット言語でテキストを作成します。
ただし、機械翻訳コミュニティの研究者は通常、セマンティックの精度と出力の自然性を同時にキャプチャすることを目的とした単一スコアを使用して、翻訳を評価します。
この論文では、情報理論の最近の進歩に基づいて、このようなシングルスコアの要約がシステムの真のパフォーマンスの完全な画像を提供しないことを示すことを数学的に証明し、経験的に実証します。
具体的には、正確性と自然性の間にトレードオフが存在することを証明し、WMT24共有タスクへの提出を評価することによりそれを実証します。
私たちの調査結果は、特定の精度メトリック(BLEUなど)の翻訳システムを最適化することでシステムの自然さを改善する一方で、メトリックに「過剰適合」するという観察など、よく知られている経験的現象を説明するのに役立ちます。
したがって、翻訳の評価方法の変更を提唱します。単一の数値を使用してシステムを比較するのではなく、精度の自然性平面で比較する必要があります。

要約(オリジナル)

The goal of translation, be it by human or by machine, is, given some text in a source language, to produce text in a target language that simultaneously 1) preserves the meaning of the source text and 2) achieves natural expression in the target language. However, researchers in the machine translation community usually assess translations using a single score intended to capture semantic accuracy and the naturalness of the output simultaneously. In this paper, we build on recent advances in information theory to mathematically prove and empirically demonstrate that such single-score summaries do not and cannot give the complete picture of a system’s true performance. Concretely, we prove that a tradeoff exists between accuracy and naturalness and demonstrate it by evaluating the submissions to the WMT24 shared task. Our findings help explain well-known empirical phenomena, such as the observation that optimizing translation systems for a specific accuracy metric (like BLEU) initially improves the system’s naturalness, while “overfitting” the system to the metric can significantly degrade its naturalness. Thus, we advocate for a change in how translations are evaluated: rather than comparing systems using a single number, they should be compared on an accuracy-naturalness plane.

arxiv情報

著者 Gergely Flamich,David Vilar,Jan-Thorsten Peter,Markus Freitag
発行日 2025-04-01 08:31:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | You Cannot Feed Two Birds with One Score: the Accuracy-Naturalness Tradeoff in Translation はコメントを受け付けていません