Regularizing Learnable Feature Extraction for Automatic Speech Recognition

要約

ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、自動音声認識(ASR)システムのための従来の固定機能抽出パイプラインに代わる魅力的な代替品です。
ただし、そのパフォーマンスは、古典的な方法と比較して不足していることがよくあります。これは、主に過剰適合に対する感受性が増加していることを示しています。
したがって、この作業は、学習可能な機能抽出フロントエンドでASRモデルをトレーニングするための正則化方法を調査します。
まず、オーディオ摂動方法を調べ、学習可能な機能のためにより大きな相対的な改善を取得できることを示します。
さらに、これらのフロントエンドのスペシアグメントの標準使用における2つの制限を特定し、これらの課題に対処するためのシンプルだが効果的な変更として、短時間フーリエ変換(STFT)ドメインでマスキングを提案します。
最後に、両方の正規化アプローチを統合すると、従来の機能と学習可能な機能のパフォーマンスギャップが効果的に閉じられます。

要約(オリジナル)

Neural front-ends are an appealing alternative to traditional, fixed feature extraction pipelines for automatic speech recognition (ASR) systems since they can be directly trained to fit the acoustic model. However, their performance often falls short compared to classical methods, which we show is largely due to their increased susceptibility to overfitting. This work therefore investigates regularization methods for training ASR models with learnable feature extraction front-ends. First, we examine audio perturbation methods and show that larger relative improvements can be obtained for learnable features. Additionally, we identify two limitations in the standard use of SpecAugment for these front-ends and propose masking in the short time Fourier transform (STFT)-domain as a simple but effective modification to address these challenges. Finally, integrating both regularization approaches effectively closes the performance gap between traditional and learnable features.

arxiv情報

著者 Peter Vieting,Maximilian Kannen,Benedikt Hilmes,Ralf Schlüter,Hermann Ney
発行日 2025-06-11 14:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントする

Steps are all you need: Rethinking STEM Education with Prompt Engineering

要約

物理学の質問に答えるタスクに適用された場合、ショットやチェーンの促しはほとんど見当たりませんが、LLMSに固有の数学的能力の欠如によって制限されており、幻覚を起こしやすいです。
エキスパート(MOE)モデルの混合物を利用することと、類似のプロンプトとともに、標準のLLMSのベースラインと比較した場合、モデルパフォーマンスの改善を示すことができます。
また、これらのプロンプト技術の限界と、モデルのパフォーマンスに対する影響についても調査します。
さらに、類似のCOTプロンプト、より小さくオープンソースモデルがアナロジープロンプトを活用できるように設計されたプロンプト技術を提案します。

要約(オリジナル)

Few shot and Chain-of-Thought prompting have shown promise when applied to Physics Question Answering Tasks, but are limited by the lack of mathematical ability inherent to LLMs, and are prone to hallucination. By utilizing a Mixture of Experts (MoE) Model, along with analogical prompting, we are able to show improved model performance when compared to the baseline on standard LLMs. We also survey the limits of these prompting techniques and the effects they have on model performance. Additionally, we propose Analogical CoT prompting, a prompting technique designed to allow smaller, open source models to leverage Analogical prompting, something they have struggled with, possibly due to a lack of specialist training data.

arxiv情報

著者 Krishnasai Addala,Kabir Dev Paul Baghel,Navya Gupta,Rishitej Reddy Vyalla,Chhavi Kirtani,Avinash Anand,Rajiv Ratn Shah
発行日 2025-06-11 14:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards

要約

検証可能な報酬(RLVR)による強化学習により、大規模な言語モデル(LLM)は、数学やコード生成などの客観的なグラウンドトゥルースの回答を備えた推論タスクで顕著なブレークスルーを達成することができました。
ただし、品質評価が本質的に主観的であり、決定的な参照を欠いている、創造的な執筆やオープンエンドの対話など、検証できないタスクには大きなギャップが残っています。
これらのドメインの既存のアプローチは、多くの場合、人間の好みで訓練されたスカラー報酬モデルに依存しています。これは、限られた一般化に悩まされ、過剰な説明や長さのバイアスなど、ハッキングに報いる傾向があります。
この作業では、検証できないタスクと検証可能な報酬の間のギャップを埋める統一されたRLVRベースのトレーニングパラダイムを提案します。
ライティングプリンシルベースのペアワイズ生成報酬モデル(GENRM)と、新しいブートストラップ相対ポリシー最適化(BRPO)アルゴリズムを紹介します。
ペアワイズライティングGenRMは、自己一定の批評を活用して主観的評価を信頼できる検証可能な報酬に変換し、BRPOはRLトレーニング中のグループロールアウト内からの一時的な参照としてブートストラップされた応答を活用することにより、動的で参照のないペアワイズ比較を可能にします。
私たちのアプローチにより、LLMSは、スカラーリワードベースラインと比較して、一貫した改善と報酬ハッキングに対する強い抵抗を示しているように、監視された微調整なしで堅牢なライティング機能を開発することができます。
さらに、私たちの方法は、社内とオープンソースのライティングベンチマークの両方で競争結果を達成します。
私たちの調査結果は、RLVRフレームワークの下でルールベース、リファレンスベース、およびリファレンスフリーの報酬モデリングを統一する可能性を示唆しているため、すべての言語タスクに適用される包括的なスケーラブルなRLトレーニングパラダイムへの道を開いています。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has enabled large language models (LLMs) to achieve remarkable breakthroughs in reasoning tasks with objective ground-truth answers, such as mathematics and code generation. However, a significant gap remains for non-verifiable tasks, like creative writing and open-ended dialogue, where quality assessment is inherently subjective and lacks definitive references. Existing approaches for these domains often rely on scalar reward models trained with human preferences, which suffer from limited generalization and are prone to reward hacking, such as over-explanation and length bias. In this work, we propose a unified RLVR-based training paradigm that bridges the gap between non-verifiable tasks and verifiable rewards. We introduce a writing-principle-based pairwise Generative Reward Model (GenRM) and a novel Bootstrapped Relative Policy Optimization (BRPO) algorithm. The pairwise writing GenRM leverages self-principled critique to transform subjective assessments into reliable, verifiable rewards, while BRPO enables dynamic, reference-free pairwise comparison by leveraging a bootstrapped response as temporary reference from within group rollouts during RL training. Our approach empowers LLMs to develop robust writing capabilities without supervised fine-tuning, as demonstrated by Writing-Zero, which shows consistent improvement and strong resistance to reward hacking compared to scalar reward baselines. Furthermore, our method achieves competitive results on both in-house and open-source writing benchmarks. Our findings suggest the potential to unify rule-based, reference-based, and reference-free reward modeling under the RLVR framework, thus paving the way for a comprehensive and scalable RL training paradigm applicable across all language tasks.

arxiv情報

著者 Ruipeng Jia,Yunyi Yang,Yongbo Gai,Kai Luo,Shihao Huang,Jianhe Lin,Xiaoxi Jiang,Guanjun Jiang
発行日 2025-06-11 14:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Unveiling the Hidden: Movie Genre and User Bias in Spoiler Detection

要約

映画のレビューのネタバレは、IMDBや腐ったトマトなどのプラットフォームで重要であり、利点と欠点を提供します。
彼らはいくつかの視聴者の選択を導くことができますが、事前にプロットの詳細を好まない人にも影響を与え、効果的なネタバレ検出を不可欠にします。
既存のネタバレ検出方法は、主にレビューテキストを分析し、多くの場合、映画のジャンルとユーザーバイアスの影響を見落とし、有効性を制限します。
これに対処するために、映画のレビューデータを分析し、ネタバレ率のジャンル固有のバリエーションを見つけ、特定のユーザーがネタバレを投稿する可能性が高いことを特定します。
これらの調査結果に基づいて、GUSDと呼ばれる新しいスポイラー検出フレームワークを紹介します(コードはhttps://github.com/ai-explorer-123/gusdで入手できます)(ジャンル固有のユーザー固有のネタバレ検出)。
ユーザーバイアスは、レビュー履歴の動的グラフモデリングを通じて計算されます。
さらに、R2GFORMERモジュールは、グラフ情報のRetGAT(Retentive Graph Attention Network)を組み合わせ、ジャンル固有の集約のためのジャンルフォーカーを組み合わせます。
GMOE(ジャンルアウェアの専門家の混合)モデルは、ジャンルに基づいて専門の専門家にレビューをさらに割り当てます。
ベンチマークデータセットでの広範なテストは、GUSDが最新の結果を達成することを示しています。
このアプローチは、ジャンルとユーザー固有のパターンに対処し、映画のレビュープラットフォームでのユーザーエクスペリエンスを向上させることにより、ネタバレの検出を進めます。

要約(オリジナル)

Spoilers in movie reviews are important on platforms like IMDb and Rotten Tomatoes, offering benefits and drawbacks. They can guide some viewers’ choices but also affect those who prefer no plot details in advance, making effective spoiler detection essential. Existing spoiler detection methods mainly analyze review text, often overlooking the impact of movie genres and user bias, limiting their effectiveness. To address this, we analyze movie review data, finding genre-specific variations in spoiler rates and identifying that certain users are more likely to post spoilers. Based on these findings, we introduce a new spoiler detection framework called GUSD (The code is available at https://github.com/AI-explorer-123/GUSD) (Genre-aware and User-specific Spoiler Detection), which incorporates genre-specific data and user behavior bias. User bias is calculated through dynamic graph modeling of review history. Additionally, the R2GFormer module combines RetGAT (Retentive Graph Attention Network) for graph information and GenreFormer for genre-specific aggregation. The GMoE (Genre-Aware Mixture of Experts) model further assigns reviews to specialized experts based on genre. Extensive testing on benchmark datasets shows that GUSD achieves state-of-the-art results. This approach advances spoiler detection by addressing genre and user-specific patterns, enhancing user experience on movie review platforms.

arxiv情報

著者 Haokai Zhang,Shengtao Zhang,Zijian Cai,Heng Wang,Ruixuan Zhu,Zinan Zeng,Minnan Luo
発行日 2025-06-11 14:58:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | コメントする

Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation

要約

自動オープンドメインダイアログ評価は注目を集めていますが、応答の適切性を評価する複雑さのために困難なままです。
通常、真の肯定的でランダムに選択された否定的な応答で訓練された従来の評価メトリックは、コンテンツとの類似性をより多く共有する応答に高いスコアを割り当てる傾向があります。
ただし、コンテキストと高い字句のオーバーラップを持っているにもかかわらず、敵対的な負の反応は、意味的に不調和になる可能性があります。
その結果、既存のメトリックはそのような反応を効果的に評価するのに苦労し、人間の判断との相関が低い。
最近の研究では、オープンドメインの対話評価のための大規模な言語モデル(LLM)の有効性が実証されていますが、敵対的な否定的な例を処理する際の課題に直面しています。
抽象的な意味表現(AMR)強化されたドメイン固有の言語モデル(SLM)をLLMSと統合する新しい評価フレームワークを提案します。
当社のSLMは、強化されたセマンティック表現学習のためのゲーティングメカニズムを通じてAMRグラフ情報を明示的に組み込み、SLM予測とAMRの知識の両方がLLMプロンプトに統合され、堅牢な評価のために統合されています。
オープンドメインの対話評価タスクに関する広範な実験は、最先端のベースラインと比較して、方法の優位性を示しています。
私たちの包括的なアブレーション研究は、AMRグラフ情報がパフォーマンスの改善に大きく貢献していることを明らかにしています。
私たちのフレームワークは、複数のデータセットにわたる人間の判断との強い相関を達成し、対話評価のための新しいベンチマークを確立します。
私たちのコードとデータは公開されています。

要約(オリジナル)

Automatic open-domain dialogue evaluation has attracted increasing attention, yet remains challenging due to the complexity of assessing response appropriateness. Traditional evaluation metrics, typically trained with true positive and randomly selected negative responses, tend to assign higher scores to responses that share greater content similarity with contexts. However, adversarial negative responses, despite possessing high lexical overlap with contexts, can be semantically incongruous. Consequently, existing metrics struggle to effectively evaluate such responses, resulting in low correlations with human judgments. While recent studies have demonstrated the effectiveness of Large Language Models (LLMs) for open-domain dialogue evaluation, they still face challenges in handling adversarial negative examples. We propose a novel evaluation framework that integrates Abstract Meaning Representation (AMR) enhanced domain-specific language models (SLMs) with LLMs. Our SLMs explicitly incorporate AMR graph information through a gating mechanism for enhanced semantic representation learning, while both SLM predictions and AMR knowledge are integrated into LLM prompts for robust evaluation. Extensive experiments on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to state-of-the-art baselines. Our comprehensive ablation studies reveal that AMR graph information contributes substantially more to performance improvements. Our framework achieves strong correlations with human judgments across multiple datasets, establishing a new benchmark for dialogue evaluation. Our code and data are publicly available.

arxiv情報

著者 Bohao Yang,Kun Zhao,Dong Liu,Liang Zhan,Chenghua Lin
発行日 2025-06-11 15:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

要約

マルチモーダル検索拡張生成(M-RAG)は、事実知識ベース(KB)を使用して、大規模なマルチモーダルモデル(LMMS)の幻覚を阻害するための機器です。
ただし、M-Ragは、悪意のあるエントリをKBに注入することにより、システムを混乱させることを目的とした敵の新しい攻撃ベクトルを導入します。
このホワイトペーパーでは、KBにドキュメントページの画像が含まれている視覚ドキュメント検索アプリケーションをターゲットとするM-RAGに対する最初の中毒攻撃を紹介します。
2つの攻撃を提案しますが、それぞれがKBに単一の敵対的な画像のみを注入する必要があります。
まず、潜在的なユーザークエリに対して、M-RAGシステムにサービス拒否(DOS)を引き起こすための応答に影響を与えるユニバーサル攻撃を提案します。
第二に、ターゲットの誤った情報を広めることを目標に、1つまたはユーザーのクエリのグループに対するターゲット攻撃を提示します。
両方の攻撃について、多目的勾配ベースの敵対的アプローチを使用して、検索と生成の両方に最適化しながら、注入された画像を作成します。
いくつかの視覚ドキュメント検索データセット、最先端のレトリバー(埋め込みモデル)とジェネレーター(LMM)の多様なセットに対する攻撃を評価し、ユニバーサルとターゲットの両方の設定の両方で攻撃の有効性を実証します。
さらに、一般的に使用される防御、さまざまな攻撃ハイパーパラメーターの設定、アブレーション、攻撃移転可能性などの結果を提示します。

要約(オリジナル)

Multi-modal retrieval augmented generation (M-RAG) is instrumental for inhibiting hallucinations in large multi-modal models (LMMs) through the use of a factual knowledge base (KB). However, M-RAG introduces new attack vectors for adversaries that aim to disrupt the system by injecting malicious entries into the KB. In this paper, we present the first poisoning attack against M-RAG targeting visual document retrieval applications where the KB contains images of document pages. We propose two attacks, each of which require injecting only a single adversarial image into the KB. Firstly, we propose a universal attack that, for any potential user query, influences the response to cause a denial-of-service (DoS) in the M-RAG system. Secondly, we present a targeted attack against one or a group of user queries, with the goal of spreading targeted misinformation. For both attacks, we use a multi-objective gradient-based adversarial approach to craft the injected image while optimizing for both retrieval and generation. We evaluate our attacks against several visual document retrieval datasets, a diverse set of state-of-the-art retrievers (embedding models) and generators (LMMs), demonstrating the attack effectiveness in both the universal and targeted settings. We additionally present results including commonly used defenses, various attack hyper-parameter settings, ablations, and attack transferability.

arxiv情報

著者 Ezzeldin Shereen,Dan Ristea,Shae McFadden,Burak Hasircioglu,Vasilios Mavroudis,Chris Hicks
発行日 2025-06-11 15:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.CV, cs.IR | コメントする

Error-Guided Pose Augmentation: Enhancing Rehabilitation Exercise Assessment through Targeted Data Generation

要約

特に在宅施設では、患者の進歩を監視するためには、効果的なリハビリテーション評価が不可欠です。
既存のシステムは、データの不均衡や微妙な動きのエラーの検出困難などの課題にしばしば直面しています。
このペーパーでは、臨床的に関連する動きのミスをシミュレートすることにより、合成スケルトンデータを生成する方法であるエラーガイド付きポーズ増強(EGPA)を紹介します。
標準的な増強技術とは異なり、EGPAはリハビリテーションで観察される生体力学的エラーをターゲットにしています。
EGPAは、注意ベースのグラフ畳み込みネットワークと組み合わせて、複数の評価メトリック全体でパフォーマンスを向上させます。
実験は、最大27.6%の平均絶対誤差の減少と、45.8%の誤差分類精度の増加を示しています。
注意の視覚化は、モデルが臨床的に重要な関節と動きの段階に焦点を合わせ、精度と解釈性の両方を向上させることを学ぶことを示しています。
EGPAは、臨床および在宅リハビリテーションの両方のリハビリテーションコンテキストで、自動運動品質評価を改善するための有望なアプローチを提供します。

要約(オリジナル)

Effective rehabilitation assessment is essential for monitoring patient progress, particularly in home-based settings. Existing systems often face challenges such as data imbalance and difficulty detecting subtle movement errors. This paper introduces Error-Guided Pose Augmentation (EGPA), a method that generates synthetic skeleton data by simulating clinically relevant movement mistakes. Unlike standard augmentation techniques, EGPA targets biomechanical errors observed in rehabilitation. Combined with an attention-based graph convolutional network, EGPA improves performance across multiple evaluation metrics. Experiments demonstrate reductions in mean absolute error of up to 27.6 percent and gains in error classification accuracy of 45.8 percent. Attention visualizations show that the model learns to focus on clinically significant joints and movement phases, enhancing both accuracy and interpretability. EGPA offers a promising approach for improving automated movement quality assessment in both clinical and home-based rehabilitation contexts.

arxiv情報

著者 Omar Sherif,Ali Hamdi
発行日 2025-06-11 15:11:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.1 | コメントする

Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework

要約

大規模な言語モデル(LLMS)は、命令を理解し、人間のようなテキストを生成する顕著な能力を示し、基本的な動作の複製を超えて洗練されたエージェントシミュレーションを可能にします。
ただし、自由にカスタマイズ可能な文字を作成する可能性は未定のままです。
カスタマイズ可能な会話エージェントフレームワークを紹介します。LLMSを使用して、パーソナライズされた特性機能インジェクションを介して実際のキャラクターをシミュレートし、ユーザーの好みに応じて多様な文字作成を可能にします。
1,360の実世界のシーンで68のカスタマイズされた文字と13,971のマルチターンロールプレイングダイアログを含むSIMSCONVデータセットを提案します。
キャラクターは、最初に定義された要素(キャリア、願望、特性、スキル)を使用してカスタマイズされ、個人的およびソーシャルプロファイルを通じて拡張されます。
これに基づいて、さまざまな現実的な設定とトピック指定されたキャラクターインタラクションを組み込んだ自由にカスタマイズ可能なロールプレイングエージェントであるSimschatを紹介します。
SIMSCONVとWikirolevalの両方のデータセットの両方での実験結果は、既存のモデルと比較して、文字の一貫性、知識の正確性、および適切な質問拒否を維持する際のSimschatの優れたパフォーマンスを示しています。
私たちのフレームワークは、より正確でカスタマイズ可能な人間のシミュレーションを開発するための貴重な洞察を提供します。
当社のデータとコードは、https://github.com/bernard-yang/simschatで公開されています。

要約(オリジナル)

Large Language Models (LLMs) demonstrate remarkable ability to comprehend instructions and generate human-like text, enabling sophisticated agent simulation beyond basic behavior replication. However, the potential for creating freely customisable characters remains underexplored. We introduce the Customisable Conversation Agent Framework, which employs LLMs to simulate real-world characters through personalised characteristic feature injection, enabling diverse character creation according to user preferences. We propose the SimsConv dataset, comprising 68 customised characters and 13,971 multi-turn role-playing dialogues across 1,360 real-world scenes. Characters are initially customised using pre-defined elements (career, aspiration, traits, skills), then expanded through personal and social profiles. Building on this, we present SimsChat, a freely customisable role-playing agent incorporating various realistic settings and topic-specified character interactions. Experimental results on both SimsConv and WikiRoleEval datasets demonstrate SimsChat’s superior performance in maintaining character consistency, knowledge accuracy, and appropriate question rejection compared to existing models. Our framework provides valuable insights for developing more accurate and customisable human simulacra. Our data and code are publicly available at https://github.com/Bernard-Yang/SimsChat.

arxiv情報

著者 Bohao Yang,Dong Liu,Chenghao Xiao,Kun Zhao,Chao Li,Lin Yuan,Guang Yang,Chenghua Lin
発行日 2025-06-11 15:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Advancing Exchange Rate Forecasting: Leveraging Machine Learning and AI for Enhanced Accuracy in Global Financial Markets

要約

米ドル(USD)からバングラデシュタカ(BDT)などの外国為替レートの予測は、グローバルな金融市場で極めて重要な役割を果たし、貿易、投資、経済的安定に影響を与えます。
この調査では、Yahoo Financeから供給された2018年から2023年までの過去のUSD/BDT為替レートデータを活用して、正確な予測のための高度な機械学習モデルを開発しています。
長期的な短期メモリ(LSTM)ニューラルネットワークが採用されており、99.449%の例外的な精度、0.9858の根平均平方根誤差(RMSE)、および0.8523のテスト損失を達成し、ARIMA(RMSE 1.342)のような従来の方法を大幅に上回っています。
さらに、勾配ブースト分類器(GBC)が方向予測に適用され、10,000ドルの初期資本のバックテストが40.82%の収益性の高い貿易レートを明らかにしますが、49の取引で20,653.25ドルの純損失をもたらします。
この研究では、BDT/USD率の0.012から0.009に低下することを示す歴史的傾向を分析し、正規化された毎日のリターンを組み込んでボラティリティをキャプチャします。
これらの調査結果は、外国為替予測における深い学習の可能性を強調し、トレーダーと政策立案者にリスクを緩和するための堅牢なツールを提供します。
将来の作業は、感情分析とリアルタイムの経済指標を統合して、揮発性市場でのモデルの適応性をさらに高めることができます。

要約(オリジナル)

The prediction of foreign exchange rates, such as the US Dollar (USD) to Bangladeshi Taka (BDT), plays a pivotal role in global financial markets, influencing trade, investments, and economic stability. This study leverages historical USD/BDT exchange rate data from 2018 to 2023, sourced from Yahoo Finance, to develop advanced machine learning models for accurate forecasting. A Long Short-Term Memory (LSTM) neural network is employed, achieving an exceptional accuracy of 99.449%, a Root Mean Square Error (RMSE) of 0.9858, and a test loss of 0.8523, significantly outperforming traditional methods like ARIMA (RMSE 1.342). Additionally, a Gradient Boosting Classifier (GBC) is applied for directional prediction, with backtesting on a $10,000 initial capital revealing a 40.82% profitable trade rate, though resulting in a net loss of $20,653.25 over 49 trades. The study analyzes historical trends, showing a decline in BDT/USD rates from 0.012 to 0.009, and incorporates normalized daily returns to capture volatility. These findings highlight the potential of deep learning in forex forecasting, offering traders and policymakers robust tools to mitigate risks. Future work could integrate sentiment analysis and real-time economic indicators to further enhance model adaptability in volatile markets.

arxiv情報

著者 Md. Yeasin Rahat,Rajan Das Gupta,Nur Raisa Rahman,Sudipto Roy Pritom,Samiur Rahman Shakir,Md Imrul Hasan Showmick,Md. Jakir Hossen
発行日 2025-06-11 15:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-fin.ST | コメントする

TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering

要約

LLMは、自然言語処理において印象的な進歩を示しています。
しかし、それらはまだ、多様なテーブル構造、多言語データ、ドメイン固有の推論などの実際の複雑さが重要であるTableQAで重要な課題に直面しています。
既存のTableQAベンチマークは、多くの場合、単純なフラットテーブルに焦点を当てることで制限され、データの漏れに苦しんでいます。
さらに、ほとんどのベンチマークは単一言語であり、実際のアプリケーションで言語間およびドメインを横断する異なる変動をキャプチャできません。
これらの制限に対処するために、現実的なTableQAタスクでLLMを評価するために設計された新しいベンチマークであるTableValを紹介します。
具体的には、TableValには、4つのドメイン(政府、財務、学界、および業界レポートを含む)から収集されたさまざまな構造(簡潔な階層、ネストされたテーブルなど)を持つテーブルが含まれています。
その上、Tablevalは、単純化された中国語、伝統的な中国語、英語のテーブルを備えた言語間シナリオを特徴としています。
データリークのリスクを最小限に抑えるために、最近の現実世界のドキュメントからすべてのデータを収集します。
既存のTableQAメトリックがセマンティックの精度をキャプチャできないことを考慮すると、サブ質問レベルでのモデル応答と参照回答のアライメントを評価する新しい評価フレームワークであるシートをさらに提案します。
実験結果は、座席が人間の判断と高い一致を達成することを示しています。
Tablevalでの広範な実験により、これらの複雑で実世界のテーブルQAタスクを処理する最先端のLLMが能力を備えていることが重要であることが明らかになり、将来の改善の洞察を提供します。
ここでデータセットをご覧ください:https://github.com/wenge-research/tableval。

要約(オリジナル)

LLMs have shown impressive progress in natural language processing. However, they still face significant challenges in TableQA, where real-world complexities such as diverse table structures, multilingual data, and domain-specific reasoning are crucial. Existing TableQA benchmarks are often limited by their focus on simple flat tables and suffer from data leakage. Furthermore, most benchmarks are monolingual and fail to capture the cross-lingual and cross-domain variability in practical applications. To address these limitations, we introduce TableEval, a new benchmark designed to evaluate LLMs on realistic TableQA tasks. Specifically, TableEval includes tables with various structures (such as concise, hierarchical, and nested tables) collected from four domains (including government, finance, academia, and industry reports). Besides, TableEval features cross-lingual scenarios with tables in Simplified Chinese, Traditional Chinese, and English. To minimize the risk of data leakage, we collect all data from recent real-world documents. Considering that existing TableQA metrics fail to capture semantic accuracy, we further propose SEAT, a new evaluation framework that assesses the alignment between model responses and reference answers at the sub-question level. Experimental results have shown that SEAT achieves high agreement with human judgment. Extensive experiments on TableEval reveal critical gaps in the ability of state-of-the-art LLMs to handle these complex, real-world TableQA tasks, offering insights for future improvements. We make our dataset available here: https://github.com/wenge-research/TableEval.

arxiv情報

著者 Junnan Zhu,Jingyi Wang,Bohan Yu,Xiaoyu Wu,Junbo Li,Lei Wang,Nan Xu
発行日 2025-06-11 15:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする