Advancing Exchange Rate Forecasting: Leveraging Machine Learning and AI for Enhanced Accuracy in Global Financial Markets

要約

米ドル(USD)からバングラデシュタカ(BDT)などの外国為替レートの予測は、グローバルな金融市場で極めて重要な役割を果たし、貿易、投資、経済的安定に影響を与えます。
この調査では、Yahoo Financeから供給された2018年から2023年までの過去のUSD/BDT為替レートデータを活用して、正確な予測のための高度な機械学習モデルを開発しています。
長期的な短期メモリ(LSTM)ニューラルネットワークが採用されており、99.449%の例外的な精度、0.9858の根平均平方根誤差(RMSE)、および0.8523のテスト損失を達成し、ARIMA(RMSE 1.342)のような従来の方法を大幅に上回っています。
さらに、勾配ブースト分類器(GBC)が方向予測に適用され、10,000ドルの初期資本のバックテストが40.82%の収益性の高い貿易レートを明らかにしますが、49の取引で20,653.25ドルの純損失をもたらします。
この研究では、BDT/USD率の0.012から0.009に低下することを示す歴史的傾向を分析し、正規化された毎日のリターンを組み込んでボラティリティをキャプチャします。
これらの調査結果は、外国為替予測における深い学習の可能性を強調し、トレーダーと政策立案者にリスクを緩和するための堅牢なツールを提供します。
将来の作業は、感情分析とリアルタイムの経済指標を統合して、揮発性市場でのモデルの適応性をさらに高めることができます。

要約(オリジナル)

The prediction of foreign exchange rates, such as the US Dollar (USD) to Bangladeshi Taka (BDT), plays a pivotal role in global financial markets, influencing trade, investments, and economic stability. This study leverages historical USD/BDT exchange rate data from 2018 to 2023, sourced from Yahoo Finance, to develop advanced machine learning models for accurate forecasting. A Long Short-Term Memory (LSTM) neural network is employed, achieving an exceptional accuracy of 99.449%, a Root Mean Square Error (RMSE) of 0.9858, and a test loss of 0.8523, significantly outperforming traditional methods like ARIMA (RMSE 1.342). Additionally, a Gradient Boosting Classifier (GBC) is applied for directional prediction, with backtesting on a $10,000 initial capital revealing a 40.82% profitable trade rate, though resulting in a net loss of $20,653.25 over 49 trades. The study analyzes historical trends, showing a decline in BDT/USD rates from 0.012 to 0.009, and incorporates normalized daily returns to capture volatility. These findings highlight the potential of deep learning in forex forecasting, offering traders and policymakers robust tools to mitigate risks. Future work could integrate sentiment analysis and real-time economic indicators to further enhance model adaptability in volatile markets.

arxiv情報

著者 Md. Yeasin Rahat,Rajan Das Gupta,Nur Raisa Rahman,Sudipto Roy Pritom,Samiur Rahman Shakir,Md Imrul Hasan Showmick,Md. Jakir Hossen
発行日 2025-06-11 15:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-fin.ST | Advancing Exchange Rate Forecasting: Leveraging Machine Learning and AI for Enhanced Accuracy in Global Financial Markets はコメントを受け付けていません

TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering

要約

LLMは、自然言語処理において印象的な進歩を示しています。
しかし、それらはまだ、多様なテーブル構造、多言語データ、ドメイン固有の推論などの実際の複雑さが重要であるTableQAで重要な課題に直面しています。
既存のTableQAベンチマークは、多くの場合、単純なフラットテーブルに焦点を当てることで制限され、データの漏れに苦しんでいます。
さらに、ほとんどのベンチマークは単一言語であり、実際のアプリケーションで言語間およびドメインを横断する異なる変動をキャプチャできません。
これらの制限に対処するために、現実的なTableQAタスクでLLMを評価するために設計された新しいベンチマークであるTableValを紹介します。
具体的には、TableValには、4つのドメイン(政府、財務、学界、および業界レポートを含む)から収集されたさまざまな構造(簡潔な階層、ネストされたテーブルなど)を持つテーブルが含まれています。
その上、Tablevalは、単純化された中国語、伝統的な中国語、英語のテーブルを備えた言語間シナリオを特徴としています。
データリークのリスクを最小限に抑えるために、最近の現実世界のドキュメントからすべてのデータを収集します。
既存のTableQAメトリックがセマンティックの精度をキャプチャできないことを考慮すると、サブ質問レベルでのモデル応答と参照回答のアライメントを評価する新しい評価フレームワークであるシートをさらに提案します。
実験結果は、座席が人間の判断と高い一致を達成することを示しています。
Tablevalでの広範な実験により、これらの複雑で実世界のテーブルQAタスクを処理する最先端のLLMが能力を備えていることが重要であることが明らかになり、将来の改善の洞察を提供します。
ここでデータセットをご覧ください:https://github.com/wenge-research/tableval。

要約(オリジナル)

LLMs have shown impressive progress in natural language processing. However, they still face significant challenges in TableQA, where real-world complexities such as diverse table structures, multilingual data, and domain-specific reasoning are crucial. Existing TableQA benchmarks are often limited by their focus on simple flat tables and suffer from data leakage. Furthermore, most benchmarks are monolingual and fail to capture the cross-lingual and cross-domain variability in practical applications. To address these limitations, we introduce TableEval, a new benchmark designed to evaluate LLMs on realistic TableQA tasks. Specifically, TableEval includes tables with various structures (such as concise, hierarchical, and nested tables) collected from four domains (including government, finance, academia, and industry reports). Besides, TableEval features cross-lingual scenarios with tables in Simplified Chinese, Traditional Chinese, and English. To minimize the risk of data leakage, we collect all data from recent real-world documents. Considering that existing TableQA metrics fail to capture semantic accuracy, we further propose SEAT, a new evaluation framework that assesses the alignment between model responses and reference answers at the sub-question level. Experimental results have shown that SEAT achieves high agreement with human judgment. Extensive experiments on TableEval reveal critical gaps in the ability of state-of-the-art LLMs to handle these complex, real-world TableQA tasks, offering insights for future improvements. We make our dataset available here: https://github.com/wenge-research/TableEval.

arxiv情報

著者 Junnan Zhu,Jingyi Wang,Bohan Yu,Xiaoyu Wu,Junbo Li,Lei Wang,Nan Xu
発行日 2025-06-11 15:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering はコメントを受け付けていません

Aspect-Based Opinion Summarization with Argumentation Schemes

要約

レビューは、オンラインショッピングで購入決定を下す顧客にとって貴重なリソースです。
ただし、顧客が膨大な数のレビューを調べて、自動意見の要約システムの必要性を促す顕著な意見を手動で結論付けることは非現実的です。
抽出または抽象的な以前のアプローチは、接地されたアスペクト中心の概要を自動的に生成する際の課題に直面しています。
この論文では、証拠を支持する側面の観点から主要な意見を捉えるだけでなく、事前に定義された一連の側面に頼らずにさまざまなドメインに適応する新しい要約システムを提案します。
提案されたフレームワークであるAsesumは、アスペクト中心の議論を抽出し、その顕著性と妥当性を測定することにより、製品の重要な側面に関連する視点をまとめたものです。
現実世界のデータセットで実験を実施して、新規および既存の方法と比較して、元のレビューの多様な視点をキャプチャする際のアプローチの優位性を実証します。

要約(オリジナル)

Reviews are valuable resources for customers making purchase decisions in online shopping. However, it is impractical for customers to go over the vast number of reviews and manually conclude the prominent opinions, which prompts the need for automated opinion summarization systems. Previous approaches, either extractive or abstractive, face challenges in automatically producing grounded aspect-centric summaries. In this paper, we propose a novel summarization system that not only captures predominant opinions from an aspect perspective with supporting evidence, but also adapts to varying domains without relying on a pre-defined set of aspects. Our proposed framework, ASESUM, summarizes viewpoints relevant to the critical aspects of a product by extracting aspect-centric arguments and measuring their salience and validity. We conduct experiments on a real-world dataset to demonstrate the superiority of our approach in capturing diverse perspectives of the original reviews compared to new and existing methods.

arxiv情報

著者 Wendi Zhou,Ameer Saadat-Yazd,Nadin Kokciyan
発行日 2025-06-11 16:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aspect-Based Opinion Summarization with Argumentation Schemes はコメントを受け付けていません

Standard Language Ideology in AI-Generated Language

要約

標準的な言語イデオロギーは、大規模な言語モデル(LLM)によって生成される言語で反映され、強化されています。
私たちは、標準的な言語のイデオロギーがAIに生成された言語でどのように現れるかを示すオープンな問題のファセット分類法を提示し、より広くマイノリティ化された言語コミュニティと社会への影響を示しています。
標準的なAIに生成された言語イデオロギーの概念を紹介します。これは、LLMSが「標準」言語(特に標準的なアメリカ英語(SAE))を言語デフォルトとして位置付け、SAEが最も「適切な」言語であるという認識を強化するためです。
次に、さまざまな英語の品種を模倣しようとする、または拒否する生成的AIツールの利点と欠点だけでなく、望ましいシステムの動作を構成するものに関する継続的な緊張について説明します。
狭い技術的修正を規定するのではなく、構造条件の変化と多様な言語コミュニティのより解放結果をサポートすることに焦点を当てた研究者、実務家、資金提供者に3つの推奨事項を提供します。

要約(オリジナル)

Standard language ideology is reflected and reinforced in language generated by large language models (LLMs). We present a faceted taxonomy of open problems that illustrate how standard language ideology manifests in AI-generated language, alongside implications for minoritized language communities and society more broadly. We introduce the concept of standard AI-generated language ideology, a process through which LLMs position ‘standard’ languages–particularly Standard American English (SAE)–as the linguistic default, reinforcing the perception that SAE is the most ‘appropriate’ language. We then discuss ongoing tensions around what constitutes desirable system behavior, as well as advantages and drawbacks of generative AI tools attempting, or refusing, to imitate different English language varieties. Rather than prescribing narrow technical fixes, we offer three recommendations for researchers, practitioners, and funders that focus on shifting structural conditions and supporting more emancipatory outcomes for diverse language communities.

arxiv情報

著者 Genevieve Smith,Eve Fleisig,Madeline Bossi,Ishita Rustagi,Xavier Yin
発行日 2025-06-11 16:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Standard Language Ideology in AI-Generated Language はコメントを受け付けていません

LLM-BT-Terms: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding

要約

英語の技術用語の迅速な拡大は、特に人工知能や量子コンピューティングなどの急速に発展している分野で、従来の専門家ベースの標準化に大きな課題をもたらします。
手動アプローチは、一貫した多言語用語を維持する際の困難に直面しています。
これに対処するために、クロスリングのセマンティックアライメントを通じて用語の検証と標準化を自動化するために設計された大規模な言語モデル(LLM)を搭載した逆翻訳フレームワークであるLLM-BTを導入します。
(1)用語レベルの一貫性の検証:英語 – >中間言語 – >英語の逆翻訳を実行することにより、LLM-BTは異なるモデル(GPT-4、Deepseek、Grokなど)にわたって高用語の一貫性を達成します。
ケーススタディは、条件の90%以上が正確または意味的に保存されていることを示しています。
(2)マルチパス検証ワークフロー:取得 – > generate-> verify->最適化として記述された新しいパイプラインを開発します。
BLEUスコアとタームレベルの精度は、強力な横断的堅牢性を示しており、BLEUスコアは0.45を超え、ポルトガルの用語の精度は100%に達します。
(3)セマンティック埋め込みとしての逆翻訳:意味の潜在的な軌跡を明らかにする動的なセマンティック埋め込みの形として、背面翻訳を再解釈します。
静的な埋め込みとは対照的に、LLM-BTは、モデルの進化によって形作られた透明なパスベースの埋め込みを提供します。
この再構成は、多言語用語の標準化のためのアクティブなメカニズムとして背面翻訳を位置付け、機械と人間間のコラボレーションを促進する – マシンは意味的な完全性を保持し、人間は文化的解釈を提供します。

要約(オリジナル)

The rapid expansion of English technical terminology presents a significant challenge to traditional expert-based standardization, particularly in rapidly developing areas such as artificial intelligence and quantum computing. Manual approaches face difficulties in maintaining consistent multilingual terminology. To address this, we introduce LLM-BT, a back-translation framework powered by large language models (LLMs) designed to automate terminology verification and standardization through cross-lingual semantic alignment. Our key contributions include: (1) term-level consistency validation: by performing English -> intermediate language -> English back-translation, LLM-BT achieves high term consistency across different models (such as GPT-4, DeepSeek, and Grok). Case studies demonstrate over 90 percent of terms are preserved either exactly or semantically; (2) multi-path verification workflow: we develop a novel pipeline described as Retrieve -> Generate -> Verify -> Optimize, which supports both serial paths (e.g., English -> Simplified Chinese -> Traditional Chinese -> English) and parallel paths (e.g., English -> Chinese / Portuguese -> English). BLEU scores and term-level accuracy indicate strong cross-lingual robustness, with BLEU scores exceeding 0.45 and Portuguese term accuracy reaching 100 percent; (3) back-translation as semantic embedding: we reinterpret back-translation as a form of dynamic semantic embedding that uncovers latent trajectories of meaning. In contrast to static embeddings, LLM-BT offers transparent, path-based embeddings shaped by the evolution of the models. This reframing positions back-translation as an active mechanism for multilingual terminology standardization, fostering collaboration between machines and humans – machines preserve semantic integrity, while humans provide cultural interpretation.

arxiv情報

著者 Li Weigang,Pedro Carvalho Brom
発行日 2025-06-11 17:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-BT-Terms: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding はコメントを受け付けていません

Query-Focused Retrieval Heads Improve Long-Context Reasoning and Re-ranking

要約

最近の研究では、ヘイスタックの針タスクでのコピーパステの動作によって測定されるように、長いコンテキスト言語モデル(LMS)の顕著な情報を取得する責任のある注意ヘッドのサブセットである検索ヘッド(Wu et al。、2025b)が特定されています。
このペーパーでは、長いコンテキストから検索を強化する注意ヘッドの改善されたセットであるQRHead(クエリ中心の検索ヘッド)を紹介します。
実際のタスク(長いコンテキストQAなど)のいくつかの例を使用して、入力クエリに関して注意スコアを集約することによりQRHEADを識別します。
さらに、QR-Headの蓄積された注意質量を検索スコアとして使用する効率的かつ効果的なレトリバーであるQR- Retrieverを紹介します。
最高の検索スコアを持つ最も関連性の高いパーツを選択することにより、長いコンテストの推論にQR-レトリバーを使用します。
Multi-Hopの推論タスクLongmemevalとClipperでは、これにより、完全なコンテキストで10%以上のパフォーマンスが得られ、強い密なレトリバーよりも優れています。
また、QRETRIEVERをBeirベンチマークの再ランカーとして評価し、RankGPTなどの他のLLMベースの再ランカーを上回る強力なゼロショットパフォーマンスを達成することを発見しました。
さらなる分析により、QuryContextの注意スコアリングとタスク選択の両方が、QRHEADを強力な下流のユーティリティで識別するために重要であることが示されています。
全体として、私たちの仕事は汎用レトリバーに貢献し、LMSの長いコンテスト機能に関する解釈可能性の洞察を提供します。

要約(オリジナル)

Recent work has identified retrieval heads (Wu et al., 2025b), a subset of attention heads responsible for retrieving salient information in long-context language models (LMs), as measured by their copy-paste behavior in Needle-in-a-Haystack tasks. In this paper, we introduce QRHEAD (Query-Focused Retrieval Head), an improved set of attention heads that enhance retrieval from long context. We identify QRHEAD by aggregating attention scores with respect to the input query, using a handful of examples from real-world tasks (e.g., long-context QA). We further introduce QR- RETRIEVER, an efficient and effective retriever that uses the accumulated attention mass of QRHEAD as retrieval scores. We use QR- RETRIEVER for long-context reasoning by selecting the most relevant parts with the highest retrieval scores. On multi-hop reasoning tasks LongMemEval and CLIPPER, this yields over 10% performance gains over full context and outperforms strong dense retrievers. We also evaluate QRRETRIEVER as a re-ranker on the BEIR benchmark and find that it achieves strong zero-shot performance, outperforming other LLM-based re-rankers such as RankGPT. Further analysis shows that both the querycontext attention scoring and task selection are crucial for identifying QRHEAD with strong downstream utility. Overall, our work contributes a general-purpose retriever and offers interpretability insights into the long-context capabilities of LMs.

arxiv情報

著者 Wuwei Zhang,Fangcong Yin,Howard Yen,Danqi Chen,Xi Ye
発行日 2025-06-11 17:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Query-Focused Retrieval Heads Improve Long-Context Reasoning and Re-ranking はコメントを受け付けていません

Resa: Transparent Reasoning Models via SAEs

要約

基礎となる表現を活用することにより、言語モデルの強い推論をどの程度費用効果に引き出すことができますか?
この質問には、斬新で効率的なスパースオートエンコーダーチューニング(SAE調整)手順を介して訓練された1.5B推論モデルのファミリであるRESAで答えます。
この方法は、最初にSAEをトレーニングしてソースモデルから推論能力をキャプチャし、次に訓練されたSAEを使用して、標準的な微調整プロセスを導き、ターゲットモデルでそのような能力を引き出すために、すべて推論された痕跡なしで検証された質問アンダーデータを使用します。
特に、トレーニング後のさらにRLの前に特定のベースモデルに適用すると、SAE-TuningはRLトレーニングを受けたカウンターパートの推論パフォーマンスの97%以上を保持しながら、トレーニングコストを> 2000倍に削減し、トレーニング時間を約450倍削減します。
さらに、軽く訓練されたモデル(たとえば、2 GPUで1時間以内)に適用すると、AIME24で43.33%パス@1、AMC23で90%パス@1などの推論パフォーマンスを可能にします。
驚くべきことに、SAEを介して抽出された推論能力は、一般化可能でモジュラーの両方です。
一般性とは、1つのデータセットから抽出された能力が、より大きくて重複するコーパスでパフォーマンスを向上させることを意味します。
モジュール性とは、QwenまたはQwen-Mathから抽出された能力をテスト時にR1-Distillモデルに添付することができ、再訓練なしに添付し、同等の利益をもたらすことができます。
広範なアブレーションは、これらの調査結果を検証し、すべてのアーティファクトは完全にオープンソースされています。

要約(オリジナル)

How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart’s reasoning performance while reducing training costs by >2000x to roughly \$1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around \$1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.

arxiv情報

著者 Shangshang Wang,Julian Asilis,Ömer Faruk Akgül,Enes Burak Bilgin,Ollie Liu,Deqing Fu,Willie Neiswanger
発行日 2025-06-11 17:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Resa: Transparent Reasoning Models via SAEs はコメントを受け付けていません

When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text

要約

AIに生成されたテキストを検出することは、そもそも難しい問題です。
ソーシャルメディアでAIに生成されたテキストの検出は、インターネットのテキストの長さと非公式の特異な言語のために、さらに困難になります。
それにもかかわらず、ソーシャルメディアはオンライン影響キャンペーンの重要な攻撃ベクトルを表しているため、この問題に取り組むことが重要です。これは、特定のポリシー、決定、またはイベントをサポートする(または反対)大量生成されたAIで生成された投稿を使用することで強化される可能性があります。
合理的に洗練された脅威アクターの考え方とリソースでこの問題にアプローチし、オープンソース、クローズドソース、および微調整されたLLMSの組み合わせから505,159のAI生成されたソーシャルメディア投稿のデータセットを作成し、11の異なる物議を醸すトピックをカバーしています。
攻撃者が微調整されたモデルを一般にリリースしないというより現実的な仮定の下で、生成モデルの知識とアクセスに関する典型的な研究の仮定の下で投稿を検出できるが、検出可能性は劇的に低下することを示します。
この結果は、人間の研究で確認されています。
アブレーション実験では、さまざまな検出アルゴリズムの微細チューニングLLMSの脆弱性を強調しています。
微調整は一般に適用可能で現実的なLLMユースケースであるため、この結果はすべての検出ドメインに影響を及ぼします。

要約(オリジナル)

Detecting AI-generated text is a difficult problem to begin with; detecting AI-generated text on social media is made even more difficult due to the short text length and informal, idiosyncratic language of the internet. It is nonetheless important to tackle this problem, as social media represents a significant attack vector in online influence campaigns, which may be bolstered through the use of mass-produced AI-generated posts supporting (or opposing) particular policies, decisions, or events. We approach this problem with the mindset and resources of a reasonably sophisticated threat actor, and create a dataset of 505,159 AI-generated social media posts from a combination of open-source, closed-source, and fine-tuned LLMs, covering 11 different controversial topics. We show that while the posts can be detected under typical research assumptions about knowledge of and access to the generating models, under the more realistic assumption that an attacker will not release their fine-tuned model to the public, detectability drops dramatically. This result is confirmed with a human study. Ablation experiments highlight the vulnerability of various detection algorithms to fine-tuned LLMs. This result has implications across all detection domains, since fine-tuning is a generally applicable and realistic LLM use case.

arxiv情報

著者 Hillary Dawkins,Kathleen C. Fraser,Svetlana Kiritchenko
発行日 2025-06-11 17:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text はコメントを受け付けていません

Step-by-step Instructions and a Simple Tabular Output Format Improve the Dependency Parsing Accuracy of LLMs

要約

大規模な言語モデル(LLMS)の最近の進歩により、さまざまなタスクで印象的なパフォーマンスが可能になりました。
ただし、標準のプロンプトは、特に依存関係の解析において、構造的に有効で正確な出力を生成するのに苦労しています。
普遍的な課題の一部のタグ付けが構文ヘッドと依存関係ラベルの予測に先行する新しいステップバイステップの指導戦略、および単純化されたCONLL-Uのような出力形式を提案します。私たちの方法は、幻覚や汚染なしの17の言語のユニバーサル依存関係データセットの最先端の精度を達成します。
さらに、多言語の微調整が同時に、言語間の一般化パフォーマンスを改善することを示します。
私たちの結果は、LLMベースの解析における明示的な推論ステップの有効性を強調し、ブラケットベースのアプローチに代わるスケーラブルで形式的な代替品を提供します。

要約(オリジナル)

Recent advances in large language models (LLMs) have enabled impressive performance in various tasks. However, standard prompting often struggles to produce structurally valid and accurate outputs, especially in dependency parsing. We propose a novel step-by-step instruction strategy, where universal part-of-speech tagging precedes the prediction of syntactic heads and dependency labels, and a simplified CoNLL-U like output format, our method achieves state-of-the-art accuracy on Universal Dependencies datasets across 17 languages without hallucination or contamination. We further show that multilingual fine-tuning simultaneously improves cross-language generalization performance. Our results highlight the effectiveness of explicit reasoning steps in LLM-based parsing and offer a scalable, format-consistent alternative to bracket-based approaches.

arxiv情報

著者 Hiroshi Matsuda,Chunpeng Ma,Masayuki Asahara
発行日 2025-06-11 17:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Step-by-step Instructions and a Simple Tabular Output Format Improve the Dependency Parsing Accuracy of LLMs はコメントを受け付けていません

Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages

要約

特に限られた節度ツールを持つ地域では、オンラインの有毒言語は真の害を引き起こします。
この研究では、セルビア語、クロアチア語、ボスニア語で、ラベル付きデータが限られている言語で、大規模な言語モデルが有毒なコメントをどのように処理するかを評価します。
音楽、政治、スポーツ、モデリング、インフルエンサーコンテンツ、性差別の議論、一般的なトピックなど、多様なカテゴリのビデオから引き出された4,500のYouTubeとTiktokのコメントのデータセットを作成し、手動でラベル付けしました。
4つのモデル(GPT-3.5 Turbo、GPT-4.1、GEMINI 1.5 Pro、およびClaude 3 Opus)を2つのモードでテストしました:ゼロショットとコンテキストの高度化。
精度、リコール、F1スコア、精度、偽陽性率を測定しました。
短いコンテキストスニペットを含むリコールを平均で約0.12に引き上げ、F1スコアを最大0.10に改善しましたが、誤検知が増加することもあります。
最高のバランスは、コンテキストの高度モードでジェミニから来て、F1スコア0.82と0.82の精度に達しましたが、ゼロショットGPT-4.1は精度でLEDされ、最低の誤報がありました。
最小限のコンテキストを追加することで、リソースの低い設定での有毒言語の検出を改善し、迅速な設計やしきい値のキャリブレーションの改善などの実用的な戦略を示唆する方法を示します。
これらの結果は、迅速な設計だけで、サービスを受けていないバルカン語のコミュニティの毒性検出に有意義な利益をもたらす可能性があることを示しています。

要約(オリジナル)

Online toxic language causes real harm, especially in regions with limited moderation tools. In this study, we evaluate how large language models handle toxic comments in Serbian, Croatian, and Bosnian, languages with limited labeled data. We built and manually labeled a dataset of 4,500 YouTube and TikTok comments drawn from videos across diverse categories, including music, politics, sports, modeling, influencer content, discussions of sexism, and general topics. Four models (GPT-3.5 Turbo, GPT-4.1, Gemini 1.5 Pro, and Claude 3 Opus) were tested in two modes: zero-shot and context-augmented. We measured precision, recall, F1 score, accuracy and false positive rates. Including a short context snippet raised recall by about 0.12 on average and improved F1 score by up to 0.10, though it sometimes increased false positives. The best balance came from Gemini in context-augmented mode, reaching an F1 score of 0.82 and accuracy of 0.82, while zero-shot GPT-4.1 led on precision and had the lowest false alarms. We show how adding minimal context can improve toxic language detection in low-resource settings and suggest practical strategies such as improved prompt design and threshold calibration. These results show that prompt design alone can yield meaningful gains in toxicity detection for underserved Balkan language communities.

arxiv情報

著者 Amel Muminovic,Amela Kadric Muminovic
発行日 2025-06-11 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models for Toxic Language Detection in Low-Resource Balkan Languages はコメントを受け付けていません