Large Language Model-Driven Dynamic Assessment of Grammatical Accuracy in English Language Learner Writing

要約

本研究では、大規模言語モデル(LLM)による動的評価(DA)のスケールアップの可能性を調査する。このような調査を容易にするために、我々はまずDynaWriteを開発した。DynaWriteは、複数のLLMをサポートし、英語学習者に動的フィードバックを生成する、モジュール式のマイクロサービスベースの文法チュータリングアプリケーションである。21のLLMの初期テストにより、GPT-4oとニューラルチャットが、言語学習教室におけるDAをスケールアップする可能性が最も高いことが明らかになった。これら2つの候補をさらにテストした結果、両モデルとも、ユーザーの文中の文法的誤りを正確に識別する能力において、同様の性能を示した。しかし、GPT-4oは、明確で一貫性があり、徐々に明示的なヒントを生成することで、そのDAの質において常にニューラルチャットを上回った。リアルタイムの応答性とシステムの安定性も詳細な性能テストにより確認され、GPT-4oは十分な速度と安定性を示した。本研究は、LLMがダイナミックアセスメントのスケールアップに利用できることを示し、その結果、従来の教師-学習者の設定よりも大規模なグループにダイナミックアセスメントを提供することが可能になることを示している。

要約(オリジナル)

This study investigates the potential for Large Language Models (LLMs) to scale-up Dynamic Assessment (DA). To facilitate such an investigation, we first developed DynaWrite-a modular, microservices-based grammatical tutoring application which supports multiple LLMs to generate dynamic feedback to learners of English. Initial testing of 21 LLMs, revealed GPT-4o and neural chat to have the most potential to scale-up DA in the language learning classroom. Further testing of these two candidates found both models performed similarly in their ability to accurately identify grammatical errors in user sentences. However, GPT-4o consistently outperformed neural chat in the quality of its DA by generating clear, consistent, and progressively explicit hints. Real-time responsiveness and system stability were also confirmed through detailed performance testing, with GPT-4o exhibiting sufficient speed and stability. This study shows that LLMs can be used to scale-up dynamic assessment and thus enable dynamic assessment to be delivered to larger groups than possible in traditional teacher-learner settings.

arxiv情報

著者 Timur Jaganov,John Blake,Julián Villegas,Nicholas Carr
発行日 2025-05-02 00:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Large Language Model-Driven Dynamic Assessment of Grammatical Accuracy in English Language Learner Writing はコメントを受け付けていません

Llama-Nemotron: Efficient Reasoning Models

要約

Llama-Nemotronシリーズは、卓越した推論能力、推論効率、オープンライセンスを提供するオープンなヘテロジニアス推論モデルファミリであり、企業での利用に適している。Llama-Nemotronシリーズには、Nano(8B)、Super(49B)、Ultra(253B)の3つのサイズがあり、DeepSeek-R1などの最先端の推論モデルに匹敵する性能を持ちながら、優れた推論スループットとメモリ効率を提供する。本レポートでは、Llama 3モデルからのニューラルアーキテクチャ探索を用いた推論の高速化、知識抽出、および継続的な事前学習、そして教師あり微調整と大規模強化学習の2つの主要部分からなる推論に焦点を当てた事後学習段階を含む、これらのモデルの学習手順について述べる。Llama-Nemotronモデルは、動的推論トグルをサポートする最初のオープンソースモデルであり、ユーザーは推論中に標準的なチャットモードと推論モードを切り替えることができます。さらにオープンな研究をサポートし、モデル開発を促進するために、以下のリソースを提供します:1.1. Llama-Nemotron推論モデル(LN-Nano、LN-Super、LN-Ultra)を、商業的に寛容なNVIDIA Open Model License Agreementの下でリリースします。2.学習後の完全なデータセットを公開します:Llama-Nemotron-Post-Training-Dataset。3.学習コードベースも公開します:NeMo、NeMo-Aligner、Megatron-LM。

要約(オリジナル)

We introduce the Llama-Nemotron series of models, an open family of heterogeneous reasoning models that deliver exceptional reasoning capabilities, inference efficiency, and an open license for enterprise use. The family comes in three sizes — Nano (8B), Super (49B), and Ultra (253B) — and performs competitively with state-of-the-art reasoning models such as DeepSeek-R1 while offering superior inference throughput and memory efficiency. In this report, we discuss the training procedure for these models, which entails using neural architecture search from Llama 3 models for accelerated inference, knowledge distillation, and continued pretraining, followed by a reasoning-focused post-training stage consisting of two main parts: supervised fine-tuning and large scale reinforcement learning. Llama-Nemotron models are the first open-source models to support a dynamic reasoning toggle, allowing users to switch between standard chat and reasoning modes during inference. To further support open research and facilitate model development, we provide the following resources: 1. We release the Llama-Nemotron reasoning models — LN-Nano, LN-Super, and LN-Ultra — under the commercially permissive NVIDIA Open Model License Agreement. 2. We release the complete post-training dataset: Llama-Nemotron-Post-Training-Dataset. 3. We also release our training codebases: NeMo, NeMo-Aligner, and Megatron-LM.

arxiv情報

著者 Akhiad Bercovich,Itay Levy,Izik Golan,Mohammad Dabbah,Ran El-Yaniv,Omri Puny,Ido Galil,Zach Moshe,Tomer Ronen,Najeeb Nabwani,Ido Shahaf,Oren Tropp,Ehud Karpas,Ran Zilberstein,Jiaqi Zeng,Soumye Singhal,Alexander Bukharin,Yian Zhang,Tugrul Konuk,Gerald Shen,Ameya Sunil Mahabaleshwarkar,Bilal Kartal,Yoshi Suhara,Olivier Delalleau,Zijia Chen,Zhilin Wang,David Mosallanezhad,Adi Renduchintala,Haifeng Qian,Dima Rekesh,Fei Jia,Somshubra Majumdar,Vahid Noroozi,Wasi Uddin Ahmad,Sean Narenthiran,Aleksander Ficek,Mehrzad Samadi,Jocelyn Huang,Siddhartha Jain,Igor Gitman,Ivan Moshkov,Wei Du,Shubham Toshniwal,George Armstrong,Branislav Kisacanin,Matvei Novikov,Daria Gitman,Evelina Bakhturina,Jane Polak Scowcroft,John Kamalu,Dan Su,Kezhi Kong,Markus Kliegl,Rabeeh Karimi,Ying Lin,Sanjeev Satheesh,Jupinder Parmar,Pritam Gundecha,Brandon Norick,Joseph Jennings,Shrimai Prabhumoye,Syeda Nahida Akter,Mostofa Patwary,Abhinav Khattar,Deepak Narayanan,Roger Waleffe,Jimmy Zhang,Bor-Yiing Su,Guyue Huang,Terry Kong,Parth Chadha,Sahil Jain,Christine Harvey,Elad Segal,Jining Huang,Sergey Kashirsky,Robert McQueen,Izzy Putterman,George Lam,Arun Venkatesan,Sherry Wu,Vinh Nguyen,Manoj Kilaru,Andrew Wang,Anna Warno,Abhilash Somasamudramath,Sandip Bhaskar,Maka Dong,Nave Assaf,Shahar Mor,Omer Ullman Argov,Scot Junkin,Oleksandr Romanenko,Pedro Larroy,Monika Katariya,Marco Rovinelli,Viji Balas,Nicholas Edelman,Anahita Bhiwandiwalla,Muthu Subramaniam,Smita Ithape,Karthik Ramamoorthy,Yuting Wu,Suguna Varshini Velury,Omri Almog,Joyjit Daw,Denys Fridman,Erick Galinkin,Michael Evans,Katherine Luna,Leon Derczynski,Nikki Pope,Eileen Long,Seth Schneider,Guillermo Siman,Tomasz Grzegorzek,Pablo Ribalta,Monika Katariya,Joey Conway,Trisha Saar,Ann Guan,Krzysztof Pawelec,Shyamala Prayaga,Oleksii Kuchaiev,Boris Ginsburg,Oluwatobi Olabiyi,Kari Briski,Jonathan Cohen,Bryan Catanzaro,Jonah Alben,Yonatan Geifman,Eric Chung
発行日 2025-05-02 01:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Llama-Nemotron: Efficient Reasoning Models はコメントを受け付けていません

Dynamics of Spontaneous Topic Changes in Next Token Prediction with Self-Attention

要約

人間の認知は、感情的、文脈的、または連想的な手がかりによって引き起こされる、トピック間の突然の自発的なシフトによって区切られている。これとは対照的に、自己注意に基づくモデルは、次のトークンを予測するために、入力の構造化されたパターンに依存しており、自発性に欠ける。この区別に動機づけられ、我々は自己注意アーキテクチャにおける自発的なトピックの変化を特徴付け、その類似点と人間の自発的思考との相違点の両方を明らかにする。まず、トピックをトークン優先度グラフ(Token Priority Graphs:TPG)の集合として定義することで、適切な条件を持つ単純化された単層自己注意モデルの下で理論的な結果を確立する。具体的には、(1)このモデルは入力トピックに関連するトークンの優先順位を維持すること、(2)自発的なトピック変更は、優先順位の低いトークンが入力トピックの優先順位の高いトークンを全て上回る場合にのみ起こり得ること、(3)人間の認知とは異なり、文脈の長さが長いほど、あるいは入力トピックが曖昧であるほど、自発的変更の可能性が低下することを示す。第二に、これらのダイナミクスが最新のLLMでも持続することを実証的に検証し、自発的なトピック変更の文脈における人間の認知とAIの動作の根本的な相違を強調する。我々の知る限り、人間の思考に近い形でこれらの問題を探求した先行研究はない。

要約(オリジナル)

Human cognition is punctuated by abrupt, spontaneous shifts between topics-driven by emotional, contextual, or associative cues-a phenomenon known as spontaneous thought in neuroscience. In contrast, self-attention based models depend on structured patterns over their inputs to predict each next token, lacking spontaneity. Motivated by this distinction, we characterize spontaneous topic changes in self-attention architectures, revealing both their similarities and their divergences from spontaneous human thought. First, we establish theoretical results under a simplified, single-layer self-attention model with suitable conditions by defining the topic as a set of Token Priority Graphs (TPGs). Specifically, we demonstrate that (1) the model maintains the priority order of tokens related to the input topic, (2) a spontaneous topic change can occur only if lower-priority tokens outnumber all higher-priority tokens of the input topic, and (3) unlike human cognition, the longer context length or the more ambiguous input topic reduces the likelihood of spontaneous change. Second, we empirically validate that these dynamics persist in modern, state-of-the-art LLMs, underscoring a fundamental disparity between human cognition and AI behaviour in the context of spontaneous topic changes. To the best of our knowledge, no prior work has explored these questions with a focus as closely aligned to human thought.

arxiv情報

著者 Mumin Jia,Jairo Diaz-Rodriguez
発行日 2025-05-02 02:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, stat.ML | Dynamics of Spontaneous Topic Changes in Next Token Prediction with Self-Attention はコメントを受け付けていません

Attack and defense techniques in large language models: A survey and new perspectives

要約

大規模言語モデル(LLM)は、多くの自然言語処理タスクの中心的存在となっているが、その脆弱性は、セキュリティと倫理面で大きな課題となっている。この体系的な調査では、LLMにおける攻撃と防御のテクニックの進化を探る。攻撃を、敵対的プロンプト攻撃、最適化攻撃、モデル盗用、およびLLMのアプリケーションに対する攻撃に分類し、そのメカニズムと意味を詳述する。その結果、予防に基づく防御方法と検出に基づく防御方法を含む防御戦略を分析する。進歩は見られるものの、動的な脅威の状況に適応すること、ユーザビリティと堅牢性のバランスをとること、防御の実装におけるリソースの制約に対処することなどの課題が残されている。我々は、適応性のあるスケーラブルな防御、説明可能なセキュリティ技術、標準化された評価フレームワークの必要性など、未解決の問題を強調する。本調査は、安全で回復力のあるLLMを開発するための実用的な洞察と方向性を提供し、実世界のアプリケーションにおけるリスクを軽減するための学際的な協力と倫理的配慮の重要性を強調する。

要約(オリジナル)

Large Language Models (LLMs) have become central to numerous natural language processing tasks, but their vulnerabilities present significant security and ethical challenges. This systematic survey explores the evolving landscape of attack and defense techniques in LLMs. We classify attacks into adversarial prompt attack, optimized attacks, model theft, as well as attacks on application of LLMs, detailing their mechanisms and implications. Consequently, we analyze defense strategies, including prevention-based and detection-based defense methods. Although advances have been made, challenges remain to adapt to the dynamic threat landscape, balance usability with robustness, and address resource constraints in defense implementation. We highlight open problems, including the need for adaptive scalable defenses, explainable security techniques, and standardized evaluation frameworks. This survey provides actionable insights and directions for developing secure and resilient LLMs, emphasizing the importance of interdisciplinary collaboration and ethical considerations to mitigate risks in real-world applications.

arxiv情報

著者 Zhiyu Liao,Kang Chen,Yuanguo Lin,Kangkang Li,Yunxuan Liu,Hefeng Chen,Xingwang Huang,Yuanhui Yu
発行日 2025-05-02 03:37:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Attack and defense techniques in large language models: A survey and new perspectives はコメントを受け付けていません

A Character-based Diffusion Embedding Algorithm for Enhancing the Generation Quality of Generative Linguistic Steganographic Texts

要約

高品質のステガノグラフィテキストを生成することは、生成的言語ステガノグラフィの分野における基本的な課題である。この課題は主に2つの側面から生じる:第一に、テキスト生成における既存のモデルの能力は限られている;第二に、埋め込みアルゴリズムは、意味内容やランダム性のような、機密情報の特性の悪影響を効果的に緩和することができない。具体的には、受信者が隠された情報を正確に抽出できるようにするために、埋め込みアルゴリズムはしばしば、比較的低い確率で候補となる単語を選択することを考慮しなければならない。この現象は、高確率の候補単語の数の減少と低確率の候補単語の増加をもたらし、それによってステガノグラフィテキストの意味的一貫性と論理的流暢性を損ない、生成されたステガノグラフィ材料の全体的な品質を低下させる。この問題に対処するために、本論文は新しい埋め込みアルゴリズム、文字ベースの拡散埋め込みアルゴリズム(CDEA)を提案する。既存の埋め込みアルゴリズムが、生成プロセスにおける機密情報の特性の影響を排除しようと努力するのとは異なり、CDEAは機密情報の特性を活用する。文字レベルの一般的な統計的性質とべき乗分布に基づくグルーピング手法に基づき、候補プールに含まれる高確率候補単語の選択頻度を高める一方、候補プールに含まれる低確率候補単語の選択頻度を下げる。さらに、長いシーケンス中の機密情報を効果的に変換するために、XLNetモデルも導入する。実験結果は、CDEAとXLNetの組み合わせが、生成されたステガノグラフィテキストの品質を、特に知覚的不感受性の点で大幅に向上させることを示している。

要約(オリジナル)

Generating high-quality steganographic text is a fundamental challenge in the field of generative linguistic steganography. This challenge arises primarily from two aspects: firstly, the capabilities of existing models in text generation are limited; secondly, embedding algorithms fail to effectively mitigate the negative impacts of sensitive information’s properties, such as semantic content or randomness. Specifically, to ensure that the recipient can accurately extract hidden information, embedding algorithms often have to consider selecting candidate words with relatively low probabilities. This phenomenon leads to a decrease in the number of high-probability candidate words and an increase in low-probability candidate words, thereby compromising the semantic coherence and logical fluency of the steganographic text and diminishing the overall quality of the generated steganographic material. To address this issue, this paper proposes a novel embedding algorithm, character-based diffusion embedding algorithm (CDEA). Unlike existing embedding algorithms that strive to eliminate the impact of sensitive information’s properties on the generation process, CDEA leverages sensitive information’s properties. It enhances the selection frequency of high-probability candidate words in the candidate pool based on general statistical properties at the character level and grouping methods based on power-law distributions, while reducing the selection frequency of low-probability candidate words in the candidate pool. Furthermore, to ensure the effective transformation of sensitive information in long sequences, we also introduce the XLNet model. Experimental results demonstrate that the combination of CDEA and XLNet significantly improves the quality of generated steganographic text, particularly in terms of perceptual-imperceptibility.

arxiv情報

著者 Yingquan Chen,Qianmu Li,Xiaocong Wu,Huifeng Li,Qing Chang
発行日 2025-05-02 03:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR | A Character-based Diffusion Embedding Algorithm for Enhancing the Generation Quality of Generative Linguistic Steganographic Texts はコメントを受け付けていません

Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models

要約

大規模言語モデル(LLM)は目覚ましい成功を収めたが、特に限られた独自のデータを持つ小規模で専門的なコーパスから学習する場合、依然としてデータ効率が悪い。事前学習を継続するための既存の合成データ生成手法は、文書内のコンテンツに焦点を当て、文書間の知識関連を見落としており、コンテンツの多様性と深さを制限している。我々はSynthetic-on-Graph (SoG)を提案する。SoGは、効率的なコーパス拡張のために、文書間の知識関連を組み込んだ合成データ生成フレームワークである。SoGは、元のコーパスからエンティティや概念を抽出し、文書間の関連性を表現し、知識関連サンプリングのためのグラフウォーク戦略を採用することで、コンテキストグラフを構築する。これにより、合成データの多様性と一貫性が強化され、モデルが複雑な知識構造を学習し、希少な知識を扱えるようになる。合成データの質をさらに向上させるために、我々はChain-of-Thought(CoT)とContrastive Clarifying(CC)を統合し、推論プロセスと識別力を強化する。実験によれば、SoGはマルチホップ文書Q&Aデータセットにおいて最先端手法(SOTA)を凌駕する一方、読解タスクデータセットにおいてはSOTAと同等の性能を示し、SoGの優れた汎化能力を強調した。我々の研究は合成データ生成を進歩させ、特にデータの利用可能性が限られた領域において、LLMにおける効率的な知識獲得のための実用的な解決策を提供する。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success but remain data-inefficient, especially when learning from small, specialized corpora with limited and proprietary data. Existing synthetic data generation methods for continue pre-training focus on intra-document content and overlook cross-document knowledge associations, limiting content diversity and depth. We propose Synthetic-on-Graph (SoG), a synthetic data generation framework that incorporates cross-document knowledge associations for efficient corpus expansion. SoG constructs a context graph by extracting entities and concepts from the original corpus, representing cross-document associations, and employing a graph walk strategy for knowledge-associated sampling. This enhances synthetic data diversity and coherence, enabling models to learn complex knowledge structures and handle rare knowledge. To further improve synthetic data quality, we integrate Chain-of-Thought (CoT) and Contrastive Clarifying (CC) synthetic, enhancing reasoning processes and discriminative power. Experiments show that SoG outperforms the state-of-the-art (SOTA) method in a multi-hop document Q&A dataset while performing comparably to the SOTA method on the reading comprehension task datasets, which also underscores the better generalization capability of SoG. Our work advances synthetic data generation and provides practical solutions for efficient knowledge acquisition in LLMs, especially in domains with limited data availability.

arxiv情報

著者 Xuhui Jiang,Shengjie Ma,Chengjin Xu,Cehao Yang,Liyu Zhang,Jian Guo
発行日 2025-05-02 03:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models はコメントを受け付けていません

Position: Enough of Scaling LLMs! Lets Focus on Downscaling

要約

我々は、ニューラル・スケーリング法則への支配的な焦点に異議を唱え、大規模言語モデル(LLM)の開発におけるダウンスケーリングへのパラダイム・シフトを提唱する。スケーリング則は、モデルとデータセットのサイズを大きくすることによる性能向上に関する重要な洞察を提供してきたが、特に計算効率の悪さ、環境への影響、展開の制約といった点で、このアプローチには大きな限界があることを強調する。これらの課題に対処するため、リソースの需要を大幅に削減しながら性能を維持することを目指す、LLMのダウンスケールに関する全体的なフレームワークを提案する。本論文では、従来のスケーリングパラダイムから移行するための実践的な戦略を概説し、LLM開発においてより持続可能で効率的、かつ利用しやすいアプローチを提唱する。

要約(オリジナル)

We challenge the dominant focus on neural scaling laws and advocate for a paradigm shift toward downscaling in the development of large language models (LLMs). While scaling laws have provided critical insights into performance improvements through increasing model and dataset size, we emphasize the significant limitations of this approach, particularly in terms of computational inefficiency, environmental impact, and deployment constraints. To address these challenges, we propose a holistic framework for downscaling LLMs that seeks to maintain performance while drastically reducing resource demands. This paper outlines practical strategies for transitioning away from traditional scaling paradigms, advocating for a more sustainable, efficient, and accessible approach to LLM development.

arxiv情報

著者 Ayan Sengupta,Yash Goel,Tanmoy Chakraborty
発行日 2025-05-02 04:13:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Position: Enough of Scaling LLMs! Lets Focus on Downscaling はコメントを受け付けていません

Does Self-Attention Need Separate Weights in Transformers?

要約

自己注意の成功は、長距離の依存関係を捉え、文脈理解を強化する能力にあるが、計算の複雑さと、固有の方向性を持つ逐次データを扱う上での課題によって制限されている。本研究では、(キー、値、クエリ)表現のそれぞれについて3つの個別の行列の代わりに、1つの重み行列のみを学習する共有重み自己注意をベースとしたBERTモデルを導入する。我々の共有重みアテンションは、学習パラメータサイズを半分以上、学習時間を10分の1程度に削減する。さらに、GLUEの小さなタスクにおいて、BERTベースラインよりも高い予測精度を実証し、特に、ノイズの多いデータや領域外のデータに対する汎化能力を実証した。実験結果は、我々の共有自己注意手法が注意ブロックにおいて66.53%のパラメータサイズ削減を達成することを示している。GLUEデータセットにおいて、共有重み自己注意ベースのBERTモデルは、標準、対称、ペアワイズ注意ベースのBERTモデルに対して、それぞれ0.38%、5.81%、1.06%の精度向上を示す。モデルとソースコードはAnonymousで入手可能です。

要約(オリジナル)

The success of self-attention lies in its ability to capture long-range dependencies and enhance context understanding, but it is limited by its computational complexity and challenges in handling sequential data with inherent directionality. This work introduces a shared weight self-attention-based BERT model that only learns one weight matrix for (Key, Value, and Query) representations instead of three individual matrices for each of them. Our shared weight attention reduces the training parameter size by more than half and training time by around one-tenth. Furthermore, we demonstrate higher prediction accuracy on small tasks of GLUE over the BERT baseline and in particular a generalization power on noisy and out-of-domain data. Experimental results indicate that our shared self-attention method achieves a parameter size reduction of 66.53% in the attention block. In the GLUE dataset, the shared weight self-attention-based BERT model demonstrates accuracy improvements of 0.38%, 5.81%, and 1.06% over the standard, symmetric, and pairwise attention-based BERT models, respectively. The model and source code are available at Anonymous.

arxiv情報

著者 Md Kowsher,Nusrat Jahan Prottasha,Chun-Nam Yu,Ozlem Ozmen Garibay,Niloofar Yousefi
発行日 2025-05-02 04:24:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Does Self-Attention Need Separate Weights in Transformers? はコメントを受け付けていません

VTS-LLM: Domain-Adaptive LLM Agent for Enhancing Awareness in Vessel Traffic Services through Natural Language

要約

船舶交通サービス(VTS)は、リアルタイムの交通管理を通じて、海上の安全と規制遵守に不可欠である。しかし、複雑化する交通量と、異種、マルチモーダルデータの普及に伴い、既存のVTSシステムは、時空間推論と直感的なヒューマンインタラクションの限界に直面している。本研究では、VTS運用における対話的な意思決定支援のために調整された、初の領域適応型大型LLMエージェントであるVTS-LLMエージェントを提案する。我々は、構造化された船舶データベースと外部の海事知識を組み合わせることで、知識を補強したText-to-SQLタスクとして、リスクのある船舶識別を定式化する。これをサポートするために、カスタムスキーマ、ドメイン固有のコーパス、および複数の言語スタイルによるクエリ-SQLテストセットから構成される、キュレートされたベンチマークデータセットを構築する。我々のフレームワークは、NERベースの関係推論、エージェントベースのドメイン知識注入、セマンティック代数中間表現、およびクエリ再考メカニズムを組み込み、ドメイングラウンディングとコンテキストを考慮した理解を強化する。実験結果は、VTS-LLMがコマンドスタイル、オペレーションスタイル、形式的自然言語クエリにおいて、それぞれ汎用ベースラインとSQLにフォーカスしたベースラインの両方を凌駕することを示している。さらに、我々の分析は、言語スタイルの変化がText-to-SQLモデリングにおいて体系的な性能課題をもたらすという最初の経験的証拠を提供する。この研究は、船舶交通サービスにおける自然言語インタフェースの基礎を築き、プロアクティブなLLM駆動型海上リアルタイム交通管理の新たな可能性を開くものである。

要約(オリジナル)

Vessel Traffic Services (VTS) are essential for maritime safety and regulatory compliance through real-time traffic management. However, with increasing traffic complexity and the prevalence of heterogeneous, multimodal data, existing VTS systems face limitations in spatiotemporal reasoning and intuitive human interaction. In this work, we propose VTS-LLM Agent, the first domain-adaptive large LLM agent tailored for interactive decision support in VTS operations. We formalize risk-prone vessel identification as a knowledge-augmented Text-to-SQL task, combining structured vessel databases with external maritime knowledge. To support this, we construct a curated benchmark dataset consisting of a custom schema, domain-specific corpus, and a query-SQL test set in multiple linguistic styles. Our framework incorporates NER-based relational reasoning, agent-based domain knowledge injection, semantic algebra intermediate representation, and query rethink mechanisms to enhance domain grounding and context-aware understanding. Experimental results show that VTS-LLM outperforms both general-purpose and SQL-focused baselines under command-style, operational-style, and formal natural language queries, respectively. Moreover, our analysis provides the first empirical evidence that linguistic style variation introduces systematic performance challenges in Text-to-SQL modeling. This work lays the foundation for natural language interfaces in vessel traffic services and opens new opportunities for proactive, LLM-driven maritime real-time traffic management.

arxiv情報

著者 Sijin Sun,Liangbin Zhao,Ming Deng,Xiuju Fu
発行日 2025-05-02 04:27:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | VTS-LLM: Domain-Adaptive LLM Agent for Enhancing Awareness in Vessel Traffic Services through Natural Language はコメントを受け付けていません

Token-free Models for Sarcasm Detection

要約

トークン化は、ほとんどの自然言語処理(NLP)パイプラインにおける基本的なステップであるが、語彙の不一致や語彙外の問題などの課題が生じる。最近の研究では、バイトレベルや文字レベルで生テキストを直接操作するモデルが、これらの制限を緩和できることが示されている。本稿では、ソーシャルメディア(Twitter)と非ソーシャルメディア(ニュースヘッドライン)の両領域における皮肉検出タスクについて、ByT5とCANINEの2つのトークンフリーモデルを評価する。トークン・ベースのベースラインや最先端のアプローチに対して、これらのモデルを微調整し、ベンチマークを行う。その結果、ByT5-smallとCANINEはトークンベースの同等モデルを上回り、ニュースヘッドラインとTwitter Sarcasmデータセットでそれぞれ0.77%と0.49%精度を向上させ、最先端の性能を達成しました。これらの結果は、ソーシャルメディアのようなノイズの多い非公式な領域において、ロバストなNLPを実現するトークンフリーのモデルの可能性を強調するものである。

要約(オリジナル)

Tokenization is a foundational step in most natural language processing (NLP) pipelines, yet it introduces challenges such as vocabulary mismatch and out-of-vocabulary issues. Recent work has shown that models operating directly on raw text at the byte or character level can mitigate these limitations. In this paper, we evaluate two token-free models, ByT5 and CANINE, on the task of sarcasm detection in both social media (Twitter) and non-social media (news headlines) domains. We fine-tune and benchmark these models against token-based baselines and state-of-the-art approaches. Our results show that ByT5-small and CANINE outperform token-based counterparts and achieve new state-of-the-art performance, improving accuracy by 0.77% and 0.49% on the News Headlines and Twitter Sarcasm datasets, respectively. These findings underscore the potential of token-free models for robust NLP in noisy and informal domains such as social media.

arxiv情報

著者 Sumit Mamtani,Maitreya Sonawane,Kanika Agarwal,Nishanth Sanjeev
発行日 2025-05-02 05:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Token-free Models for Sarcasm Detection はコメントを受け付けていません