InAttention: Linear Context Scaling for Transformers

要約

トランスフォーマー モデルの VRAM 要件は、セルフ アテンション メカニズムにより、コンテキストの長さに応じて二次的に増加します。
この論文では、デコーダのみのトランスフォーマを変更し、セルフ アテンションを Intention に置き換えます。これは、トークンを初期状態のみにアテンションさせることで、推論中にコンテキストの長さに線形にスケールします。
ベンチマークでは、Intention が推論中の VRAM 使用量を大幅に削減し、コンシューマー GPU での長いシーケンスの処理を可能にすることが示されています。
微調整によりコンテキストの長さが効率的に拡張され、高いトレーニング コストをかけずに長いシーケンスのパフォーマンスが向上することが確認されました。
Intention は、変圧器モデルの長距離依存関係に対するスケーラブルなソリューションを提供し、さらなる最適化への道を開きます。

要約(オリジナル)

VRAM requirements for transformer models scale quadratically with context length due to the self-attention mechanism. In this paper we modify the decoder-only transformer, replacing self-attention with InAttention, which scales linearly with context length during inference by having tokens attend only to initial states. Benchmarking shows that InAttention significantly reduces VRAM usage during inference, enabling handling of long sequences on consumer GPUs. We corroborate that fine-tuning extends context length efficiently, improving performance on long sequences without high training costs. InAttention offers a scalable solution for long-range dependencies in transformer models, paving the way for further optimization.

arxiv情報

著者 Joseph Eisner
発行日 2024-10-09 17:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Population Transformer: Learning Population-level Representations of Neural Activity

要約

我々は、神経記録の任意のアンサンブルに対する集団レベルのコードを大規模に学習する自己教師ありフレームワークを提示します。
私たちは、神経時系列データを使用してモデルをスケーリングする際の 2 つの重要な課題、つまり被験者とデータセットにわたるまばらで可変な電極分布に取り組みます。
Population Transformer (PopT) は、事前トレーニングされた表現の上に積み重ねられ、複数の空間的に疎なデータ チャネルの学習された集約を可能にすることで、ダウンストリームのデコードを強化します。
事前トレーニングされた PopT は、ダウンストリームのデコード実験に必要なデータ量を削減しながら、保留された被験者やタスクでも精度を向上させます。
エンドツーエンドの方法と比較して、このアプローチは計算が軽量で解釈しやすいと同時に、競争力のあるパフォーマンスを維持します。
さらに、私たちのフレームワークが複数の時系列埋め込みとニューラル データ モダリティにどのように一般化できるかを示します。
デコードを超えて、事前トレーニングされた PopT モデルと微調整されたモデルを解釈して、それらを使用して大量のデータから神経科学の洞察を抽出する方法を示します。
マルチチャネル頭蓋内データのデコードと解釈性の既製の改善を可能にするために、コードと事前トレーニングされた PopT をリリースします。

要約(オリジナル)

We present a self-supervised framework that learns population-level codes for arbitrary ensembles of neural recordings at scale. We address two key challenges in scaling models with neural time-series data: sparse and variable electrode distribution across subjects and datasets. The Population Transformer (PopT) stacks on top of pretrained representations and enhances downstream decoding by enabling learned aggregation of multiple spatially-sparse data channels. The pretrained PopT lowers the amount of data required for downstream decoding experiments, while increasing accuracy, even on held-out subjects and tasks. Compared to end-to-end methods, this approach is computationally lightweight and more interpretable, while still retaining competitive performance. We further show how our framework is generalizable to multiple time-series embeddings and neural data modalities. Beyond decoding, we interpret the pretrained PopT and fine-tuned models to show how they can be used to extract neuroscience insights from massive amounts of data. We release our code as well as a pretrained PopT to enable off-the-shelf improvements in multi-channel intracranial data decoding and interpretability.

arxiv情報

著者 Geeling Chau,Christopher Wang,Sabera Talukder,Vighnesh Subramaniam,Saraswati Soedarmadji,Yisong Yue,Boris Katz,Andrei Barbu
発行日 2024-10-09 17:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | コメントする

A Gentle Introduction and Tutorial on Deep Generative Models in Transportation Research

要約

ディープ生成モデル (DGM) は近年急速に進歩しており、複雑なデータ分布を学習して合成データを生成できるため、さまざまな分野で不可欠なツールとなっています。
交通研究におけるそれらの重要性は、特に交通データの生成、予測、特徴抽出などのアプリケーションにおいてますます認識されています。
このペーパーでは、輸送分野でのアプリケーションに焦点を当てた、DGM の包括的な紹介とチュートリアルを提供します。
生成モデルの概要から始まり、基本モデルの詳細な説明、文献の体系的なレビュー、実装を支援する実践的なチュートリアル コードが続きます。
この論文では、現在の課題と機会についても説明し、交通研究においてこれらのモデルをどのように効果的に利用し、さらに発展させることができるかについて強調しています。
この論文は、交通研究における DGM の基礎知識から高度な応用まで研究者や実践者を導く貴重な参考資料として役立ちます。

要約(オリジナル)

Deep Generative Models (DGMs) have rapidly advanced in recent years, becoming essential tools in various fields due to their ability to learn complex data distributions and generate synthetic data. Their importance in transportation research is increasingly recognized, particularly for applications like traffic data generation, prediction, and feature extraction. This paper offers a comprehensive introduction and tutorial on DGMs, with a focus on their applications in transportation. It begins with an overview of generative models, followed by detailed explanations of fundamental models, a systematic review of the literature, and practical tutorial code to aid implementation. The paper also discusses current challenges and opportunities, highlighting how these models can be effectively utilized and further developed in transportation research. This paper serves as a valuable reference, guiding researchers and practitioners from foundational knowledge to advanced applications of DGMs in transportation research.

arxiv情報

著者 Seongjin Choi,Zhixiong Jin,Seungwoo Ham,Jiwon Kim,Lijun Sun
発行日 2024-10-09 17:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Towards xAI: Configuring RNN Weights using Domain Knowledge for MIMO Receive Processing

要約

ディープラーニングは、ワイヤレス通信の物理層に大きな影響を与えています。
MIMO 受信処理などのタスクで優れた経験的パフォーマンスを示したにもかかわらず、実証された優れたパフォーマンス向上の背後にある理由はほとんど不明のままです。
この研究では、信号処理原理を利用して、無線通信の物理層における Explainable AI (xAI) の分野を前進させます。
具体的には、リカレントニューラルネットワーク(RNN)内のフレームワークであるリザーバーコンピューティング(RC)を使用したMIMO-OFDM受信処理(シンボル検出など)のタスクに焦点を当てており、従来のMIMO検出器や他の学習ベースのMIMO検出器の両方よりも優れた性能を発揮します。
私たちの分析は、RC の対応する動作の信号処理ベースの第一原理の理解を提供します。
この基本的な理解に基づいて、MIMO-OFDM シンボル検出用にトレーニングされていない RNN の重みを直接設定することで、ワイヤレス システムのドメイン知識 (チャネル統計など) を基礎となる RNN の設計に体系的に組み込むことができます。
導入された RNN 重み構成は、広範なシミュレーションを通じて検証され、大幅なパフォーマンスの向上が実証されています。
これにより、MIMO-OFDM 受信処理における説明可能な RC ベースのアーキテクチャの基盤が確立され、NextG システムのニューラル ネットワークの設計にドメインの知識を組み込むためのロードマップが提供されます。

要約(オリジナル)

Deep learning is making a profound impact in the physical layer of wireless communications. Despite exhibiting outstanding empirical performance in tasks such as MIMO receive processing, the reasons behind the demonstrated superior performance improvement remain largely unclear. In this work, we advance the field of Explainable AI (xAI) in the physical layer of wireless communications utilizing signal processing principles. Specifically, we focus on the task of MIMO-OFDM receive processing (e.g., symbol detection) using reservoir computing (RC), a framework within recurrent neural networks (RNNs), which outperforms both conventional and other learning-based MIMO detectors. Our analysis provides a signal processing-based, first-principles understanding of the corresponding operation of the RC. Building on this fundamental understanding, we are able to systematically incorporate the domain knowledge of wireless systems (e.g., channel statistics) into the design of the underlying RNN by directly configuring the untrained RNN weights for MIMO-OFDM symbol detection. The introduced RNN weight configuration has been validated through extensive simulations demonstrating significant performance improvements. This establishes a foundation for explainable RC-based architectures in MIMO-OFDM receive processing and provides a roadmap for incorporating domain knowledge into the design of neural networks for NextG systems.

arxiv情報

著者 Shashank Jere,Lizhong Zheng,Karim Said,Lingjia Liu
発行日 2024-10-09 17:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | コメントする

Let’s Ask GNN: Empowering Large Language Model for Graph In-Context Learning

要約

テキスト属性グラフ (TAG) は、複雑な現実世界のシステムをモデル化するために不可欠ですが、TAG に大規模言語モデル (LLM) を活用すると、逐次的なテキスト処理とグラフ構造化されたデータの間のギャップにより、独特の課題が生じます。
インコンテキスト学習 (ICL) を活用してグラフ データとタスク固有の情報を LLM に統合することで、このギャップを埋める新しいアプローチである AskGNN を紹介します。
AskGNN は、グラフ ニューラル ネットワーク (GNN) を利用した構造強化型取得機能を採用して、複雑なグラフ構造とその監視信号を組み込んで、グラフ全体でラベル付きノードを選択します。
私たちの取得学習アルゴリズムは、グラフ上の LLM パフォーマンスを最大化するサンプル ノードを選択するように取得者を最適化します。
3 つのタスクと 7 つの LLM にわたる実験では、グラフ タスクのパフォーマンスにおける AskGNN の優れた有効性が実証され、大規模な微調整を行わずに LLM をグラフ構造データに適用するための新しい道が開かれます。

要約(オリジナル)

Textual Attributed Graphs (TAGs) are crucial for modeling complex real-world systems, yet leveraging large language models (LLMs) for TAGs presents unique challenges due to the gap between sequential text processing and graph-structured data. We introduce AskGNN, a novel approach that bridges this gap by leveraging In-Context Learning (ICL) to integrate graph data and task-specific information into LLMs. AskGNN employs a Graph Neural Network (GNN)-powered structure-enhanced retriever to select labeled nodes across graphs, incorporating complex graph structures and their supervision signals. Our learning-to-retrieve algorithm optimizes the retriever to select example nodes that maximize LLM performance on graph. Experiments across three tasks and seven LLMs demonstrate AskGNN’s superior effectiveness in graph task performance, opening new avenues for applying LLMs to graph-structured data without extensive fine-tuning.

arxiv情報

著者 Zhengyu Hu,Yichuan Li,Zhengyu Chen,Jingang Wang,Han Liu,Kyumin Lee,Kaize Ding
発行日 2024-10-09 17:19:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Collusion Detection with Graph Neural Networks

要約

共謀は、企業が密かに協力して不正行為を行う複雑な現象です。
この論文では、ニューラル ネットワーク (NN) とグラフ ニューラル ネットワーク (GNN) を使用して、さまざまな国内市場における共謀パターンを検出および予測するための革新的な方法論を紹介します。
GNN は、共謀や他の多くの経済問題に存在する固有のネットワーク構造を利用できるため、このタスクに特に適しています。
私たちのアプローチは 2 つのフェーズで構成されています。フェーズ I では、日本、米国、スイスの 2 つの地域、イタリア、ブラジルの個別の市場データセットに基づいてモデルを開発およびトレーニングし、単一市場での共謀の予測に焦点を当てます。
フェーズ II では、トレーニング データが利用できない市場での共謀を検出できる転移学習アプローチを採用し、ゼロショット学習を通じてモデルの適用可能性を拡張します。
このフェーズには、他の国や地域の未確認のデータセットに対するモデルのパフォーマンスを評価するために、配布外 (OOD) 一般化も組み込まれています。
私たちの実証研究では、GNN が複雑な共謀パターンの検出において NN よりも優れていることを示しています。
この研究は、共謀の防止と検出手法の最適化に関する進行中の議論に貢献し、市場の公平性と経済的福祉を強化するための経済的応用における NN と GNN の使用に関する貴重な指針を提供します。

要約(オリジナル)

Collusion is a complex phenomenon in which companies secretly collaborate to engage in fraudulent practices. This paper presents an innovative methodology for detecting and predicting collusion patterns in different national markets using neural networks (NNs) and graph neural networks (GNNs). GNNs are particularly well suited to this task because they can exploit the inherent network structures present in collusion and many other economic problems. Our approach consists of two phases: In Phase I, we develop and train models on individual market datasets from Japan, the United States, two regions in Switzerland, Italy, and Brazil, focusing on predicting collusion in single markets. In Phase II, we extend the models’ applicability through zero-shot learning, employing a transfer learning approach that can detect collusion in markets in which training data is unavailable. This phase also incorporates out-of-distribution (OOD) generalization to evaluate the models’ performance on unseen datasets from other countries and regions. In our empirical study, we show that GNNs outperform NNs in detecting complex collusive patterns. This research contributes to the ongoing discourse on preventing collusion and optimizing detection methodologies, providing valuable guidance on the use of NNs and GNNs in economic applications to enhance market fairness and economic welfare.

arxiv情報

著者 Lucas Gomes,Jannis Kueck,Mara Mattes,Martin Spindler,Alexey Zaytsev
発行日 2024-10-09 17:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ML | コメントする

A neural network-based approach to hybrid systems identification for control

要約

得られたモデルが最適な制御設計にも適するように、有限数の (状態入力) 後継状態データ点から未知の動的システムの機械学習ベースのモデルを設計する問題を検討します。
ニューラル ネットワーク (NN) アーキテクチャを採用しており、適切にトレーニングすると、ネットワークのパラメーターに関して微分可能な連続区分的アフィン (PWA) ダイナミクスを備えたハイブリッド システムが生成され、それによって導関数ベースのトレーニング手順の使用が可能になります。
NN の重みを慎重に選択すると、有限水平最適制御問題 (OCP) の一部として使用した場合に非常に有利な構造特性を備えたハイブリッド システム モデルが生成されることを示します。
具体的には、一般に混合整数最適化を必要とする一般的なハイブリッド システム用の古典的な OCP とは対照的に、強力な局所最適性が保証された最適解が非線形計画法 (NLP) によって計算できることを確立するために利用可能な結果に依存しています。
数値シミュレーションは、最適な制御設計に適していることに加えて、NN ベースの手法がハイブリッド システム向けの最先端のシステム識別方法と非常によく似たパフォーマンスを発揮し、非線形ベンチマークで競争力があることを示しています。

要約(オリジナル)

We consider the problem of designing a machine learning-based model of an unknown dynamical system from a finite number of (state-input)-successor state data points, such that the model obtained is also suitable for optimal control design. We adopt a neural network (NN) architecture that, once suitably trained, yields a hybrid system with continuous piecewise-affine (PWA) dynamics that is differentiable with respect to the network’s parameters, thereby enabling the use of derivative-based training procedures. We show that a careful choice of our NN’s weights produces a hybrid system model with structural properties that are highly favorable when used as part of a finite horizon optimal control problem (OCP). Specifically, we rely on available results to establish that optimal solutions with strong local optimality guarantees can be computed via nonlinear programming (NLP), in contrast to classical OCPs for general hybrid systems which typically require mixed-integer optimization. Besides being well-suited for optimal control design, numerical simulations illustrate that our NN-based technique enjoys very similar performance to state-of-the-art system identification methods for hybrid systems and it is competitive on nonlinear benchmarks.

arxiv情報

著者 Filippo Fabiani,Bartolomeo Stellato,Daniele Masti,Paul J. Goulart
発行日 2024-10-09 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | コメントする

Glider: Global and Local Instruction-Driven Expert Router

要約

パフォーマンスの高い事前トレーニング済みモデルが利用できるようになったことで、特定のドメインに特化した、細かく調整されたエキスパート モデルが急増しました。
これにより、エキスパート モジュールを使用してパフォーマンスや汎用性が向上した集合システムを作成することを目的とした、強力で適応性のあるルーティング ベースの「Model MoErging」メソッドの作成が可能になりました。
ただし、既存の MoErging 手法は、保持されているタスクのパフォーマンスを犠牲にして、目に見えないタスクへの一般化を優先することが多く、現実の展開シナリオでの実際的な適用性が制限されます。
現在のトークンレベルのルーティングメカニズムは、入力タスクのグローバルな意味論的コンテキストを無視していることがわかります。
このトークン単位の独立性により、ルーティングの決定にタスクの意味論的特性が組み込まれていないため、保留されたタスクに対する効果的な専門家の選択が妨げられます。
これに対処するために、セマンティック グローバル ルーターと学習済みローカル ルーターを含むマルチスケール ルーティング メカニズムを統合する、グローバルおよびローカルの命令駆動エキスパート ルーター (GLIDER) を提案します。
グローバル ルーターは、セマンティック関連のコンテキストに対する LLM の高度な推論機能を活用して、専門家の選択を強化します。
入力クエリと LLM が与えられると、ルーターは、すべての層にわたって最も関連性の高い専門家の検索をガイドするセマンティック タスク命令を生成します。
このグローバル ガイダンスは、各モジュール内でのトークン レベルのルーティング決定を容易にするローカル ルーターによって補完され、目に見えないタスクのより詳細な制御とパフォーマンスの向上が可能になります。
T0 および FLAN タスクに T5 ベースのモデルを使用した実験では、GLIDER がホールドアウト タスクの強力な一般化を維持しながら、大幅に向上したホールドイン パフォーマンスを達成することを実証しました。
また、GLIDER のコンポーネントをより深く掘り下げるアブレーション実験も行っています。
私たちの実験は、MoErging メソッドの LLM 駆動のセマンティック推論を活用するマルチスケール ルーティングの重要性を強調しています。

要約(オリジナル)

The availability of performant pre-trained models has led to a proliferation of fine-tuned expert models that are specialized to particular domains. This has enabled the creation of powerful and adaptive routing-based ‘Model MoErging’ methods with the goal of using expert modules to create an aggregate system with improved performance or generalization. However, existing MoErging methods often prioritize generalization to unseen tasks at the expense of performance on held-in tasks, which limits its practical applicability in real-world deployment scenarios. We observe that current token-level routing mechanisms neglect the global semantic context of the input task. This token-wise independence hinders effective expert selection for held-in tasks, as routing decisions fail to incorporate the semantic properties of the task. To address this, we propose, Global and Local Instruction Driven Expert Router (GLIDER) that integrates a multi-scale routing mechanism, encompassing a semantic global router and a learned local router. The global router leverages LLM’s advanced reasoning capabilities for semantic-related contexts to enhance expert selection. Given the input query and LLM, the router generates semantic task instructions that guide the retrieval of the most relevant experts across all layers. This global guidance is complemented by a local router that facilitates token-level routing decisions within each module, enabling finer control and enhanced performance on unseen tasks. Our experiments using T5-based models for T0 and FLAN tasks demonstrate that GLIDER achieves substantially improved held-in performance while maintaining strong generalization on held-out tasks. We also perform ablations experiments to dive deeper into the components of GLIDER. Our experiments highlight the importance of our multi-scale routing that leverages LLM-driven semantic reasoning for MoErging methods.

arxiv情報

著者 Pingzhi Li,Prateek Yadav,Jaehong Yoon,Jie Peng,Yi-Lin Sung,Mohit Bansal,Tianlong Chen
発行日 2024-10-09 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models

要約

機械学習、特に自然言語処理 (NLP) における最近の進歩により、広範なデータセットでトレーニングされた洗練されたモデルが開発されましたが、機密情報の漏洩の可能性についての懸念が生じています。
これに応えて、欧州連合の一般データ保護規則 (GDPR) などの規制措置により、モデルが特定のデータ エントリを選択的に忘れることを可能にするマシンアンラーニング技術への関心が高まっています。
初期のアプローチは主に前処理手法に依存していましたが、最近の研究はトレーニングベースのアンラーニング手法に移行しています。
その有効性にもかかわらず、既存の手法のほとんどは元のトレーニング データにアクセスする必要がありますが、アクセスできないことがよくあります。
さらに、非学習技術を直接適用すると、モデルの表現能力を損なうというコストが発生します。
これらの課題に対処するために、反復対照非学習 (ICU) フレームワークを導入します。このフレームワークは 3 つのコア コンポーネントで構成されます。 非学習損失を通じて特定の知識を削除するように設計された知識非学習誘導モジュール。
純粋な非学習目標に対してモデルの表現力を維持するための対照学習強化モジュール。
そして、特定のデータ部分の未学習範囲を動的に評価し、反復更新を行う反復的未学習改良モジュール。
実験結果は、モデルの全体的なパフォーマンスを維持しながら機密情報を学習解除する際の ICU メソッドの有効性を実証し、プライバシーを重視した機械学習アプリケーションに有望なソリューションを提供します。

要約(オリジナル)

Recent advancements in machine learning, particularly in Natural Language Processing (NLP), have led to the development of sophisticated models trained on extensive datasets, yet raising concerns about the potential leakage of sensitive information. In response, regulatory measures such as the European Union’s General Data Protection Regulation (GDPR) have driven increasing interest in Machine Unlearning techniques, which enable models to selectively forget specific data entries. Early approaches primarily relied on pre-processing methods, while more recent research has shifted towards training-based unlearning techniques. Despite their effectiveness, most existing methods require access to the original training data, which is often inaccessible. Additionally, directly applying unlearning techniques bear the cost of undermining the model’s expressive capabilities. To address these challenges, we introduce the Iterative Contrastive Unlearning (ICU) framework, which consists of three core components: A Knowledge Unlearning Induction module designed to remove specific knowledge through an unlearning loss; A Contrastive Learning Enhancement module to preserve the model’s expressive capabilities against the pure unlearning goal; And an Iterative Unlearning Refinement module that dynamically assess the unlearning extent on specific data pieces and make iterative update. Experimental results demonstrate the efficacy of our ICU method in unlearning sensitive information while maintaining the model’s overall performance, offering a promising solution for privacy-conscious machine learning applications.

arxiv情報

著者 Haoyu Tang,Ye Liu,Xukai Liu,Kai Zhang,Yanghai Zhang,Qi Liu,Enhong Chen
発行日 2024-10-09 14:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free Word Ordered and Morphologically Rich Low Resource Languages

要約

ニューラル依存関係解析は、リソースが少ない形態学的に豊富な言語で顕著なパフォーマンスを達成しました。
また、形態学的に豊富な言語は比較的自由な語順を示すこともよく研究されています。
これは根本的な調査を促します。形態学的に豊富な言語の比較的自由な語順の性質を利用して、語順の変動に対してモデルを堅牢にして、依存関係解析のパフォーマンスを向上させる方法はあるのでしょうか?
この研究では、7 つの比較的自由な語順言語におけるグラフベースの解析アーキテクチャの堅牢性を検証します。
私たちは、これらのアーキテクチャをそれに応じて適応させるために必要な、データの拡張や位置エンコーディングの削除などの重要な変更を精査することに重点を置いています。
この目的を達成するために、モデルを語順の変動に対して堅牢にするための対照的な自己教師あり学習方法を提案します。
さらに、最も優れたパフォーマンスのベースラインと比較した場合、UAS/LAS スコア測定基準で測定したように、私たちが提案した修正は、7 つの比較的自由な語順言語で平均 3.03/2.95 ポイントの大幅な向上を示しています。

要約(オリジナル)

Neural dependency parsing has achieved remarkable performance for low resource morphologically rich languages. It has also been well-studied that morphologically rich languages exhibit relatively free word order. This prompts a fundamental investigation: Is there a way to enhance dependency parsing performance, making the model robust to word order variations utilizing the relatively free word order nature of morphologically rich languages? In this work, we examine the robustness of graph-based parsing architectures on 7 relatively free word order languages. We focus on scrutinizing essential modifications such as data augmentation and the removal of position encoding required to adapt these architectures accordingly. To this end, we propose a contrastive self-supervised learning method to make the model robust to word order variations. Furthermore, our proposed modification demonstrates a substantial average gain of 3.03/2.95 points in 7 relatively free word order languages, as measured by the UAS/LAS Score metric when compared to the best performing baseline.

arxiv情報

著者 Pretam Ray,Jivnesh Sandhan,Amrith Krishna,Pawan Goyal
発行日 2024-10-09 14:38:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする