How do language models learn facts? Dynamics, curricula and hallucinations

要約

大規模な言語モデルは、トレーニング前に膨大な知識を蓄積しますが、この獲得を管理するダイナミクスは依然としてよく理解されていません。
この作業では、合成事実のリコールタスクに関する言語モデルの学習ダイナミクスを調査し、3つの重要な調査結果を明らかにします。まず、言語モデルは3つのフェーズで学習し、正確な事実知識を獲得する前にパフォーマンスプラトーを示します。
機械的には、このプラトーは、リコールをサポートする注意ベースの回路の形成と一致します。
第二に、不均衡な分布がより短いプラトーにつながるため、トレーニングデータの分布は学習ダイナミクスに大きく影響します。
最後に、幻覚は知識と同時に現れ、微調整を通じて新しい知識をモデルに統合することは挑戦的です。
我々の結果は、知識習得におけるデータ分布の重要性を強調し、ニューラルネットワークトレーニングを加速するための新しいデータスケジューリング戦略を示唆しています。

要約(オリジナル)

Large language models accumulate vast knowledge during pre-training, yet the dynamics governing this acquisition remain poorly understood. This work investigates the learning dynamics of language models on a synthetic factual recall task, uncovering three key findings: First, language models learn in three phases, exhibiting a performance plateau before acquiring precise factual knowledge. Mechanistically, this plateau coincides with the formation of attention-based circuits that support recall. Second, the training data distribution significantly impacts learning dynamics, as imbalanced distributions lead to shorter plateaus. Finally, hallucinations emerge simultaneously with knowledge, and integrating new knowledge into the model through fine-tuning is challenging, as it quickly corrupts its existing parametric memories. Our results emphasize the importance of data distribution in knowledge acquisition and suggest novel data scheduling strategies to accelerate neural network training.

arxiv情報

著者 Nicolas Zucchet,Jörg Bornschein,Stephanie Chan,Andrew Lampinen,Razvan Pascanu,Soham De
発行日 2025-03-27 16:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | How do language models learn facts? Dynamics, curricula and hallucinations はコメントを受け付けていません

JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models’ Detection of Human Self-Destructive Behavior Content in Jirai Community

要約

このペーパーでは、中国と日本のソーシャルメディアコミュニティで自己破壊的なコンテンツを検出する際の大規模な言語モデルの有効性を評価するための最初のバイリンガルベンチマークであるJiraibenchを紹介します。
麻薬過剰摂取、摂食障害、自傷行為など、複数の形態の自己破壊的行動を含む、国境を越えた「ジライ」(土地)のオンラインサブカルチャーに焦点を当て、言語的および文化的側面の両方を組み込んだ包括的な評価フレームワークを紹介します。
私たちのデータセットは、3つの行動カテゴリに沿って多次元注釈を備えた10,419の中国の投稿と5,000の日本の投稿で構成されており、大規模なアノテーター間契約を達成しています。
4つの最先端のモデルにわたる実験的評価は、教育言語に基づいた重要なパフォーマンスの変動を明らかにしており、日本のプロンプトは、中国のコンテンツを処理する際に中国のプロンプトを予期せずに上回ります。
この出現した異文化間移転は、文化的近接性が検出タスクの言語的類似性を上回ることがあることを示唆しています。
微調整されたモデルを使用した言語間転送実験は、明示的なターゲット言語トレーニングなしで、これらの言語システム間の知識移転の可能性をさらに示しています。
これらの調査結果は、多言語コンテンツの節度に対する文化に基づいたアプローチの必要性を強調し、脆弱なオンラインコミュニティ向けのより効果的な検出システムを開発する際の文化的文脈の重要性に関する経験的証拠を提供します。

要約(オリジナル)

This paper introduces JiraiBench, the first bilingual benchmark for evaluating large language models’ effectiveness in detecting self-destructive content across Chinese and Japanese social media communities. Focusing on the transnational ‘Jirai’ (landmine) online subculture that encompasses multiple forms of self-destructive behaviors including drug overdose, eating disorders, and self-harm, we present a comprehensive evaluation framework incorporating both linguistic and cultural dimensions. Our dataset comprises 10,419 Chinese posts and 5,000 Japanese posts with multidimensional annotation along three behavioral categories, achieving substantial inter-annotator agreement. Experimental evaluations across four state-of-the-art models reveal significant performance variations based on instructional language, with Japanese prompts unexpectedly outperforming Chinese prompts when processing Chinese content. This emergent cross-cultural transfer suggests that cultural proximity can sometimes outweigh linguistic similarity in detection tasks. Cross-lingual transfer experiments with fine-tuned models further demonstrate the potential for knowledge transfer between these language systems without explicit target language training. These findings highlight the need for culturally-informed approaches to multilingual content moderation and provide empirical evidence for the importance of cultural context in developing more effective detection systems for vulnerable online communities.

arxiv情報

著者 Yunze Xiao,Tingyu He,Lionel Z. Wang,Yiming Ma,Xingyu Song,Xiaohang Xu,Irene Li,Ka Chung Ng
発行日 2025-03-27 16:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models’ Detection of Human Self-Destructive Behavior Content in Jirai Community はコメントを受け付けていません

Learning to Represent Individual Differences for Choice Decision Making

要約

意思決定は多くの複雑な要因の影響を受けるため、人間の意思決定は予測するのが難しい場合があります。
この複雑さに加えて、意思決定プロセスは個人間でかなり異なる場合があり、人間の決定を予測することを目的とした方法は、個人差を考慮に入れる必要があります。
行動科学は、個人差(アンケート、行動モデルなど)を測定する方法を提供しますが、これらはしばしば低次元に絞り込まれ、特定の予測タスクに合わせて調整されていません。
このペーパーでは、行動実験データからの個人差を測定するための表現学習の使用を調査します。
表現学習は、構造化(人口統計情報など)と構造化されていない(たとえば、無料テキスト)の両方のデータから個々の埋め込みを作成するための柔軟なアプローチを提供します。柔軟性は、パーソナライズのための個人差測定のためのより多くのオプションを提供する場合があります。
現在の論文では、表現学習を使用して、経済的意思決定タスクに対する人間のパフォーマンスの個人差を特徴付けます。
表現学習を使用して個人差をキャプチャするモデルは、表現学習なしでモデルよりも決定予測を一貫して改善し、これらの環境で使用される有名な理論ベースの行動モデルよりも優れていることを実証します。
私たちの結果は、表現学習が個人差をキャプチャするための便利で柔軟なツールを提供することを提案しています。

要約(オリジナル)

Human decision making can be challenging to predict because decisions are affected by a number of complex factors. Adding to this complexity, decision-making processes can differ considerably between individuals, and methods aimed at predicting human decisions need to take individual differences into account. Behavioral science offers methods by which to measure individual differences (e.g., questionnaires, behavioral models), but these are often narrowed down to low dimensions and not tailored to specific prediction tasks. This paper investigates the use of representation learning to measure individual differences from behavioral experiment data. Representation learning offers a flexible approach to create individual embeddings from data that are both structured (e.g., demographic information) and unstructured (e.g., free text), where the flexibility provides more options for individual difference measures for personalization, e.g., free text responses may allow for open-ended questions that are less privacy-sensitive. In the current paper we use representation learning to characterize individual differences in human performance on an economic decision-making task. We demonstrate that models using representation learning to capture individual differences consistently improve decision predictions over models without representation learning, and even outperform well-known theory-based behavioral models used in these environments. Our results propose that representation learning offers a useful and flexible tool to capture individual differences.

arxiv情報

著者 Yan-Ying Chen,Yue Weng,Alexandre Filipowicz,Rumen Iliev,Francine Chen,Shabnam Hakimi,Yanxia Zhang,Matthew Lee,Kent Lyons,Charlene Wu
発行日 2025-03-27 17:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Learning to Represent Individual Differences for Choice Decision Making はコメントを受け付けていません

As easy as PIE: understanding when pruning causes language models to disagree

要約

言語モデル(LM)剪定は、重み、ノード、またはそのアーキテクチャの他の部分を削除することにより、モデルを圧縮します。
通常、剪定は、結果として生じる効率性の向上に焦点を当てています。
ただし、個々のデータポイントが剪定によってどのように影響を受けるかを見ると、データポイントの特定のサブセットは、剪定時に(精度が低下するという点で)常にほとんどのブラントを負担しますが、この効果はすべてのデータポイントの平均精度を報告するときに気付かれません。
これらのデータポイントはPIEと呼ばれ、画像処理で研究されていますが、NLPでは研究されていません。
さまざまなNLPデータセット、剪定方法、圧縮のレベルの研究では、PIEはクラスの頻度に関係なく、推論の品質に大きく影響し、BertはBilstmよりもこれに傾いていることがわかります。
また、PIEには、モデルが目に見えないデータにどの程度一般化するかに最大の影響を与える大量のデータポイントが含まれていることがわかります。
これは、すべてのデータポイントにわたって精度が一見中程度の損失があるように見える剪定の場合、実際に最も重要なデータポイントを非常に傷つけたことを意味します。
私たちは、パイがより長く、よりセマンティックに複雑なテキストへの推論に対して、パイを硬く、影響を与えるものを追跡します。
これらの発見は斬新であり、LMSが剪定によってどのように影響を受けるかを理解することに貢献しています。
このコードは、https://github.com/pietrotrope/aseasyaspieで入手できます

要約(オリジナル)

Language Model (LM) pruning compresses the model by removing weights, nodes, or other parts of its architecture. Typically, pruning focuses on the resulting efficiency gains at the cost of effectiveness. However, when looking at how individual data points are affected by pruning, it turns out that a particular subset of data points always bears most of the brunt (in terms of reduced accuracy) when pruning, but this effect goes unnoticed when reporting the mean accuracy of all data points. These data points are called PIEs and have been studied in image processing, but not in NLP. In a study of various NLP datasets, pruning methods, and levels of compression, we find that PIEs impact inference quality considerably, regardless of class frequency, and that BERT is more prone to this than BiLSTM. We also find that PIEs contain a high amount of data points that have the largest influence on how well the model generalises to unseen data. This means that when pruning, with seemingly moderate loss to accuracy across all data points, we in fact hurt tremendously those data points that matter the most. We trace what makes PIEs both hard and impactful to inference to their overall longer and more semantically complex text. These findings are novel and contribute to understanding how LMs are affected by pruning. The code is available at: https://github.com/pietrotrope/AsEasyAsPIE

arxiv情報

著者 Pietro Tropeano,Maria Maistro,Tuukka Ruotsalo,Christina Lioma
発行日 2025-03-27 17:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | As easy as PIE: understanding when pruning causes language models to disagree はコメントを受け付けていません

CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?

要約

科学的ピアレビューの中核部分は、論文が行う科学的主張を直接評価する専門家の批評を提供することです。
今ではもっともらしい(ジェネリック)レビューを自動的に生成することが可能になりましたが、これらのレビューが健全で、論文の主張に基づいていることを保証することは依然として困難です。
これらの課題のLLMベンチマークを促進するために、Neurips 2023および2024の提出物の注釈付きデータセットであるChrachecheckを紹介し、OpenReviewから採掘されたレビューを紹介します。
請求書は、レビューの弱点声明のためにMLの専門家によって豊富に注釈されており、論文は、特定された弱点の有効性、客観性、およびタイプの細かいラベルと同様に、彼らが異議を唱えていると主張しています。
私たちは、請求書によってサポートされている3つのクレーム中心のタスクにいくつかのLLMをベンチマークし、(1)紛争の弱点を(2)弱点を予測し、弱点を予測し、特異性を高めるために弱点を書き直し、(3)根拠に基づいた理由で論文の主張を検証することを要求します。
私たちの実験では、最先端のLLMは、(2)の脱力度ラベルを予測することができますが、他のすべてのタスクの人間の専門家と比較してパフォーマンスが低下し続けることが明らかになりました。

要約(オリジナル)

A core part of scientific peer review involves providing expert critiques that directly assess the scientific claims a paper makes. While it is now possible to automatically generate plausible (if generic) reviews, ensuring that these reviews are sound and grounded in the papers’ claims remains challenging. To facilitate LLM benchmarking on these challenges, we introduce CLAIMCHECK, an annotated dataset of NeurIPS 2023 and 2024 submissions and reviews mined from OpenReview. CLAIMCHECK is richly annotated by ML experts for weakness statements in the reviews and the paper claims that they dispute, as well as fine-grained labels of the validity, objectivity, and type of the identified weaknesses. We benchmark several LLMs on three claim-centric tasks supported by CLAIMCHECK, requiring models to (1) associate weaknesses with the claims they dispute, (2) predict fine-grained labels for weaknesses and rewrite the weaknesses to enhance their specificity, and (3) verify a paper’s claims with grounded reasoning. Our experiments reveal that cutting-edge LLMs, while capable of predicting weakness labels in (2), continue to underperform relative to human experts on all other tasks.

arxiv情報

著者 Jiefu Ou,William Gantt Walden,Kate Sanders,Zhengping Jiang,Kaiser Sun,Jeffrey Cheng,William Jurayj,Miriam Wanner,Shaobo Liang,Candice Morgan,Seunghoon Han,Weiqi Wang,Chandler May,Hannah Recknor,Daniel Khashabi,Benjamin Van Durme
発行日 2025-03-27 17:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers? はコメントを受け付けていません

Understanding the Logic of Direct Preference Alignment through Logic

要約

DPOなどの最近の直接選好アライメントアルゴリズム(DPA)は、大規模な言語モデルを人間の好みに合わせることに大きな期待を示しています。
これは、元のDPO損失の多くの新しいバリアントの開発を動機付けていますが、これらのDPA損失関数の開発と同様に、これらの最近の提案の違いを理解することは、これらのアルゴリズムの基礎となるセマンティクスについて推論するための技術的および概念的な枠組みの欠如を考えると困難なままです。
この論文では、個別の推論問題の観点からDPAの損失を正式にすることにより、これを改善しようとします。
具体的には、既存のDPA損失を考えると、そのセマンティクスを特徴付ける象徴的なプログラムを体系的に導き出すことができますか?
単一モデルおよび参照モデルベースのアプローチの優先損失を特徴付けるための新しい形式を提案し、多くの一般的に使用されるDPAバリアントのシンボリック形式を特定します。
さらに、この好みの学習に関するこの正式な見解は、DPA損失の状況のサイズと構造の両方に新たな光を当て、最近の損失提案間の関係を厳密に特徴付けるだけでなく、景観を体系的に探求し、第一原理から新しい損失関数を導き出すことを可能にします。
私たちのフレームワークと調査結果が、人間のAIの調整に取り組んでいる人々に有用なガイダンスを提供するのに役立つことを願っています。

要約(オリジナル)

Recent direct preference alignment algorithms (DPA), such as DPO, have shown great promise in aligning large language models to human preferences. While this has motivated the development of many new variants of the original DPO loss, understanding the differences between these recent proposals, as well as developing new DPA loss functions, remains difficult given the lack of a technical and conceptual framework for reasoning about the underlying semantics of these algorithms. In this paper, we attempt to remedy this by formalizing DPA losses in terms of discrete reasoning problems. Specifically, we ask: Given an existing DPA loss, can we systematically derive a symbolic program that characterizes its semantics? We propose a novel formalism for characterizing preference losses for single model and reference model based approaches, and identify symbolic forms for a number of commonly used DPA variants. Further, we show how this formal view of preference learning sheds new light on both the size and structure of the DPA loss landscape, making it possible to not only rigorously characterize the relationships between recent loss proposals but also to systematically explore the landscape and derive new loss functions from first principles. We hope our framework and findings will help provide useful guidance to those working on human AI alignment.

arxiv情報

著者 Kyle Richardson,Vivek Srikumar,Ashish Sabharwal
発行日 2025-03-27 17:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Understanding the Logic of Direct Preference Alignment through Logic はコメントを受け付けていません

Effective Skill Unlearning through Intervention and Abstention

要約

大規模な言語モデル(LLM)は、さまざまなドメインで顕著なスキルを示しています。
能力の背後にあるメカニズムを理解し、それらに対するコントロールを実装することは、より良いモデルを開発するためにますます重要になっています。
このホワイトペーパーでは、LLMSでのスキルを解除することに焦点を当てており、全体的な能力を維持しながら特定のスキルを具体的に解き放ちます。
LLMS向けに、2つの軽量のトレーニングのないマシンスキルの解除技術を紹介します。
まず、各フィードフォワード層(FFL)のニューロンの活性化前分布は、モデルが異なるスキルを実証すると異​​なることがわかります。
さらに、FFLキー空間内で同じスキルクラスターをトリガーし、ハイパーキューブを使用して他のクエリから分離できるクエリが見つかります。
これらの観察に基づいて、\ textit {介入}と\ textit {abstention}を介して2つの軽量でトレーニングフリーのスキルの解除方法を提案します。
7つの異なる言語で数学解決、Pythonコーディング、および理解スキルの学習に関する方法を評価します。
結果は、指定されたスキルの強力な学習能力を示しています。
具体的には、\ texttt {キースペース検出}は、忘れられないスキルで80を超える相対パフォーマンスの低下を達成し、他のスキルで10 \%未満の相対パフォーマンス低下と、ほとんどの学習タスクでモデルの一般知識(MMLU)を達成します。
私たちのコードは、https://github.com/trustworthy-ml-lab/efctive_skill_unlearningで入手できます

要約(オリジナル)

Large language Models (LLMs) have demonstrated remarkable skills across various domains. Understanding the mechanisms behind their abilities and implementing controls over them is becoming increasingly important for developing better models. In this paper, we focus on skill unlearning in LLMs, specifically unlearning a particular skill while retaining their overall capabilities. We introduce two lightweight, training-free machine skill unlearning techniques for LLMs. First, we observe that the pre-activation distribution of neurons in each Feed-Forward Layer (FFL) differs when the model demonstrates different skills. Additionally, we find that queries triggering the same skill cluster within the FFL key space and can be separated from other queries using a hypercube. Based on these observations, we propose two lightweight, training-free skill unlearning methods via \textit{intervention} and \textit{abstention} respectively: \texttt{Neuron Adjust} and \texttt{Key Space Detection}. We evaluate our methods on unlearning math-solving, Python-coding, and comprehension skills across seven different languages. The results demonstrate their strong unlearning capabilities for the designated skills. Specifically, \texttt{Key Space Detection} achieves over 80\% relative performance drop on the forgetting skill and less than 10\% relative performance drop on other skills and the model’s general knowledge (MMLU) for most unlearning tasks. Our code is available at https://github.com/Trustworthy-ML-Lab/effective_skill_unlearning

arxiv情報

著者 Yongce Li,Chung-En Sun,Tsui-Wei Weng
発行日 2025-03-27 17:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Effective Skill Unlearning through Intervention and Abstention はコメントを受け付けていません

MemInsight: Autonomous Memory Augmentation for LLM Agents

要約

大規模な言語モデル(LLM)エージェントは、情報をインテリジェントに処理し、意思決定を行い、ユーザーまたはツールと対話するために進化しました。
重要な機能は、長期のメモリ機能の統合であり、これらのエージェントが歴史的な相互作用と知識を利用できるようにすることです。
ただし、メモリのサイズの増加とセマンティック構造化の必要性は、大きな課題をもたらします。
この作業では、セマンティックデータの表現と検索メカニズムを強化するために、自律的なメモリ増強アプローチであるMeminsightを提案します。
歴史的相互作用に自律的な増強を活用することにより、LLMエージェントは、より正確で文脈化された応答を提供することが示されています。
3つのタスクシナリオで提案されたアプローチの有効性を経験的に検証します。
会話の推奨事項、質問への回答、イベントの要約。
LLM Redial Datasetでは、Meminsightは推奨事項の説得力を最大14%増加させます。
さらに、ロコモ検索のリコールで、RAGベースラインを34%上回ることができます。
私たちの経験的結果は、複数のタスクにわたるLLMエージェントのコンテキストパフォーマンスを強化するためのMeminsightの可能性を示しています。

要約(オリジナル)

Large language model (LLM) agents have evolved to intelligently process information, make decisions, and interact with users or tools. A key capability is the integration of long-term memory capabilities, enabling these agents to draw upon historical interactions and knowledge. However, the growing memory size and need for semantic structuring pose significant challenges. In this work, we propose an autonomous memory augmentation approach, MemInsight, to enhance semantic data representation and retrieval mechanisms. By leveraging autonomous augmentation to historical interactions, LLM agents are shown to deliver more accurate and contextualized responses. We empirically validate the efficacy of our proposed approach in three task scenarios; conversational recommendation, question answering and event summarization. On the LLM-REDIAL dataset, MemInsight boosts persuasiveness of recommendations by up to 14%. Moreover, it outperforms a RAG baseline by 34% in recall for LoCoMo retrieval. Our empirical results show the potential of MemInsight to enhance the contextual performance of LLM agents across multiple tasks.

arxiv情報

著者 Rana Salama,Jason Cai,Michelle Yuan,Anna Currey,Monica Sunkara,Yi Zhang,Yassine Benajiba
発行日 2025-03-27 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MemInsight: Autonomous Memory Augmentation for LLM Agents はコメントを受け付けていません

MONO2REST: Identifying and Exposing Microservices: a Reusable RESTification Approach

要約

マイクロサービスアーキテクチャスタイルは、大規模なクラウドアプリケーションの事実上の基準となっており、スケーラビリティ、保守性、展開の柔軟性に多くの利点を提供しています。
多くの組織は、レガシーモノリシックシステムのマイクロサービスアーキテクチャへの移行を追求しています。
ただし、このプロセスは挑戦的で、リスクが高く、時間型であり、衰退しやすいものであり、いくつかの組織には、この移行プロセスを設定するために必要な財源、時間、または専門知識が欠けています。
したがって、移行が危険であるか、実行不可能なレガシーシステムを移行しようとするのではなく、移行せずにマイクロサービスアプリケーションとして公開することをお勧めします。
この論文では、進化的アルゴリズムと機械学習技術を組み合わせた、再利用可能な自動化された2フェーズアプローチを紹介します。
第1フェーズでは、メソッド間の構造依存関係とセマンティック依存関係の両方を考慮する多目的遺伝的アルゴリズムを使用して、メソッドレベルでマイクロサービスを識別します。
第2フェーズでは、HTTPメソッドとエンドポイントを割り当てるために分類アルゴリズムを使用して、識別された各マイクロサービスのREST APIを生成します。
Spring Petclinicアプリケーションに関するケーススタディでアプローチを評価しました。これには、比較のための基本真理として役立つモノリシックとマイクロサービスの両方の実装があります。
結果は、当社のアプローチが識別されたマイクロサービスを参照マイクロサービスの実装に沿ったマイクロサービスを正常に調整し、サービス識別とAPI生成におけるその有効性を強調していることを示しています。

要約(オリジナル)

The microservices architectural style has become the de facto standard for large-scale cloud applications, offering numerous benefits in scalability, maintainability, and deployment flexibility. Many organizations are pursuing the migration of legacy monolithic systems to a microservices architecture. However, this process is challenging, risky, time-intensive, and prone-to-failure while several organizations lack necessary financial resources, time, or expertise to set up this migration process. So, rather than trying to migrate a legacy system where migration is risky or not feasible, we suggest exposing it as a microservice application without without having to migrate it. In this paper, we present a reusable, automated, two-phase approach that combines evolutionary algorithms with machine learning techniques. In the first phase, we identify microservices at the method level using a multi-objective genetic algorithm that considers both structural and semantic dependencies between methods. In the second phase, we generate REST APIs for each identified microservice using a classification algorithm to assign HTTP methods and endpoints. We evaluated our approach with a case study on the Spring PetClinic application, which has both monolithic and microservices implementations that serve as ground truth for comparison. Results demonstrate that our approach successfully aligns identified microservices with those in the reference microservices implementation, highlighting its effectiveness in service identification and API generation.

arxiv情報

著者 Matthéo Lecrivain,Hanifa Barry,Dalila Tamzalit,Houari Sahraoui
発行日 2025-03-27 14:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | MONO2REST: Identifying and Exposing Microservices: a Reusable RESTification Approach はコメントを受け付けていません

Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models

要約

情報検索(IR)フィールドが包括性の重要性をますます認識しているため、低リソース言語のニーズに対処することは依然として重要な課題です。
ウルドゥー語とそのローマ化された形式であるローマのウルドゥー語の間の音訳は、南アジアでの両方のスクリプトを広範囲に使用しているにもかかわらず、既知のままです。
Roman-Udu-ParlデータセットでRNNを使用した以前の研究は、有望な結果を示しましたが、貧弱なドメインの適応性と限られた評価に苦しんでいました。
M2M100多言語翻訳モデルを使用して変圧器ベースのアプローチを提案し、Masked Language Modeling(MLM)GretrainingとRoman-Udu-ParlとドメインダイバーDakshina Datasetの両方で強化されています。
以前の評価の欠陥に対処するために、厳密なデータセットの分割を導入し、BLEU、キャラクターレベルのBLE、およびCHRFを使用してパフォーマンスを評価します。
私たちのモデルは、Urdu-> Roman-Uduで96.37、Roman-Udu-> Urduで97.44のChar-Bleuスコアが96.37で、強力な音訳性能を達成しています。
これらの結果は、RNNベースラインとGPT-4O MINIの両方を上回り、低リソースの音訳タスクに対する多言語転送学習の有効性を示しています。

要約(オリジナル)

As the Information Retrieval (IR) field increasingly recognizes the importance of inclusivity, addressing the needs of low-resource languages remains a significant challenge. Transliteration between Urdu and its Romanized form, Roman Urdu, remains underexplored despite the widespread use of both scripts in South Asia. Prior work using RNNs on the Roman-Urdu-Parl dataset showed promising results but suffered from poor domain adaptability and limited evaluation. We propose a transformer-based approach using the m2m100 multilingual translation model, enhanced with masked language modeling (MLM) pretraining and fine-tuning on both Roman-Urdu-Parl and the domain-diverse Dakshina dataset. To address previous evaluation flaws, we introduce rigorous dataset splits and assess performance using BLEU, character-level BLEU, and CHRF. Our model achieves strong transliteration performance, with Char-BLEU scores of 96.37 for Urdu->Roman-Urdu and 97.44 for Roman-Urdu->Urdu. These results outperform both RNN baselines and GPT-4o Mini and demonstrate the effectiveness of multilingual transfer learning for low-resource transliteration tasks.

arxiv情報

著者 Umer Butt,Stalin Veranasi,Günter Neumann
発行日 2025-03-27 14:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models はコメントを受け付けていません