A Survey on Knowledge Distillation of Large Language Models

要約

大規模言語モデル (LLM) の時代には、知識蒸留 (KD) が、GPT-4 などの主要な独自の LLM から、LLaMA や Mistral などのオープンソースの対応物に高度な機能を転送するための極めて重要な方法論として浮上します。
さらに、オープンソース LLM が繁栄するにつれて、KD はこれらのモデルを圧縮することと、教師として雇用することで自己改善を促進することの両方において重要な役割を果たします。
この論文は、LLM の領域内での KD の役割の包括的な調査を示し、より小さなモデルに高度な知識を与える際のその重要な機能と、モデルの圧縮と自己改善におけるその有用性を強調します。
私たちの調査は、\textit{アルゴリズム}、\textit{スキル}、\textit{垂直化}という 3 つの基礎的な柱を中心に細心の注意を払って構成されており、KD メカニズム、特定の認知能力の強化、およびそれらの全体的な実践的な影響についての包括的な調査を提供します。
多様な分野。
重要なのは、この調査がデータ拡張 (DA) と KD の間の複雑な相互作用をナビゲートし、LLM のパフォーマンスを強化するための KD フレームワーク内で DA がどのように強力なパラダイムとして浮上するかを示していることです。
DA を活用してコンテキスト豊富なスキル固有のトレーニング データを生成することで、KD は従来の境界を超え、オープンソース モデルが独自のモデルに特徴的なコンテキストの熟練度、倫理的整合性、および深い意味論的洞察を近似できるようにします。
この研究は、KD における現在の方法論の詳細な概要を提供し、将来の研究の方向性を提案する、研究者と実践者に洞察力に富んだガイドを提供することを目的としています。
重要なのは、LLM の使用を規制する法的条件の遵守を強く主張し、LLM の KD の倫理的かつ合法的な適用を確保することです。
関連する Github リポジトリは、https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs で入手できます。

要約(オリジナル)

In the era of Large Language Models (LLMs), Knowledge Distillation (KD) emerges as a pivotal methodology for transferring advanced capabilities from leading proprietary LLMs, such as GPT-4, to their open-source counterparts like LLaMA and Mistral. Additionally, as open-source LLMs flourish, KD plays a crucial role in both compressing these models, and facilitating their self-improvement by employing themselves as teachers. This paper presents a comprehensive survey of KD’s role within the realm of LLM, highlighting its critical function in imparting advanced knowledge to smaller models and its utility in model compression and self-improvement. Our survey is meticulously structured around three foundational pillars: \textit{algorithm}, \textit{skill}, and \textit{verticalization} — providing a comprehensive examination of KD mechanisms, the enhancement of specific cognitive abilities, and their practical implications across diverse fields. Crucially, the survey navigates the intricate interplay between data augmentation (DA) and KD, illustrating how DA emerges as a powerful paradigm within the KD framework to bolster LLMs’ performance. By leveraging DA to generate context-rich, skill-specific training data, KD transcends traditional boundaries, enabling open-source models to approximate the contextual adeptness, ethical alignment, and deep semantic insights characteristic of their proprietary counterparts. This work aims to provide an insightful guide for researchers and practitioners, offering a detailed overview of current methodologies in KD and proposing future research directions. Importantly, we firmly advocate for compliance with the legal terms that regulate the use of LLMs, ensuring ethical and lawful application of KD of LLMs. An associated Github repository is available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.

arxiv情報

著者 Xiaohan Xu,Ming Li,Chongyang Tao,Tao Shen,Reynold Cheng,Jinyang Li,Can Xu,Dacheng Tao,Tianyi Zhou
発行日 2024-10-21 16:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Knowledge Distillation of Large Language Models はコメントを受け付けていません

From Tokens to Materials: Leveraging Language Models for Scientific Discovery

要約

物質科学における言語モデルの予測機能の探求は、継続的な関心の対象となっています。
この研究では、材料科学における材料特性予測を強化するための言語モデル埋め込みの適用を調査します。
さまざまなコンテキスト埋め込み手法と、トランスフォーマーからの双方向エンコーダー表現 (BERT) や生成事前トレーニング済みトランスフォーマー (GPT) を含む事前トレーニング済みモデルを評価することにより、ドメイン固有のモデル、特に MatBERT が暗黙的な抽出において汎用モデルよりも大幅に優れていることを実証します。
化合物名と材料特性からの知識。
私たちの調査結果は、MatBERT の 3 番目の層からの情報密度の高い埋め込みと、コンテキスト平均化アプローチを組み合わせることで、科学文献から材料と特性の関係を取得する最も効果的な方法を提供することを明らかにしました。
また、重要な「トークナイザー効果」も特定し、一貫したトークン数を維持しながら完全な複合名を保存する特殊なテキスト処理技術の重要性を強調しています。
これらの洞察は、材料科学アプリケーションにおけるドメイン固有のトレーニングとトークン化の価値を強調し、AI 主導のアプローチを通じて新材料の発見と開発を加速するための有望な道筋を提供します。

要約(オリジナル)

Exploring the predictive capabilities of language models in material science is an ongoing interest. This study investigates the application of language model embeddings to enhance material property prediction in materials science. By evaluating various contextual embedding methods and pre-trained models, including Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-trained Transformers (GPT), we demonstrate that domain-specific models, particularly MatBERT significantly outperform general-purpose models in extracting implicit knowledge from compound names and material properties. Our findings reveal that information-dense embeddings from the third layer of MatBERT, combined with a context-averaging approach, offer the most effective method for capturing material-property relationships from the scientific literature. We also identify a crucial ‘tokenizer effect,’ highlighting the importance of specialized text processing techniques that preserve complete compound names while maintaining consistent token counts. These insights underscore the value of domain-specific training and tokenization in materials science applications and offer a promising pathway for accelerating the discovery and development of new materials through AI-driven approaches.

arxiv情報

著者 Yuwei Wan,Tong Xie,Nan Wu,Wenjie Zhang,Chunyu Kit,Bram Hoex
発行日 2024-10-21 16:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB | From Tokens to Materials: Leveraging Language Models for Scientific Discovery はコメントを受け付けていません

Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models

要約

大規模言語モデル (LLM) は、多数の NLP タスクにおいて優れた機能を発揮します。
ただし、英語以外の言語に対するこのようなモデルの有効性は限定されることがよくあります。
これまでの研究では、BERT や XLM-RoBERTa などのエンコーダ専用モデルが、その機能を英語から他の言語に言語間で見事に移行できることが示されています。
この研究では、デコーダのみの LLM で同様の言語間伝達を実現するために能動的忘却を使用する事前トレーニング戦略を提案します。
私たちは、能動的忘却で事前訓練された LLM が、新しい未知の言語に適応する際に非常に効果的であることを示します。
広範な実験を通じて、能動的忘却で事前トレーニングされた LLM は、より優れた多言語表現を学習でき、それが多くの下流タスクのパフォーマンス向上につながることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) demonstrate exceptional capabilities in a multitude of NLP tasks. However, the efficacy of such models to languages other than English is often limited. Prior works have shown that encoder-only models such as BERT or XLM-RoBERTa show impressive cross lingual transfer of their capabilities from English to other languages. In this work, we propose a pretraining strategy that uses active forgetting to achieve similar cross lingual transfer in decoder-only LLMs. We show that LLMs pretrained with active forgetting are highly effective when adapting to new and unseen languages. Through extensive experimentation, we find that LLMs pretrained with active forgetting are able to learn better multilingual representations which translates to better performance in many downstream tasks.

arxiv情報

著者 Divyanshu Aggarwal,Ashutosh Sathe,Sunayana Sitaram
発行日 2024-10-21 16:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models はコメントを受け付けていません

The First VoicePrivacy Attacker Challenge Evaluation Plan

要約

First VoicePrivacy Attacker Challenge は、VoicePrivacy イニシアチブの一部として組織され、SP Grand Challenge として ICASSP 2025 によってサポートされている新しい種類のチャレンジです。これは、音声匿名化に対する攻撃者システムの開発に焦点を当てており、提出された一連の匿名化システムに対して評価されます。
VoicePrivacy 2024 チャレンジ。
トレーニング、開発、評価のデータセットは、ベースラインの攻撃者システムとともに提供されます。
参加者は、自動話者認証システムの形で攻撃者システムを開発し、開発および評価データのスコアを主催者に提出する必要があります。
そのために、指定された期限までに公開され、宣言されている場合に限り、追加のトレーニング データとモデルを使用できます。
評価の指標は等誤り率 (EER) です。
結果は ICASSP 2025 特別セッションで発表され、選ばれた上位 5 名の参加者がチャレンジ システムの提出とプレゼンテーションを行うよう招待されます。

要約(オリジナル)

The First VoicePrivacy Attacker Challenge is a new kind of challenge organized as part of the VoicePrivacy initiative and supported by ICASSP 2025 as the SP Grand Challenge It focuses on developing attacker systems against voice anonymization, which will be evaluated against a set of anonymization systems submitted to the VoicePrivacy 2024 Challenge. Training, development, and evaluation datasets are provided along with a baseline attacker system. Participants shall develop their attacker systems in the form of automatic speaker verification systems and submit their scores on the development and evaluation data to the organizers. To do so, they can use any additional training data and models, provided that they are openly available and declared before the specified deadline. The metric for evaluation is equal error rate (EER). Results will be presented at the ICASSP 2025 special session to which 5 selected top-ranked participants will be invited to submit and present their challenge systems.

arxiv情報

著者 Natalia Tomashenko,Xiaoxiao Miao,Emmanuel Vincent,Junichi Yamagishi
発行日 2024-10-21 16:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, eess.AS | The First VoicePrivacy Attacker Challenge Evaluation Plan はコメントを受け付けていません

MagicPIG: LSH Sampling for Efficient LLM Generation

要約

長いコンテキスト ウィンドウを持つ大規模言語モデル (LLM) が大きな注目を集めています。
ただし、再計算を避けるために保存される KV キャッシュがボトルネックになります。
注意がまばらであるという共通の洞察を活用するために、さまざまな動的スパースまたは TopK ベースの注意近似方法が提案されています。
この論文では、最初に、TopK のアテンション自体が、アテンションが常に期待ほどまばらであるとは限らないため、特定の下流タスクにおいて品質低下の影響を受けることを示します。
最も高い注意スコアを持つキーと値を選択するのではなく、理論的な保証を備えたサンプリングにより、注意出力のより適切な推定が提供されます。
LLM 生成においてサンプリングベースの近似を実用化するために、局所性敏感ハッシュ (LSH) に基づくヘテロジニアス システムである MagicPIG を提案します。
MagicPIG は、さまざまなタスクに対して高精度を維持しながら、アテンション計算の作業負荷を大幅に軽減します。
MagicPIG は LSH ハッシュ テーブルを保存し、CPU 上でアテンション計算を実行します。これにより、より長いコンテキストとより大きなバッチ サイズを高い近似精度で処理できます。
MagicPIG は、さまざまな GPU ハードウェア全体でデコード スループットを $1.9\sim3.9\times$ 向上させ、96,000 トークンのコンテキストを持つ Llama-3.1-8B-Instruct モデルの単一 RTX 4090 で 110 ミリ秒のデコード レイテンシを達成できます。
コードは \url{https://github.com/Infini-AI-Lab/MagicPIG} で入手できます。

要約(オリジナル)

Large language models (LLMs) with long context windows have gained significant attention. However, the KV cache, stored to avoid re-computation, becomes a bottleneck. Various dynamic sparse or TopK-based attention approximation methods have been proposed to leverage the common insight that attention is sparse. In this paper, we first show that TopK attention itself suffers from quality degradation in certain downstream tasks because attention is not always as sparse as expected. Rather than selecting the keys and values with the highest attention scores, sampling with theoretical guarantees can provide a better estimation for attention output. To make the sampling-based approximation practical in LLM generation, we propose MagicPIG, a heterogeneous system based on Locality Sensitive Hashing (LSH). MagicPIG significantly reduces the workload of attention computation while preserving high accuracy for diverse tasks. MagicPIG stores the LSH hash tables and runs the attention computation on the CPU, which allows it to serve longer contexts and larger batch sizes with high approximation accuracy. MagicPIG can improve decoding throughput by $1.9\sim3.9\times$ across various GPU hardware and achieve 110ms decoding latency on a single RTX 4090 for Llama-3.1-8B-Instruct model with a context of 96k tokens. The code is available at \url{https://github.com/Infini-AI-Lab/MagicPIG}.

arxiv情報

著者 Zhuoming Chen,Ranajoy Sadhukhan,Zihao Ye,Yang Zhou,Jianyu Zhang,Niklas Nolte,Yuandong Tian,Matthijs Douze,Leon Bottou,Zhihao Jia,Beidi Chen
発行日 2024-10-21 16:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MagicPIG: LSH Sampling for Efficient LLM Generation はコメントを受け付けていません

RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style

要約

報酬モデルは、ヒューマン フィードバックからの強化学習 (RLHF) や推論スケーリング則などの手法において重要であり、言語モデルの調整をガイドし、最適な応答を選択します。
重要性にもかかわらず、既存の報酬モデル ベンチマークでは、さまざまな検出力のモデルによって生成された応答を区別するように求めてモデルを評価することがよくあります。
ただし、このアプローチでは、微妙だが重要なコンテンツの変更やスタイルの変化に関する報酬モデルを評価できず、その結果、ポリシー モデルのパフォーマンスとの相関が低くなります。
この目的を達成するために、コンテンツの微妙な違いに対する感度とスタイルのバイアスに対する耐性に基づいて報酬モデルを評価するように設計された新しいベンチマークである RM-Bench を紹介します。
広範な実験により、RM-Bench がポリシー モデルのパフォーマンスと強い相関関係があることが実証されており、言語モデルを効果的に調整するための報酬モデルを選択するための信頼できるリファレンスとなります。
RM-Bench では 40 近くの報酬モデルを評価しています。
私たちの結果では、最先端のモデルでも平均パフォーマンスはわずか 46.6% しか達成できず、スタイル バイアスの干渉に直面した場合、ランダム レベルの精度 (50%) に届かないことが明らかになりました。
これらの調査結果は、現在の報酬モデルに大きな改善の余地があることを浮き彫りにしています。
関連するコードとデータは https://github.com/THU-KEG/RM-Bench で入手できます。

要約(オリジナル)

Reward models are critical in techniques like Reinforcement Learning from Human Feedback (RLHF) and Inference Scaling Laws, where they guide language model alignment and select optimal responses. Despite their importance, existing reward model benchmarks often evaluate models by asking them to distinguish between responses generated by models of varying power. However, this approach fails to assess reward models on subtle but critical content changes and variations in style, resulting in a low correlation with policy model performance. To this end, we introduce RM-Bench, a novel benchmark designed to evaluate reward models based on their sensitivity to subtle content differences and resistance to style biases. Extensive experiments demonstrate that RM-Bench strongly correlates with policy model performance, making it a reliable reference for selecting reward models to align language models effectively. We evaluate nearly 40 reward models on RM-Bench. Our results reveal that even state-of-the-art models achieve an average performance of only 46.6%, which falls short of random-level accuracy (50%) when faced with style bias interference. These findings highlight the significant room for improvement in current reward models. Related code and data are available at https://github.com/THU-KEG/RM-Bench.

arxiv情報

著者 Yantao Liu,Zijun Yao,Rui Min,Yixin Cao,Lei Hou,Juanzi Li
発行日 2024-10-21 16:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style はコメントを受け付けていません

Contamination Report for Multilingual Benchmarks

要約

ベンチマークの汚染とは、大規模言語モデル (LLM) のトレーニング前またはトレーニング後のデータにテスト データセットが存在することを指します。
汚染によりベンチマークのスコアが膨らみ、評価結果が損なわれ、モデルの機能を判断することが困難になる可能性があります。
この研究では、複数の言語をサポートする LLM における一般的な多言語ベンチマークの汚染を研究します。
私たちはブラック ボックス テストを使用して、頻繁に使用される $7$ の多言語ベンチマークが $7$ の一般的なオープン LLM とクローズド LLM に汚染されているかどうかを判断し、ほぼすべてのモデルが、テストしたほぼすべてのベンチマークで汚染されている兆候を示していることを発見しました。
私たちの調査結果は、コミュニティが多言語評価に使用する最適なベンチマーク セットを決定するのに役立ちます。

要約(オリジナル)

Benchmark contamination refers to the presence of test datasets in Large Language Model (LLM) pre-training or post-training data. Contamination can lead to inflated scores on benchmarks, compromising evaluation results and making it difficult to determine the capabilities of models. In this work, we study the contamination of popular multilingual benchmarks in LLMs that support multiple languages. We use the Black Box test to determine whether $7$ frequently used multilingual benchmarks are contaminated in $7$ popular open and closed LLMs and find that almost all models show signs of being contaminated with almost all the benchmarks we test. Our findings can help the community determine the best set of benchmarks to use for multilingual evaluation.

arxiv情報

著者 Sanchit Ahuja,Varun Gumma,Sunayana Sitaram
発行日 2024-10-21 16:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contamination Report for Multilingual Benchmarks はコメントを受け付けていません

Systematic Review: Text Processing Algorithms in Machine Learning and Deep Learning for Mental Health Detection on Social Media

要約

うつ病が世界的に増加しているため、早期介入のための革新的な検出方法が必要です。
ソーシャル メディアは、ユーザーの投稿を通じてうつ病を特定するユニークな機会を提供します。
この系統的レビューでは、ソーシャル メディアでのうつ病検出のための機械学習 (ML) モデルを評価し、ML ライフサイクル全体にわたるバイアスと方法論上の課題に焦点を当てています。
PubMed、IEEE Xplore、Google Scholar の検索により、2010 年以降に発表された 47 件の関連研究が特定されました。方法論の品質とバイアスのリスクを評価するために、予測モデル リスク オブ バイアス評価ツール (PROBAST) が利用されました。
モデルの信頼性と一般化可能性に影響を与える重大なバイアスが見つかりました。
Twitter (63.8%) と英語コンテンツ (90% 以上) への依存度が圧倒的に高く、ほとんどの調査は米国とヨーロッパのユーザーに焦点を当てています。
非確率サンプリング法 (約 80%) では、代表性が制限されます。
正確な感情分析に重要な、否定などの言語的ニュアンスを明確に扱った研究はわずか 23% でした。
一貫性のないハイパーパラメータ調整が観察され、モデルを適切に調整したのは 27.7% のみでした。
約 17% はデータをトレーニング、検証、テスト セットに適切に分割しておらず、過剰適合の危険がありました。
74.5% が不均衡なデータに対して適切な評価指標を使用しましたが、その他の企業はクラスの不均衡に対処せずに精度に依存しており、結果が歪む可能性がありました。
報告の透明性にはばらつきがあり、重要な方法論の詳細が欠けていることがよくありました。
これらの調査結果は、データ ソースの多様化、前処理プロトコルの標準化、一貫したモデル開発実践の確保、クラスの不均衡への対処、レポートの透明性の強化の必要性を浮き彫りにしています。
これらの課題を克服することで、今後の研究では、ソーシャル メディアでうつ病を検出するためのより堅牢で一般化可能な ML モデルを開発し、世界的にメンタルヘルスの成果の向上に貢献できるようになります。

要約(オリジナル)

The global rise in depression necessitates innovative detection methods for early intervention. Social media provides a unique opportunity to identify depression through user-generated posts. This systematic review evaluates machine learning (ML) models for depression detection on social media, focusing on biases and methodological challenges throughout the ML lifecycle. A search of PubMed, IEEE Xplore, and Google Scholar identified 47 relevant studies published after 2010. The Prediction model Risk Of Bias ASsessment Tool (PROBAST) was utilized to assess methodological quality and risk of bias. Significant biases impacting model reliability and generalizability were found. There is a predominant reliance on Twitter (63.8%) and English-language content (over 90%), with most studies focusing on users from the United States and Europe. Non-probability sampling methods (approximately 80%) limit representativeness. Only 23% of studies explicitly addressed linguistic nuances like negations, crucial for accurate sentiment analysis. Inconsistent hyperparameter tuning was observed, with only 27.7% properly tuning models. About 17% did not adequately partition data into training, validation, and test sets, risking overfitting. While 74.5% used appropriate evaluation metrics for imbalanced data, others relied on accuracy without addressing class imbalance, potentially skewing results. Reporting transparency varied, often lacking critical methodological details. These findings highlight the need to diversify data sources, standardize preprocessing protocols, ensure consistent model development practices, address class imbalance, and enhance reporting transparency. By overcoming these challenges, future research can develop more robust and generalizable ML models for depression detection on social media, contributing to improved mental health outcomes globally.

arxiv情報

著者 Yuchen Cao,Jianglai Dai,Zhongyan Wang,Yeyubei Zhang,Xiaorui Shen,Yunchong Liu,Yexin Tian
発行日 2024-10-21 17:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Systematic Review: Text Processing Algorithms in Machine Learning and Deep Learning for Mental Health Detection on Social Media はコメントを受け付けていません

CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning

要約

自律型エージェントは、タスクを計画するために不確実な自然言語の指示を解釈するという課題に直面することがよくあります。
これらの指示を線形時相論理 (LTL) として表すことで、プランナーは実行可能な計画を合成できます。
自然言語仕様を LTL 表現に変換するための、データ効率の高いコンテキスト内学習フレームワークである CoT-TL を紹介します。
CoT-TL は、形式的なロジック作成の要件に合わせて思考連鎖推論とセマンティックな役割を拡張することで、通常は広範な微調整データに依存する大規模な言語モデルの制限に対処します。
このアプローチにより、LTL 生成の背後にある透明性と理論的根拠が強化され、ユーザーの信頼が促進されます。
CoT-TL は、低データのシナリオで 3 つの多様なデータセットにわたって最先端の精度を実現し、微調整や中間変換を行わずに既存の手法を上回るパフォーマンスを発揮します。
信頼性を向上させ、幻覚を最小限に抑えるために、生成された LTL 出力の構文を検証するモデル チェックを組み込みます。
私たちはさらに、アブレーション研究と、新しいデータセット内の目に見えないLTL構造と式の評価を通じて、CoT-TLの有効性を実証します。
最後に、自然言語命令に基づいた複数ステップのドローン計画のために CoT-TL を QuadCopter に統合することで、CoT-TL の実用性を検証します。

要約(オリジナル)

Autonomous agents often face the challenge of interpreting uncertain natural language instructions for planning tasks. Representing these instructions as Linear Temporal Logic (LTL) enables planners to synthesize actionable plans. We introduce CoT-TL, a data-efficient in-context learning framework for translating natural language specifications into LTL representations. CoT-TL addresses the limitations of large language models, which typically rely on extensive fine-tuning data, by extending chain-of-thought reasoning and semantic roles to align with the requirements of formal logic creation. This approach enhances the transparency and rationale behind LTL generation, fostering user trust. CoT-TL achieves state-of-the-art accuracy across three diverse datasets in low-data scenarios, outperforming existing methods without fine-tuning or intermediate translations. To improve reliability and minimize hallucinations, we incorporate model checking to validate the syntax of the generated LTL output. We further demonstrate CoT-TL’s effectiveness through ablation studies and evaluations on unseen LTL structures and formulas in a new dataset. Finally, we validate CoT-TL’s practicality by integrating it into a QuadCopter for multi-step drone planning based on natural language instructions.

arxiv情報

著者 Kumar Manas,Stefan Zwicklbauer,Adrian Paschke
発行日 2024-10-21 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG, cs.RO | CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning はコメントを受け付けていません

On Creating an English-Thai Code-switched Machine Translation in Medical Domain

要約

医療分野における機械翻訳 (MT) は、医療の質を向上させ、医療知識を広める上で極めて重要な役割を果たしています。
英語とタイ語の MT テクノロジーの進歩にも関わらず、一般的な MT アプローチは、医療用語を正確に翻訳できないため、医療分野ではパフォーマンスが低下することがよくあります。
私たちの研究では、翻訳の精度を向上させるだけでなく、コードスイッチ (CS) 翻訳を通じて翻訳テキスト内の医学用語を英語で維持することも優先しています。
私たちは、CS 医療翻訳データを生成する方法を開発し、このデータを使用して CS 翻訳モデルを微調整し、Google ニューラル機械翻訳 (NMT) や GPT-3.5/GPT-4 などの強力なベースラインに対してそのパフォーマンスを評価しました。
私たちのモデルは自動メトリクスで競争力のあるパフォーマンスを実証し、人間の好みの評価でも非常に好評でした。
私たちの評価結果では、たとえ流暢さが多少損なわれても、重要な英語用語を正確に維持する CS 翻訳が医療専門家に非常に好まれていることも示されています。
私たちのコードとテストセットは https://github.com/pceptai-org/NLLB_CS_EM_NLP2024 で公開されています。

要約(オリジナル)

Machine translation (MT) in the medical domain plays a pivotal role in enhancing healthcare quality and disseminating medical knowledge. Despite advancements in English-Thai MT technology, common MT approaches often underperform in the medical field due to their inability to precisely translate medical terminologies. Our research prioritizes not merely improving translation accuracy but also maintaining medical terminology in English within the translated text through code-switched (CS) translation. We developed a method to produce CS medical translation data, fine-tuned a CS translation model with this data, and evaluated its performance against strong baselines, such as Google Neural Machine Translation (NMT) and GPT-3.5/GPT-4. Our model demonstrated competitive performance in automatic metrics and was highly favored in human preference evaluations. Our evaluation result also shows that medical professionals significantly prefer CS translations that maintain critical English terms accurately, even if it slightly compromises fluency. Our code and test set are publicly available https://github.com/preceptorai-org/NLLB_CS_EM_NLP2024.

arxiv情報

著者 Parinthapat Pengpun,Krittamate Tiankanon,Amrest Chinkamol,Jiramet Kinchagawat,Pitchaya Chairuengjitjaras,Pasit Supholkhan,Pubordee Aussavavirojekul,Chiraphat Boonnag,Kanyakorn Veerakanjana,Hirunkul Phimsiri,Boonthicha Sae-jia,Nattawach Sataudom,Piyalitt Ittichaiwong,Peerat Limkonchotiwat
発行日 2024-10-21 17:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On Creating an English-Thai Code-switched Machine Translation in Medical Domain はコメントを受け付けていません