CoRAG: Collaborative Retrieval-Augmented Generation

要約

検索された生成(RAG)モデルは、特に少数の学習制約の下で、知識集約型のタスクに優れています。
Coragを紹介します。Coragは、コラボレーション設定にRagを拡張するフレームワークであり、クライアントは共同のパッセージストアを使用して共有モデルを共同でトレーニングします。
Coragを評価するために、Crabを紹介します。Crabは、協力的な均一なオープンドメインの質問応答のベンチマークを紹介します。
私たちの実験は、Coragが低リソースのシナリオでパラメトリックな共同学習方法とローカルで訓練されたRAGモデルの両方を常に上回ることを示しています。
さらなる分析により、共有ストア内の関連するパッセージの重要な重要性、無関係なパッセージを組み込むことの驚くべき利点、およびハードネガティブがパフォーマンスに悪影響を与える可能性が明らかになります。
これは、共同のぼろきれに斬新な考慮事項を導入します。つまり、集合的に濃縮された知識ベースを活用することと、他のクライアントから有害な文章を組み込む潜在的なリスクとのトレードオフです。
私たちの調査結果は、Coragの実行可能性を強調していると同時に、主要なデザインの課題と将来の研究のための有望な道を強調しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) models excel in knowledge-intensive tasks, especially under few-shot learning constraints. We introduce CoRAG, a framework extending RAG to collaborative settings, where clients jointly train a shared model using a collaborative passage store. To evaluate CoRAG, we introduce CRAB, a benchmark for collaborative homogeneous open-domain question answering. Our experiments demonstrate that CoRAG consistently outperforms both parametric collaborative learning methods and locally trained RAG models in low-resource scenarios. Further analysis reveals the critical importance of relevant passages within the shared store, the surprising benefits of incorporating irrelevant passages, and the potential for hard negatives to negatively impact performance. This introduces a novel consideration in collaborative RAG: the trade-off between leveraging a collectively enriched knowledge base and the potential risk of incorporating detrimental passages from other clients. Our findings underscore the viability of CoRAG, while also highlighting key design challenges and promising avenues for future research.

arxiv情報

著者 Aashiq Muhamed,Mona Diab,Virginia Smith
発行日 2025-04-02 16:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | CoRAG: Collaborative Retrieval-Augmented Generation はコメントを受け付けていません

A novel gesture interaction control method for rehabilitation lower extremity exoskeleton

要約

リハビリテーション下肢のロボット外骨格(RLEEX)技術の急速な発展により、人間とロボットの相互作用(HRI)の方法が大幅に進歩しています。
これらには、簡単に認識できる従来の物理HRIメソッドと、アクションを視覚化および予測できるさまざまな生体電気信号ベースのHRIメソッドが含まれます。
ただし、これらのHRIメソッドのほとんどは接触ベースであり、運用上の複雑さ、干渉に対する感受性、埋め込み型デバイスに関連するリスク、そして最も重要なこととして、快適さの制限などの課題に直面しています。
これらの課題により、相互作用が直感的で自然になり、リハビリテーションの患者の動機に悪影響を与える可能性があります。
これらの問題に対処するために、このペーパーでは、RGBモノクラーカメラの深さの推定に基づいて、Rleexの新しい非接触ジェスチャー相互作用制御方法を提案します。
この方法は、3つの重要な手順を統合します。キーポイントの検出、ジェスチャーの認識、距離の評価、それによりジェスチャー情報を適用し、Rleexの歩行運動を制御するためにテクノロジーをトリガーする拡張現実をトリガーします。
結果は、このアプローチが、rleexプラットフォームのHRIの不十分な快適性、低い信頼性、高い遅延の問題に対する実行可能な解決策を提供することを示しています。
具体的には、94.11 \%のジェスチャー制御の外骨格運動精度と、非接触HRIによって0.615秒の平均システム応答時間を達成します。
提案されている非接触HRIメソッドは、Rleexの制御相互作用の先駆的な進歩を表し、この分野でのさらなる調査と開発への道を開いています。

要約(オリジナル)

With the rapid development of Rehabilitation Lower Extremity Robotic Exoskeletons (RLEEX) technology, significant advancements have been made in Human-Robot Interaction (HRI) methods. These include traditional physical HRI methods that are easily recognizable and various bio-electrical signal-based HRI methods that can visualize and predict actions. However, most of these HRI methods are contact-based, facing challenges such as operational complexity, sensitivity to interference, risks associated with implantable devices, and, most importantly, limitations in comfort. These challenges render the interaction less intuitive and natural, which can negatively impact patient motivation for rehabilitation. To address these issues, this paper proposes a novel non-contact gesture interaction control method for RLEEX, based on RGB monocular camera depth estimation. This method integrates three key steps: detecting keypoints, recognizing gestures, and assessing distance, thereby applying gesture information and augmented reality triggering technology to control gait movements of RLEEX. Results indicate that this approach provides a feasible solution to the problems of poor comfort, low reliability, and high latency in HRI for RLEEX platforms. Specifically, it achieves a gesture-controlled exoskeleton motion accuracy of 94.11\% and an average system response time of 0.615 seconds through non-contact HRI. The proposed non-contact HRI method represents a pioneering advancement in control interactions for RLEEX, paving the way for further exploration and development in this field.

arxiv情報

著者 Shuang Qiu,Zhongcai Pei,Chen Wang,Jing Zhang,Zhiyong Tang
発行日 2025-04-02 16:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | A novel gesture interaction control method for rehabilitation lower extremity exoskeleton はコメントを受け付けていません

Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights

要約

ソーシャルメディアの会話で虐待的な言語を検出することは、虐待性を特定することはしばしば会話の文脈に依存しているため、重要な課題をもたらします。
従来の虐待的な言語検出(ALD)モデルは、しばしばこのコンテキストを見落としているため、信頼できないパフォーマンスメトリックにつながる可能性があります。
会話のコンテキストを統合する最近の自然言語処理(NLP)方法は、多くの場合、限られた単純化された表現に依存し、一貫性のない結果を報告します。
この論文では、グラフニューラルネットワーク(GNNS)を利用してソーシャルメディアの会話をグラフとしてモデル化する新しいアプローチを提案します。ノードはコメントを表し、エッジは応答構造をキャプチャします。
さまざまなグラフ表現とコンテキストウィンドウを体系的に調査して、ALDの最適な構成を識別します。
GNNモデルは、コンテキストに依存しないベースラインと線形コンテキスト認識方法の両方を上回り、F1スコアの大幅な改善を達成します。
これらの調査結果は、構造化された会話コンテキストの重要な役割を示し、GNNをコンテキストを認識する虐待的な言語検出を進めるための堅牢なフレームワークとして確立します。

要約(オリジナル)

Detecting abusive language in social media conversations poses significant challenges, as identifying abusiveness often depends on the conversational context, characterized by the content and topology of preceding comments. Traditional Abusive Language Detection (ALD) models often overlook this context, which can lead to unreliable performance metrics. Recent Natural Language Processing (NLP) methods that integrate conversational context often depend on limited and simplified representations, and report inconsistent results. In this paper, we propose a novel approach that utilize graph neural networks (GNNs) to model social media conversations as graphs, where nodes represent comments, and edges capture reply structures. We systematically investigate various graph representations and context windows to identify the optimal configuration for ALD. Our GNN model outperform both context-agnostic baselines and linear context-aware methods, achieving significant improvements in F1 scores. These findings demonstrate the critical role of structured conversational context and establish GNNs as a robust framework for advancing context-aware abusive language detection.

arxiv情報

著者 Célia Nouri,Jean-Philippe Cointet,Chloé Clavel
発行日 2025-04-02 17:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights はコメントを受け付けていません

STAR-1: Safer Alignment of Reasoning LLMs with 1K Data

要約

このペーパーでは、DeepSeek-R1などの大規模な推論モデル(LRMS)向けに特別に設計された高品質のジャストスケールの安全データセットであるStar-1を紹介します。
STAR-1は、多様性、審議的推論、厳密なフィルタリングの3つの中核原則に基づいて構築されています。STAR-1は、LRMSの安全整合の重要なニーズに対処することを目的としています。
具体的には、さまざまなソースから既存のオープンソースの安全データセットを統合することから始めます。
次に、安全ポリシーをキュレートして、政策に基づいた審議的推論サンプルを生成します。
最後に、GPT-4oベースの安全性スコアリングシステムを適用して、ベストプラクティスに合わせたトレーニングの例を選択します。
実験結果は、STAR-1を備えた微調整LRMが4つのベンチマークで安全性能の平均40%の改善をもたらし、5つの推論タスクで測定された推論能力のわずかな減少(たとえば平均1.1%)のみを負担することを示しています。
広範なアブレーション研究は、STAR-1を構築する際の設計原則の重要性をさらに検証し、LRMSと従来のLLMの両方でその有効性を分析します。
プロジェクトページはhttps://ucsc-vlaa.github.io/star-1です。

要約(オリジナル)

This paper introduces STAR-1, a high-quality, just-1k-scale safety dataset specifically designed for large reasoning models (LRMs) like DeepSeek-R1. Built on three core principles — diversity, deliberative reasoning, and rigorous filtering — STAR-1 aims to address the critical needs for safety alignment in LRMs. Specifically, we begin by integrating existing open-source safety datasets from diverse sources. Then, we curate safety policies to generate policy-grounded deliberative reasoning samples. Lastly, we apply a GPT-4o-based safety scoring system to select training examples aligned with best practices. Experimental results show that fine-tuning LRMs with STAR-1 leads to an average 40% improvement in safety performance across four benchmarks, while only incurring a marginal decrease (e.g., an average of 1.1%) in reasoning ability measured across five reasoning tasks. Extensive ablation studies further validate the importance of our design principles in constructing STAR-1 and analyze its efficacy across both LRMs and traditional LLMs. Our project page is https://ucsc-vlaa.github.io/STAR-1.

arxiv情報

著者 Zijun Wang,Haoqin Tu,Yuhan Wang,Juncheng Wu,Jieru Mei,Brian R. Bartoldson,Bhavya Kailkhura,Cihang Xie
発行日 2025-04-02 17:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | STAR-1: Safer Alignment of Reasoning LLMs with 1K Data はコメントを受け付けていません

Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries

要約

車両のインターネット(IOV)は、洗練された侵入検知システムを必要とする可能性のある挑戦的なサイバーセキュリティ攻撃に直面する可能性があり、迅速な開発と対応システムが必要です。
この研究では、IOV脅威検出環境で使用される機械学習モデルに必要な速度と効率に焦点を当てた、従来のCPUベースの実装(SCIKIT-LEARN)と比較して、GPUアクセラレーションライブラリ(CUML)のパフォーマンスの利点を調査しています。
行われた包括的な評価では、3つの異なるIOVセキュリティデータセット(OTID、GIDS、CICIOV2024)にわたって4つの機械学習アプローチ(ランダムフォレスト、KNN、ロジスティック回帰、XGBoost)を採用しています。
我々の調査結果は、GPUがアクセラレーションした実装により、計算効率が劇的に改善され、トレーニング時間が最大159倍に短縮され、予測速度が従来のCPU処理と比較して最大95倍加速され、すべてが検出の精度を維持していることが示されています。
この驚くべきパフォーマンスのブレークスルーにより、研究者とセキュリティスペシャリストは、今日の接続された車両ネットワークの緊急のリアルタイムセキュリティ需要を満たすより速く、より効果的な脅威検出システムを作成するためのGPU加速を活用できるようになります。

要約(オリジナル)

The Internet of Vehicles (IoV) may face challenging cybersecurity attacks that may require sophisticated intrusion detection systems, necessitating a rapid development and response system. This research investigates the performance advantages of GPU-accelerated libraries (cuML) compared to traditional CPU-based implementations (scikit-learn), focusing on the speed and efficiency required for machine learning models used in IoV threat detection environments. The comprehensive evaluations conducted employ four machine learning approaches (Random Forest, KNN, Logistic Regression, XGBoost) across three distinct IoV security datasets (OTIDS, GIDS, CICIoV2024). Our findings demonstrate that GPU-accelerated implementations dramatically improved computational efficiency, with training times reduced by a factor of up to 159 and prediction speeds accelerated by up to 95 times compared to traditional CPU processing, all while preserving detection accuracy. This remarkable performance breakthrough empowers researchers and security specialists to harness GPU acceleration for creating faster, more effective threat detection systems that meet the urgent real-time security demands of today’s connected vehicle networks.

arxiv情報

著者 Furkan Çolhak,Hasan Coşkun,Tsafac Nkombong Regine Cyrille,Tedi Hoxa,Mert İlhan Ecevit,Mehmet Nafiz Aydın
発行日 2025-04-02 17:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Accelerating IoV Intrusion Detection: Benchmarking GPU-Accelerated vs CPU-Based ML Libraries はコメントを受け付けていません

Benchmarking Synthetic Tabular Data: A Multi-Dimensional Evaluation Framework

要約

合成データの品質を評価することは、データ駆動型の研究におけるプライバシーとユーティリティを確保するための重要な課題です。
この作業では、合成データがプライバシーを確​​保しながら元の分布プロパティをどの程度複製するかを定量化する評価フレームワークを提示します。
提案されたアプローチでは、低次元および高次元の分布比較、埋め込みベースの類似性測定、および最近傍距離メトリックを通じて定量的評価を促進するホールドアウトベースのベンチマーク戦略を採用しています。
フレームワークは、シーケンシャルおよびコンテキスト情報を含むさまざまなデータ型と構造をサポートし、標準化されたメトリックのセットを通じて解釈可能な品質診断を可能にします。
これらの貢献は、合成データ生成技術のベンチマークにおける再現性と方法論的な一貫性をサポートすることを目的としています。
フレームワークのコードは、https://github.com/mostly-ai/mostlyai-qaで入手できます。

要約(オリジナル)

Evaluating the quality of synthetic data remains a key challenge for ensuring privacy and utility in data-driven research. In this work, we present an evaluation framework that quantifies how well synthetic data replicates original distributional properties while ensuring privacy. The proposed approach employs a holdout-based benchmarking strategy that facilitates quantitative assessment through low- and high-dimensional distribution comparisons, embedding-based similarity measures, and nearest-neighbor distance metrics. The framework supports various data types and structures, including sequential and contextual information, and enables interpretable quality diagnostics through a set of standardized metrics. These contributions aim to support reproducibility and methodological consistency in benchmarking of synthetic data generation techniques. The code of the framework is available at https://github.com/mostly-ai/mostlyai-qa.

arxiv情報

著者 Andrey Sidorenko,Michael Platzer,Mario Scriminaci,Paul Tiwald
発行日 2025-04-02 17:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Benchmarking Synthetic Tabular Data: A Multi-Dimensional Evaluation Framework はコメントを受け付けていません

Advancing AI-Scientist Understanding: Making LLM Think Like a Physicist with Interpretable Reasoning

要約

大規模な言語モデル(LLM)は、推論、象徴的操作、および数値計算を強化することにより、物理学研究で拡大する役割を果たしています。
ただし、出力の信頼性と解釈可能性を確保することは、依然として重要な課題です。
私たちのフレームワークでは、AIと人間の科学者とのコラボレーションを、推論モジュール、解釈モジュール、およびAIシエンティストインタラクションモジュールの3つのモジュール間の動的な相互作用として概念化します。
効果的な物理学の推論には、厳密な論理的一貫性、定量的精度、確立された理論モデルとの深い統合が必要であることを認識して、解釈モジュールを導入して、以前は文献では調査されていなかったAI生成出力の理解を改善します。
このモジュールは、より解釈可能な科学モデルを構築することにより、物理的に接地されたフレームワーク内でLLM出力を共同で構成する、要約者、モデルビルダー、UIビルダー、テスターを含む複数の専門的なエージェントで構成されています。
ケーススタディでは、私たちのアプローチが透明性を高め、検証を促進し、科学的発見におけるAIの高等推論を強化することを示しています。

要約(オリジナル)

Large Language Models (LLMs) are playing an expanding role in physics research by enhancing reasoning, symbolic manipulation, and numerical computation. However, ensuring the reliability and interpretability of their outputs remains a significant challenge. In our framework, we conceptualize the collaboration between AI and human scientists as a dynamic interplay among three modules: the reasoning module, the interpretation module, and the AI-scientist interaction module. Recognizing that effective physics reasoning demands rigorous logical consistency, quantitative precision, and deep integration with established theoretical models, we introduce the interpretation module to improve the understanding of AI-generated outputs, which is not previously explored in the literature. This module comprises multiple specialized agents, including summarizers, model builders, UI builders, and testers, which collaboratively structure LLM outputs within a physically grounded framework, by constructing a more interpretable science model. A case study demonstrates that our approach enhances transparency, facilitates validation, and strengthens AI-augmented reasoning in scientific discovery.

arxiv情報

著者 Yinggan Xu,Hana Kimlee,Yijia Xiao,Di Luo
発行日 2025-04-02 17:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Advancing AI-Scientist Understanding: Making LLM Think Like a Physicist with Interpretable Reasoning はコメントを受け付けていません

Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models

要約

従来の最適化コンパイラは、最新のソフトウェアシステムの複雑さの高まりに適応する上で重要な役割を果たしてきました。
現在のアーキテクチャで効率的な並列プログラミングの必要性には、強力な最適化手法が必要です。
大規模な言語モデル(LLMS)の始まりは、コード最適化方法論に革命を起こすこれらのAIアプローチの可能性について興味深い質問を提起します。
この作業は、コンパイラコミュニティにとって重要な質問に答えることを目的としています。「AI主導のモデルは、コードの最適化へのアプローチ方法に革命をもたらすことができますか?」
この質問に対処するために、3つの古典的な最適化コンパイラと最近の2つの大規模な言語モデルの間の比較分析を提示し、最大の効率のためにコードを最適化する能力と制限を評価します。
さらに、挑戦的な最適化パターンのベンチマークスイートと、LLMSによって生成されたコードのパフォーマンスと正確性を評価するための自動メカニズムを導入します。
3つの異なるプロンプト戦略を使用して、LLMSのパフォーマンス、簡単な指示(IP)、詳細な指示プロンプト(DIP)、およびChain of Think(COT)を評価しました。
重要な発見は、LLMが現在の最適化コンパイラを上回る可能性があるが、多くの場合、自動検証方法を要求して、大規模なコードサイズに誤ったコードを生成することが多いことです。
さらに、LLMSプロンプトの一部としてコンパイラ戦略を表現することにより、全体的なパフォーマンスが大幅に向上します。
3つのベンチマークスイートにわたる評価は、Codellama-70Bが優れたLLMとして、最大X1.75のスピードアップを達成できることを示しています。
さらに、Cetusは現在の最適化コンパイラの中で最高であり、最大スピードアップは1.67倍になります。
また、3つのプロンプト戦略の間に大きな違いがありました。

要約(オリジナル)

Traditional optimizing compilers have played an important role in adapting to the growing complexity of modern software systems. The need for efficient parallel programming in current architectures requires strong optimization techniques. The beginning of Large Language Models (LLMs) raises intriguing questions about the potential of these AI approaches to revolutionize code optimization methodologies. This work aims to answer an essential question for the compiler community: ‘Can AI-driven models revolutionize the way we approach code optimization?’. To address this question, we present a comparative analysis between three classical optimizing compilers and two recent large language models, evaluating their respective abilities and limitations in optimizing code for maximum efficiency. In addition, we introduce a benchmark suite of challenging optimization patterns and an automatic mechanism for evaluating the performance and correctness of the code generated by LLMs. We used three different prompting strategies to evaluate the performance of the LLMs, Simple Instruction (IP), Detailed Instruction Prompting (DIP), and Chain of Thought (CoT). A key finding is that while LLMs have the potential to outperform current optimizing compilers, they often generate incorrect code on large code sizes, calling for automated verification methods. In addition, expressing a compiler strategy as part of the LLMs prompt substantially improves its overall performance. Our evaluation across three benchmark suites shows CodeLlama-70B as the superior LLM, capable of achieving speedups of up to x1.75. Additionally, CETUS is the best among the current optimizing compilers, achieving a maximum speedup of 1.67x. We also found substantial differences among the three prompting strategies.

arxiv情報

著者 Miguel Romero Rosas,Miguel Torres Sanchez,Rudolf Eigenmann
発行日 2025-04-02 17:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.PF, cs.SE | Should AI Optimize Your Code? A Comparative Study of Classical Optimizing Compilers Versus Current Large Language Models はコメントを受け付けていません

Evaluating the Application of SOLID Principles in Modern AI Framework Architectures

要約

この研究では、最新のAIフレームワーク、特にTensorflowとScikit -Learnが、単一の責任、オープン/クローズド、リスコフの代替、インターフェースの分離、依存関係の固体の原則を遵守する程度を評価します。
Frameworks Architectural Documentation and Design Philosophiesの分析では、ソフトウェアエンジニアリングのベストプラクティスとAI固有のニーズのバランスをとる際のアーキテクチャトレードオフを調査します。
これらの原則への順守を評価するために、各フレームワークのドキュメント、ソースコード、およびアーキテクチャコンポーネントを調べました。
結果は、両方のフレームワークが固体設計原則の特定の側面を採用しているが、AI開発のパフォーマンス、スケーラビリティ、および実験的性質に対処するための意図的なトレードオフを行うことを示しています。
Tensorflowは、パフォーマンスとスケーラビリティに焦点を当て、単一の責任やインターフェースの分離などの原則への厳格な順守を犠牲にすることがあります。
Scikit-Learns Design Philosophyは、一貫したインターフェースと構成原理を通じて、確固たる原則とより密接に一致しており、確固たるガイドラインに近づいていますが、パフォーマンスの最適化とスケーラビリティに関する逸脱が時折逸脱しています。
この調査では、AIフレームワークに強固な原則を適用することは、パフォーマンス、スケーラビリティ、および柔軟性が従来のソフトウェアエンジニアリングの原則からの逸脱が必要になるため、コンテキストに依存することが発見されました。
この研究は、ドメイン固有の制約が最新のAIフレームワークにおける建築上の決定にどのように影響し、これらのフレームワークがこれらの矛盾する要件を効果的にバランスさせるために設計の選択を戦略的に適合させた方法を理解することに貢献します。

要約(オリジナル)

This research evaluates the extent to which modern AI frameworks, specifically TensorFlow and scikit-learn, adhere to the SOLID design principles – Single Responsibility, Open/Closed, Liskov Substitution, Interface Segregation, and Dependency Inversion. Analyzing the frameworks architectural documentation and design philosophies, this research investigates architectural trade-offs when balancing software engineering best practices with AI-specific needs. I examined each frameworks documentation, source code, and architectural components to evaluate their adherence to these principles. The results show that both frameworks adopt certain aspects of SOLID design principles but make intentional trade-offs to address performance, scalability, and the experimental nature of AI development. TensorFlow focuses on performance and scalability, sometimes sacrificing strict adherence to principles like Single Responsibility and Interface Segregation. While scikit-learns design philosophy aligns more closely with SOLID principles through consistent interfaces and composition principles, sticking closer to SOLID guidelines but with occasional deviations for performance optimizations and scalability. This research discovered that applying SOLID principles in AI frameworks depends on context, as performance, scalability, and flexibility often require deviations from traditional software engineering principles. This research contributes to understanding how domain-specific constraints influence architectural decisions in modern AI frameworks and how these frameworks strategically adapted design choices to effectively balance these contradicting requirements.

arxiv情報

著者 Jonesh Shrestha
発行日 2025-04-02 17:23:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68N19, 68T01, cs.AI, cs.LG, cs.SE, I.2.0 | Evaluating the Application of SOLID Principles in Modern AI Framework Architectures はコメントを受け付けていません

Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation

要約

大規模な言語モデル(LLMS)の出現は、特に十分な並列コーパス、言語ツール、および計算インフラストラクチャを欠く低リソース言語とドメインの場合、機械翻訳(MT)の景観を大幅に再形成しました。
この調査では、MTのLLMSを活用する最近の進捗状況の包括的な概要を示しています。
リソース不足の設定への効果的な適応を可能にする、少数のショットプロンプト、横断的転送、パラメーター効率の高い微調整などの手法を分析します。
このペーパーでは、逆翻訳や語彙増強を含むLLMを使用した合成データ生成戦略も調査しています。
さらに、LLMベースの翻訳を、多様な言語ペアにわたって従来のエンコーダデコーダーモデルと比較し、それぞれの強みと制限を強調します。
幻覚、評価の一貫性、継承されたバイアスなどの永続的な課題について説明しながら、翻訳の品質のために新たなLLM駆動型メトリックを評価します。
この調査では、大規模な生成モデルの時代に堅牢で包括的でスケーラブルなMTシステムを構築するための将来の方向性を概説しています。

要約(オリジナル)

The advent of Large Language Models (LLMs) has significantly reshaped the landscape of machine translation (MT), particularly for low-resource languages and domains that lack sufficient parallel corpora, linguistic tools, and computational infrastructure. This survey presents a comprehensive overview of recent progress in leveraging LLMs for MT. We analyze techniques such as few-shot prompting, cross-lingual transfer, and parameter-efficient fine-tuning that enable effective adaptation to under-resourced settings. The paper also explores synthetic data generation strategies using LLMs, including back-translation and lexical augmentation. Additionally, we compare LLM-based translation with traditional encoder-decoder models across diverse language pairs, highlighting the strengths and limitations of each. We discuss persistent challenges such as hallucinations, evaluation inconsistencies, and inherited biases while also evaluating emerging LLM-driven metrics for translation quality. This survey offers practical insights and outlines future directions for building robust, inclusive, and scalable MT systems in the era of large-scale generative models.

arxiv情報

著者 Baban Gain,Dibyanayan Bandyopadhyay,Asif Ekbal
発行日 2025-04-02 17:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation はコメントを受け付けていません