Do LLMs estimate uncertainty well in instruction-following?

要約

大規模言語モデル (LLM) は、ユーザーの指示に正確に従うことができれば、さまざまなドメインにわたる貴重なパーソナル AI エージェントとなる可能性があります。
しかし、最近の研究では、LLM の命令追従能力には大きな限界があることが示されており、一か八かのアプリケーションにおける LLM の信頼性について懸念が生じています。
導入リスクを軽減するには、LLM が指示に従うかどうかの不確実性を正確に見積もることが重要です。
我々は、我々の知る限り、指示に従うという文脈におけるLLMの不確実性推定能力の系統的な評価を初めて提示する。
私たちの研究では、既存の命令追従ベンチマークの主な課題を特定しています。複数の要因が命令追従に起因する不確実性と絡み合っており、手法やモデル間の分離と比較が複雑になっています。
これらの問題に対処するために、2 つのベンチマーク バージョンのデータを使用した制御された評価セットアップを導入し、さまざまな条件下での不確実性推定方法の包括的な比較を可能にします。
私たちの調査結果は、特にモデルが命令に従う際に微妙なエラーを犯した場合に、既存の不確実性手法が困難であることを示しています。
内部モデルの状態はある程度の改善をもたらしますが、より複雑なシナリオでは依然として不十分です。
制御された評価セットアップからの洞察は、LLM の限界と、指示に従うタスクにおける不確実性推定の可能性についての重要な理解を提供し、より信頼できる AI エージェントへの道を開きます。

要約(オリジナル)

Large language models (LLMs) could be valuable personal AI agents across various domains, provided they can precisely follow user instructions. However, recent studies have shown significant limitations in LLMs’ instruction-following capabilities, raising concerns about their reliability in high-stakes applications. Accurately estimating LLMs’ uncertainty in adhering to instructions is critical to mitigating deployment risks. We present, to our knowledge, the first systematic evaluation of the uncertainty estimation abilities of LLMs in the context of instruction-following. Our study identifies key challenges with existing instruction-following benchmarks, where multiple factors are entangled with uncertainty stems from instruction-following, complicating the isolation and comparison across methods and models. To address these issues, we introduce a controlled evaluation setup with two benchmark versions of data, enabling a comprehensive comparison of uncertainty estimation methods under various conditions. Our findings show that existing uncertainty methods struggle, particularly when models make subtle errors in instruction following. While internal model states provide some improvement, they remain inadequate in more complex scenarios. The insights from our controlled evaluation setups provide a crucial understanding of LLMs’ limitations and potential for uncertainty estimation in instruction-following tasks, paving the way for more trustworthy AI agents.

arxiv情報

著者 Juyeon Heo,Miao Xiong,Christina Heinze-Deml,Jaya Narain
発行日 2024-10-22 15:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do LLMs estimate uncertainty well in instruction-following? はコメントを受け付けていません

Do LLMs ‘know’ internally when they follow instructions?

要約

大規模言語モデル (LLM) を使用して AI エージェントを構築するには、指示に従うことが重要です。これらのモデルはユーザーが指定した制約とガイドラインに厳密に従う必要があるためです。
ただし、LLM は、単純で明確な指示にも従わないことがよくあります。
命令に従う動作を改善し、望ましくない出力を防止するには、LLM の内部状態がこれらの結果にどのように関連しているかをより深く理解する必要があります。
LLM の内部状態を分析したところ、命令追従の成功に関連する入力埋め込み空間の次元が明らかになりました。
この次元に沿って表現を変更すると、応答の品質を損なうことなく、ランダムな変更と比較して命令後の成功率が向上することを実証します。
さらなる調査により、この次元は、タスクや指示の固有の難しさよりも、プロンプトの表現に密接に関連していることが明らかになりました。
この発見は、LLM が明確な指示に従わないことがある理由、および内容がほとんど変わらない場合でも、迅速なエンジニアリングが効果的であることが多い理由の説明も示唆しています。
この研究により、LLM の指示に従う内部動作についての洞察が得られ、信頼できる LLM エージェントへの道が開かれます。

要約(オリジナル)

Instruction-following is crucial for building AI agents with large language models (LLMs), as these models must adhere strictly to user-provided constraints and guidelines. However, LLMs often fail to follow even simple and clear instructions. To improve instruction-following behavior and prevent undesirable outputs, a deeper understanding of how LLMs’ internal states relate to these outcomes is required. Our analysis of LLM internal states reveal a dimension in the input embedding space linked to successful instruction-following. We demonstrate that modifying representations along this dimension improves instruction-following success rates compared to random changes, without compromising response quality. Further investigation reveals that this dimension is more closely related to the phrasing of prompts rather than the inherent difficulty of the task or instructions. This discovery also suggests explanations for why LLMs sometimes fail to follow clear instructions and why prompt engineering is often effective, even when the content remains largely unchanged. This work provides insight into the internal workings of LLMs’ instruction-following, paving the way for reliable LLM agents.

arxiv情報

著者 Juyeon Heo,Christina Heinze-Deml,Oussama Elachqar,Shirley Ren,Udhay Nallasamy,Andy Miller,Kwan Ho Ryan Chan,Jaya Narain
発行日 2024-10-22 15:20:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do LLMs ‘know’ internally when they follow instructions? はコメントを受け付けていません

Permutation Picture of Graph Combinatorial Optimization Problems

要約

この論文では、順列ベースの表現を使用して広範囲のグラフの組み合わせ最適化問題を定式化するフレームワークを提案します。
これらの問題には、巡回セールスマン問題、最大独立集合、最大カット、およびその他のさまざまな関連問題が含まれます。
この研究は、ニューラル組み合わせ最適化におけるアルゴリズム設計に新たな道を切り開き、離散最適化手法と連続最適化手法の間のギャップを埋める可能性があります。

要約(オリジナル)

This paper proposes a framework that formulates a wide range of graph combinatorial optimization problems using permutation-based representations. These problems include the travelling salesman problem, maximum independent set, maximum cut, and various other related problems. This work potentially opens up new avenues for algorithm design in neural combinatorial optimization, bridging the gap between discrete and continuous optimization techniques.

arxiv情報

著者 Yimeng Min
発行日 2024-10-22 15:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Permutation Picture of Graph Combinatorial Optimization Problems はコメントを受け付けていません

PhysORD: A Neuro-Symbolic Approach for Physics-infused Motion Prediction in Off-road Driving

要約

動き予測はオフロードの自動運転にとって重要ですが、車両と地形との間の相互作用が複雑であるため、オンロードの運転よりもはるかに多くの課題が生じます。
従来の物理ベースのアプローチでは、動的システムと外部擾乱を正確にモデル化することが困難になります。
対照的に、データ駆動型ニューラル ネットワークは広範なデータセットを必要とし、基本的な物理法則を明示的に捉えるのに苦労するため、一般化が不十分になる可能性があります。
両方の方法の利点を統合することにより、神経象徴的アプローチは有望な方向性を示します。
これらの方法は物理法則をニューラル モデルに埋め込み、一般化機能を大幅に向上させる可能性があります。
ただし、これまでの作品は、実際のオフロード走行環境で評価されていません。
このギャップを埋めるために、オフロード運転における運動予測のために保存則、つまりオイラー・ラグランジュ方程式をデータ駆動型ニューラル モデルに統合するニューラル シンボリック アプローチである PhysORD を紹介します。
私たちの実験では、PhysORD が不確実性をモデル化することで車両の動きを正確に予測し、外乱に耐えることができることがわかりました。
学習されたダイナミクス モデルは、データ駆動型手法と比較して、わずか 3.1% のパラメータを使用して 46.7% 高い精度を達成し、ニューラルシンボリック手法のデータ効率と優れた一般化能力を実証しています。

要約(オリジナル)

Motion prediction is critical for autonomous off-road driving, however, it presents significantly more challenges than on-road driving because of the complex interaction between the vehicle and the terrain. Traditional physics-based approaches encounter difficulties in accurately modeling dynamic systems and external disturbance. In contrast, data-driven neural networks require extensive datasets and struggle with explicitly capturing the fundamental physical laws, which can easily lead to poor generalization. By merging the advantages of both methods, neuro-symbolic approaches present a promising direction. These methods embed physical laws into neural models, potentially significantly improving generalization capabilities. However, no prior works were evaluated in real-world settings for off-road driving. To bridge this gap, we present PhysORD, a neural-symbolic approach integrating the conservation law, i.e., the Euler-Lagrange equation, into data-driven neural models for motion prediction in off-road driving. Our experiments showed that PhysORD can accurately predict vehicle motion and tolerate external disturbance by modeling uncertainties. The learned dynamics model achieves 46.7% higher accuracy using only 3.1% of the parameters compared to data-driven methods, demonstrating the data efficiency and superior generalization ability of our neural-symbolic method.

arxiv情報

著者 Zhipeng Zhao,Bowen Li,Yi Du,Taimeng Fu,Chen Wang
発行日 2024-10-22 15:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | PhysORD: A Neuro-Symbolic Approach for Physics-infused Motion Prediction in Off-road Driving はコメントを受け付けていません

The Complexity of Optimizing Atomic Congestion

要約

アトミック輻輳ゲームは、ネットワーク設計、ルーティング、およびアルゴリズム ゲーム理論における古典的なトピックであり、さまざまなアプリケーション分野で輻輳とフローの最適化タスクをモデル化できます。
このようなゲームのアナーキーの代償と、ナッシュ均衡を計算する計算の複雑さは、現在ではよく理解されていますが、システム最適な一連の戦略、つまり、最小化する中央で計画されたルーティングを計算する計算の複雑さは、現在では十分に理解されています。
エージェントの平均コスト — 文献では十分に研究されていません。
私たちは、パラメーター化された複雑さのパラダイムのレンズを通して、問題の扱いやすさの正確な境界を特定することで、このギャップを埋めます。
問題が非常に単純なネットワーク上でも依然として非常に扱いにくいことを示した後、問題の計算上の(扱いにくい)可能性を制御する構造パラメータが本質的に頂点分離子に基づいたものではないことを示す一連の結果が得られます。
、ツリー幅)ではなく、エッジセパレータに基づいています。
最後に、問題の (さらに困難な) 最小値と最大値のバリアントに分析を拡張します。

要約(オリジナル)

Atomic congestion games are a classic topic in network design, routing, and algorithmic game theory, and are capable of modeling congestion and flow optimization tasks in various application areas. While both the price of anarchy for such games as well as the computational complexity of computing their Nash equilibria are by now well-understood, the computational complexity of computing a system-optimal set of strategies — that is, a centrally planned routing that minimizes the average cost of agents — is severely understudied in the literature. We close this gap by identifying the exact boundaries of tractability for the problem through the lens of the parameterized complexity paradigm. After showing that the problem remains highly intractable even on extremely simple networks, we obtain a set of results which demonstrate that the structural parameters which control the computational (in)tractability of the problem are not vertex-separator based in nature (such as, e.g., treewidth), but rather based on edge separators. We conclude by extending our analysis towards the (even more challenging) min-max variant of the problem.

arxiv情報

著者 Cornelius Brand,Robert Ganian,Subrahmanyam Kalyanasundaram,Fionn Mc Inerney
発行日 2024-10-22 15:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.GT | The Complexity of Optimizing Atomic Congestion はコメントを受け付けていません

Automated neuroradiological support systems for multiple cerebrovascular disease markers — A systematic review and meta-analysis

要約

脳血管疾患(CVD)は脳卒中や認知症を引き起こす可能性があります。
脳卒中は世界中で第 2 位の死因であり、認知症の発生率は年々増加しています。
脳画像検査では、白質高信号(WMH)、急性および慢性虚血性脳卒中病変(ISL)、裂孔、血管周囲腔拡大(PVS)、急性および慢性出血性病変、脳微小出血など、脳画像上で確認できるCVDのマーカーがいくつかあります。
(CMB)。
脳萎縮はCVDでも起こります。
これらのマーカーは、将来の脳卒中や認知症のリスクの上昇を示すため、患者の管理と介入にとって重要です。
私たちは、これらの CVD 画像所見について報告する放射線科医をサポートするように設計された自動システムを体系的にレビューしました。
少なくとも 2 つの CVD マーカーを特定する市販のソフトウェアと研究出版物を検討しました。
合計で 29 の市販製品と 13 の研究出版物が含まれました。
2 つの異なるタイプの商用サポート システムが利用可能でした。1 つは主に患者のトリアージを目的として、コンピュータ断層撮影 (CT) スキャンから急性脳卒中病変 (出血性および虚血性) を特定するシステムです。
そしてWMHと萎縮を局所的および縦断的に測定するもの。
研究では、WMH と ISL は、磁気共鳴画像法 (MRI) スキャンから最も頻繁に一緒に分析されるマーカーでした。
ラクネと PVS はそれぞれ 2 回のみ、CMB は 1 回だけターゲットにされました。
脳卒中については、市販のシステムが主に緊急時の設定をサポートしていますが、研究システムでは追跡調査や定期的なスキャンも考慮されています。
WMH と萎縮を定量化するシステムは神経変性疾患のサポートに焦点を当てており、これらの CVD マーカーも重要です。
現在、商業的にも研究においても、すべての CVD マーカー (WMH、ISL、ラクネス、PVS、出血性病変、CMB、および萎縮) の包括的な共同分析を実行する、公に検証されたシステムはありません。

要約(オリジナル)

Cerebrovascular diseases (CVD) can lead to stroke and dementia. Stroke is the second leading cause of death world wide and dementia incidence is increasing by the year. There are several markers of CVD that are visible on brain imaging, including: white matter hyperintensities (WMH), acute and chronic ischaemic stroke lesions (ISL), lacunes, enlarged perivascular spaces (PVS), acute and chronic haemorrhagic lesions, and cerebral microbleeds (CMB). Brain atrophy also occurs in CVD. These markers are important for patient management and intervention, since they indicate elevated risk of future stroke and dementia. We systematically reviewed automated systems designed to support radiologists reporting on these CVD imaging findings. We considered commercially available software and research publications which identify at least two CVD markers. In total, we included 29 commercial products and 13 research publications. Two distinct types of commercial support system were available: those which identify acute stroke lesions (haemorrhagic and ischaemic) from computed tomography (CT) scans, mainly for the purpose of patient triage; and those which measure WMH and atrophy regionally and longitudinally. In research, WMH and ISL were the markers most frequently analysed together, from magnetic resonance imaging (MRI) scans; lacunes and PVS were each targeted only twice and CMB only once. For stroke, commercially available systems largely support the emergency setting, whilst research systems consider also follow-up and routine scans. The systems to quantify WMH and atrophy are focused on neurodegenerative disease support, where these CVD markers are also of significance. There are currently no openly validated systems, commercially, or in research, performing a comprehensive joint analysis of all CVD markers (WMH, ISL, lacunes, PVS, haemorrhagic lesions, CMB, and atrophy).

arxiv情報

著者 Jesse Phitidis,Alison Q. O’Neil,William N. Whiteley,Beatrice Alex,Joanna M. Wardlaw,Miguel O. Bernabeu,Maria Valdés Hernández
発行日 2024-10-22 15:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: A.1, cs.AI, physics.med-ph | Automated neuroradiological support systems for multiple cerebrovascular disease markers — A systematic review and meta-analysis はコメントを受け付けていません

Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards

要約

近接ポリシー最適化 (PPO) は、大規模言語モデル (LLM) を下流タスクと調整するために、ヒューマン フィードバックからの強化学習で一般的に使用されます。
この論文では、中間報酬モデルを介した人間のフィードバックからの間接学習ではなく、明示的にプログラムされた報酬信号からの直接強化学習 (RL) に PPO を使用する実現可能性を調査します。
私たちは、生成された出力の品質を自動的に評価するために明示的な報酬関数をプログラムできる、数学やプログラミングなどの形式言語を通じて表現されるタスクに焦点を当てています。
このアプローチを感情調整タスク、単純な算術タスク、およびより複雑なゲーム合成タスクに適用します。
感情調整タスクは以前の研究を再現し、実験設定を検証するのに役立ちます。
私たちの結果は、2 つの形式言語タスクに対する純粋な RL ベースのトレーニングは困難であり、単純な算術タスクであっても成功は限られていることを示しています。
トレーニングはまだ完全には安定していませんが、探索を支援するために新しいバッチエントロピー正則化項を提案します。
私たちの調査結果は、たとえ有益な報酬シグナルをプログラムで表現できる場合でも、LLM の直接 RL トレーニングは、新しいタスクを完全に学習するよりも、アライメントなどの比較的小さな変更に適している可能性があることを示唆しています。

要約(オリジナル)

Proximal Policy Optimization (PPO) is commonly used in Reinforcement Learning from Human Feedback to align large language models (LLMs) with downstream tasks. This paper investigates the feasibility of using PPO for direct reinforcement learning (RL) from explicitly programmed reward signals, as opposed to indirect learning from human feedback via an intermediary reward model. We focus on tasks expressed through formal languages, such as mathematics and programming, where explicit reward functions can be programmed to automatically assess the quality of generated outputs. We apply this approach to a sentiment alignment task, a simple arithmetic task, and a more complex game synthesis task. The sentiment alignment task replicates prior research and serves to validate our experimental setup. Our results show that pure RL-based training for the two formal language tasks is challenging, with success being limited even for the simple arithmetic task. We propose a novel batch-entropy regularization term to aid exploration, although training is not yet entirely stable. Our findings suggest that direct RL training of LLMs may be more suitable for relatively minor changes, such as alignment, than for learning new tasks altogether, even if an informative reward signal can be expressed programmatically.

arxiv情報

著者 Alexander G. Padula,Dennis J. N. J. Soemers
発行日 2024-10-22 15:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards はコメントを受け付けていません

Trustworthy XAI and Application

要約

今日の最も重要かつ変革的なテクノロジーの 1 つは、急速に発展している人工知能 (AI) の分野です。
人間の認知プロセスをシミュレートするコンピューター システムとして定義される AI は、一部の AI システムが非常に複雑で不透明であるため、路上の自動運転車から知能 (AI) に至るまで、私たちの日常生活のさまざまな側面に存在します。
これらのシステムディープニューラルネットワークは、特に何百万ものパラメータとレイヤーを備えているため、意思決定プロセスの不透明さによって責任、偏見、正義を人間が理解することが困難になります。
AI には多くの可能性がありますが、多くの困難や道徳的ジレンマも伴います。
説明可能な人工知能 (XAI) のコンテキストでは、AI システムが一貫して公正かつ倫理的に動作することを保証するため、信頼が非常に重要です。
この記事では、XAI、信頼性の高い XAI、および信頼性の高い XAI のいくつかの実際的な使用法について説明します。
この状況に関連すると判断した、XAI の透明性、説明可能性、信頼性という 3 つの主要な要素をもう一度確認します。
さまざまな応用分野で信頼できる XAI を採用した最近の科学研究の概要を紹介します。
結局のところ、信頼性は人間と AI システムの間の信頼を確立および維持し、社会の利益のために AI システムのさまざまなアプリケーションやドメインへの統合を促進するために重要です。

要約(オリジナル)

One of today’s most significant and transformative technologies is the rapidly developing field of artificial intelligence (AI). Deined as a computer system that simulates human cognitive processes, AI is present in many aspects of our daily lives, from the self-driving cars on the road to the intelligence (AI) because some AI systems are so complex and opaque. With millions of parameters and layers, these system-deep neural networks in particular-make it difficult for humans to comprehend accountability, prejudice, and justice are raised by the opaqueness of its decision-making process. AI has a lot of potential, but it also comes with a lot of difficulties and moral dilemmas. In the context of explainable artificial intelligence (XAI), trust is crucial as it ensures that AI systems behave consistently, fairly, and ethically. In the present article, we explore XAI, reliable XAI, and several practical uses for reliable XAI. Once more, we go over the three main components-transparency, explainability, and trustworthiness of XAI-that we determined are pertinent in this situation. We present an overview of recent scientific studies that employ trustworthy XAI in various application fields. In the end, trustworthiness is crucial for establishing and maintaining trust between humans and AI systems, facilitating the integration of AI systems into various applications and domains for the benefit of society.

arxiv情報

著者 MD Abdullah Al Nasim,Parag Biswas,Abdur Rashid,Angona Biswas,Kishor Datta Gupta
発行日 2024-10-22 16:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Trustworthy XAI and Application はコメントを受け付けていません

Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements

要約

ハッキングはサイバーセキュリティに重大な脅威をもたらし、毎年数十億ドルの損害を与えます。
これらのリスクを軽減するために、倫理的なハッキングまたは侵入テストがシステムやネットワークの脆弱性を特定するために採用されています。
大規模言語モデル (LLM) の最近の進歩により、サイバーセキュリティを含むさまざまなドメインにわたる可能性が示されています。
ただし、現時点では、進歩を促進し、セキュリティのコンテキストにおけるこれらのモデルの機能を評価するための、包括的でオープンなエンドツーエンドの自動侵入テスト ベンチマークはありません。
このペーパーでは、LLM ベースの自動侵入テスト用の新しいオープン ベンチマークを紹介し、この重大なギャップに対処します。
まず、最先端の PentestGPT ツールを使用して、GPT-4o や Llama 3.1-405B などの LLM のパフォーマンスを評価します。
私たちの調査結果では、Llama 3.1 は GPT-4o よりも優れていることを示していますが、現時点ではどちらのモデルも完全に自動化されたエンドツーエンドの侵入テストを実行するには至っていません。
次に、最先端技術を進歩させ、PentestGPT ツールの改善に関する洞察を提供するアブレーション研究を紹介します。
私たちの調査は、侵入テストの各側面で LLM が直面する課題を明らかにしています。
列挙、悪用、権限昇格。
この研究は、AI 支援サイバーセキュリティに関する一連の知識の増大に貢献し、大規模な言語モデルを使用した自動侵入テストにおける将来の研究の基礎を築きます。

要約(オリジナル)

Hacking poses a significant threat to cybersecurity, inflicting billions of dollars in damages annually. To mitigate these risks, ethical hacking, or penetration testing, is employed to identify vulnerabilities in systems and networks. Recent advancements in large language models (LLMs) have shown potential across various domains, including cybersecurity. However, there is currently no comprehensive, open, end-to-end automated penetration testing benchmark to drive progress and evaluate the capabilities of these models in security contexts. This paper introduces a novel open benchmark for LLM-based automated penetration testing, addressing this critical gap. We first evaluate the performance of LLMs, including GPT-4o and Llama 3.1-405B, using the state-of-the-art PentestGPT tool. Our findings reveal that while Llama 3.1 demonstrates an edge over GPT-4o, both models currently fall short of performing fully automated, end-to-end penetration testing. Next, we advance the state-of-the-art and present ablation studies that provide insights into improving the PentestGPT tool. Our research illuminates the challenges LLMs face in each aspect of Pentesting, e.g. enumeration, exploitation, and privilege escalation. This work contributes to the growing body of knowledge on AI-assisted cybersecurity and lays the foundation for future research in automated penetration testing using large language models.

arxiv情報

著者 Isamu Isozaki,Manil Shrestha,Rick Console,Edward Kim
発行日 2024-10-22 16:18:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements はコメントを受け付けていません

Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ?

要約

大規模言語モデル (LLM) は、一般的なタスクではうまく機能しますが、リソースが少なく、計算量が少ない設定では一般化に苦労します。
私たちは、英語 – タイ語機械翻訳およびコードスイッチング データセットでさまざまな LLM と特殊な翻訳モデルをテストすることで、この制限を調べます。
私たちの調査結果では、4 ビット量子化などのより厳密な計算上の制約の下では、LLM が効果的に変換できないことが明らかになりました。
対照的に、同等以下の計算要件を備えた特殊なモデルは、一貫して LLM よりも優れたパフォーマンスを発揮します。
これは、リソースの制約下でパフォーマンスを維持するための特殊なモデルの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) perform well on common tasks but struggle with generalization in low-resource and low-computation settings. We examine this limitation by testing various LLMs and specialized translation models on English-Thai machine translation and code-switching datasets. Our findings reveal that under more strict computational constraints, such as 4-bit quantization, LLMs fail to translate effectively. In contrast, specialized models, with comparable or lower computational requirements, consistently outperform LLMs. This underscores the importance of specialized models for maintaining performance under resource constraints.

arxiv情報

著者 Jirat Chiaranaipanich,Naiyarat Hanmatheekuna,Jitkapat Sawatphol,Krittamate Tiankanon,Jiramet Kinchagawat,Amrest Chinkamol,Parinthapat Pengpun,Piyalitt Ittichaiwong,Peerat Limkonchotiwat
発行日 2024-10-22 16:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ? はコメントを受け付けていません