You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning

要約

大規模な言語モデル(LLMS)の増え続けるサイズは、計算とメモリの重い要件のために、展開に大きな課題を提示します。
現在のモデル剪定技術は、外部キャリブレーションデータセットに大きく依存してプルーンまたは圧縮するパラメーターを決定することにより、これらの問題を軽減しようとします。
さらに、これらの方法は、特に下流のタスクで、より高い圧縮速度にさらされると、深刻な性能劣化を引き起こすことがよくあります。
この論文では、モデルの剪定を政策学習プロセスとして再定式化することにより、これらの制限に対処する新しいモデル圧縮法であるPrunenetを提案します。
Prunenetは、モデルアーキテクチャの剪定プロセスを切り離し、キャリブレーションデータセットの必要性を排除します。
情報の損失を最小限に抑えるためにスペクトル構造を維持しながら、固有のモデルプロパティのみに基づいてパラメーターの重要性を評価する確率的剪定ポリシーを学習します。
Prunenetは、ラマ2-7Bモデルをわずか15分で圧縮でき、30%の圧縮率でゼロショットパフォーマンスを80%以上保持し、75%のパフォーマンスを保持する既存の方法よりも優れています。
さらに、複雑なマルチタスク言語理解タスクでは、Prunenetは、元のモデルの最大80%のパフォーマンスを維持することにより、その堅牢性を実証し、従来の構造化された圧縮技術の優れた代替手段であることが証明されています。

要約(オリジナル)

The ever-increasing size of large language models (LLMs) presents significant challenges for deployment due to their heavy computational and memory requirements. Current model pruning techniques attempt to alleviate these issues by relying heavily on external calibration datasets to determine which parameters to prune or compress, thus limiting their flexibility and scalability across different compression ratios. Moreover, these methods often cause severe performance degradation, particularly in downstream tasks, when subjected to higher compression rates. In this paper, we propose PruneNet, a novel model compression method that addresses these limitations by reformulating model pruning as a policy learning process. PruneNet decouples the pruning process from the model architecture, eliminating the need for calibration datasets. It learns a stochastic pruning policy to assess parameter importance solely based on intrinsic model properties while preserving the spectral structure to minimize information loss. PruneNet can compress the LLaMA-2-7B model in just 15 minutes, achieving over 80% retention of its zero-shot performance with a 30% compression ratio, outperforming existing methods that retain only 75% performance. Furthermore, on complex multitask language understanding tasks, PruneNet demonstrates its robustness by preserving up to 80% performance of the original model, proving itself a superior alternative to conventional structured compression techniques.

arxiv情報

著者 Ayan Sengupta,Siddhant Chaudhary,Tanmoy Chakraborty
発行日 2025-02-28 15:23:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning はコメントを受け付けていません

Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

要約

大規模な言語モデル(LLM)は展開するのに費用がかかります。
パラメーター共有は、サイズとコストを削減するための可能なパスを提供しますが、最新のLLMでのその有効性はかなり限られたままです。
この作業では、変圧器のパラメーター共有の形式として「レイヤータイ」を再訪し、既存のLLMをレイヤー間でパラメーターを共有する小さな「再帰変圧器」に変換するための新しい方法を導入し、パフォーマンスを最小限に抑えます。
ここでは、当社の再帰変圧器は、標準の前処理された変圧器から効率的に初期化されますが、一意のレイヤーの単一ブロックのみを使用して、ループで複数回繰り返されます。
深さごとの低ランク適応(LORA)モジュールを介して層を結ぶ制約に柔軟性を追加するリラックスした再帰変圧器を導入することにより、パフォーマンスをさらに向上させますが、それでもモデル全体のコンパクトさを維持します。
再帰モデル(例えば、再帰的なジェマ1B)は、同様のサイズのバニラ前モデル(Tinyllama 1.1bやPythia 1Bなど)と知識蒸留ベースラインの両方を上回ることを示し、元の「フルサイズ」モデル(例えば、ジェマ2B)のパフォーマンスのほとんどを回復することさえできます。
最後に、継続的な深さのバッチングを提案します。これは、早期出口と組み合わせたときに再帰的な変圧器によって有効になっている有望な新しい推論パラダイムです。
理論分析では、これが推論スループットの有意な(2〜3倍)ゲインにつながる可能性があることを示します。

要約(オリジナル)

Large language models (LLMs) are expensive to deploy. Parameter sharing offers a possible path towards reducing their size and cost, but its effectiveness in modern LLMs remains fairly limited. In this work, we revisit ‘layer tying’ as form of parameter sharing in Transformers, and introduce novel methods for converting existing LLMs into smaller ‘Recursive Transformers’ that share parameters across layers, with minimal loss of performance. Here, our Recursive Transformers are efficiently initialized from standard pretrained Transformers, but only use a single block of unique layers that is then repeated multiple times in a loop. We further improve performance by introducing Relaxed Recursive Transformers that add flexibility to the layer tying constraint via depth-wise low-rank adaptation (LoRA) modules, yet still preserve the compactness of the overall model. We show that our recursive models (e.g., recursive Gemma 1B) outperform both similar-sized vanilla pretrained models (such as TinyLlama 1.1B and Pythia 1B) and knowledge distillation baselines — and can even recover most of the performance of the original ‘full-size’ model (e.g., Gemma 2B with no shared parameters). Finally, we propose Continuous Depth-wise Batching, a promising new inference paradigm enabled by the Recursive Transformer when paired with early exiting. In a theoretical analysis, we show that this has the potential to lead to significant (2-3x) gains in inference throughput.

arxiv情報

著者 Sangmin Bae,Adam Fisch,Hrayr Harutyunyan,Ziwei Ji,Seungyeon Kim,Tal Schuster
発行日 2025-02-28 16:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA はコメントを受け付けていません

Detecting Linguistic Diversity on Social Media

要約

この章では、ソーシャルメディアデータを使用して、場所の言語的行動の変化を調べることの有効性を調査します。
私たちは、国勢調査の公式統計が言語使用データの唯一の源であるAotearoaニュージーランドに調査を焦点を当てています。
公開された国勢調査データをグラウンドトゥルースとして使用し、グローバル言語使用のコーパスからのソーシャルメディアサブコルパスを代替データソースとして使用します。
2つのデータソース間の共通分母として場所を使用します。
ソーシャルメディアデータセットの各ツイートの言語条件を特定し、2つの言語識別モデルで結果を検証しました。
次に、国家、地域、地域の地域で言語の多様性のレベルを比較します。
結果は、ソーシャルメディアの言語データが、場所の言語プロファイルに関する空間的および時間的洞察の豊富なソースを提供する可能性があることを示唆しています。
ソーシャルメディアは、言語内および低レベルの地域および地域の地域における人口統計的および社会政治的変化に敏感であることを示しています。

要約(オリジナル)

This chapter explores the efficacy of using social media data to examine changing linguistic behaviour of a place. We focus our investigation on Aotearoa New Zealand where official statistics from the census is the only source of language use data. We use published census data as the ground truth and the social media sub-corpus from the Corpus of Global Language Use as our alternative data source. We use place as the common denominator between the two data sources. We identify the language conditions of each tweet in the social media data set and validated our results with two language identification models. We then compare levels of linguistic diversity at national, regional, and local geographies. The results suggest that social media language data has the possibility to provide a rich source of spatial and temporal insights on the linguistic profile of a place. We show that social media is sensitive to demographic and sociopolitical changes within a language and at low-level regional and local geographies.

arxiv情報

著者 Sidney Wong,Benjamin Adams,Jonathan Dunn
発行日 2025-02-28 16:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Detecting Linguistic Diversity on Social Media はコメントを受け付けていません

Logical Consistency of Large Language Models in Fact-checking

要約

近年、大規模な言語モデル(LLMS)は、LLMSが人間のようなテキストを生成する印象的な能力にもかかわらず、言語翻訳、質問回答、要約、ファクトチェックなどのさまざまな自然言語タスクの実行に大きな成功を示しています。
幻覚。
その結果、既存の研究は、LLMの単純な言い換えベースの一貫性評価に焦点を当てており、LLMによる論理的推論のより良い理解を必要とする複雑なクエリを無視します。
したがって、私たちの研究は、原始的な論理演算子、例えば否定、接続詞、および分離との複雑な論理クエリの下でのLLMの論理的矛盾に対処しています。
テストベッドとして、知識グラフ(KG)からの命題ロジッククエリを含むファクトチェックタスクで検索されたAugmented LLMSを検討します。
私たちの貢献は3つあります。
ベンチマーク:コミュニティ開発のために、論理的に一貫したLLMに向けて、KGSで3つの論理的なファクトチェックデータセットを導入します。
評価:命題論理クエリに関するLLMの一貫性測定を提案し、既存のLLMが特に複雑なクエリでは論理的な一貫性がないことを示します。
改善:私たちは、KGコンテキストを使用した複雑なファクトチェックタスクでのLLMの論理的一貫性を改善するために、監視された微調整を採用しています。
ソースコードとベンチマークを利用可能にしました。

要約(オリジナル)

In recent years, large language models (LLMs) have demonstrated significant success in performing varied natural language tasks such as language translation, question-answering, summarizing, fact-checking, etc. Despite LLMs’ impressive ability to generate human-like texts, LLMs are infamous for their inconsistent responses – a meaning-preserving change in the input query results in an inconsistent response and attributes to vulnerabilities of LLMs such as hallucination. Consequently, existing research focuses on simple paraphrasing-based consistency assessment of LLMs, and ignores complex queries that necessitate an even better understanding of logical reasoning by an LLM. Our work therefore addresses the logical inconsistency of LLMs under complex logical queries with primitive logical operators, e.g., negation, conjunction, and disjunction. As a test bed, we consider retrieval-augmented LLMs on a fact-checking task involving propositional logic queries from knowledge graphs (KGs). Our contributions are threefold. Benchmark: We introduce three logical fact-checking datasets over KGs for community development towards logically consistent LLMs. Assessment: We propose consistency measures of LLMs on propositional logic queries and demonstrate that existing LLMs lack logical consistency, especially on complex queries. Improvement: We employ supervised fine-tuning to improve the logical consistency of LLMs on the complex fact-checking task with KG contexts. We have made our source code and benchmarks available.

arxiv情報

著者 Bishwamittra Ghosh,Sarah Hasan,Naheed Anjum Arafat,Arijit Khan
発行日 2025-02-28 17:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Logical Consistency of Large Language Models in Fact-checking はコメントを受け付けていません

Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs

要約

大規模な言語モデル(LLM)は、膨大な量の事実知識をエンコードすることにより、多様なタスク全体で顕著なパフォーマンスを実証しています。
しかし、彼らはまだ幻覚を起こしやすく、誤ったまたは誤解を招く情報を生成し、しばしば高い不確実性を伴います。
幻覚検出のための既存の方法は、主に、モデル内の知識の欠落または矛盾する知識から生じる内部の不確実性の定量化に焦点を当てています。
ただし、幻覚は、曖昧なユーザークエリが複数の可能な解釈につながる外部の不確実性に起因する可能性もあります。
この作業では、LLMSの外部と内部の両方の不確実性を定量化するための新しい数学的尺度であるセマンティックボリュームを紹介します。
私たちのアプローチは、摂食と応答の質問と応答を埋め込み、埋め込みベクターのグラムマトリックスの決定要因を計算し、不確実性の尺度として分散をキャプチャします。
私たちのフレームワークは、LLMSへのホワイトボックスアクセスを必要とせずに、一般化可能で監視されていない不確実性検出方法を提供します。
外部および内部の不確実性検出の両方で広範な実験を実施し、セマンティックボリューム方法が両方のタスクで既存のベースラインを常に上回ることを示しています。
さらに、私たちの尺度を差別的エントロピーにリンクする理論的洞察を提供し、セマンティックエントロピーなどの以前のサンプリングベースの不確実性測定を統合し、拡張します。
セマンティックボリュームは、ユーザークエリとモデル応答の両方の不確実性を体系的に検出することにより、LLMの信頼性を改善するための堅牢で解釈可能なアプローチであることが示されています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance across diverse tasks by encoding vast amounts of factual knowledge. However, they are still prone to hallucinations, generating incorrect or misleading information, often accompanied by high uncertainty. Existing methods for hallucination detection primarily focus on quantifying internal uncertainty, which arises from missing or conflicting knowledge within the model. However, hallucinations can also stem from external uncertainty, where ambiguous user queries lead to multiple possible interpretations. In this work, we introduce Semantic Volume, a novel mathematical measure for quantifying both external and internal uncertainty in LLMs. Our approach perturbs queries and responses, embeds them in a semantic space, and computes the determinant of the Gram matrix of the embedding vectors, capturing their dispersion as a measure of uncertainty. Our framework provides a generalizable and unsupervised uncertainty detection method without requiring white-box access to LLMs. We conduct extensive experiments on both external and internal uncertainty detection, demonstrating that our Semantic Volume method consistently outperforms existing baselines in both tasks. Additionally, we provide theoretical insights linking our measure to differential entropy, unifying and extending previous sampling-based uncertainty measures such as the semantic entropy. Semantic Volume is shown to be a robust and interpretable approach to improving the reliability of LLMs by systematically detecting uncertainty in both user queries and model responses.

arxiv情報

著者 Xiaomin Li,Zhou Yu,Ziji Zhang,Yingying Zhuang,Swair Shah,Anurag Beniwal
発行日 2025-02-28 17:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs はコメントを受け付けていません

Token-level Ensembling of Models with Different Vocabularies

要約

Model Ensemblingは、2つ以上のモデルの予測される分布を組み合わせる手法であり、多くの場合、堅牢性とパフォーマンスの改善につながります。
テキスト生成のアンサンリングの場合、次のトークンの確率分布は、個々のモデルの分布の加重合計から導き出されます。
これには、多くのオープンソースモデルが異なる語彙を持っているため、アンサンブルの適用性を制限する、同じサブワードの語彙を共有するために、基礎となるモデルが必要です。
研究環境では、語彙の実験またはアップグレードにより、複数の語彙サイズが導入される場合があります。
このホワイトペーパーでは、追加のパラメーターを学習したり、基礎となるモデルを変更することなく、異なる語彙を持つモデルをアンサンブルすることを可能にする推論時間のみのアルゴリズムを提案します。
代わりに、アルゴリズムは、アンサンブルモデル\ textIT {areg}によって生成されたトークンを表面形式で保証します。
この手法は、従来のエンコーダーデコーダーモデルとデコーダーのみのLLMSの組み合わせに適用し、機械翻訳で評価します。
以前はトークンレベルのアンサンミングができなかったモデルペアへの拡張に加えて、私たちのアルゴリズムは、いずれかのモデルよりも翻訳パフォーマンスを個別に改善することがよくあります。

要約(オリジナル)

Model ensembling is a technique to combine the predicted distributions of two or more models, often leading to improved robustness and performance. For ensembling in text generation, the next token’s probability distribution is derived from a weighted sum of the distributions of each individual model. This requires the underlying models to share the same subword vocabulary, limiting the applicability of ensembling, since many open-sourced models have distinct vocabularies. In research settings, experimentation or upgrades to vocabularies may introduce multiple vocabulary sizes. This paper proposes an inference-time only algorithm that allows for ensembling models with different vocabularies, without the need to learn additional parameters or alter the underlying models. Instead, the algorithm ensures that tokens generated by the ensembled models \textit{agree} in their surface form. We apply this technique to combinations of traditional encoder-decoder models and decoder-only LLMs and evaluate on machine translation. In addition to expanding to model pairs that were previously incapable of token-level ensembling, our algorithm frequently improves translation performance over either model individually.

arxiv情報

著者 Rachel Wicks,Kartik Ravisankar,Xinchen Yang,Philipp Koehn,Matt Post
発行日 2025-02-28 17:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Token-level Ensembling of Models with Different Vocabularies はコメントを受け付けていません

Persuasion Should be Double-Blind: A Multi-Domain Dialogue Dataset With Faithfulness Based on Causal Theory of Mind

要約

説得力のある対話は、さまざまなドメインに影響を与える人間のコミュニケーションにおいて極めて重要な役割を果たします。
最近の説得力のある対話データセットは、多くの場合、実際の対人的相互作用と一致しないため、不誠実な表現につながります。
たとえば、説得力が採用する説得戦略についての説得者に、説得力のそれぞれの質問が従うべき説得力のある質問に対応する説得力を明示的に指示するときなど、非現実的なシナリオが生じる可能性があります。
この問題は、参加者間で重要な情報が完全に共有される「二重盲検」状態の違反に起因する可能性があります。
ただし、実際の人間の相互作用では、説得力のある精神状態や説得者の説得戦略などの重要な情報は直接アクセスできません。
説得者は、マインド能力の理論を使用して説得力のある精神状態を推測し、説得力のある動機と一致する議論を構築しなければなりません。
このギャップに対処するために、因果的な心の理論によって導かれる対話生成のための新しいマルチエージェントフレームワークであるTommaを紹介します。
このフレームワークにより、情報はエージェント間で非公開のままであり、「二重盲検」条件を維持し、因果的なトムは説得者の推論を指示し、人間のような説得力のダイナミクスとの整合性を高めます。
その結果、二重盲検および論理コヒーレンスの両方の問題に取り組むマルチドメインの多ターン説得力のある対話データセットであるCtompersuを提示し、複数のメトリックにわたって優れたパフォーマンスを示し、実際の人間の対話とのより良い整合を実現します。
データセットとプロンプトは、https://github.com/dingyizhang/tomma-ctompersuで入手できます。

要約(オリジナル)

Persuasive dialogue plays a pivotal role in human communication, influencing various domains. Recent persuasive dialogue datasets often fail to align with real-world interpersonal interactions, leading to unfaithful representations. For instance, unrealistic scenarios may arise, such as when the persuadee explicitly instructs the persuader on which persuasion strategies to employ, with each of the persuadee’s questions corresponding to a specific strategy for the persuader to follow. This issue can be attributed to a violation of the ‘Double Blind’ condition, where critical information is fully shared between participants. In actual human interactions, however, key information such as the mental state of the persuadee and the persuasion strategies of the persuader is not directly accessible. The persuader must infer the persuadee’s mental state using Theory of Mind capabilities and construct arguments that align with the persuadee’s motivations. To address this gap, we introduce ToMMA, a novel multi-agent framework for dialogue generation that is guided by causal Theory of Mind. This framework ensures that information remains undisclosed between agents, preserving ‘double-blind’ conditions, while causal ToM directs the persuader’s reasoning, enhancing alignment with human-like persuasion dynamics. Consequently, we present CToMPersu, a multi-domain, multi-turn persuasive dialogue dataset that tackles both double-blind and logical coherence issues, demonstrating superior performance across multiple metrics and achieving better alignment with real human dialogues. Our dataset and prompts are available at https://github.com/DingyiZhang/ToMMA-CToMPersu .

arxiv情報

著者 Dingyi Zhang,Deyu Zhou
発行日 2025-02-28 18:28:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Persuasion Should be Double-Blind: A Multi-Domain Dialogue Dataset With Faithfulness Based on Causal Theory of Mind はコメントを受け付けていません

Identifying Emerging Concepts in Large Corpora

要約

大規模なテキストコーパスの新しい概念を特定するための新しい方法を紹介します。
基礎となる埋め込みスペースのヒートマップの変化を分析することにより、これらの概念が発生した直後に高精度でこれらの概念を検出することができます。
さらに、1941年から2015年までの米国上院でのスピーチを分析することにより、アプローチの有用性を実証します。我々の結果は、少数党が上院の談話に新しい概念を導入する際により積極的であることを示唆しています。
また、上院議員の人種、民族、性別のアイデンティティと密接に相関する特定の概念も特定します。
私たちの方法の実装は公開されています。

要約(オリジナル)

We introduce a new method to identify emerging concepts in large text corpora. By analyzing changes in the heatmaps of the underlying embedding space, we are able to detect these concepts with high accuracy shortly after they originate, in turn outperforming common alternatives. We further demonstrate the utility of our approach by analyzing speeches in the U.S. Senate from 1941 to 2015. Our results suggest that the minority party is more active in introducing new concepts into the Senate discourse. We also identify specific concepts that closely correlate with the Senators’ racial, ethnic, and gender identities. An implementation of our method is publicly available.

arxiv情報

著者 Sibo Ma,Julian Nyarko
発行日 2025-02-28 18:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Identifying Emerging Concepts in Large Corpora はコメントを受け付けていません

Explainable AI for Classifying UTI Risk Groups Using a Real-World Linked EHR and Pathology Lab Dataset

要約

電子健康記録(EHRS)での機械学習とAIの使用は、臨床的洞察の大きな可能性を秘めています。
ただし、このアプローチは、データの不均一性、スパース性、時間的不整合、および限られたラベルのある結果により、課題に直面しています。
これに関連して、英国北サマセットのブリストルとサウスグロスターシャーの約100万人の非識別された個人のリンクされたEHRデータセットを活用して、尿路感染症(UTI)を特徴付けます。
データの公平性、説明責任、透明性に焦点を当てた予測モデルを開発するのに適した構造化された形式に、生のEHRデータを変換するデータの前処理とキュレーションパイプラインを実装しました。
グラウンドトゥルースUTIの結果の入手可能性とバイアスが限られていることを考えると、個々の患者のタイムライン全体でUTIリスクを推定するために臨床専門知識から通知されたUTIリスク推定フレームワークを導入します。
ペアワイズXGBoostモデルは、このフレームワークを使用してトレーニングされ、UTIリスクカテゴリを説明可能なAIテクニックを適用して、主要な予測因子を特定し、解釈をサポートします。
私たちの調査結果は、リスクグループ全体の臨床的および人口統計学的予測因子の違いを明らかにしています。
この研究では、UTI臨床的意思決定をサポートするAI駆動型の洞察の可能性を強調していますが、臨床診療における堅牢性と適用性を確保するためには、患者サブストラタと広範な検証のさらなる調査が必要です。

要約(オリジナル)

The use of machine learning and AI on electronic health records (EHRs) holds substantial potential for clinical insight. However, this approach faces challenges due to data heterogeneity, sparsity, temporal misalignment, and limited labeled outcomes. In this context, we leverage a linked EHR dataset of approximately one million de-identified individuals from Bristol, North Somerset, and South Gloucestershire, UK, to characterize urinary tract infections (UTIs). We implemented a data pre-processing and curation pipeline that transforms the raw EHR data into a structured format suitable for developing predictive models focused on data fairness, accountability and transparency. Given the limited availability and biases of ground truth UTI outcomes, we introduce a UTI risk estimation framework informed by clinical expertise to estimate UTI risk across individual patient timelines. Pairwise XGBoost models are trained using this framework to differentiate UTI risk categories with explainable AI techniques applied to identify key predictors and support interpretability. Our findings reveal differences in clinical and demographic predictors across risk groups. While this study highlights the potential of AI-driven insights to support UTI clinical decision-making, further investigation of patient sub-strata and extensive validation are needed to ensure robustness and applicability in clinical practice.

arxiv情報

著者 Yujie Dai,Brian Sullivan,Axel Montout,Amy Dillon,Chris Waller,Peter Acs,Rachel Denholm,Philip Williams,Alastair D Hay,Raul Santos-Rodriguez,Andrew Dowsey
発行日 2025-02-28 15:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Explainable AI for Classifying UTI Risk Groups Using a Real-World Linked EHR and Pathology Lab Dataset はコメントを受け付けていません

Dynamically Local-Enhancement Planner for Large-Scale Autonomous Driving

要約

現在の自動運転車は主に限られた地域内で動作しますが、より広範なアプリケーションに対する需要が増加しています。
ただし、モデルが拡大するにつれて、限られた能力は、新しいシナリオに適応するための重要な課題になります。
単一のモノリシックモデルを使用して、新しい状況のモデルを改善することはますます困難になっています。
この問題に対処するために、プランナー自体を永久に変更することなく、ローカルドライビングデータを使用して基本的な運転プランナーを動的に強化するという概念を紹介します。
このアプローチは、動的にローカルエンハンスメント(DLE)プランナーと呼ばれ、プランナーのサイズを大幅に拡大せずに自律運転システムのスケーラビリティを改善することを目的としています。
私たちのアプローチでは、局所観察データから領域固有の駆動機能を抽出するグラフニューラルネットワークと組み合わせた位置変化のマルコフ決定プロセスの定式化を紹介します。
学習された機能は、周囲のオブジェクトの局所的な動作を説明しており、基本的な強化学習ベースのポリシーを強化するために活用されます。
複数のシナリオでアプローチを評価し、1回の運転モデル​​と比較しました。
結果は、私たちの方法が、より軽いスケールを維持しながら、安全性(衝突率)と平均報酬の両方でベースラインポリシーを上回ることを示しています。
このアプローチには、主にデバイス運転モデル​​を大幅に拡大する必要なく、大規模な自動運転車に利益をもたらす可能性があります。

要約(オリジナル)

Current autonomous vehicles operate primarily within limited regions, but there is increasing demand for broader applications. However, as models scale, their limited capacity becomes a significant challenge for adapting to novel scenarios. It is increasingly difficult to improve models for new situations using a single monolithic model. To address this issue, we introduce the concept of dynamically enhancing a basic driving planner with local driving data, without permanently modifying the planner itself. This approach, termed the Dynamically Local-Enhancement (DLE) Planner, aims to improve the scalability of autonomous driving systems without significantly expanding the planner’s size. Our approach introduces a position-varying Markov Decision Process formulation coupled with a graph neural network that extracts region-specific driving features from local observation data. The learned features describe the local behavior of the surrounding objects, which is then leveraged to enhance a basic reinforcement learning-based policy. We evaluated our approach in multiple scenarios and compared it with a one-for-all driving model. The results show that our method outperforms the baseline policy in both safety (collision rate) and average reward, while maintaining a lighter scale. This approach has the potential to benefit large-scale autonomous vehicles without the need for largely expanding on-device driving models.

arxiv情報

著者 Nanshan Deng,Weitao Zhou,Bo Zhang,Junze Wen,Kun Jiang,Zhong Cao,Diange Yang
発行日 2025-02-28 15:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Dynamically Local-Enhancement Planner for Large-Scale Autonomous Driving はコメントを受け付けていません