Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation

要約

このホワイトペーパーでは、多様で包括的な回答を生成する際の(検索)大規模な言語モデル(LLM)の制限を研究し、2フェーズシステム設計に基づいて計画と反復(P&R)フレームワークを紹介します。
グローバル探査段階では、P&Rは、特定の説明を持つ各プランが多様なクエリの側面のリストで構成されている、特定の入力の多様な計画セットを生成します。
このフェーズの後には、各プランに条件付けられた入力クエリの応答提案を生成し、提案の品質を改善するための提案を繰り返し改善するローカル搾取フェーズが続きます。
最後に、報酬モデルが採用され、最高の事実と報道を伴う提案を選択します。
ICAT評価方法論に基づいて実験を実施します。これは、回答の事実と包括性評価のための最近のアプローチです。
非ファクトル質問の回答とTREC検索結果の多様化タスクから採用された2つの多様な情報探索ベンチマークの実験は、P&Rがベースラインを大幅に上回り、アンティークデータセットの最大13.1%の改善とTRECデータセットの15.41%の改善を達成することを示しています。
さらに、小規模なユーザー調査では、P&Rフレームワークの実質的な有効性が確認されています。

要約(オリジナル)

This paper studies the limitations of (retrieval-augmented) large language models (LLMs) in generating diverse and comprehensive responses, and introduces the Plan-and-Refine (P&R) framework based on a two phase system design. In the global exploration phase, P&R generates a diverse set of plans for the given input, where each plan consists of a list of diverse query aspects with corresponding additional descriptions. This phase is followed by a local exploitation phase that generates a response proposal for the input query conditioned on each plan and iteratively refines the proposal for improving the proposal quality. Finally, a reward model is employed to select the proposal with the highest factuality and coverage. We conduct our experiments based on the ICAT evaluation methodology–a recent approach for answer factuality and comprehensiveness evaluation. Experiments on the two diverse information seeking benchmarks adopted from non-factoid question answering and TREC search result diversification tasks demonstrate that P&R significantly outperforms baselines, achieving up to a 13.1% improvement on the ANTIQUE dataset and a 15.41% improvement on the TREC dataset. Furthermore, a smaller scale user study confirms the substantial efficacy of the P&R framework.

arxiv情報

著者 Alireza Salemi,Chris Samarinas,Hamed Zamani
発行日 2025-04-10 14:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation はコメントを受け付けていません

Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models

要約

混合物(MOE)アーキテクチャは、タスク固有の専門家のまばらな活性化を伴う大規模な言語モデル(LLM)をスケーリングするための有望なパラダイムとして浮上しています。
推論中の計算効率にもかかわらず、MOEモデルの全体的な全体的なパラメーターフットプリント(GPT-4など)は、実際の展開に重大な課題を導入します。
現在の剪定アプローチは、MOEシステムの2つの固有の特性に対処できないことがよくあります。1).intra-Layerの専門家の均一性と同じMOE層内の専門家が機能的冗長性を示し、2)。
より深い層が徐々に均一な専門家を含む傾向がある層間類似性パターン。
これらの問題に取り組むために、Cluster駆動型の専門家Pruning(C-Prune)を提案します。これは、MOE LLMSの適応タスク固有の圧縮のための新しい2段階のフレームワークです。
C-Pruneは、パラメーターの類似性メトリックを使用して各MOE層内の機能的に類似した専門家をグループ化するレイヤーワーカスの専門家クラスタリングを介して動作し、その後、クロス層の均一性を説明する統一された重要なスコアリングメカニズムを通じて、すべてのレイヤーの冗長クラスターを排除するグローバルなクラスター剪定が続きます。
複数のMOEモデルとベンチマークに関する広範な実験を通じて、C-Pruneを検証します。
結果は、C-Pruneがモデルサイズを効果的に削減しながら、既存のMOE剪定方法を上回ることを示しています。

要約(オリジナル)

Mixture-of-Experts (MoE) architectures have emerged as a promising paradigm for scaling large language models (LLMs) with sparse activation of task-specific experts. Despite their computational efficiency during inference, the massive overall parameter footprint of MoE models (e.g., GPT-4) introduces critical challenges for practical deployment. Current pruning approaches often fail to address two inherent characteristics of MoE systems: 1).intra-layer expert homogeneity where experts within the same MoE layer exhibit functional redundancy, and 2). inter-layer similarity patterns where deeper layers tend to contain progressively more homogeneous experts. To tackle these issues, we propose Cluster-driven Expert Pruning (C-Prune), a novel two-stage framework for adaptive task-specific compression of MoE LLMs. C-Prune operates through layer-wise expert clustering, which groups functionally similar experts within each MoE layer using parameter similarity metrics, followed by global cluster pruning, which eliminates redundant clusters across all layers through a unified importance scoring mechanism that accounts for cross-layer homogeneity. We validate C-Prune through extensive experiments on multiple MoE models and benchmarks. The results demonstrate that C-Prune effectively reduces model size while outperforming existing MoE pruning methods.

arxiv情報

著者 Hongcheng Guo,Juntao Yao,Boyang Wang,Junjia Du,Shaosheng Cao,Donglin Di,Shun Zhang,Zhoujun Li
発行日 2025-04-10 14:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models はコメントを受け付けていません

What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks

要約

一般的な推論は、特定の事実の知識だけでなく、一般的な言語と世界の理解をカプセル化するため、重要な言語モデルの能力です。
したがって、一般的な推論を測定することは、さまざまなサイズとアプリケーションの言語モデルにとって重要です。
このような機能を評価するために最も広く使用されているベンチマークの1つは、Hellaswagです。
ただし、この論文では、重度の構成妥当性の問題があることを示しています。
これらの問題は、基本的な非文法性や多数のタイプミスから、誤解を招くプロンプトまたは同様に正しいオプションにまで及びます。
さらに、モデルが回答テキストでのみ評価されている場合、または「Lorem Ipsum Dolor …」でモデルが評価されている場合、モデル予測の65%以上が同じままであり、これは単に汚染に起因することはできません。
ベンチマークスコアは、研究および商業用アプリケーションの両方においてモデル選択の重要な部分であるため、これらの妥当性の問題は深刻な結果をもたらす可能性があります。
特に、ベンチマークスコアを額面で取得することは遍在的で不十分な評価が、モデルに関する情報に基づいた決定につながることを知ることです。
この論文では、Hellaswagによって提起された重大な妥当性の問題を徹底的に調査し、さまざまなサイズの生成言語モデルを使用してさまざまな評価で説明します。
このベンチマークは、常識的な推論を正確に測定しないため、現在の状態での評価に使用すべきではないと主張します。
私たちの研究の結果に基づいて、将来の常識的な推論ベンチマークによって満たされるべき要件を提案します。
さらに、Hellaswagの修正されたサブセットであるGoldenswagをリリースします。

要約(オリジナル)

Common-sense reasoning is a key language model capability because it encapsulates not just specific factual knowledge but rather general language and world understanding. Measuring common-sense reasoning, therefore, is crucial for language models of different sizes and applications. One of the most widely used benchmarks for evaluating such capabilities is HellaSwag; however, in this paper, we show that it has severe construct validity issues. These issues range from basic ungrammaticality and numerous typos to misleading prompts or equally correct options. Furthermore, we show that if models are evaluated only on answer texts, or with ‘Lorem ipsum dolor…’ instead of the question, more than 65% of model predictions remain the same, and this cannot be attributed merely to contamination. Since benchmark scores are an essential part of model selection in both research and commercial applications, these validity issues can have severe consequences. In particular, knowing that taking benchmark scores at face value is ubiquitous, inadequate evaluation leads to ill-informed decisions about models. In this paper, we thoroughly investigate critical validity issues posed by HellaSwag and illustrate them with various evaluations using generative language models of different sizes. We argue that this benchmark does not accurately measure common-sense reasoning and, therefore, should not be used for evaluation in its current state. Based on the results of our study, we propose requirements that should be met by future common-sense reasoning benchmarks. In addition, we release GoldenSwag, a corrected subset of HellaSwag, which, to our belief, facilitates acceptable common-sense reasoning evaluation.

arxiv情報

著者 Pavel Chizhov,Mattia Nee,Pierre-Carl Langlais,Ivan P. Yamshchikov
発行日 2025-04-10 15:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks はコメントを受け付けていません

MuSaRoNews: A Multidomain, Multimodal Satire Dataset from Romanian News Articles

要約

風刺と偽のニュースは、どちらも異なる目的を持っているにもかかわらず、誤った情報の広がりに貢献できます(1つは娯楽の場合、もう1つは誤った情報を提供することです)。
ただし、表面の意味とニュース記事の実際の意味の間の不一致を検出するために純粋にテキストに頼るだけでは十分ではありません。多くの場合、他の情報源(視覚など)は風刺検出の重要な手がかりを提供します。
この作品は、Musaronewsという名前のルーマニアのニュース記事で風刺検出のためのマルチモーダルコーパスを紹介します。
具体的には、ルーマニア語で風刺検出のための最初のマルチモーダルコーパスを作成した、実際の風刺的なニュースソースから117,834のパブリックニュース記事を集めました。
実験を実施し、両方のモダリティを使用するとパフォーマンスが向上することを示しました。

要約(オリジナル)

Satire and fake news can both contribute to the spread of false information, even though both have different purposes (one if for amusement, the other is to misinform). However, it is not enough to rely purely on text to detect the incongruity between the surface meaning and the actual meaning of the news articles, and, often, other sources of information (e.g., visual) provide an important clue for satire detection. This work introduces a multimodal corpus for satire detection in Romanian news articles named MuSaRoNews. Specifically, we gathered 117,834 public news articles from real and satirical news sources, composing the first multimodal corpus for satire detection in the Romanian language. We conducted experiments and showed that the use of both modalities improves performance.

arxiv情報

著者 Răzvan-Alexandru Smădu,Andreea Iuga,Dumitru-Clementin Cercel
発行日 2025-04-10 15:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MuSaRoNews: A Multidomain, Multimodal Satire Dataset from Romanian News Articles はコメントを受け付けていません

Token Level Routing Inference System for Edge Devices

要約

大規模な言語モデル(LLM)推論の計算の複雑さは、エッジデバイスでの展開効率を大幅に制約します。
対照的に、小言語モデルは、より速いデコードとリソースの消費量の削減を提供しますが、多くの場合、応答の品質が低下し、幻覚に対する感受性が高まっています。
このトレードオフに対処するために、大規模なモデルが重要なトークンの生成を支援する共同デコードが有望なソリューションとして浮上しています。
このパラダイムは、より小さなモデルの速度と効率を維持しながら、大きなモデルの選択的介入を通じて高品質の推論を可能にすることにより、両方のモデルタイプの強度を活用します。
この作業では、小さなモデルが重要なトークン生成のためのクラウドベースの大規模モデルを選択的に相談しながら、小さなモデルがデバイス上の推論を実行できるようにする新しい共同デコード推論システムを提示します。
驚くべきことに、このシステムは、M1 MacBookの0.5Bモデルのみを使用してCommonsenseQAで60%のパフォーマンス増加を達成し、トークンの生成の7%未満がクラウドの大規模モデルにアップロードされます。

要約(オリジナル)

The computational complexity of large language model (LLM) inference significantly constrains their deployment efficiency on edge devices. In contrast, small language models offer faster decoding and lower resource consumption but often suffer from degraded response quality and heightened susceptibility to hallucinations. To address this trade-off, collaborative decoding, in which a large model assists in generating critical tokens, has emerged as a promising solution. This paradigm leverages the strengths of both model types by enabling high-quality inference through selective intervention of the large model, while maintaining the speed and efficiency of the smaller model. In this work, we present a novel collaborative decoding inference system that allows small models to perform on-device inference while selectively consulting a cloud-based large model for critical token generation. Remarkably, the system achieves a 60% performance gain on CommonsenseQA using only a 0.5B model on an M1 MacBook, with under 7% of tokens generation uploaded to the large model in the cloud.

arxiv情報

著者 Jianshu She,Wenhao Zheng,Zhengzhong Liu,Hongyi Wang,Eric Xing,Huaxiu Yao,Qirong Ho
発行日 2025-04-10 15:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC | Token Level Routing Inference System for Edge Devices はコメントを受け付けていません

How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective

要約

最近の研究では、大規模な言語モデル(LLM)が関連性を評価し、ドキュメントランキングや関連性の判断生成などの情報検索(IR)タスクをサポートできることが示されています。
ただし、既製のLLMが関連性を理解し、運用する内部メカニズムは、ほとんど説明されていません。
この論文では、さまざまなLLMモジュールが、機械的解釈可能性のレンズを通じて関連性の判断にどのように寄与するかを体系的に調査します。
アクティベーションパッチング手法を使用して、さまざまなモデルコンポーネントの役割を分析し、ポイントワイズまたはペアワイズの関連性判断を生成する際の多段階の進歩的なプロセスを特定します。
具体的には、LLMSは最初に初期層のクエリとドキュメント情報を抽出し、次に中間層の指示に従って関連性情報を処理し、最後に後のレイヤーで特定の注意ヘッドを利用して、必要な形式で関連性の判断を生成します。
私たちの調査結果は、LLMSの関連性評価の根底にあるメカニズムに関する洞察を提供し、IRタスクのLLMを活用する将来の研究に貴重な意味を提供します。

要約(オリジナル)

Recent studies have shown that large language models (LLMs) can assess relevance and support information retrieval (IR) tasks such as document ranking and relevance judgment generation. However, the internal mechanisms by which off-the-shelf LLMs understand and operationalize relevance remain largely unexplored. In this paper, we systematically investigate how different LLM modules contribute to relevance judgment through the lens of mechanistic interpretability. Using activation patching techniques, we analyze the roles of various model components and identify a multi-stage, progressive process in generating either pointwise or pairwise relevance judgment. Specifically, LLMs first extract query and document information in the early layers, then process relevance information according to instructions in the middle layers, and finally utilize specific attention heads in the later layers to generate relevance judgments in the required format. Our findings provide insights into the mechanisms underlying relevance assessment in LLMs, offering valuable implications for future research on leveraging LLMs for IR tasks.

arxiv情報

著者 Qi Liu,Jiaxin Mao,Ji-Rong Wen
発行日 2025-04-10 16:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective はコメントを受け付けていません

Redefining Machine Translation on Social Network Services with Large Language Models

要約

社会的相互作用のグローバル化により、ソーシャルネットワークサービス(SNS)の機械翻訳(MT)の必要性が高まりましたが、伝統的なモデルは、ミーム、スラング、ポップカルチャーの参照などの文化的に微妙なコンテンツと格闘しています。
大規模な言語モデル(LLM)には高度な汎用翻訳がありますが、SNS固有のコンテンツのパフォーマンスは、専門的なトレーニングデータと評価ベンチマークが不十分なため、依然として限られたままです。
このペーパーでは、SNS翻訳に合わせた72B LLMであるRedtransを紹介します。3つのイノベーションを通じて開発された新しいデータセットで訓練されています。
(2)書き換えられた優先最適化(REPO)、専門家の注釈を通じて誤った優先ペアを識別および修正するアルゴリズム、信頼できる優先順位コーパを構築するアルゴリズム。
(3)SNS翻訳の最初のベンチマークであるRedtrans-Bench、ユーモアのローカリゼーション、絵文字セマンティクス、ミーム適応などの現象の評価。
実験では、Redtransが最先端のLLMよりも優れていることが示されています。
その上、Redtransはすでに現実世界の生産環境に展開されており、ドメイン固有の適応が、一般的な翻訳システムと文化的に接地された翻訳システムのギャップを効果的に橋渡しすることを実証しています。

要約(オリジナル)

The globalization of social interactions has heightened the need for machine translation (MT) on Social Network Services (SNS), yet traditional models struggle with culturally nuanced content like memes, slang, and pop culture references. While large language models (LLMs) have advanced general-purpose translation, their performance on SNS-specific content remains limited due to insufficient specialized training data and evaluation benchmarks. This paper introduces RedTrans, a 72B LLM tailored for SNS translation, trained on a novel dataset developed through three innovations: (1) Supervised Finetuning with Dual-LLM Back-Translation Sampling, an unsupervised sampling method using LLM-based back-translation to select diverse data for large-scale finetuning; (2) Rewritten Preference Optimization (RePO), an algorithm that identifies and corrects erroneous preference pairs through expert annotation, building reliable preference corpora; and (3) RedTrans-Bench, the first benchmark for SNS translation, evaluating phenomena like humor localization, emoji semantics, and meme adaptation. Experiments show RedTrans outperforms state-of-the-art LLMs. Besides, RedTrans has already been deployed in a real-world production environment, demonstrating that domain-specific adaptation, effectively bridges the gap between generic and culturally grounded translation systems.

arxiv情報

著者 Hongcheng Guo,Fei Zhao,Shaosheng Cao,Xinze Lyu,Ziyan Liu,Yue Wang,Boyang Wang,Zhoujun Li,Chonggang Lu,Zhe Xu,Yao Hu
発行日 2025-04-10 16:24:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Redefining Machine Translation on Social Network Services with Large Language Models はコメントを受け付けていません

Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory

要約

複雑なタスクでの印象的なパフォーマンスにもかかわらず、現在の言語モデル(LMS)は通常、真空で動作します。各入力クエリは、以前の試みから洞察を保持することなく、個別に処理されます。
ここでは、ダイナミックチートシート(DC)を紹介します。これは、持続的で進化するメモリを持つブラックボックスLMに及ぶ軽量のフレームワークです。
DCは、同じソリューションとミスを繰り返し再発見または再配置するのではなく、モデルが蓄積された戦略、コードスニペット、および推論時間に一般的な問題解決洞察を保存および再利用できるようにします。
このテスト時間学習は、明示的なグラウンドトゥルースラベルや人間のフィードバックを必要とせずに、さまざまなタスクにわたってパフォーマンスを大幅に向上させます。
DCを活用して、Claude 3.5 Sonnetの精度は、Aime Math Examsでの質問を越えて代数の洞察を維持し始めた後、2倍以上になりました。
同様に、モデルがPythonベースのソリューションを発見して再利用した後、GAME 24のGAMEのGPT-4Oの成功率は10%から99%に増加しました。
方程式のバランスをとるなどの算術的なミスを起こしやすいタスクでは、DCはGPT-4OとClaudeが以前に検証されたコードをリコールすることでほぼ完璧な精度に達することができましたが、そのベースラインは約50%停滞しました。
算術的な課題を超えて、DCは知識を排除するタスクで顕著な精度の向上をもたらします。
Claudeは、GPQA-ダイヤモンドの9%の改善を達成し、MMLU-PROの問題で8%増加しました。
重要なことに、DCの記憶は自己キュレーションされており、トランスクリプト全体ではなく、簡潔で転送可能なスニペットに焦点を当てています。
Finetuningや静的検索方法とは異なり、DCは、基礎となるパラメーターを変更することなく、LMSの問題解決スキルをその場で適応させます。
全体として、私たちの調査結果は、DCを永続的な記憶でLMSを増強するための有望なアプローチとして提示し、孤立した推論イベントと人間の認知の特徴的な累積的で経験駆動型の学習学習との違いを埋めます。

要約(オリジナル)

Despite their impressive performance on complex tasks, current language models (LMs) typically operate in a vacuum: Each input query is processed separately, without retaining insights from previous attempts. Here, we present Dynamic Cheatsheet (DC), a lightweight framework that endows a black-box LM with a persistent, evolving memory. Rather than repeatedly re-discovering or re-committing the same solutions and mistakes, DC enables models to store and reuse accumulated strategies, code snippets, and general problem-solving insights at inference time. This test-time learning enhances performance substantially across a range of tasks without needing explicit ground-truth labels or human feedback. Leveraging DC, Claude 3.5 Sonnet’s accuracy more than doubled on AIME math exams once it began retaining algebraic insights across questions. Similarly, GPT-4o’s success rate on Game of 24 increased from 10% to 99% after the model discovered and reused a Python-based solution. In tasks prone to arithmetic mistakes, such as balancing equations, DC enabled GPT-4o and Claude to reach near-perfect accuracy by recalling previously validated code, whereas their baselines stagnated around 50%. Beyond arithmetic challenges, DC yields notable accuracy gains on knowledge-demanding tasks. Claude achieved a 9% improvement in GPQA-Diamond and an 8% boost on MMLU-Pro problems. Crucially, DC’s memory is self-curated, focusing on concise, transferable snippets rather than entire transcript. Unlike finetuning or static retrieval methods, DC adapts LMs’ problem-solving skills on the fly, without modifying their underlying parameters. Overall, our findings present DC as a promising approach for augmenting LMs with persistent memory, bridging the divide between isolated inference events and the cumulative, experience-driven learning characteristic of human cognition.

arxiv情報

著者 Mirac Suzgun,Mert Yuksekgonul,Federico Bianchi,Dan Jurafsky,James Zou
発行日 2025-04-10 17:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory はコメントを受け付けていません

Cat, Rat, Meow: On the Alignment of Language Model and Human Term-Similarity Judgments

要約

中小の生成言語モデルは、注目を集めています。
それらのサイズと可用性により、行動レベルと表現レベルで分析されることに適しているため、これらのレベルがどのように相互作用するかを調査できます。
単語の三重項タスクでの人間の類似性の判断と表現および行動の整合について、32の公的に利用可能な言語モデルを評価します。
これは、一般的なペアワイズ比較を超えて言語でセマンティック関連を調査するための新しい評価設定を提供します。
(1)小さな言語モデルの表現でさえ、人間レベルのアラインメントを達成できることがわかります。(2)命令チューニングされたモデルバリアントは、大幅に増加する一致を示すことができます。

要約(オリジナル)

Small and mid-sized generative language models have gained increasing attention. Their size and availability make them amenable to being analyzed at a behavioral as well as a representational level, allowing investigations of how these levels interact. We evaluate 32 publicly available language models for their representational and behavioral alignment with human similarity judgments on a word triplet task. This provides a novel evaluation setting to probe semantic associations in language beyond common pairwise comparisons. We find that (1) even the representations of small language models can achieve human-level alignment, (2) instruction-tuned model variants can exhibit substantially increased agreement, (3) the pattern of alignment across layers is highly model dependent, and (4) alignment based on models’ behavioral responses is highly dependent on model size, matching their representational alignment only for the largest evaluated models.

arxiv情報

著者 Lorenz Linhardt,Tom Neuhäuser,Lenka Tětková,Oliver Eberle
発行日 2025-04-10 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Cat, Rat, Meow: On the Alignment of Language Model and Human Term-Similarity Judgments はコメントを受け付けていません

Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map

要約

交通署名規制の順守を確保することは、人間と自律の車両ナビゲーションの両方にとって不可欠です。
現在のオンラインマッピングソリューションは、HDマップの幾何学的および接続レイヤーの構築を優先していることがよくありますが、HDマップ内の交通規制層の構築を見下ろしています。
このギャップに対処すると、交通標識からの運転ルールを抽出するために設計された新しいデータセットと、ベクトル化された局所的に知覚されたHDマップとの関連付けのために設計された新しいデータセットを紹介します。
MAPDRは、トラフィックサインの規制とレーンの間の複雑な相関をキャプチャする10,000ドル以上の注釈付きビデオクリップを特徴としています。
このベンチマークと、トラフィック規制をオンラインHDマップに統合するという新たに定義されたタスクに基づいて構築されたモジュール式およびエンドツーエンドのソリューションを提供します。VLE-MEEとRULEVLMは、自律運転技術を進めるための強力なベースラインを提供します。
信頼できる自律運転システムの開発に貢献して、トラフィックサインルールの統合における重要なギャップを埋めます。
コードはhttps://github.com/miv-xjtu/mapdrで入手できます。

要約(オリジナル)

Ensuring adherence to traffic sign regulations is essential for both human and autonomous vehicle navigation. While current online mapping solutions often prioritize the construction of the geometric and connectivity layers of HD maps, overlooking the construction of the traffic regulation layer within HD maps. Addressing this gap, we introduce MapDR, a novel dataset designed for the extraction of Driving Rules from traffic signs and their association with vectorized, locally perceived HD Maps. MapDR features over $10,000$ annotated video clips that capture the intricate correlation between traffic sign regulations and lanes. Built upon this benchmark and the newly defined task of integrating traffic regulations into online HD maps, we provide modular and end-to-end solutions: VLE-MEE and RuleVLM, offering a strong baseline for advancing autonomous driving technology. It fills a critical gap in the integration of traffic sign rules, contributing to the development of reliable autonomous driving systems. Code is available at https://github.com/MIV-XJTU/MapDR.

arxiv情報

著者 Xinyuan Chang,Maixuan Xue,Xinran Liu,Zheng Pan,Xing Wei
発行日 2025-04-10 11:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map はコメントを受け付けていません