LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL

要約

スキーマリンクは、テキスト間タスク、特に実際の大規模なマルチデータベースシナリオで人間レベルのパフォーマンスを達成する上で重要なボトルネックです。
スキーマのリンクに対処することは、2つの主要な課題に直面しています。(1)データベースの取得:無関係なものを除外しながら、マルチデータベース設定の大きなスキーマプールから正しいデータベースを選択します。
(2)スキーマアイテムの接地:SQL生成の大規模で冗長なスキーマ内から関連するテーブルと列を正確に識別します。
これに対処するために、スキーマリンクに体系的に対処することにより、既存のベースラインを実際の環境に効果的に適応できる新しいフレームワークであるLinkalignを紹介します。
私たちのフレームワークは、3つの重要なステップで構成されています。マルチラウンドセマンティック強化された検索と課題1の分離、およびチャレンジ2のスキーマ抽出強化。クモと鳥のベンチマークにリンクするスキーマの方法のパフォーマンスを評価し、既存のテキストからSQLモデルを実際の環境に適応させる能力を評価します。
実験では、リンキラインがマルチデータベース設定の既存のベースラインを上回り、その有効性と堅牢性を示していることが示されています。
一方、私たちの方法は、長い考え方の推論LLMSを使用しているモデルを除くモデルの中で最も高くランク付けされています。
この作業は、現在の研究と現実世界のシナリオの間のギャップを埋め、堅牢でスケーラブルなスキーマリンクの実用的なソリューションを提供します。
コードはhttps://github.com/satissss/linkalignで入手できます。

要約(オリジナル)

Schema linking is a critical bottleneck in achieving human-level performance in Text-to-SQL tasks, particularly in real-world large-scale multi-database scenarios. Addressing schema linking faces two major challenges: (1) Database Retrieval: selecting the correct database from a large schema pool in multi-database settings, while filtering out irrelevant ones. (2) Schema Item Grounding: accurately identifying the relevant tables and columns from within a large and redundant schema for SQL generation. To address this, we introduce LinkAlign, a novel framework that can effectively adapt existing baselines to real-world environments by systematically addressing schema linking. Our framework comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. We evaluate our method performance of schema linking on the SPIDER and BIRD benchmarks, and the ability to adapt existing Text-to-SQL models to real-world environments on the SPIDER 2.0-lite benchmark. Experiments show that LinkAlign outperforms existing baselines in multi-database settings, demonstrating its effectiveness and robustness. On the other hand, our method ranks highest among models excluding those using long chain-of-thought reasoning LLMs. This work bridges the gap between current research and real-world scenarios, providing a practical solution for robust and scalable schema linking. The codes are available at https://github.com/Satissss/LinkAlign.

arxiv情報

著者 Yihan Wang,Peiyu Liu,Xin Yang
発行日 2025-03-24 11:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL はコメントを受け付けていません

LANGALIGN: Enhancing Non-English Language Models via Cross-Lingual Embedding Alignment

要約

大規模な言語モデルは注目を集めていますが、多くのサービス開発者は、実際の制約のためにまだ埋め込みベースのモデルに依存しています。
そのような場合、微調整データの品質はパフォーマンスに直接影響し、英語のデータセットは英語以外のモデルをトレーニングするためのシードデータとしてよく使用されます。
この研究では、言語モデルとタスクヘッダーの間のインターフェイスでターゲット言語のベクトルとターゲットのベクトルを整理することにより、ターゲット言語処理を強化するLangalignを提案します。
韓国語、日本、中国語での実験は、3つの言語すべてでランガリグムがパフォーマンスを大幅に向上させることを示しています。
さらに、Langalignを逆に適用して、ターゲット言語データを英語ベースのモデルが処理できる形式に変換できることを示します。

要約(オリジナル)

While Large Language Models have gained attention, many service developers still rely on embedding-based models due to practical constraints. In such cases, the quality of fine-tuning data directly impacts performance, and English datasets are often used as seed data for training non-English models. In this study, we propose LANGALIGN, which enhances target language processing by aligning English embedding vectors with those of the target language at the interface between the language model and the task header. Experiments on Korean, Japanese, and Chinese demonstrate that LANGALIGN significantly improves performance across all three languages. Additionally, we show that LANGALIGN can be applied in reverse to convert target language data into a format that an English-based model can process.

arxiv情報

著者 Jong Myoung Kim,Young-Jun Lee,Ho-Jin Choi,Sangkeun Jung
発行日 2025-03-24 12:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LANGALIGN: Enhancing Non-English Language Models via Cross-Lingual Embedding Alignment はコメントを受け付けていません

AutoTRIZ: Automating Engineering Innovation with TRIZ and Large Language Models

要約

形態学的分析やアナロジーごとのデザインなどのさまざまなアイデア方法が、創造的な問題解決と革新を支援するために開発されました。
その中で、発明性問題解決の理論(TRIZ)は、最も有名な方法の1つとして際立っています。
ただし、TRIZの複雑さとユーザーの知識、経験、推論能力への依存度は、その実用性を制限します。
これに対処するために、TRIZ方法論を自動化および強化するために大規模な言語モデル(LLM)を統合する人工的なアイデアシステムであるAutotrizを紹介します。
LLMSの膨大な訓練を受けた知識と高度な推論能力を活用することにより、Autotrizは、エンジニアリングイノベーションに対する斬新で生成的で解釈可能なアプローチを提供します。
AutoTrizは、初期入力としてユーザーからの問題ステートメントを取得し、TRIZ推論プロセスを自動的に実行し、構造化されたソリューションレポートを生成します。
教科書のケースとの比較実験と、バッテリー熱管理システム(BTMS)の設計における実際のアプリケーションを使用して、Autotrizの有効性を実証および評価します。
さらに、提案されているLLMベースのフレームワークは、拡張の可能性を秘めており、拡張が拡張の可能性を秘めており、Scamper、Design Heuristic、Design-by Analogyなどの他の知識ベースのアイデアメソッドを自動化し、AI駆動型のイノベーションツールの新しい時代への道を開いています。

要約(オリジナル)

Various ideation methods, such as morphological analysis and design-by-analogy, have been developed to aid creative problem-solving and innovation. Among them, the Theory of Inventive Problem Solving (TRIZ) stands out as one of the best-known methods. However, the complexity of TRIZ and its reliance on users’ knowledge, experience, and reasoning capabilities limit its practicality. To address this, we introduce AutoTRIZ, an artificial ideation system that integrates Large Language Models (LLMs) to automate and enhance the TRIZ methodology. By leveraging LLMs’ vast pre-trained knowledge and advanced reasoning capabilities, AutoTRIZ offers a novel, generative, and interpretable approach to engineering innovation. AutoTRIZ takes a problem statement from the user as its initial input, automatically conduct the TRIZ reasoning process and generates a structured solution report. We demonstrate and evaluate the effectiveness of AutoTRIZ through comparative experiments with textbook cases and a real-world application in the design of a Battery Thermal Management System (BTMS). Moreover, the proposed LLM-based framework holds the potential for extension to automate other knowledge-based ideation methods, such as SCAMPER, Design Heuristics, and Design-by-Analogy, paving the way for a new era of AI-driven innovation tools.

arxiv情報

著者 Shuo Jiang,Weifeng Li,Yuping Qian,Yangjun Zhang,Jianxi Luo
発行日 2025-03-24 12:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, I.2.1 | AutoTRIZ: Automating Engineering Innovation with TRIZ and Large Language Models はコメントを受け付けていません

ZeroLM: Data-Free Transformer Architecture Search for Language Models

要約

ニューラルアーキテクチャ検索(NAS)は、ニューラルネットワークアーキテクチャの設計を自動化するための体系的なフレームワークを提供しますが、その広範な採用は、法外な計算要件によって妨げられています。
既存のゼロコストプロキシメソッドは、検索オーバーヘッドを削減しながら、特にシンプルなパラメーターカウントメトリックをパフォーマンスすることが多い変圧器ベースのモデルで、アーキテクチャランキングタスクで不十分なパフォーマンスを示します。
現在の自動化されたプロキシ発見アプローチは、検索時間の延長、データの過剰適合に対する感受性、および構造の複雑さに悩まされています。
このペーパーでは、効率的な重量統計計算を通じてモデル容量を定量化し、トランスアーキテクチャを機能的に異なるサブモジュールに分解し、それによって全体的なパフォーマンスへの貢献のバランスを最適化する新しいゼロコストプロキシ方法論を紹介します。
当社の包括的な評価は、このアプローチの優位性を示しており、SpearmanのRhoの0.76とKendallのTauがFlexibertベンチマークで0.53のタウを達成しています。
提案された方法は、多様なNASベンチマークタスク全体で堅牢なパフォーマンスを維持しながら、例外的な計算効率を示し、大規模なアーキテクチャ検索のための実用的なソリューションを提供します。

要約(オリジナル)

Neural architecture search (NAS) provides a systematic framework for automating the design of neural network architectures, yet its widespread adoption is hindered by prohibitive computational requirements. Existing zero-cost proxy methods, while reducing search overhead, demonstrate inadequate performance in architecture ranking tasks, particularly for Transformer-based models where they often underperform simple parameter counting metrics. Current automated proxy discovery approaches suffer from extended search times, susceptibility to data overfitting, and structural complexity. This paper introduces a novel zero-cost proxy methodology that quantifies model capacity through efficient weight statistics computation while decomposing Transformer architectures into functionally distinct sub-modules, thereby optimizing the balance of their contributions to overall performance. Our comprehensive evaluation demonstrates the superiority of this approach, achieving a Spearman’s rho of 0.76 and Kendall’s tau of 0.53 on the FlexiBERT benchmark. The proposed method exhibits exceptional computational efficiency while maintaining robust performance across diverse NAS benchmark tasks, offering a practical solution for large-scale architecture search.

arxiv情報

著者 Zhen-Song Chen,Hong-Wei Ding,Xian-Jia Wang,Witold Pedrycz
発行日 2025-03-24 13:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ZeroLM: Data-Free Transformer Architecture Search for Language Models はコメントを受け付けていません

How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

要約

多くのタスクでの大規模な言語モデル(LLMS)のパフォーマンスは、トレーニング前に学んだ知識によって大幅に制限され、モデルのパラメーターに保存されます。
Low-Rank Adaptation(LORA)は、LLMの更新またはドメイン固有の適応に人気があり効率的なトレーニング技術です。
この研究では、以前に学んだ知識を損なうことなく、LORAを使用して新しい事実をLLMにどのように組み込むことができるかを調査します。
さまざまな量の新しい知識を持つLORAを使用して、llama-3.1-8b-instructを微調整しました。
私たちの実験では、トレーニングデータに既知の事実と新しい事実の混合が含まれている場合に最良の結果が得られることが示されています。
ただし、このアプローチは、外部の質問アンウェーのベンチマークに関するモデルのパフォーマンスがそのような微調整後に減少するため、依然として有害です。
トレーニングデータが特定のエンティティに偏っている場合、モデルは過剰に表現された回答がほとんどないように回帰する傾向があります。
さらに、モデルがより自信を持つようになり、わずかなケースでの回答を提供することを拒否することがわかりました。
これらの調査結果は、LORAベースのLLMの更新の潜在的な落とし穴を強調し、データ構成とチューニングパラメーターのトレーニングの重要性を強調して、新しい知識統合と一般的なモデル機能のバランスを取ります。

要約(オリジナル)

The performance of Large Language Models (LLMs) on many tasks is greatly limited by the knowledge learned during pre-training and stored in the model’s parameters. Low-rank adaptation (LoRA) is a popular and efficient training technique for updating or domain-specific adaptation of LLMs. In this study, we investigate how new facts can be incorporated into the LLM using LoRA without compromising the previously learned knowledge. We fine-tuned Llama-3.1-8B-instruct using LoRA with varying amounts of new knowledge. Our experiments have shown that the best results are obtained when the training data contains a mixture of known and new facts. However, this approach is still potentially harmful because the model’s performance on external question-answering benchmarks declines after such fine-tuning. When the training data is biased towards certain entities, the model tends to regress to few overrepresented answers. In addition, we found that the model becomes more confident and refuses to provide an answer in only few cases. These findings highlight the potential pitfalls of LoRA-based LLM updates and underscore the importance of training data composition and tuning parameters to balance new knowledge integration and general model capabilities.

arxiv情報

著者 Sergey Pletenev,Maria Marina,Daniil Moskovskiy,Vasily Konovalov,Pavel Braslavski,Alexander Panchenko,Mikhail Salnikov
発行日 2025-03-24 13:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? はコメントを受け付けていません

Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching

要約

フォーミュラ認識は、複雑な構造と数学的表現のさまざまな表記による重要な課題を提示します。
フォーミュラ認識モデルの継続的な進歩にもかかわらず、BLEUや編集距離などのこれらのモデルで採用されている評価メトリックは、依然として顕著な制限を示しています。
彼らは、同じ式が多様な表現を持ち、トレーニングデータの分布に非常に敏感であり、それによってフォーミュラ認識評価に不公平を引き起こすという事実を見落としています。
この目的のために、キャラクター検出マッチング(CDM)メトリックを提案し、ラテックスレベルのメートルスコアではなく画像レベルを設計することにより、評価の客観性を確保します。
具体的には、CDMはモデル予測ラテックスとグラウンドトゥルースラテックス式の両方を画像形式の式にレンダリングし、空間位置情報を組み込む正確なキャラクターレベルのマッチングのために視覚的な特徴抽出とローカリゼーション技術を採用します。
このような空間的に認識されたキャラクターマッチング方法は、テキストベースの文字マッチングのみに依存する以前のBLEおよび編集距離メトリックと比較して、より正確で公平な評価を提供します。
実験的には、CDM、BLE、およびExprateメトリックを使用して、さまざまな式認識モデルを評価しました。
彼らの結果は、CDMが人間の評価基準とより密接に整合し、多様な式表現によって引き起こされる矛盾を排除することにより、異なるモデル間でより公平な比較を提供することを示しています。
コードはhttps://github.com/opendatalab/unimernet/tree/main/cdmで入手できます。

要約(オリジナル)

Formula recognition presents significant challenges due to the complicated structure and varied notation of mathematical expressions. Despite continuous advancements in formula recognition models, the evaluation metrics employed by these models, such as BLEU and Edit Distance, still exhibit notable limitations. They overlook the fact that the same formula has diverse representations and is highly sensitive to the distribution of training data, thereby causing unfairness in formula recognition evaluation. To this end, we propose a Character Detection Matching (CDM) metric, ensuring the evaluation objectivity by designing an image-level rather than a LaTeX-level metric score. Specifically, CDM renders both the model-predicted LaTeX and the ground-truth LaTeX formulas into image-formatted formulas, then employs visual feature extraction and localization techniques for precise character-level matching, incorporating spatial position information. Such a spatially-aware and character-matching method offers a more accurate and equitable evaluation compared with previous BLEU and Edit Distance metrics that rely solely on text-based character matching. Experimentally, we evaluated various formula recognition models using CDM, BLEU, and ExpRate metrics. Their results demonstrate that the CDM aligns more closely with human evaluation standards and provides a fairer comparison across different models by eliminating discrepancies caused by diverse formula representations. Code is available at https://github.com/opendatalab/UniMERNet/tree/main/cdm.

arxiv情報

著者 Bin Wang,Fan Wu,Linke Ouyang,Zhuangcheng Gu,Rui Zhang,Renqiu Xia,Bo Zhang,Conghui He
発行日 2025-03-24 13:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Image Over Text: Transforming Formula Recognition Evaluation with Character Detection Matching はコメントを受け付けていません

AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents

要約

LLMS上に構築されたエージェントは、多様なドメイン全体にますます展開され、複雑な意思決定とタスクの実行を自動化します。
ただし、彼らの自治は、セキュリティの脆弱性、法的違反、意図しない有害な行動など、安全リスクをもたらします。
モデルベースのセーフガードや早期執行戦略などの既存の緩和方法は、堅牢性、解釈可能性、適応性が不足しています。
これらの課題に対処するために、LLMエージェントのランタイム制約を指定および実施するための軽量ドメイン固有の言語であるAgentsPecを提案します。
AgentSPECを使用すると、ユーザーはトリガー、述語、および施行メカニズムを組み込んだ構造化されたルールを定義し、事前定義された安全境界内でエージェントが動作するようにします。
コード実行、具体化されたエージェント、自律運転など、複数のドメインにエージェントピックを実装し、適応性と有効性を実証しています。
私たちの評価は、AgentSPECがコードエージェントのケースの90%以上で危険な実行を成功裏に防止し、具体化されたエージェントタスクのすべての危険なアクションを排除し、自律車両(AVS)による100%のコンプライアンスを施行することを示しています。
その強力な安全保証にもかかわらず、AgentsPecは数ミリ秒単位でオーバーヘッドを伴う計算的に軽量のままです。
解釈可能性、モジュール性、効率を組み合わせることにより、AgentsPecは、多様なアプリケーション全体でLLMエージェントの安全性を実施するための実用的でスケーラブルなソリューションを提供します。
また、LLMSを使用してルールの生成を自動化し、それらの有効性を評価します。
私たちの評価は、OpenAI O1によって生成されたルールが95.56%の精度を達成し、具体化されたエージェントの70.96%のリコールを達成し、リスクコードの87.26%を正常に識別し、AVSが8つのシナリオのうち5つで法律を破るのを防ぐことを示しています。

要約(オリジナル)

Agents built on LLMs are increasingly deployed across diverse domains, automating complex decision-making and task execution. However, their autonomy introduces safety risks, including security vulnerabilities, legal violations, and unintended harmful actions. Existing mitigation methods, such as model-based safeguards and early enforcement strategies, fall short in robustness, interpretability, and adaptability. To address these challenges, we propose AgentSpec, a lightweight domain-specific language for specifying and enforcing runtime constraints on LLM agents. With AgentSpec, users define structured rules that incorporate triggers, predicates, and enforcement mechanisms, ensuring agents operate within predefined safety boundaries. We implement AgentSpec across multiple domains, including code execution, embodied agents, and autonomous driving, demonstrating its adaptability and effectiveness. Our evaluation shows that AgentSpec successfully prevents unsafe executions in over 90% of code agent cases, eliminates all hazardous actions in embodied agent tasks, and enforces 100% compliance by autonomous vehicles (AVs). Despite its strong safety guarantees, AgentSpec remains computationally lightweight, with overheads in milliseconds. By combining interpretability, modularity, and efficiency, AgentSpec provides a practical and scalable solution for enforcing LLM agent safety across diverse applications. We also automate the generation of rules using LLMs and assess their effectiveness. Our evaluation shows that the rules generated by OpenAI o1 achieve a precision of 95.56% and recall of 70.96% for embodied agents, successfully identifying 87.26% of the risky code, and prevent AVs from breaking laws in 5 out of 8 scenarios.

arxiv情報

著者 Haoyu Wang,Christopher M. Poskitt,Jun Sun
発行日 2025-03-24 13:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents はコメントを受け付けていません

ArchSeek: Retrieving Architectural Case Studies Using Vision-Language Models

要約

デザイナーが先例の例に依存して進行中のプロジェクトを導くか鼓舞するため、関連するケーススタディを効率的に検索することは、建築設計で重要です。
ただし、従来のテキストベースの検索ツールは、建築知識の本質的に視覚的で複雑な性質を捉えるのに苦労しており、しばしば時間と不正確な探索につながります。
このペーパーでは、建築設計の専門家向けに調整された推奨機能を備えた革新的なケーススタディ検索システムであるArchseekを紹介します。
ビジョン言語モデルとクロスモーダル埋め込みからの視覚的理解機能を搭載しているため、微調整されたコントロールを備えたテキストと画像クエリ、およびインタラクションベースのデザインケースの推奨事項が可能になります。
建築家に、他の視覚駆動型のデザインフィールドに潜在的なアプリケーションを備えた、デザインのインスピレーションを発見するためのより効率的でパーソナライズされた方法を提供します。
ソースコードは、https://github.com/danruili/archseekで入手できます。

要約(オリジナル)

Efficiently searching for relevant case studies is critical in architectural design, as designers rely on precedent examples to guide or inspire their ongoing projects. However, traditional text-based search tools struggle to capture the inherently visual and complex nature of architectural knowledge, often leading to time-consuming and imprecise exploration. This paper introduces ArchSeek, an innovative case study search system with recommendation capability, tailored for architecture design professionals. Powered by the visual understanding capabilities from vision-language models and cross-modal embeddings, it enables text and image queries with fine-grained control, and interaction-based design case recommendations. It offers architects a more efficient, personalized way to discover design inspirations, with potential applications across other visually driven design fields. The source code is available at https://github.com/danruili/ArchSeek.

arxiv情報

著者 Danrui Li,Yichao Shi,Yaluo Wang,Ziying Shi,Mubbasir Kapadia
発行日 2025-03-24 13:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | ArchSeek: Retrieving Architectural Case Studies Using Vision-Language Models はコメントを受け付けていません

Unsupervised Acquisition of Discrete Grammatical Categories

要約

この記事では、言語習得実験のために計算実験室環境を使用して実行された実験を紹介します。
2つのエージェントで構成されるマルチエージェントシステムを実装しています。成人言語モデルと、母言語の学習を目的とする娘言語モデルです。
重要なことに、娘のエージェントは母言語モデルの内部知識にアクセスできませんが、母エージェントが生成する言語の模範にのみアクセスできます。
これらの実験は、このシステムを使用して抽象的な文法知識を獲得する方法を示しています。
文法カテゴリに対応する入力データのパターンの統計分析が、個別の文法規則をどのように生成するかを示します。
これらのルールは、その後、娘言語モデルの文法的知識に追加されます。
この目的のために、階層的な凝集クラスター分析は、母言語モデルによって連続して生成された発話に適用されました。
この手順は、自然言語のために言語学者によって提案された文法カテゴリーに似た構造を取得するために使用できると主張されています。
したがって、非自明の文法的知識が習得されたことが確立されています。
さらに、母言語モデルによって生成されたトレーニングデータを使用して決定されたこの計算実験室環境のパラメーター構成は、同様に文書化されていないカテゴリの取得をもたらすテストセットを使用した2番目の実験で検証されます。

要約(オリジナル)

This article presents experiments performed using a computational laboratory environment for language acquisition experiments. It implements a multi-agent system consisting of two agents: an adult language model and a daughter language model that aims to learn the mother language. Crucially, the daughter agent does not have access to the internal knowledge of the mother language model but only to the language exemplars the mother agent generates. These experiments illustrate how this system can be used to acquire abstract grammatical knowledge. We demonstrate how statistical analyses of patterns in the input data corresponding to grammatical categories yield discrete grammatical rules. These rules are subsequently added to the grammatical knowledge of the daughter language model. To this end, hierarchical agglomerative cluster analysis was applied to the utterances consecutively generated by the mother language model. It is argued that this procedure can be used to acquire structures resembling grammatical categories proposed by linguists for natural languages. Thus, it is established that non-trivial grammatical knowledge has been acquired. Moreover, the parameter configuration of this computational laboratory environment determined using training data generated by the mother language model is validated in a second experiment with a test set similarly resulting in the acquisition of non-trivial categories.

arxiv情報

著者 David Ph. Shakouri,Crit Cremers,Niels O. Schiller
発行日 2025-03-24 14:15:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.6 | Unsupervised Acquisition of Discrete Grammatical Categories はコメントを受け付けていません

Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving

要約

自律運転分野では、オブジェクト認識、軌道予測、モーション計画など、さまざまなトピックに顕著な進歩が見られました。
しかし、現在のアプローチは、時間の経過とともに運転シーンの複雑な進化を効果的に理解する上で直面しています。
このペーパーでは、自律運転のシーン理解のためにシンボリック基礎モデル(FM)をトレーニングするための新しい方法論であるFM4SUを提案します。
知識グラフ(KG)を活用して、交通参加者間の道路トポロジ、交通規則、複雑な相互作用などのドメインの知識とともに感覚観察をキャプチャします。
鳥瞰図(BEV)の象徴的な表現は、シーン全体のオブジェクト間の空間的情報を含む、各運転シーンのKGから抽出されます。
BEV表現は、一連のトークンに連続して、運転シーン要素間の共起の固有の理解を学び、次のシーンで予測を生成するために、事前に訓練された言語モデル(PLM)に与えられます。
さまざまなシナリオでヌスセンデータセットとKGを使用して多くの実験を実施しました。
結果は、微調整されたモデルがすべてのタスクで大幅に高い精度を達成することを示しています。
微調整されたT5モデルは、次のシーン予測精度86.7%を達成しました。
このペーパーでは、FM4SUは、自律運転におけるシーン理解のためのより包括的なモデルを開発するための有望な基盤を提供していると結論付けています。

要約(オリジナル)

The autonomous driving field has seen remarkable advancements in various topics, such as object recognition, trajectory prediction, and motion planning. However, current approaches face limitations in effectively comprehending the complex evolutions of driving scenes over time. This paper proposes FM4SU, a novel methodology for training a symbolic foundation model (FM) for scene understanding in autonomous driving. It leverages knowledge graphs (KGs) to capture sensory observation along with domain knowledge such as road topology, traffic rules, or complex interactions between traffic participants. A bird’s eye view (BEV) symbolic representation is extracted from the KG for each driving scene, including the spatio-temporal information among the objects across the scenes. The BEV representation is serialized into a sequence of tokens and given to pre-trained language models (PLMs) for learning an inherent understanding of the co-occurrence among driving scene elements and generating predictions on the next scenes. We conducted a number of experiments using the nuScenes dataset and KG in various scenarios. The results demonstrate that fine-tuned models achieve significantly higher accuracy in all tasks. The fine-tuned T5 model achieved a next scene prediction accuracy of 86.7%. This paper concludes that FM4SU offers a promising foundation for developing more comprehensive models for scene understanding in autonomous driving.

arxiv情報

著者 Hongkuan Zhou,Stefan Schmid,Yicong Li,Lavdim Halilaj,Xiangtong Yao,Wei cao
発行日 2025-03-24 14:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving はコメントを受け付けていません