Comparing human and LLM proofreading in L2 writing: Impact on lexical and syntactic features

要約

この研究では、同一の第二言語文書の全体的な把握を改善することを目的とした人間およびLLM校正の語彙的および構文的介入を調べ、3つのLLM(ChatGPT-4O、LLAMA3.1-8B、DeepSeek-R1-8B)にわたる結果の一貫性を評価します。
調査結果は、人間とLLMの両方の校正がBigRamの語彙的特徴を強化することを示しており、これが隣接する単語間のより良い一貫性と文脈的つながりに寄与する可能性があることを示しています。
ただし、LLM校正は、より生成的なアプローチを示し、より多様で洗練された語彙を採用し、名詞句に多くの形容詞修飾子を組み込むなど、語彙と文の構造を広く再加工します。
校正の結果は、3つのモデルの主要な語彙的および構文的な特徴で非常に一貫しています。

要約(オリジナル)

This study examines the lexical and syntactic interventions of human and LLM proofreading aimed at improving overall intelligibility in identical second language writings, and evaluates the consistency of outcomes across three LLMs (ChatGPT-4o, Llama3.1-8b, Deepseek-r1-8b). Findings show that both human and LLM proofreading enhance bigram lexical features, which may contribute to better coherence and contextual connectedness between adjacent words. However, LLM proofreading exhibits a more generative approach, extensively reworking vocabulary and sentence structures, such as employing more diverse and sophisticated vocabulary and incorporating a greater number of adjective modifiers in noun phrases. The proofreading outcomes are highly consistent in major lexical and syntactic features across the three models.

arxiv情報

著者 Hakyung Sung,Karla Csuros,Min-Chang Sung
発行日 2025-06-11 05:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Comparing human and LLM proofreading in L2 writing: Impact on lexical and syntactic features はコメントを受け付けていません

Can LLMs Ground when they (Don’t) Know: A Study on Direct and Loaded Political Questions

要約

人間間のコミュニケーションは、会話の基礎に依存しており、対話者が完全な知識を持っていない場合でも相互の理解に到達できるようになり、お互いの信念の矛盾を解決しなければなりません。
この論文では、言語モデル(LLM)が知識を持っている場合に共通の基盤を管理する方法を調査し、誤った情報と接地の失敗のリスクが高い政治的領域の事実に焦点を当てています。
LLMSが直接的な知識の質問に答え、誤った情報を前提とする質問に答える能力を調べます。
ロードされた質問が、LLMが積極的な接地に関与し、知識のレベルと政治的バイアスに関連して、誤ったユーザーの信念を修正するように導くかどうかを評価します。
私たちの調査結果は、LLMSの根拠に従事し、誤ったユーザーの信念を拒否する能力における重要な課題を強調し、政治的言説における誤った情報の緩和における彼らの役割についての懸念を高めています。

要約(オリジナル)

Communication among humans relies on conversational grounding, allowing interlocutors to reach mutual understanding even when they do not have perfect knowledge and must resolve discrepancies in each other’s beliefs. This paper investigates how large language models (LLMs) manage common ground in cases where they (don’t) possess knowledge, focusing on facts in the political domain where the risk of misinformation and grounding failure is high. We examine the ability of LLMs to answer direct knowledge questions and loaded questions that presuppose misinformation. We evaluate whether loaded questions lead LLMs to engage in active grounding and correct false user beliefs, in connection to their level of knowledge and their political bias. Our findings highlight significant challenges in LLMs’ ability to engage in grounding and reject false user beliefs, raising concerns about their role in mitigating misinformation in political discourse.

arxiv情報

著者 Clara Lachenmaier,Judith Sieker,Sina Zarrieß
発行日 2025-06-11 06:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can LLMs Ground when they (Don’t) Know: A Study on Direct and Loaded Political Questions はコメントを受け付けていません

Towards Reliable Proof Generation with LLMs: A Neuro-Symbolic Approach

要約

大規模な言語モデル(LLM)は、数学的証明生成など、厳密な論理的控除と象徴的な推論を必要とする正式なドメインと闘っています。
この課題を克服するために、LLMSの生成強度と構造化されたコンポーネントを組み合わせた神経腫瘍アプローチを提案します。
概念実証として、幾何学の問題に焦点を当てます。
私たちのアプローチは2つあります。(1)類似の問題を取得し、それらの証明を使用してLLMを導き、(2)正式な検証剤が生成された証明を評価し、フィードバックを提供し、モデルが誤った証明を修正するのに役立ちます。
私たちの方法は、OpenaiのO1モデルの証明精度を大幅に改善することを実証します(58%-70%の改善)。
類似の問題と検証者のフィードバックの両方が、これらの利益に貢献します。
より広く、実証的に正しい結論を生成するLLMSに移行すると、信頼性、精度、一貫性が劇的に改善され、複雑なタスクと信頼性を必要とする重要な現実世界のアプリケーションのロックが解除される可能性があります。

要約(オリジナル)

Large language models (LLMs) struggle with formal domains that require rigorous logical deduction and symbolic reasoning, such as mathematical proof generation. We propose a neuro-symbolic approach that combines LLMs’ generative strengths with structured components to overcome this challenge. As a proof-of-concept, we focus on geometry problems. Our approach is two-fold: (1) we retrieve analogous problems and use their proofs to guide the LLM, and (2) a formal verifier evaluates the generated proofs and provides feedback, helping the model fix incorrect proofs. We demonstrate that our method significantly improves proof accuracy for OpenAI’s o1 model (58%-70% improvement); both analogous problems and the verifier’s feedback contribute to these gains. More broadly, shifting to LLMs that generate provably correct conclusions could dramatically improve their reliability, accuracy and consistency, unlocking complex tasks and critical real-world applications that require trustworthiness.

arxiv情報

著者 Oren Sultan,Eitan Stern,Dafna Shahaf
発行日 2025-06-11 05:19:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reliable Proof Generation with LLMs: A Neuro-Symbolic Approach はコメントを受け付けていません

Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought

要約

ビデオ分析からインタラクティブなシステムに至るまで、ビデオコンテンツの理解は、さまざまなアプリケーションに不可欠です。
大規模なビジョン言語モデル(VLM)の進歩にもかかわらず、これらのモデルは、徹底的なビデオ分析に不可欠な微妙で空間的な詳細を捉えるのに苦労しています。
このギャップに対処するために、チェーン思考(COT)の方法論を使用して時空間的理解を強化するように設計された画期的なデータセットであるビデオコットを紹介します。
ビデオコットには、192,000個の細粒のスパチオティオティオティオティオ型の質問分配ペアと23,000個の高品質のCOT解剖されたサンプルが含まれており、ビデオ理解における空間的理解を評価するための強固な基盤を提供します。
さらに、これらのタスクを評価するための包括的なベンチマークを提供します。各タスクには750の画像とカスタマイズされた評価メトリックが特徴です。
私たちの広範な実験は、現在のVLMSが満足のいくパフォーマンスを達成する上で重要な課題に直面しており、効果的な空間的理解の困難を高く示していることが明らかになりました。
全体として、ビデオコットデータセットとベンチマークは、高度なビデオ分析機能を必要とするインテリジェントシステムの将来の革新を理解し、サポートするための新しい道をオープンします。
これらのリソースを公開することにより、この重要な分野でのさらなる調査を奨励することを目指しています。
プロジェクトWebサイト:https://video-cot.github.io/。

要約(オリジナル)

Video content comprehension is essential for various applications, ranging from video analysis to interactive systems. Despite advancements in large-scale vision-language models (VLMs), these models often struggle to capture the nuanced, spatiotemporal details essential for thorough video analysis. To address this gap, we introduce Video-CoT, a groundbreaking dataset designed to enhance spatiotemporal understanding using Chain-of-Thought (CoT) methodologies. Video-CoT contains 192,000 fine-grained spa-tiotemporal question-answer pairs and 23,000 high-quality CoT-annotated samples, providing a solid foundation for evaluating spatiotemporal understanding in video comprehension. Additionally, we provide a comprehensive benchmark for assessing these tasks, with each task featuring 750 images and tailored evaluation metrics. Our extensive experiments reveal that current VLMs face significant challenges in achieving satisfactory performance, high-lighting the difficulties of effective spatiotemporal understanding. Overall, the Video-CoT dataset and benchmark open new avenues for research in multimedia understanding and support future innovations in intelligent systems requiring advanced video analysis capabilities. By making these resources publicly available, we aim to encourage further exploration in this critical area. Project website:https://video-cot.github.io/ .

arxiv情報

著者 Shuyi Zhang,Xiaoshuai Hao,Yingbo Tang,Lingfeng Zhang,Pengwei Wang,Zhongyuan Wang,Hongxuan Ma,Shanghang Zhang
発行日 2025-06-11 05:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought はコメントを受け付けていません

Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis

要約

医学的超音波検査は、リンパ節、乳房、甲状腺などの表在臓器や組織を調べるための不可欠な画像技術です。
高周波超音波波を使用して、人体の内部構造の詳細な画像を生成します。
ただし、これらの画像に関心のある手動で輪郭を描く領域は、専門知識を要求し、個人の間で一貫性のない解釈をもたらす労働集約的なタスクです。
さまざまなコンピュータービジョンアプリケーションに優れているVision-Language Foundationモデルは、超音波画像分析を強化するための新しい機会を提供します。
しかし、彼らのパフォーマンスは、自然イメージングドメインと医療イメージングドメインの大きな違いによって妨げられています。
この研究は、ビジョン言語基礎モデルのドメイン適応方法を開発することにより、これらの課題を克服しようとしています。
この研究では、特別な適応戦略とタスク駆動型のヘッドを備えたテキスト精製業者として大規模な言語モデルを利用することにより、Vision-Language Foundationモデルの微調整パイプラインを探ります。
私たちのアプローチは、6つの超音波データセットとセグメンテーションと分類の2つのタスクで広く評価されています。
実験結果は、私たちの方法が超音波画像分析のためのVision-Language Foundationモデルのパフォーマンスを効果的に改善し、既存の最先端のビジョン言語および純粋な基礎モデルを上回ることができることを示しています。
この調査のソースコードは、https://github.com/jinggqu/nextgen-uiaで入手できます。

要約(オリジナル)

Medical ultrasonography is an essential imaging technique for examining superficial organs and tissues, including lymph nodes, breast, and thyroid. It employs high-frequency ultrasound waves to generate detailed images of the internal structures of the human body. However, manually contouring regions of interest in these images is a labor-intensive task that demands expertise and often results in inconsistent interpretations among individuals. Vision-language foundation models, which have excelled in various computer vision applications, present new opportunities for enhancing ultrasound image analysis. Yet, their performance is hindered by the significant differences between natural and medical imaging domains. This research seeks to overcome these challenges by developing domain adaptation methods for vision-language foundation models. In this study, we explore the fine-tuning pipeline for vision-language foundation models by utilizing large language model as text refiner with special-designed adaptation strategies and task-driven heads. Our approach has been extensively evaluated on six ultrasound datasets and two tasks: segmentation and classification. The experimental results show that our method can effectively improve the performance of vision-language foundation models for ultrasound image analysis, and outperform the existing state-of-the-art vision-language and pure foundation models. The source code of this study is available at https://github.com/jinggqu/NextGen-UIA.

arxiv情報

著者 Jingguo Qu,Xinyang Han,Tonghuan Xiao,Jia Ai,Juan Wu,Tong Zhao,Jing Qin,Ann Dorothy King,Winnie Chiu-Wing Chu,Jing Cai,Michael Tin-Cheung Ying
発行日 2025-06-11 03:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis はコメントを受け付けていません

SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping

要約

視覚的自己回帰(VAR)モデルに関する最近の研究では、生成プロセスの高周波成分以降のステップが推論のレイテンシに不釣り合いに貢献することを強調しています。
ただし、これらの手順に関与する基礎となる計算冗長性は、まだ徹底的に調査されていません。
このホワイトペーパーでは、var推論プロセスの詳細な分析を実施し、2つの主要な非効率性の原因を特定します。ステップ冗長性と無条件のブランチ冗長性です。
ステップの冗長性に対処するために、効率を改善するために不必要な生成ステップを選択的に省略する自動ステップスキップ戦略を提案します。
無条件の枝の冗長性については、条件付きブランチと無条件の枝の間の情報ギャップが最小限であることがわかります。
この洞察を活用して、無条件の枝交換を導入します。これは、計算コストを削減するために無条件のブランチをバイパスする手法です。
特に、加速戦略の有効性は、異なるサンプルによって大きく異なることを観察します。
これに動機付けられていると、頻度情報を活用して各インスタンスに最適な加速戦略を動的に選択するサンプル適応フレームワークであるSkipvarを提案します。
高周波情報の役割を評価するために、モデルの感度を微細な詳細にテストする高変動ベンチマークデータセットを紹介します。
広範な実験では、Skipvarが0.88を超える平均SSIMを達成し、全体的な加速度が最大1.81倍で、遺伝的ベンチマークで2.62倍のスピードアップを達成し、モデルの品質を維持しています。
これらの結果は、スケーラブルな自己回帰画像生成のための周波数認識のトレーニングのない適応加速度の有効性を裏付けています。
当社のコードはhttps://github.com/fakerone-li/skipvarで入手でき、公開されています。

要約(オリジナル)

Recent studies on Visual Autoregressive (VAR) models have highlighted that high-frequency components, or later steps, in the generation process contribute disproportionately to inference latency. However, the underlying computational redundancy involved in these steps has yet to be thoroughly investigated. In this paper, we conduct an in-depth analysis of the VAR inference process and identify two primary sources of inefficiency: step redundancy and unconditional branch redundancy. To address step redundancy, we propose an automatic step-skipping strategy that selectively omits unnecessary generation steps to improve efficiency. For unconditional branch redundancy, we observe that the information gap between the conditional and unconditional branches is minimal. Leveraging this insight, we introduce unconditional branch replacement, a technique that bypasses the unconditional branch to reduce computational cost. Notably, we observe that the effectiveness of acceleration strategies varies significantly across different samples. Motivated by this, we propose SkipVAR, a sample-adaptive framework that leverages frequency information to dynamically select the most suitable acceleration strategy for each instance. To evaluate the role of high-frequency information, we introduce high-variation benchmark datasets that test model sensitivity to fine details. Extensive experiments show SkipVAR achieves over 0.88 average SSIM with up to 1.81x overall acceleration and 2.62x speedup on the GenEval benchmark, maintaining model quality. These results confirm the effectiveness of frequency-aware, training-free adaptive acceleration for scalable autoregressive image generation. Our code is available at https://github.com/fakerone-li/SkipVAR and has been publicly released.

arxiv情報

著者 Jiajun Li,Yue Ma,Xinyu Zhang,Qingyan Wei,Songhua Liu,Linfeng Zhang
発行日 2025-06-11 04:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping はコメントを受け付けていません

On The Impact of Merge Request Deviations on Code Review Practices

要約

コードレビューは、ソフトウェアエンジニアリングの重要な慣行であり、品質とコラボレーションを確保しています。
ただし、Industrial Merge Request(MR)ワークフローは、多くの場合、標準化されたレビュープロセスから逸脱しており、多くのMRSは非レビューの目的(ドラフト、リベース、または依存関係の更新など)にサービスを提供しています。
これらのケースと逸脱し、それらを無視することを無視することは分析をバイアスし、レビュー分析のためにMLモデルを損なうと仮定します。
MRSの37.02%で発生する7つの偏差カテゴリを特定し、少数の学習検出方法(91%の精度)を提案します。
偏差を除外することにより、MLモデルはレビュー完了時間を予測して、53.33%の症例(最大2.25倍)でパフォーマンスを改善し、機能の重要性(全体で47%、60%のトップ*k*)の有意な変化を示します。
私たちの貢献には、(1)MR逸脱の分類法、(2)AI駆動型検出アプローチ、および(3)MLベースのレビュー分析への影響の経験的証拠が含まれます。
この仕事は、実務家がレビューの取り組みを最適化し、信頼できる洞察を確保するのを支援します。

要約(オリジナル)

Code review is a key practice in software engineering, ensuring quality and collaboration. However, industrial Merge Request (MR) workflows often deviate from standardized review processes, with many MRs serving non-review purposes (e.g., drafts, rebases, or dependency updates). We term these cases deviations and hypothesize that ignoring them biases analytics and undermines ML models for review analysis. We identify seven deviation categories, occurring in 37.02% of MRs, and propose a few-shot learning detection method (91% accuracy). By excluding deviations, ML models predicting review completion time improve performance in 53.33% of cases (up to 2.25x) and exhibit significant shifts in feature importance (47% overall, 60% top-*k*). Our contributions include: (1) a taxonomy of MR deviations, (2) an AI-driven detection approach, and (3) empirical evidence of their impact on ML-based review analytics. This work aids practitioners in optimizing review efforts and ensuring reliable insights.

arxiv情報

著者 Samah Kansab,Francis Bordeleau,Ali Tizghadam
発行日 2025-06-11 01:21:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | On The Impact of Merge Request Deviations on Code Review Practices はコメントを受け付けていません

Attention-based Learning for 3D Informative Path Planning

要約

この作業では、3Dスペースの適応的な有益なパス計画(IPP)問題に対処するための注意ベースのディープ強化学習アプローチを提案します。そこでは、下向きセンサーを装備した航空ロボットが3D位置をダイナミックに調整してセンシングフットプリントと精度のバランスをとる必要があります。
適応型IPPタスクでは、エージェントは、時間/距離の制約の下で収集された情報を最大化し、新たに獲得したセンサーデータに基づいてパスを継続的に適応させる任務を負います。
この目的のために、私たちは、大きなアクション空間全体でグローバルな空間的依存関係をキャプチャする強力な能力のために注意メカニズムを活用し、エージェントが環境移行の暗黙の推定を学ぶことができるようにします。
私たちのモデルは、ドメイン全体にわたってコンテキスト信念表現を構築し、短期および長期の検索目標の両方を最適化するシーケンシャルな動きの決定をガイドします。
最先端のプランナーに対する比較評価は、私たちのアプローチが制約された予算内の環境の不確実性を大幅に減らすため、エージェントが探索と搾取のバランスをとることができることを示しています。
さらに、モデルがさまざまなサイズの環境によく一般化し、多くの実際のアプリケーションの可能性を強調していることを示しています。

要約(オリジナル)

In this work, we propose an attention-based deep reinforcement learning approach to address the adaptive informative path planning (IPP) problem in 3D space, where an aerial robot equipped with a downward-facing sensor must dynamically adjust its 3D position to balance sensing footprint and accuracy, and finally obtain a high-quality belief of an underlying field of interest over a given domain (e.g., presence of specific plants, hazardous gas, geological structures, etc.). In adaptive IPP tasks, the agent is tasked with maximizing information collected under time/distance constraints, continuously adapting its path based on newly acquired sensor data. To this end, we leverage attention mechanisms for their strong ability to capture global spatial dependencies across large action spaces, allowing the agent to learn an implicit estimation of environmental transitions. Our model builds a contextual belief representation over the entire domain, guiding sequential movement decisions that optimize both short- and long-term search objectives. Comparative evaluations against state-of-the-art planners demonstrate that our approach significantly reduces environmental uncertainty within constrained budgets, thus allowing the agent to effectively balance exploration and exploitation. We further show our model generalizes well to environments of varying sizes, highlighting its potential for many real-world applications.

arxiv情報

著者 Rui Zhao,Xingjian Zhang,Yuhong Cao,Yizhuo Wang,Guillaume Sartoretti
発行日 2025-06-10 04:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Attention-based Learning for 3D Informative Path Planning はコメントを受け付けていません

TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

要約

ビジョン言語アクション(VLA)モデルの最近の進歩により、大規模なデータセットで事前に処理されると、多様なシーン、タスク、ロボットプラットフォームにわたって強力な一般化機能が実証されています。
ただし、これらのモデルは、新しい環境でタスク固有の微調整を依然として必要とします。これは、静的軌道データセットを使用して、監視された微調整(SFT)にほぼ依存するプロセスです。
このようなアプローチは、ロボットが環境と対話することも、ライブ実行からのフィードバックを活用することもできません。
また、彼らの成功は、収集された軌跡のサイズと品質に大きく依存しています。
Rehnection Learning(RL)は、閉ループの相互作用を有効にし、学習ポリシーをタスクの目的と直接調整することにより、有望な代替手段を提供します。
この作業では、GRPOのアイデアからインスピレーションを得て、軌道ごとのグループ相対ポリシー最適化(TGRPO)メソッドを提案します。
ステップレベルと軌道レベルのアドバンテージシグナルを融合させることにより、この方法によりGRPOのグループレベルのアドバンテージ推定が改善され、これによりアルゴリズムがVLAのオンライン強化学習トレーニングにより適しています。
Libero-Objectベンチマークからの10の操作タスクの実験結果は、TGRPOが一貫してさまざまなベースラインメソッドを上回ることを示しています。
ソースコードは、https://github.com/hahans/tgrpoで入手できます

要約(オリジナル)

Recent advances in Vision-Language-Action (VLA) model have demonstrated strong generalization capabilities across diverse scenes, tasks, and robotic platforms when pretrained at large-scale datasets. However, these models still require task-specific fine-tuning in novel environments, a process that relies almost exclusively on supervised fine-tuning (SFT) using static trajectory datasets. Such approaches neither allow robot to interact with environment nor do they leverage feedback from live execution. Also, their success is critically dependent on the size and quality of the collected trajectories. Reinforcement learning (RL) offers a promising alternative by enabling closed-loop interaction and aligning learned policies directly with task objectives. In this work, we draw inspiration from the ideas of GRPO and propose the Trajectory-wise Group Relative Policy Optimization (TGRPO) method. By fusing step-level and trajectory-level advantage signals, this method improves GRPO’s group-level advantage estimation, thereby making the algorithm more suitable for online reinforcement learning training of VLA. Experimental results on ten manipulation tasks from the libero-object benchmark demonstrate that TGRPO consistently outperforms various baseline methods, capable of generating more robust and efficient policies across multiple tested scenarios. Our source codes are available at: https://github.com/hahans/TGRPO

arxiv情報

著者 Zengjue Chen,Runliang Niu,He Kong,Qi Wang
発行日 2025-06-10 04:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization はコメントを受け付けていません

Diffusion Models for Safety Validation of Autonomous Driving Systems

要約

自律駆動システムの安全性の検証は、現実世界のテストのリスクとコストが高いだけでなく、潜在的な障害の希少性と多様性のために非常に困難です。
これらの課題に対処するために、拡散モデルを除去して、初期の交通状態を考慮して自動運転車の潜在的な故障ケースを生成します。
4方向の交差問題の実験は、さまざまなシナリオで、拡散モデルがさまざまな潜在的な障害をキャプチャしながら、現実的な障害サンプルを生成できることを示しています。
私たちのモデルでは、外部トレーニングデータセットを必要とせず、控えめなコンピューティングリソースでトレーニングと推論を実行でき、トラフィック交差点の安全検証に適用可能なテスト中のシステムの事前知識を想定していません。

要約(オリジナル)

Safety validation of autonomous driving systems is extremely challenging due to the high risks and costs of real-world testing as well as the rarity and diversity of potential failures. To address these challenges, we train a denoising diffusion model to generate potential failure cases of an autonomous vehicle given any initial traffic state. Experiments on a four-way intersection problem show that in a variety of scenarios, the diffusion model can generate realistic failure samples while capturing a wide variety of potential failures. Our model does not require any external training dataset, can perform training and inference with modest computing resources, and does not assume any prior knowledge of the system under test, with applicability to safety validation for traffic intersections.

arxiv情報

著者 Juanran Wang,Marc R. Schlichting,Harrison Delecki,Mykel J. Kochenderfer
発行日 2025-06-10 05:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Diffusion Models for Safety Validation of Autonomous Driving Systems はコメントを受け付けていません