Crosslingual Reasoning through Test-Time Scaling

要約

大規模な言語モデルの推論能力は、前提条件のモデルが多言語である場合でも、主に英語のために研究されています。
この作業では、長い考え方(COTS)で微調整されている英語の推論が言語間で一般化できる程度まで調査します。
まず、英語中心の推論言語モデル(RLM)のスケールアップ推論計算により、低リソース言語を含む多くの言語で多言語の数学的推論が改善され、モデルが2倍のサイズを上回る程度まで改善されることがわかります。
第二に、英語中心のRLMのコットは自然に主に英語であるが、引用されている英語以外の入力について推論するために、見積と思考のパターンに一貫して続くことを明らかにします。
第三に、長いCOTの推論の言語を制御する効果的な戦略を発見し、高リソース言語でモデルがより良く効率的に推論することを観察します。
最後に、特に英語でさえ、STEMから文化的常識的な知識まで、ドメイン外の貧弱な推論の一般化を観察します。
全体として、潜在性を示し、メカニズムを研究し、英語の推論テスト時間スケーリングの交差的一般化の制限を概説します。
実務家は、高リソース言語で英語中心のRLMSを推論する必要があると結論付けていますが、低リソース言語とドメイン外のコンテキストでの推論を改善するためのさらなる作業が必要です。

要約(オリジナル)

Reasoning capabilities of large language models are primarily studied for English, even when pretrained models are multilingual. In this work, we investigate to what extent English reasoning finetuning with long chain-of-thoughts (CoTs) can generalize across languages. First, we find that scaling up inference compute for English-centric reasoning language models (RLMs) improves multilingual mathematical reasoning across many languages including low-resource languages, to an extent where they outperform models twice their size. Second, we reveal that while English-centric RLM’s CoTs are naturally predominantly English, they consistently follow a quote-and-think pattern to reason about quoted non-English inputs. Third, we discover an effective strategy to control the language of long CoT reasoning, and we observe that models reason better and more efficiently in high-resource languages. Finally, we observe poor out-of-domain reasoning generalization, in particular from STEM to cultural commonsense knowledge, even for English. Overall, we demonstrate the potentials, study the mechanisms and outline the limitations of crosslingual generalization of English reasoning test-time scaling. We conclude that practitioners should let English-centric RLMs reason in high-resource languages, while further work is needed to improve reasoning in low-resource languages and out-of-domain contexts.

arxiv情報

著者 Zheng-Xin Yong,M. Farid Adilazuarda,Jonibek Mansurov,Ruochen Zhang,Niklas Muennighoff,Carsten Eickhoff,Genta Indra Winata,Julia Kreutzer,Stephen H. Bach,Alham Fikri Aji
発行日 2025-05-08 16:50:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Crosslingual Reasoning through Test-Time Scaling はコメントを受け付けていません

Reasoning Models Don’t Always Say What They Think

要約

Chain-of-Thought(COT)は、モデルのCOTを監視して意図と推論プロセスを理解しようとするため、AIの安全性の潜在的な恩恵を提供します。
ただし、このような監視の有効性は、モデルの実際の推論プロセスを忠実に表すCOTSにかかっています。
プロンプトで提示された6つの推論ヒントにわたって最先端の推論モデルのCOTの忠実さを評価し、テストしたほとんどの設定とモデルについて、COTはヒントを使用する例の少なくとも1%でヒントの使用を明らかにしますが、明らかなレートは20%未満です。
ヒントが使用され(報酬ハッキング)、コットモニターに対するトレーニングがなくても、それらを言葉で言語化する傾向は増加しません。
これらの結果は、COTの監視がトレーニングや評価中に望ましくない行動に気付くという有望な方法であるが、それらを除外するのに十分ではないことを示唆しています。
彼らはまた、COTの推論が必要ない私たちのような設定では、COTのテスト時間監視がまれで壊滅的な予期しない行動を確実に捕まえる可能性は低いことを示唆しています。

要約(オリジナル)

Chain-of-thought (CoT) offers a potential boon for AI safety as it allows monitoring a model’s CoT to try to understand its intentions and reasoning processes. However, the effectiveness of such monitoring hinges on CoTs faithfully representing models’ actual reasoning processes. We evaluate CoT faithfulness of state-of-the-art reasoning models across 6 reasoning hints presented in the prompts and find: (1) for most settings and models tested, CoTs reveal their usage of hints in at least 1% of examples where they use the hint, but the reveal rate is often below 20%, (2) outcome-based reinforcement learning initially improves faithfulness but plateaus without saturating, and (3) when reinforcement learning increases how frequently hints are used (reward hacking), the propensity to verbalize them does not increase, even without training against a CoT monitor. These results suggest that CoT monitoring is a promising way of noticing undesired behaviors during training and evaluations, but that it is not sufficient to rule them out. They also suggest that in settings like ours where CoT reasoning is not necessary, test-time monitoring of CoTs is unlikely to reliably catch rare and catastrophic unexpected behaviors.

arxiv情報

著者 Yanda Chen,Joe Benton,Ansh Radhakrishnan,Jonathan Uesato,Carson Denison,John Schulman,Arushi Somani,Peter Hase,Misha Wagner,Fabien Roger,Vlad Mikulik,Samuel R. Bowman,Jan Leike,Jared Kaplan,Ethan Perez
発行日 2025-05-08 16:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Reasoning Models Don’t Always Say What They Think はコメントを受け付けていません

An alignment safety case sketch based on debate

要約

AIシステムが幅広いタスクで人間の能力に一致するか、それを超えると、人間が自分の行動を効率的に判断することが困難になる可能性があります。
提案されている解決策の1つは、別の超人的システムを活用して、議論を介してシステムの出力の欠陥を指摘することです。
このペーパーでは、AIの安全性に関する議論の価値、および議論を行うために必要な仮定とさらなる研究の概要を説明します。
「Alignment Safety Case」をスケッチすることでそうします。これは、AIシステムがそうすることができるにもかかわらず、ひどい害につながる可能性のある行動を自律的に行​​わないという議論です。
このスケッチは、たとえば誤った結果を生成することにより、研究を妨害するAI会社内のAI R \&Dエージェントのリスクに焦点を当てています。
これを防ぐために、エージェントは、システムに正直であることを教えるために、探査保証の対象となる議論によって訓練されます。
誠実さは、オンライントレーニングを介して展開を通して維持されます。
安全性のケースは、4つの重要な主張に基づいています。(1)エージェントは討論ゲームで良くなり、(2)討論ゲームの良好なパフォーマンスは、システムがほとんど正直であることを意味します。
私たちは、解決されれば、これをAIシステムが安全であるという説得力のある議論にすることができるというオープンな研究問題を特定します。

要約(オリジナル)

If AI systems match or exceed human capabilities on a wide range of tasks, it may become difficult for humans to efficiently judge their actions — making it hard to use human feedback to steer them towards desirable traits. One proposed solution is to leverage another superhuman system to point out flaws in the system’s outputs via a debate. This paper outlines the value of debate for AI safety, as well as the assumptions and further research required to make debate work. It does so by sketching an “alignment safety case” — an argument that an AI system will not autonomously take actions which could lead to egregious harm, despite being able to do so. The sketch focuses on the risk of an AI R\&D agent inside an AI company sabotaging research, for example by producing false results. To prevent this, the agent is trained via debate, subject to exploration guarantees, to teach the system to be honest. Honesty is maintained throughout deployment via online training. The safety case rests on four key claims: (1) the agent has become good at the debate game, (2) good performance in the debate game implies that the system is mostly honest, (3) the system will not become significantly less honest during deployment, and (4) the deployment context is tolerant of some errors. We identify open research problems that, if solved, could render this a compelling argument that an AI system is safe.

arxiv情報

著者 Marie Davidsen Buhl,Jacob Pfau,Benjamin Hilton,Geoffrey Irving
発行日 2025-05-08 16:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | An alignment safety case sketch based on debate はコメントを受け付けていません

TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering

要約

大規模な言語モデル(LLMS)の影響は、文学の領域に拡張されています。
ただし、既存の評価メトリックは、芸術的表現よりも機械的精度を優先し、経験豊富な専門的な人間の翻訳よりも優れていると機械翻訳(MT)を過大評価する傾向があります。
長期的には、このバイアスは翻訳の質と文化的信頼性の永続的な低下をもたらす可能性があります。
専門の文学評価メトリックの緊急の必要性に応じて、文学的翻訳評価のために特別に設計された、リファレンスフリーのLLMベースの質問(QA)フレームワークであるTransproqAを紹介します。
Transproqaは、専門的な文学翻訳者や研究者からの洞察を独自に統合し、文学的なデバイス、文化的理解、著者の声などの文学品質評価の重要な要素に焦点を当てています。
私たちの広範な評価によると、文学系統のXcomet-XLは限界的な利益をもたらしますが、トランスプロカは現在のメトリックを大幅に上回り、相関(ACC-EQとKendallのTAU)で最大0.07の増加を達成し(ACC-EQとKendallのTAU)、最高の最先端の(SOTA)メトリックを15点以上超えて控えめに上回ることが示されています。
プロフェッショナルな翻訳者の洞察を組み込んで、ウェイトがパフォーマンスを改善し、翻訳者の入力の価値を強調します。
特に、TransproqAは、訓練された言語アノテーターに匹敵する人間レベルの評価パフォーマンスにアプローチします。
llama3.3-70bやqwen2.5-32bなどのオープンソースモデルへの幅広い適用性を示しており、アクセス可能でトレーニングのない文学評価メトリックとしての可能性と、著作権や倫理的な考慮事項のためにローカル処理を必要とするテキストを評価するための貴重なツールを示しています。

要約(オリジナル)

The impact of Large Language Models (LLMs) has extended into literary domains. However, existing evaluation metrics prioritize mechanical accuracy over artistic expression and tend to overrate machine translation (MT) as being superior to experienced professional human translation. In the long run, this bias could result in a permanent decline in translation quality and cultural authenticity. In response to the urgent need for a specialized literary evaluation metric, we introduce TransProQA, a novel, reference-free, LLM-based question-answering (QA) framework designed specifically for literary translation evaluation. TransProQA uniquely integrates insights from professional literary translators and researchers, focusing on critical elements in literary quality assessment such as literary devices, cultural understanding, and authorial voice. Our extensive evaluation shows that while literary-finetuned XCOMET-XL yields marginal gains, TransProQA substantially outperforms current metrics, achieving up to 0.07 gain in correlation (ACC-EQ and Kendall’s tau) and surpassing the best state-of-the-art (SOTA) metrics by over 15 points in adequacy assessments. Incorporating professional translator insights as weights further improves performance, highlighting the value of translator inputs. Notably, TransProQA approaches human-level evaluation performance comparable to trained linguistic annotators. It demonstrates broad applicability to open-source models such as LLaMA3.3-70b and Qwen2.5-32b, indicating its potential as an accessible and training-free literary evaluation metric and a valuable tool for evaluating texts that require local processing due to copyright or ethical considerations.

arxiv情報

著者 Ran Zhang,Wei Zhao,Lieve Macken,Steffen Eger
発行日 2025-05-08 17:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering はコメントを受け付けていません

EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation

要約

(マルチモーダル)大きな言語モデル((M)LLMS)を搭載したクラウドベースのモバイルエージェントは、強力な推論能力を提供しますが、高遅延とコストに悩まされています。
微調整された(M)SLMSがエッジの展開を有効にしますが、一般的な能力を失い、複雑なタスクと闘うことがよくあります。
これに対処するために、モバイルオートメーションのためのエッジクラウドコラボレーションマルチエージェントフレームワークであるEcoagentを提案します。
Ecoagentは、クラウドベースの計画エージェントと2つのエッジベースのエージェントの間の閉ループコラボレーションを特徴としています。アクション実行の実行エージェントと、結果を検証するための観測エージェントです。
観測剤は、事前に理解したモジュールを使用して画面画像を簡潔なテキストに圧縮し、トークンの使用を削減します。
障害が発生した場合、計画エージェントは画面履歴を取得し、反射モジュールを介して再生します。
AndroidWorldでの実験は、Ecoagentが高いタスクの成功率を維持しながら、MLLMトークンの消費を大幅に削減し、効率的かつ実用的なモバイル自動化を可能にすることを示しています。

要約(オリジナル)

Cloud-based mobile agents powered by (multimodal) large language models ((M)LLMs) offer strong reasoning abilities but suffer from high latency and cost. While fine-tuned (M)SLMs enable edge deployment, they often lose general capabilities and struggle with complex tasks. To address this, we propose EcoAgent, an Edge-Cloud cOllaborative multi-agent framework for mobile automation. EcoAgent features a closed-loop collaboration among a cloud-based Planning Agent and two edge-based agents: the Execution Agent for action execution and the Observation Agent for verifying outcomes. The Observation Agent uses a Pre-Understanding Module to compress screen images into concise text, reducing token usage. In case of failure, the Planning Agent retrieves screen history and replans via a Reflection Module. Experiments on AndroidWorld show that EcoAgent maintains high task success rates while significantly reducing MLLM token consumption, enabling efficient and practical mobile automation.

arxiv情報

著者 Biao Yi,Xavier Hu,Yurun Chen,Shengyu Zhang,Hongxia Yang,Fan Wu,Fei Wu
発行日 2025-05-08 17:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation はコメントを受け付けていません

MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind

要約

大規模な言語モデル(LLM)エージェントは、戦略的推論と社会的欺ceptionが不可欠な狼男のようなソーシャル控除ゲーム(SDG)の印象的な能力を実証しています。
ただし、現在のアプローチは、人間が自然に通信するために自然に使用する表情や声のトーンなどの重要なマルチモーダルキューを無視して、テキスト情報に限定されています。
さらに、既存のSDGエージェントは、主に、他の人が自分自身や仲間のプレイヤーをどのように認識しているかをモデル化することなく、他のプレイヤーのアイデンティティを推測することに焦点を当てています。
これらの制限に対処するために、マルチモーダル情報をSDGエージェントに統合する最初のフレームワークであるTestBed and Present Multimindとして、1つの夜のUltimate Wearwolf(ONUW)を使用します。
マルチミンドは、言葉の表情と声のトーンを口頭でのコンテンツとともに処理し、各プレーヤーの疑いレベルを他の人に対して表現するために心(TOM)モデルを使用します。
このTOMモデルとモンテカルロツリー検索(MCTS)を組み合わせることにより、エージェントは、それ自体に向けられた疑いを最小限に抑えるコミュニケーション戦略を特定します。
エージェントとエージェントの両方のシミュレーションと人間のプレーヤーとの研究の両方で包括的な評価を通じて、ゲームプレイでのマルチミンドの優れたパフォーマンスを示します。
私たちの仕事は、マルチモーダルドメイン全体で人間のような社会的推論が可能なLLMエージェントに対する重要な進歩を提示しています。

要約(オリジナル)

Large Language Model (LLM) agents have demonstrated impressive capabilities in social deduction games (SDGs) like Werewolf, where strategic reasoning and social deception are essential. However, current approaches remain limited to textual information, ignoring crucial multimodal cues such as facial expressions and tone of voice that humans naturally use to communicate. Moreover, existing SDG agents primarily focus on inferring other players’ identities without modeling how others perceive themselves or fellow players. To address these limitations, we use One Night Ultimate Werewolf (ONUW) as a testbed and present MultiMind, the first framework integrating multimodal information into SDG agents. MultiMind processes facial expressions and vocal tones alongside verbal content, while employing a Theory of Mind (ToM) model to represent each player’s suspicion levels toward others. By combining this ToM model with Monte Carlo Tree Search (MCTS), our agent identifies communication strategies that minimize suspicion directed at itself. Through comprehensive evaluation in both agent-versus-agent simulations and studies with human players, we demonstrate MultiMind’s superior performance in gameplay. Our work presents a significant advancement toward LLM agents capable of human-like social reasoning across multimodal domains.

arxiv情報

著者 Zheng Zhang,Nuoqian Xiao,Qi Chai,Deheng Ye,Hao Wang
発行日 2025-05-08 17:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind はコメントを受け付けていません

Conversational Process Model Redesign

要約

大規模な言語モデル(LLMS)の最近の成功により、Ai-Augmented Business Process Management Systemsのアイデアはより実現可能になりつつあります。
それらの本質的な特徴の1つは、会話的に実行可能になる能力であり、人間がLLMと効果的に相互作用して、プロセスモデルの設計や再設計などの重要なプロセスライフサイクルタスクを実行できるようにすることです。
ただし、現在の研究では、ユーザーとLLM間の継続的な相互作用ではなく、結果の単一プロンプトの実行と評価に焦点を当てています。
この作業では、LLMSを使用してプロセスモデルの作成と再設計のドメイン専門家に反復的かつ効果的な方法で力を与える可能性を調査することを目指しています。
提案された会話プロセスモデルの再設計(CPD)アプローチは、自然言語でユーザーによる入力Aプロセスモデルと再設計要求として受信します。
LLMに変更を加えるだけでなく、LLMは(a)文献からプロセス変更パターンを識別するために使用されます。
このマルチステップアプローチにより、説明可能で再現可能な変更が可能になります。
CPDアプローチの実現可能性を確保し、LLMが文献からのパターンをどの程度うまく処理できるかを調べるために、広範な評価を実行しました。
結果は、いくつかのパターンがLLMやユーザーが理解するのが難しいことを示しています。
調査の範囲内で、ユーザーは変更を明確に説明するためにサポートが必要であることを実証しました。
全体として、評価は、LLMSが一連の完全性と正確性基準に従ってほとんどの変更を適切に処理できることを示しています。

要約(オリジナル)

With the recent success of large language models (LLMs), the idea of AI-augmented Business Process Management systems is becoming more feasible. One of their essential characteristics is the ability to be conversationally actionable, allowing humans to interact with the LLM effectively to perform crucial process life cycle tasks such as process model design and redesign. However, most current research focuses on single-prompt execution and evaluation of results, rather than on continuous interaction between the user and the LLM. In this work, we aim to explore the feasibility of using LLMs to empower domain experts in the creation and redesign of process models in an iterative and effective way. The proposed conversational process model redesign (CPD) approach receives as input a process model and a redesign request by the user in natural language. Instead of just letting the LLM make changes, the LLM is employed to (a) identify process change patterns from literature, (b) re-phrase the change request to be aligned with an expected wording for the identified pattern (i.e., the meaning), and then to (c) apply the meaning of the change to the process model. This multi-step approach allows for explainable and reproducible changes. In order to ensure the feasibility of the CPD approach, and to find out how well the patterns from literature can be handled by the LLM, we performed an extensive evaluation. The results show that some patterns are hard to understand by LLMs and by users. Within the scope of the study, we demonstrated that users need support to describe the changes clearly. Overall the evaluation shows that the LLMs can handle most changes well according to a set of completeness and correctness criteria.

arxiv情報

著者 Nataliia Klievtsova,Timotheus Kampik,Juergen Mangler,Stefanie Rinderle-Ma
発行日 2025-05-08 17:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Conversational Process Model Redesign はコメントを受け付けていません

ComPO: Preference Alignment via Comparison Oracles

要約

直接アライメント方法は、大規模な言語モデル(LLM)を人間の好みに合わせてますます使用されています。
ただし、これらの方法は、冗長性と尤度変位の問題に悩まされています。これは、好ましい応答と分散した応答に対して同様の可能性を誘発する騒々しい選好ペアによって駆動される可能性があります。
この論文の貢献は2つあります。
まず、比較のオラクルに基づいて新しい選好アライメント方法を提案し、その基本スキームの収束保証を提供します。
第二に、いくつかのヒューリスティックを使用して方法を改善し、実験を実施して、ノイズの多い好みペアを使用してLLMSのパフォーマンスを改善する際の実用的なスキームの柔軟性と互換性を実証します。
評価は、ベンチマーク(Alpacaeval 2、MTベンチおよびアリーナハード)を使用して、複数のベースおよび命令チューニングモデル(Mistral-7B、Llama-3-8B、Gemma-2-9B)にわたって行われます。
実験結果は、既存の直接アライメント方法の制限に対処するための代替としての方法の有効性を示しています。
私たちの作品のハイライトは、\ citet {razin-2025-unintentional}の最近の調査結果を補完する明確な尤度マージンを持つ優先ペアのための専門的な方法を設計することの重要性を証明することです。

要約(オリジナル)

Direct alignment methods are increasingly used for aligning large language models (LLMs) with human preferences. However, these methods suffer from the issues of verbosity and likelihood displacement, which can be driven by the noisy preference pairs that induce similar likelihood for preferred and dispreferred responses. The contributions of this paper are two-fold. First, we propose a new preference alignment method based on comparison oracles and provide the convergence guarantee for its basic scheme. Second, we improve our method using some heuristics and conduct the experiments to demonstrate the flexibility and compatibility of practical scheme in improving the performance of LLMs using noisy preference pairs. Evaluations are conducted across multiple base and instruction-tuned models (Mistral-7B, Llama-3-8B and Gemma-2-9B) with benchmarks (AlpacaEval 2, MT-Bench and Arena-Hard). Experimental results show the effectiveness of our method as an alternative to addressing the limitations of existing direct alignment methods. A highlight of our work is that we evidence the importance of designing specialized methods for preference pairs with distinct likelihood margin, which complements the recent findings in \citet{Razin-2025-Unintentional}.

arxiv情報

著者 Peter Chen,Xi Chen,Wotao Yin,Tianyi Lin
発行日 2025-05-08 17:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ComPO: Preference Alignment via Comparison Oracles はコメントを受け付けていません

CloudTrack: Scalable UAV Tracking with Cloud Semantics

要約

現在、無人航空機(UAV)は、検索エリアで情報を収集するために、検索および救助シナリオで一般的に使用されています。
空中映像で検索された人の自動識別は、そのようなシステムの自律性を高め、検索時間を短縮し、したがって、見逃された人の生存の可能性を高める可能性があります。
この論文では、UAVハードウェアの制限に対処するように特別に設計された、意味的に条件付けられたオープンボキャブラリーオブジェクト追跡を実行するための新しいアプローチを紹介します。
私たちのアプローチにはいくつかの利点があります。
行方不明者の口頭での説明で実行できます。たとえば、シャツの色など、ミッションを実行するために専用のトレーニングを必要とせず、潜在的に動く人を効率的に追跡できます。
実験結果は、アプローチの汎用性と有効性を示しています。

要約(オリジナル)

Nowadays, unmanned aerial vehicles (UAVs) are commonly used in search and rescue scenarios to gather information in the search area. The automatic identification of the person searched for in aerial footage could increase the autonomy of such systems, reduce the search time, and thus increase the missed person’s chances of survival. In this paper, we present a novel approach to perform semantically conditioned open vocabulary object tracking that is specifically designed to cope with the limitations of UAV hardware. Our approach has several advantages. It can run with verbal descriptions of the missing person, e.g., the color of the shirt, it does not require dedicated training to execute the mission and can efficiently track a potentially moving person. Our experimental results demonstrate the versatility and efficacy of our approach.

arxiv情報

著者 Yannik Blei,Michael Krawez,Nisarga Nilavadi,Tanja Katharina Kaiser,Wolfram Burgard
発行日 2025-05-08 12:26:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CloudTrack: Scalable UAV Tracking with Cloud Semantics はコメントを受け付けていません

PaniCar: Securing the Perception of Advanced Driving Assistance Systems Against Emergency Vehicle Lighting

要約

自動運転車の安全性は、特に駐車中の緊急車両(警察車、救急車、消防隊)に衝突するテスラス(オートパイロットが関与している)を含む16の文書化された事件の後、近年精査されています。
以前の研究では、強力な光源がキャプチャされた画像にフレアアーティファクトを導入することが多いことが明らかになりましたが、画像の品質を低下させると、オブジェクトの検出性能に対するフレアの影響は不明のままです。
この研究では、アクティブ化された緊急車両照明にさらされたときにオブジェクト検出器の信頼性スコアが検出しきい値以下で変動するデジタル現象であるパニカーを発表します。
この脆弱性は重大な安全リスクをもたらし、自動運転車が緊急車両の近くでオブジェクトを検出できないようにする可能性があります。
さらに、この脆弱性は、高度な運転支援システム(ADAS)のセキュリティを損なうために敵によって搾取される可能性があります。
7つの商用ADASS(Teslaモデル3、「メーカーC」、HP、Pelsee、Azdome、Imagebon、Rexing)、4つのオブジェクト検出器(Yolo、SSD、Retinanet、R-CNN)、およびさまざまな技術的および環境的要因の影響を理解するための緊急車両照明の14パターンを評価します。
また、4つのSOTAフレア除去方法を評価し、リアルタイムの運転制約にはパフォーマンスと遅延が不十分であることを示しています。
このリスクを軽減するために、活性化された緊急車両照明の影響に対するオブジェクト検出器の回復力を高めるために設計された堅牢なフレームワークであるカラセタモールを提案します。
私たちの評価は、Yolov3およびより速いRCNNでは、カラセタモールがモデルの自動車検出の平均信頼を0.20、低い信頼度を0.33に改善し、変動範囲を0.33に削減することを示しています。
さらに、カラセタモールは30〜50 fpsの速度でフレームを処理することができ、リアルタイムのADAS車の検出を可能にします。

要約(オリジナル)

The safety of autonomous cars has come under scrutiny in recent years, especially after 16 documented incidents involving Teslas (with autopilot engaged) crashing into parked emergency vehicles (police cars, ambulances, and firetrucks). While previous studies have revealed that strong light sources often introduce flare artifacts in the captured image, which degrade the image quality, the impact of flare on object detection performance remains unclear. In this research, we unveil PaniCar, a digital phenomenon that causes an object detector’s confidence score to fluctuate below detection thresholds when exposed to activated emergency vehicle lighting. This vulnerability poses a significant safety risk, and can cause autonomous vehicles to fail to detect objects near emergency vehicles. In addition, this vulnerability could be exploited by adversaries to compromise the security of advanced driving assistance systems (ADASs). We assess seven commercial ADASs (Tesla Model 3, ‘manufacturer C’, HP, Pelsee, AZDOME, Imagebon, Rexing), four object detectors (YOLO, SSD, RetinaNet, Faster R-CNN), and 14 patterns of emergency vehicle lighting to understand the influence of various technical and environmental factors. We also evaluate four SOTA flare removal methods and show that their performance and latency are insufficient for real-time driving constraints. To mitigate this risk, we propose Caracetamol, a robust framework designed to enhance the resilience of object detectors against the effects of activated emergency vehicle lighting. Our evaluation shows that on YOLOv3 and Faster RCNN, Caracetamol improves the models’ average confidence of car detection by 0.20, the lower confidence bound by 0.33, and reduces the fluctuation range by 0.33. In addition, Caracetamol is capable of processing frames at a rate of between 30-50 FPS, enabling real-time ADAS car detection.

arxiv情報

著者 Elad Feldman,Jacob Shams,Dudi Biton,Alfred Chen,Shaoyuan Xie,Satoru Koda,Yisroel Mirsky,Asaf Shabtai,Yuval Elovici,Ben Nassi
発行日 2025-05-08 12:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | PaniCar: Securing the Perception of Advanced Driving Assistance Systems Against Emergency Vehicle Lighting はコメントを受け付けていません