A Survey of Interactive Generative Video

要約

インタラクティブな生成ビデオ(IGV)は、さまざまなドメインにわたる高品質でインタラクティブなビデオコンテンツに対する需要の高まりに応じて、重要な技術として浮上しています。
このホワイトペーパーでは、IGVを生成機能を組み合わせて、コントロール信号とレスポンシブフィードバックを介してユーザーエンゲージメントを可能にするインタラクティブな機能と、多様な高品質のビデオコンテンツを生成するテクノロジーとして定義します。
IGVアプリケーションの現在の状況を調査し、3つの主要なドメインに焦点を当てています。1)ゲームでは、IGVが仮想世界での無限の探索を可能にします。
2)具体化されたAIでは、IGVは、動的に進化するシーンとのマルチモーダル相互作用のトレーニングエージェント向けの物理認識環境シンセサイザーとして機能します。
3)自律運転。IGVは、安全性の高いテストと検証のための閉ループシミュレーション機能を提供します。
将来の開発を導くために、理想的なIGVシステムを生成、制御、メモリ、ダイナミクス、インテリジェンスの5つの重要なモジュールに分解する包括的なフレームワークを提案します。
さらに、リアルタイム生成の達成、オープンドメイン制御の有効化、長期的な一貫性の維持、正確な物理学のシミュレーション、因果的推論の統合など、理想的なIGVシステムの各コンポーネントを実現する際の技術的課題と将来の方向を体系的に分析します。
この体系的な分析は、IGVの分野での将来の研究開発を促進し、最終的により洗練された実用的なアプリケーションに向けて技術を促進すると考えています。

要約(オリジナル)

Interactive Generative Video (IGV) has emerged as a crucial technology in response to the growing demand for high-quality, interactive video content across various domains. In this paper, we define IGV as a technology that combines generative capabilities to produce diverse high-quality video content with interactive features that enable user engagement through control signals and responsive feedback. We survey the current landscape of IGV applications, focusing on three major domains: 1) gaming, where IGV enables infinite exploration in virtual worlds; 2) embodied AI, where IGV serves as a physics-aware environment synthesizer for training agents in multimodal interaction with dynamically evolving scenes; and 3) autonomous driving, where IGV provides closed-loop simulation capabilities for safety-critical testing and validation. To guide future development, we propose a comprehensive framework that decomposes an ideal IGV system into five essential modules: Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we systematically analyze the technical challenges and future directions in realizing each component for an ideal IGV system, such as achieving real-time generation, enabling open-domain control, maintaining long-term coherence, simulating accurate physics, and integrating causal reasoning. We believe that this systematic analysis will facilitate future research and development in the field of IGV, ultimately advancing the technology toward more sophisticated and practical applications.

arxiv情報

著者 Jiwen Yu,Yiran Qin,Haoxuan Che,Quande Liu,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai,Hao Chen,Xihui Liu
発行日 2025-04-30 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey of Interactive Generative Video はコメントを受け付けていません

ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

要約

近年、ビデオ生成は大きな進歩を遂げています。
ただし、複雑な動きと相互作用を生成する際には、依然として課題が続いています。
これらの課題に対処するために、パラメーター化された3D物理知識を前処理された条件付きビデオ生成モデルに明示的に統合するプラグアンドプレイフレームワークであるリビジョンを紹介し、複雑な動きと相互作用を備えた高品質のビデオを生成する能力を大幅に向上させます。
具体的には、リビジョンは3つの段階で構成されています。
まず、ビデオ拡散モデルを使用して、粗いビデオを生成します。
次に、粗いビデオから一連の2Dおよび3D機能を抽出して、3Dオブジェクト中心の表現を構築します。これは、提案されたパラメーター化された物理的事前モデルによって改良され、正確な3Dモーションシーケンスを生成します。
最後に、この洗練されたモーションシーケンスは、複雑なアクションと相互作用を含むシナリオであっても、モーションコンシンゲーションビデオの生成を可能にする追加の条件付けと同じビデオ拡散モデルに戻されます。
私たちは、改訂がモーションの忠実度と一貫性を大幅に改善する安定したビデオ拡散に対するアプローチの有効性を検証します。
驚くべきことに、1.5Bのパラメーターのみで、複雑なビデオ生成の13B以上のパラメーターを備えた最先端のビデオ生成モデルを大幅に上回ります。
我々の結果は、3Dの物理的知識を組み込むことにより、比較的小さなビデオ拡散モデルでさえ、より大きなリアリズムと制御性と複雑な動きと相互作用を生成し、物理的にもっともらしいビデオ生成のための有望なソリューションを提供できることを示唆しています。

要約(オリジナル)

In recent years, video generation has seen significant advancements. However, challenges still persist in generating complex motions and interactions. To address these challenges, we introduce ReVision, a plug-and-play framework that explicitly integrates parameterized 3D physical knowledge into a pretrained conditional video generation model, significantly enhancing its ability to generate high-quality videos with complex motion and interactions. Specifically, ReVision consists of three stages. First, a video diffusion model is used to generate a coarse video. Next, we extract a set of 2D and 3D features from the coarse video to construct a 3D object-centric representation, which is then refined by our proposed parameterized physical prior model to produce an accurate 3D motion sequence. Finally, this refined motion sequence is fed back into the same video diffusion model as additional conditioning, enabling the generation of motion-consistent videos, even in scenarios involving complex actions and interactions. We validate the effectiveness of our approach on Stable Video Diffusion, where ReVision significantly improves motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even outperforms a state-of-the-art video generation model with over 13B parameters on complex video generation by a substantial margin. Our results suggest that, by incorporating 3D physical knowledge, even a relatively small video diffusion model can generate complex motions and interactions with greater realism and controllability, offering a promising solution for physically plausible video generation.

arxiv情報

著者 Qihao Liu,Ju He,Qihang Yu,Liang-Chieh Chen,Alan Yuille
発行日 2025-04-30 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction はコメントを受け付けていません

Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

要約

画像から動的な3Dシーンを理解することを学ぶことは、ロボット工学からシーンの再構成までのアプリケーションにとって重要です。
しかし、大規模な監視されたトレーニングにより急速な進歩が可能になった他の問題とは異なり、3D運動を回復するための直接的な監督方法は、グラウンドトゥルースアノテーションを取得することの根本的な難しさのために依然として困難です。
インターネットの立体的な広角ビデオから高品質の4D再構成をマイニングするためのシステムを提示します。
当社のシステムは、カメラの出力、ステレオ深度推定、および時間的追跡方法の出力を高品質の動的3D再構成に融合およびフィルタリングします。
この方法を使用して、長期の動きの軌跡を備えた世界的に擬似メトリックな3Dポイント雲の形で大規模なデータを生成します。
私たちは、実際の画像ペアから構造と3Dモーションを予測するためにDust3Rのバリアントをトレーニングすることにより、このデータの有用性を実証し、再構築されたデータのトレーニングにより、一般化が多様な現実世界のシーンに一般化できることを示しています。
プロジェクトページとデータ:https://stereo4d.github.io

要約(オリジナル)

Learning to understand dynamic 3D scenes from imagery is crucial for applications ranging from robotics to scene reconstruction. Yet, unlike other problems where large-scale supervised training has enabled rapid progress, directly supervising methods for recovering 3D motion remains challenging due to the fundamental difficulty of obtaining ground truth annotations. We present a system for mining high-quality 4D reconstructions from internet stereoscopic, wide-angle videos. Our system fuses and filters the outputs of camera pose estimation, stereo depth estimation, and temporal tracking methods into high-quality dynamic 3D reconstructions. We use this method to generate large-scale data in the form of world-consistent, pseudo-metric 3D point clouds with long-term motion trajectories. We demonstrate the utility of this data by training a variant of DUSt3R to predict structure and 3D motion from real-world image pairs, showing that training on our reconstructed data enables generalization to diverse real-world scenes. Project page and data at: https://stereo4d.github.io

arxiv情報

著者 Linyi Jin,Richard Tucker,Zhengqi Li,David Fouhey,Noah Snavely,Aleksander Holynski
発行日 2025-04-30 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos はコメントを受け付けていません

Preference-centric Bandits: Optimality of Mixtures and Regret-efficient Algorithms

要約

標準的なマルチアームの盗賊の目的は、多くの場合、アームの確率分布の期待値の形で、最大の報酬を持つアームを識別し、繰り返し選択することです。
しかし、このような功利主義的な視点と確率モデルの最初の瞬間に焦点を当てることは、分配の尾の行動と意思決定における変動とリスクへの影響に不可知論されます。
このペーパーでは、予想ベースの評価から選好メトリック(PM)と呼ばれる代替報酬の定式化にシフトするための原則的なフレームワークを紹介します。
PMSは、さまざまな報酬実現に望ましい重点を置くことができ、リスク回避、堅牢性、または不確実性に対するその他の望ましい態度を取り入れる好みのより豊富なモデリングをエンコードできます。
このようなPM中心の視点における根本的に明確な観察は、Banditアルゴリズムの設計には大幅に異なる原則があるということです。最適なサンプリングポリシーが単一のベストアームから繰り返しサンプリングするように収束する報酬ベースのモデルとは対照的に、PM中心のフレームワークでは、特定の混合重量に基づいてアームを組み合わせて組み込む最適なポリシーが収束します。
このような混合ポリシーの設計は、主に数えられない混合の可能性のために、Banditアルゴリズムを重要な方法で設計するための原則から逸脱しています。
このペーパーは、PM中心のフレームワークを正式にし、ミックスを後悔効率の高い方法で学習および追跡する2つのアルゴリズムクラス(いつでも、いつでも、いつでも)を提示します。
これらのアルゴリズムには、標準的な対応物との2つの違いがあります。(i)最適な混合物の信頼できる推定値を形成する推定ルーチンを伴い、(ii)最適な混合物を追跡するためのアーム選択画分をナビゲートする追跡メカニズムを備えています。
これらのアルゴリズムの後悔保証は、PMSのさまざまな代数形式で調査されます。

要約(オリジナル)

The objective of canonical multi-armed bandits is to identify and repeatedly select an arm with the largest reward, often in the form of the expected value of the arm’s probability distribution. Such a utilitarian perspective and focus on the probability models’ first moments, however, is agnostic to the distributions’ tail behavior and their implications for variability and risks in decision-making. This paper introduces a principled framework for shifting from expectation-based evaluation to an alternative reward formulation, termed a preference metric (PM). The PMs can place the desired emphasis on different reward realization and can encode a richer modeling of preferences that incorporate risk aversion, robustness, or other desired attitudes toward uncertainty. A fundamentally distinct observation in such a PM-centric perspective is that designing bandit algorithms will have a significantly different principle: as opposed to the reward-based models in which the optimal sampling policy converges to repeatedly sampling from the single best arm, in the PM-centric framework the optimal policy converges to selecting a mix of arms based on specific mixing weights. Designing such mixture policies departs from the principles for designing bandit algorithms in significant ways, primarily because of uncountable mixture possibilities. The paper formalizes the PM-centric framework and presents two algorithm classes (horizon-dependent and anytime) that learn and track mixtures in a regret-efficient fashion. These algorithms have two distinctions from their canonical counterparts: (i) they involve an estimation routine to form reliable estimates of optimal mixtures, and (ii) they are equipped with tracking mechanisms to navigate arm selection fractions to track the optimal mixtures. These algorithms’ regret guarantees are investigated under various algebraic forms of the PMs.

arxiv情報

著者 Meltem Tatlı,Arpan Mukherjee,Prashanth L. A.,Karthikeyan Shanmugam,Ali Tajer
発行日 2025-04-30 13:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Preference-centric Bandits: Optimality of Mixtures and Regret-efficient Algorithms はコメントを受け付けていません

Ascendra: Dynamic Request Prioritization for Efficient LLM Serving

要約

大規模な言語モデル(LLMS)の急速な進歩により、より効率的なサービス戦略が必要になりました。
これに関連して、効率性とは、特に最初のトークン(TTFT)とトークン間の時間(TBT)までの時間の間、サービスレベルの目標(SLO)を満たすリクエストの割合を指します。
ただし、既存のシステムは、他のシステムの犠牲を払って1つのメトリックに優先順位を付けることがよくあります。
TTFTとTBTの両方のSLOを同時に満たすように設計されたLLMサービングシステムであるAscendraを提示します。
Ascendraの背後にある中心的な洞察は、リクエストの緊急性が締め切りに近づくにつれて進化するということです。
これを活用するために、AscendraはGPUリソ​​ースを2つのタイプのインスタンスに分割します:低価格と優先度。
低優先度インスタンスは、到着順序からリクエストを処理することによりスループットを最大化しますが、リクエストの飢vのリスクがあります。
これに対処するために、Ascendraはパフォーマンスモデルを採用して、スロを逃すリスクのあるリクエストを予測し、積極的に優先度の高いインスタンスに積極的にオフロードします。
優先度の高いインスタンスは、低遅延の実行のために最適化されており、締め切りに近づく緊急の要求を処理します。
この分割アーキテクチャにより、Ascendraは高スループットと低レイテンシーのバランスを効果的にバランスさせることができます。
広範な評価によると、Ascendraは、TTFTとTBTの両方のSLOを満たしている間、VLLMとSarathi-Serveに比べて最大1.7倍のシステムスループットを改善することを示しています。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has driven the need for more efficient serving strategies. In this context, efficiency refers to the proportion of requests that meet their Service Level Objectives (SLOs), particularly for Time To First Token (TTFT) and Time Between Tokens (TBT). However, existing systems often prioritize one metric at the cost of the other. We present Ascendra, an LLM serving system designed to meet both TTFT and TBT SLOs simultaneously. The core insight behind Ascendra is that a request’s urgency evolves as it approaches its deadline. To leverage this, Ascendra partitions GPU resources into two types of instances: low-priority and high-priority. Low-priority instances maximize throughput by processing requests out of arrival order, but at the risk of request starvation. To address this, Ascendra employs a performance model to predict requests at risk of missing their SLOs and proactively offloads them to high-priority instances. High-priority instances are optimized for low-latency execution and handle urgent requests nearing their deadlines. This partitioned architecture enables Ascendra to effectively balance high throughput and low latency. Extensive evaluation shows that Ascendra improves system throughput by up to 1.7x compared to vLLM and Sarathi-Serve while meeting both TTFT and TBT SLOs.

arxiv情報

著者 Azam Ikram,Xiang Li,Sameh Elnikety,Saurabh Bagchi
発行日 2025-04-30 14:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Ascendra: Dynamic Request Prioritization for Efficient LLM Serving はコメントを受け付けていません

End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation

要約

オーディオディープフェイクは、デジタルセキュリティと信頼に対する脅威の高まりを表しており、高度な生成モデルを活用して、本物の人間の声を密接に模倣する合成スピーチを生成します。
このような操作を検出することは、テスト中に遭遇するスプーフィング方法がトレーニング中に見られるものとは異なる場合があるオープンワールド条件下では特に困難です。
この作業では、生の波形で直接動作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案します。
私たちのモデルであるRawnetliteは、手作りの前処理なしでスペクトルと時間の両方の特徴をキャプチャするように設計された軽量の畳み込みと一時的なアーキテクチャです。
堅牢性を高めるために、複数のドメインからのデータを組み合わせ、焦点損失を採用して困難なサンプルまたは曖昧なサンプルを強調するトレーニング戦略を導入します。
さらに、コーデックベースの操作を組み込み、波形レベルのオーディオ増強(例:ピッチシフト、ノイズ、時間の伸びなど)を適用すると、現実的な音響条件下での大幅な一般化の改善が得られることを実証します。
提案されたモデルは、ドメイン内データ(FakeRorreal)で99.7%以上のF1および0.25%EERを達成し、困難な分散テストセット(AVSPOOF2021 + CODECFAKE)で最大83.4%F1を獲得します。
これらの調査結果は、多様なトレーニングデータ、カスタマイズされた客観的機能、および弾力性のある一般化可能なオーディオ偽造検出器の構築におけるオーディオ増強の重要性を強調しています。
コードモデルと前処理されたモデルは、https://iplab.dmi.unict.it/mfs/deepfakes/paperrawnet2025/で入手できます。

要約(オリジナル)

Audio deepfakes represent a growing threat to digital security and trust, leveraging advanced generative models to produce synthetic speech that closely mimics real human voices. Detecting such manipulations is especially challenging under open-world conditions, where spoofing methods encountered during testing may differ from those seen during training. In this work, we propose an end-to-end deep learning framework for audio deepfake detection that operates directly on raw waveforms. Our model, RawNetLite, is a lightweight convolutional-recurrent architecture designed to capture both spectral and temporal features without handcrafted preprocessing. To enhance robustness, we introduce a training strategy that combines data from multiple domains and adopts Focal Loss to emphasize difficult or ambiguous samples. We further demonstrate that incorporating codec-based manipulations and applying waveform-level audio augmentations (e.g., pitch shifting, noise, and time stretching) leads to significant generalization improvements under realistic acoustic conditions. The proposed model achieves over 99.7% F1 and 0.25% EER on in-domain data (FakeOrReal), and up to 83.4% F1 with 16.4% EER on a challenging out-of-distribution test set (AVSpoof2021 + CodecFake). These findings highlight the importance of diverse training data, tailored objective functions and audio augmentations in building resilient and generalizable audio forgery detectors. Code and pretrained models are available at https://iplab.dmi.unict.it/mfs/Deepfakes/PaperRawNet2025/.

arxiv情報

著者 Andrea Di Pierno,Luca Guarnera,Dario Allegra,Sebastiano Battiato
発行日 2025-04-30 14:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation はコメントを受け付けていません

Quantifying the Noise of Structural Perturbations on Graph Adversarial Attacks

要約

グラフニューラルネットワークは、近隣のローカル情報を利用する際の強力な学習力のために、グラフ関連のタスクを解決するために広く利用されています。
しかし、グラフ敵対的攻撃に関する最近の研究は、現在のグラフニューラルネットワークが悪意のある攻撃に対して堅牢ではないことを証明しています。
しかし、既存の作業の多くは、(近い)最適な摂動を得るための攻撃パフォーマンスに基づいて最適化の目標に焦点を合わせていますが、特定のノード/リンクの注入など、各摂動の強度の定量化にあまり注意を払いませんでした。
この作業では、各敵のリンクの攻撃強度を定量化するためにノイズの概念を提案します。
さらに、単一および複数のステップの最適化の観点から、定義されたノイズと分類マージンに基づいて3つの攻撃戦略を提案します。
3つの代表的なグラフニューラルネットワークに対してベンチマークデータセットで実施された広範な実験は、提案された攻撃戦略の有効性を示しています。
特に、選択した摂動ノードの対応する特性を分析することにより、効果的な敵対的摂動の好ましいパターンも調査します。

要約(オリジナル)

Graph neural networks have been widely utilized to solve graph-related tasks because of their strong learning power in utilizing the local information of neighbors. However, recent studies on graph adversarial attacks have proven that current graph neural networks are not robust against malicious attacks. Yet much of the existing work has focused on the optimization objective based on attack performance to obtain (near) optimal perturbations, but paid less attention to the strength quantification of each perturbation such as the injection of a particular node/link, which makes the choice of perturbations a black-box model that lacks interpretability. In this work, we propose the concept of noise to quantify the attack strength of each adversarial link. Furthermore, we propose three attack strategies based on the defined noise and classification margins in terms of single and multiple steps optimization. Extensive experiments conducted on benchmark datasets against three representative graph neural networks demonstrate the effectiveness of the proposed attack strategies. Particularly, we also investigate the preferred patterns of effective adversarial perturbations by analyzing the corresponding properties of the selected perturbation nodes.

arxiv情報

著者 Junyuan Fang,Han Yang,Haixian Wen,Jiajing Wu,Zibin Zheng,Chi K. Tse
発行日 2025-04-30 01:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Quantifying the Noise of Structural Perturbations on Graph Adversarial Attacks はコメントを受け付けていません

DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition

要約

経済作物の世界的な成長の安全性に直面している深刻な課題を考えると、植物疾患の正確な特定と予防は、人工知能対応農業技術の重要な問題として浮上しています。
小型サンプルの学習、葉の閉塞、照明のバリエーション、クラス間の類似性などの植物疾患の認識における技術的課題に対処するために、この研究は動的なデュアルストリーム融合ネットワーク(DS_FusionNet)を革新的に提案しています。
ネットワークは、デュアルバックボーンアーキテクチャ、変形可能な動的融合モジュール、および双方向の知識蒸留戦略を統合し、認識の精度を大幅に向上させます。
実験結果は、DS_FusionNetがPlantDiseaseとCIFAR-10データセットの10%のみを使用して90%を超える分類精度を達成し、複雑なPlantwild Datasetの85%の精度を維持し、例外的な一般化機能を示していることを示しています。
この研究は、きめ細かい画像分類のための新しい技術的洞察を提供するだけでなく、農業疾患の正確な識別と管理のための堅牢な基盤も確立しています。

要約(オリジナル)

Given the severe challenges confronting the global growth security of economic crops, precise identification and prevention of plant diseases has emerged as a critical issue in artificial intelligence-enabled agricultural technology. To address the technical challenges in plant disease recognition, including small-sample learning, leaf occlusion, illumination variations, and high inter-class similarity, this study innovatively proposes a Dynamic Dual-Stream Fusion Network (DS_FusionNet). The network integrates a dual-backbone architecture, deformable dynamic fusion modules, and bidirectional knowledge distillation strategy, significantly enhancing recognition accuracy. Experimental results demonstrate that DS_FusionNet achieves classification accuracies exceeding 90% using only 10% of the PlantDisease and CIFAR-10 datasets, while maintaining 85% accuracy on the complex PlantWild dataset, exhibiting exceptional generalization capabilities. This research not only provides novel technical insights for fine-grained image classification but also establishes a robust foundation for precise identification and management of agricultural diseases.

arxiv情報

著者 Yanghui Song,Chengfu Yang
発行日 2025-04-30 06:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition はコメントを受け付けていません

Characterizing Trust and Resilience in Distributed Consensus for Cyberphysical Systems

要約

この作業は、エージェント間の信頼の確率的価値が利用可能な回復力のあるコンセンサスの問題を考慮します。
具体的には、エージェント間で信頼の追加情報が存在する場合、収束、コンセンサスのコンセンサスの逸脱、および予想される収束率を特徴付けるために、統一された数学的枠組みを導き出します。
確率的信頼値とコンセンサスプロトコルの特定の条件下で:1)悪意のあるエージェントがネットワーク接続の半分以上を構成する場合でも、共通の制限値への収束がほぼ確実であることを示します。
ほぼ確実に有限の時間。
さらに、予想される収束率は、エージェント間の信頼観察の品質の関数として指数関数的に減衰します。

要約(オリジナル)

This work considers the problem of resilient consensus where stochastic values of trust between agents are available. Specifically, we derive a unified mathematical framework to characterize convergence, deviation of the consensus from the true consensus value, and expected convergence rate, when there exists additional information of trust between agents. We show that under certain conditions on the stochastic trust values and consensus protocol: 1) almost sure convergence to a common limit value is possible even when malicious agents constitute more than half of the network connectivity, 2) the deviation of the converged limit, from the case where there is no attack, i.e., the true consensus value, can be bounded with probability that approaches 1 exponentially, and 3) correct classification of malicious and legitimate agents can be attained in finite time almost surely. Further, the expected convergence rate decays exponentially as a function of the quality of the trust observations between agents.

arxiv情報

著者 Michal Yemini,Angelia Nedić,Andrea Goldsmith,Stephanie Gil
発行日 2025-04-28 17:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SP, eess.SY, math.OC | Characterizing Trust and Resilience in Distributed Consensus for Cyberphysical Systems はコメントを受け付けていません

ROMAN: Open-Set Object Map Alignment for Robust View-Invariant Global Localization

要約

グローバルローカリゼーションは、長期的およびドリフトフリーロボットナビゲーションに必要な基本的な能力です。
ただし、現在のメソッドは、大幅に異なる視点に直面した場合、再局在化できません。
オープンセットとビュー不変のオブジェクトのマップを作成および整列させることにより、挑戦的で多様な環境でローカライズできるグローバルローカリゼーション方法であるローマン(堅牢なオブジェクトマップアライメント)を提示します。
ローマンは、統一されたグラフ理論的なグローバルデータ関連アプローチを使用して、オブジェクトサブマップ間の登録問題を策定して解決し、重力方向の前方向とオブジェクトの形状とセマンティックの類似性を斬新に組み込みます。
この作業のオープンセットオブジェクトマッピングと情報豊富なオブジェクトアソシエーションアルゴリズムは、反対方向に移動するロボットからマップが作成されている場合でも、グローバルなローカリゼーションを可能にします。
屋内、都市、および非構造化/森林/森林化された環境での一連の挑戦的なグローバルローカリゼーション実験を通じて、ローマは他の画像ベースのポーズ推定方法またはセグメントベースの登録方法よりも高い相対ポーズ推定精度を達成することを実証します。
さらに、ローマを大規模なマルチロボットスラムのループ閉鎖モジュールとして評価し、ループクロージャーに視覚的な機能を使用した標準のSLAMシステムと比較して、軌道推定誤差の35%の改善を示します。
コードとビデオはhttps://acl.mit.edu/romanにあります。

要約(オリジナル)

Global localization is a fundamental capability required for long-term and drift-free robot navigation. However, current methods fail to relocalize when faced with significantly different viewpoints. We present ROMAN (Robust Object Map Alignment Anywhere), a global localization method capable of localizing in challenging and diverse environments by creating and aligning maps of open-set and view-invariant objects. ROMAN formulates and solves a registration problem between object submaps using a unified graph-theoretic global data association approach with a novel incorporation of a gravity direction prior and object shape and semantic similarity. This work’s open-set object mapping and information-rich object association algorithm enables global localization, even in instances when maps are created from robots traveling in opposite directions. Through a set of challenging global localization experiments in indoor, urban, and unstructured/forested environments, we demonstrate that ROMAN achieves higher relative pose estimation accuracy than other image-based pose estimation methods or segment-based registration methods. Additionally, we evaluate ROMAN as a loop closure module in large-scale multi-robot SLAM and show a 35% improvement in trajectory estimation error compared to standard SLAM systems using visual features for loop closures. Code and videos can be found at https://acl.mit.edu/roman.

arxiv情報

著者 Mason B. Peterson,Yixuan Jia,Yulun Tian,Annika Thomas,Jonathan P. How
発行日 2025-04-28 18:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ROMAN: Open-Set Object Map Alignment for Robust View-Invariant Global Localization はコメントを受け付けていません