HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation

要約

Hunyuanportraitを紹介します。これは、非常に制御可能でリアルなポートレートアニメーションに暗黙の表現を使用する拡散ベースの条件制御方法です。
外観の参照としての単一のポートレート画像とドライビングテンプレートとしてのビデオクリップを考えると、Hunyuanportraitは、運転ビデオの表情とヘッドポーズによって参照画像のキャラクターをアニメーション化できます。
私たちのフレームワークでは、事前に訓練されたエンコーダーを利用して、ビデオでポートレートモーション情報とアイデンティティのデカップリングを実現します。
そのためには、暗黙の表現がモーション情報をエンコードするために採用され、アニメーションフェーズの制御信号として採用されます。
主要なビルディングブロックとして安定したビデオ拡散の力を活用することにより、注意メカニズムを介して除去UNETに制御信号を注入するようにアダプターレイヤーを慎重に設計します。
これらは、詳細の空間的豊かさと時間的一貫性をもたらします。
Hunyuanportraitは、強力な一般化パフォーマンスも示しており、異なる画像スタイルの下で外観と動きを効果的に解き放つことができます。
私たちのフレームワークは、既存の方法を上回り、優れた時間的一貫性と制御可能性を示しています。
当社のプロジェクトは、https://kkkkkka.github.io/hunyuanportraitで入手できます。

要約(オリジナル)

We introduce HunyuanPortrait, a diffusion-based condition control method that employs implicit representations for highly controllable and lifelike portrait animation. Given a single portrait image as an appearance reference and video clips as driving templates, HunyuanPortrait can animate the character in the reference image by the facial expression and head pose of the driving videos. In our framework, we utilize pre-trained encoders to achieve the decoupling of portrait motion information and identity in videos. To do so, implicit representation is adopted to encode motion information and is employed as control signals in the animation phase. By leveraging the power of stable video diffusion as the main building block, we carefully design adapter layers to inject control signals into the denoising unet through attention mechanisms. These bring spatial richness of details and temporal consistency. HunyuanPortrait also exhibits strong generalization performance, which can effectively disentangle appearance and motion under different image styles. Our framework outperforms existing methods, demonstrating superior temporal consistency and controllability. Our project is available at https://kkakkkka.github.io/HunyuanPortrait.

arxiv情報

著者 Zunnan Xu,Zhentao Yu,Zixiang Zhou,Jun Zhou,Xiaoyu Jin,Fa-Ting Hong,Xiaozhong Ji,Junwei Zhu,Chengfei Cai,Shiyu Tang,Qin Lin,Xiu Li,Qinglin Lu
発行日 2025-03-25 10:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation はコメントを受け付けていません

Any6D: Model-free 6D Pose Estimation of Novel Objects

要約

6Dオブジェクトポーズ推定のモデルフリーフレームワークであるAny6Dを紹介します。これは、新しいシーンの6Dポーズと未知のオブジェクトのサイズの両方を推定するために、単一のRGB-Dアンカー画像のみを必要とします。
テクスチャの3Dモデルや複数の視点に依存する既存の方法とは異なり、any6Dはジョイントオブジェクトアラインメントプロセスをレバレッジして、ポーズ精度を改善するために2D-3Dアライメントとメートルスケール推定を強化します。
当社のアプローチは、レンダリングとコンピアの戦略を統合してポーズ仮説を生成および改良し、オクルージョン、重複しないビュー、多様な照明条件、および大規模な環境相互環境の変動を備えたシナリオの堅牢なパフォーマンスを可能にします。
5つの挑戦的なデータセットであるReal275、Toyota-Light、Ho3D、Ycbineoat、およびLM-Oでこの方法を評価し、新規オブジェクトの提案のための最先端の方法を大幅に上回る有効性を示しています。
プロジェクトページ:https://taeyeop.com/any6d

要約(オリジナル)

We introduce Any6D, a model-free framework for 6D object pose estimation that requires only a single RGB-D anchor image to estimate both the 6D pose and size of unknown objects in novel scenes. Unlike existing methods that rely on textured 3D models or multiple viewpoints, Any6D leverages a joint object alignment process to enhance 2D-3D alignment and metric scale estimation for improved pose accuracy. Our approach integrates a render-and-compare strategy to generate and refine pose hypotheses, enabling robust performance in scenarios with occlusions, non-overlapping views, diverse lighting conditions, and large cross-environment variations. We evaluate our method on five challenging datasets: REAL275, Toyota-Light, HO3D, YCBINEOAT, and LM-O, demonstrating its effectiveness in significantly outperforming state-of-the-art methods for novel object pose estimation. Project page: https://taeyeop.com/any6d

arxiv情報

著者 Taeyeop Lee,Bowen Wen,Minjun Kang,Gyuree Kang,In So Kweon,Kuk-Jin Yoon
発行日 2025-03-25 06:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Any6D: Model-free 6D Pose Estimation of Novel Objects はコメントを受け付けていません

Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization

要約

学習可能な画像圧縮(LIC)は、RD効率で標準化されたビデオコーデックを上回る可能性を示しており、ハードウェアに優しい実装の研究を促しています。
ほとんどの既存のLICハードウェアの実装は、RD効率へのレイテンシを優先し、ハードウェア設計スペースの広範な調査を通じて優先します。
特定のハードウェアプラットフォームの設計を調整する負担がモデルの寸法にシフトし、RD効率を損なうことなく、新しいデザインパラダイムを提示します。
まず、リファレンスティーチャーからよりleanせた生徒のLICモデルを蒸留するためのフレームワークを設計します。単一のモデルハイパーパラメーターを調整することにより、複雑なハードウェア設計の探索なしで異なるハードウェアプラットフォームの制約を満たすことができます。
第二に、一般化された分裂正規化 – ポストパラメーターの量子化さえもRD効率を維持するGDNアクティベーションのハードウェアに優しい実装を提案します。
第三に、並列処理を活用してリソース割り当てを最適化することにより、利用可能なFPGAリソースを最大限に活用するPipelined FPGA構成を設計します。
最先端のLICモデルを使用した実験は、元のモデルに非常に近いことを実行しながら、既存のすべてのFPGA実装を上回ることを示しています。

要約(オリジナル)

Learnable Image Compression (LIC) has shown the potential to outperform standardized video codecs in RD efficiency, prompting the research for hardware-friendly implementations. Most existing LIC hardware implementations prioritize latency to RD-efficiency and through an extensive exploration of the hardware design space. We present a novel design paradigm where the burden of tuning the design for a specific hardware platform is shifted towards model dimensioning and without compromising on RD-efficiency. First, we design a framework for distilling a leaner student LIC model from a reference teacher: by tuning a single model hyperparameters, we can meet the constraints of different hardware platforms without a complex hardware design exploration. Second, we propose a hardware-friendly implementation of the Generalized Divisive Normalization – GDN activation that preserves RD efficiency even post parameter quantization. Third, we design a pipelined FPGA configuration which takes full advantage of available FPGA resources by leveraging parallel processing and optimizing resource allocation. Our experiments with a state of the art LIC model show that we outperform all existing FPGA implementations while performing very close to the original model.

arxiv情報

著者 Alaa Mazouz,Sumanta Chaudhuri,Marco Cagnanzzo,Mihai Mitrea,Enzo Tartaglione,Attilio Fiandrotti
発行日 2025-03-25 09:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization はコメントを受け付けていません

Global-Local Tree Search in VLMs for 3D Indoor Scene Generation

要約

GPT-4などの大きなビジョン言語モデル(VLM)は、さまざまな分野で顕著な成功を収めています。
ただし、VLMSを使用した3D屋内シーン生成に関する研究はほとんどありません。
この論文は、このタスクを空間的およびレイアウト常識の制約の対象とする計画問題と見なしています。
VLMで問題を解決するために、新しいグローバルローカルツリー検索アルゴリズムを提案します。
グローバルに、このメソッドは各オブジェクトを順番に配置し、各配置プロセス中に複数の配置を調査します。ここでは、問題スペースがツリーとして表されます。
ツリーの深さを減らすために、シーン構造を階層的に分解します。つまり、部屋レベル、領域レベル、床オブジェクトレベル、サポートされているオブジェクトレベルを分解します。
このアルゴリズムは、異なる領域のフロアオブジェクトを個別に生成し、異なる床オブジェクトに配置されたサポートされているオブジェクトを生成します。
地元では、各オブジェクトの配置であるサブタスクを複数のステップに分解します。
アルゴリズムは、問題のあるツリーを検索します。
VLMモデルを活用してオブジェクトの位置を生成するために、トップダウンビュースペースを密なグリッドとして離散化し、各セルを多様な絵文字で満たして細胞に違います。
絵文字グリッドでVLMを促し、VLMは絵文字の名前で位置を記述することにより、オブジェクトの合理的な場所を生成します。
定量的および定性的な実験結果は、私たちのアプローチが最先端のアプローチよりももっともらしい3Dシーンを生成することを示しています。
ソースコードは、https://github.com/dw-dengwei/treesearchgenで入手できます。

要約(オリジナル)

Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .

arxiv情報

著者 Wei Deng,Mengshi Qi,Huadong Ma
発行日 2025-03-25 02:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Global-Local Tree Search in VLMs for 3D Indoor Scene Generation はコメントを受け付けていません

Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models

要約

自然言語処理の分野(NLP)の重要な研究方向としての皮肉検出は、広範囲にわたる注目を集めています。
従来の皮肉検出タスクは通常、単一モーダルのアプローチ(テキストなど)に焦点を合わせていますが、皮肉の暗黙的で微妙な性質のため、そのような方法は満足のいく結果をもたらさないことがよくあります。
近年、研究者は皮肉検出の焦点をマルチモーダルアプローチにシフトしています。
ただし、マルチモーダル情報を効果的に活用して皮肉コンテンツを正確に識別することは、さらなる調査を保証する課題のままです。
さまざまな情報源に対して、マルチモーダル大手言語モデル(MLLMS)の強力な統合処理機能を活用すると、革新的なマルチモーダルコマンダーGPTフレームワークを提案します。
軍事戦略に触発された私たちは、最初に皮肉検出タスクを6つの異なるサブタスクに分解します。
次に、中央司令官(意思決定者)が、それぞれの特定のサブタスクに対処するために、最適な大規模な言語モデルを割り当てます。
最終的に、各モデルからの検出結果は皮肉を特定するために集約されます。
4つのマルチモーダル大手言語モデルと6つのプロンプト戦略を利用して、MMSDおよびMMSD 2.0で広範な実験を実施しました。
私たちの実験は、私たちのアプローチが最新のパフォーマンスを達成し、F1スコアが19.3%改善され、微調整や根本的な理論的根拠を必要とせずに達成することを示しています。

要約(オリジナル)

Sarcasm detection, as a crucial research direction in the field of Natural Language Processing (NLP), has attracted widespread attention. Traditional sarcasm detection tasks have typically focused on single-modal approaches (e.g., text), but due to the implicit and subtle nature of sarcasm, such methods often fail to yield satisfactory results. In recent years, researchers have shifted the focus of sarcasm detection to multi-modal approaches. However, effectively leveraging multi-modal information to accurately identify sarcastic content remains a challenge that warrants further exploration. Leveraging the powerful integrated processing capabilities of Multi-Modal Large Language Models (MLLMs) for various information sources, we propose an innovative multi-modal Commander-GPT framework. Inspired by military strategy, we first decompose the sarcasm detection task into six distinct sub-tasks. A central commander (decision-maker) then assigns the best-suited large language model to address each specific sub-task. Ultimately, the detection results from each model are aggregated to identify sarcasm. We conducted extensive experiments on MMSD and MMSD 2.0, utilizing four multi-modal large language models and six prompting strategies. Our experiments demonstrate that our approach achieves state-of-the-art performance, with a 19.3% improvement in F1 score, without necessitating fine-tuning or ground-truth rationales.

arxiv情報

著者 Yazhou Zhang,Chunwang Zou,Bo Wang,Jing Qin
発行日 2025-03-25 04:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models はコメントを受け付けていません

Frequency Dynamic Convolution for Dense Image Prediction

要約

動的畳み込み(DY-CONV)は、注意メカニズムと組み合わせた複数の並列重量を介して適応体重選択を可能にすることにより有望なパフォーマンスを示していますが、これらの重量の周波数応答は高い類似性を示し、高いパラメーターコストをもたらしますが、適応性は限られています。
この作業では、Frequency Dynamic Convolution(FDCONV)を導入します。これは、Forierドメインで固定パラメーター予算を学習することでこれらの制限を軽減する新しいアプローチです。
FDCONVは、この予算を分離フーリエインデックスで周波数ベースのグループに分割し、パラメーターコストを増やすことなく周波数ダイバーウェイトの構築を可能にします。
適応性をさらに向上させるために、カーネル空間変調(KSM)と周波数帯域変調(FBM)を提案します。
KSMは、各フィルターの周波数応答を空間レベルで動的に調整し、FBMは周波数ドメインの異なる周波数帯域に重みを分解し、ローカルコンテンツに基づいて動的に変調します。
オブジェクトの検出、セグメンテーション、および分類に関する広範な実験により、FDCONVの有効性が検証されます。
ResNet-50に適用されると、FDCONVは +3.6mパラメーターの適度な増加で優れたパフォーマンスを達成し、パラメーター予算の大幅な増加を必要とする以前の方法(Condconv +90m、kw +76.5mなど)を上回ることを実証します。
さらに、FDCONVは、Convnext、Swin-Transformerなど、さまざまなアーキテクチャにシームレスに統合され、最新のビジョンタスクに柔軟で効率的なソリューションを提供します。
このコードは、https://github.com/linwei-chen/fdconvで公開されています。

要約(オリジナル)

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

arxiv情報

著者 Linwei Chen,Lin Gu,Liang Li,Chenggang Yan,Ying Fu
発行日 2025-03-25 03:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Frequency Dynamic Convolution for Dense Image Prediction はコメントを受け付けていません

Socially-Aware Robot Navigation Enhanced by Bidirectional Natural Language Conversations Using Large Language Models

要約

ロボットナビゲーションはさまざまなドメインで重要ですが、従来の方法は効率と障害物の回避に焦点を当てており、多くの場合、共有空間で人間の行動を見落としています。
サービスロボットの台頭により、社会的に認識しているナビゲーションが顕著になりました。
ただし、既存のアプローチは、主に歩行者の動きまたは発行アラートを予測し、真の人間とロボットの相互作用を欠いています。
社会的に認識されたナビゲーションのための新しいフレームワークである大規模な言語モデル(HSAC-LLM)を使用して、ハイブリッドソフトアクタークライティックを紹介します。
深い補強学習を大規模な言語モデルと統合することにより、HSAC-LLMは双方向の自然言語相互作用を可能にし、連続的および離散ナビゲーションアクションの両方を予測します。
潜在的な衝突が発生すると、ロボットは歩行者と積極的に通信して回避戦略を決定します。
2Dシミュレーション、ガゼボ、および実際の環境での実験は、HSAC-LLMが相互作用、ナビゲーション、および障害物回避において最先端のDRLメソッドを上回ることを示しています。
このパラダイムは、動的な設定で効果的な人間とロボットの相互作用を進めます。
ビデオはhttps://hsacllm.github.io/で入手できます。

要約(オリジナル)

Robot navigation is crucial across various domains, yet traditional methods focus on efficiency and obstacle avoidance, often overlooking human behavior in shared spaces. With the rise of service robots, socially aware navigation has gained prominence. However, existing approaches primarily predict pedestrian movements or issue alerts, lacking true human-robot interaction. We introduce Hybrid Soft Actor-Critic with Large Language Model (HSAC-LLM), a novel framework for socially aware navigation. By integrating deep reinforcement learning with large language models, HSAC-LLM enables bidirectional natural language interactions, predicting both continuous and discrete navigation actions. When potential collisions arise, the robot proactively communicates with pedestrians to determine avoidance strategies. Experiments in 2D simulation, Gazebo, and real-world environments demonstrate that HSAC-LLM outperforms state-of-the-art DRL methods in interaction, navigation, and obstacle avoidance. This paradigm advances effective human-robot interactions in dynamic settings. Videos are available at https://hsacllm.github.io/.

arxiv情報

著者 Congcong Wen,Yifan Liu,Geeta Chandra Raju Bethala,Shuaihang Yuan,Hao Huang,Yu Hao,Mengyu Wang,Yu-Shen Liu,Anthony Tzes,Yi Fang
発行日 2025-03-23 19:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Socially-Aware Robot Navigation Enhanced by Bidirectional Natural Language Conversations Using Large Language Models はコメントを受け付けていません

Joint State-Parameter Observer-Based Robust Control of a UAV for Heavy Load Transportation

要約

このペーパーでは、オクトコプター無人航空機(OUAV)の軌跡追跡のためのジョイントステートパラメーターオブザーバーベースのコントローラーを提案し、重い荷重を不明な質量とサイズの輸送のために提案します。
システムのダイナミクスへの負荷パラメーターの効果を効果的に考慮して、硬く接続された負荷を備えたOUAVの多体動的モデルが取得されます。
堅牢な非線形Wインフェンツ制御戦略は、OUAVの最適な軌道追跡のために設計されており、共同推定されていないカルマンフィルターによって提供される状態および負荷パラメーターを使用して、
提案された戦略の有効性は、数値結果によって裏付けられています。

要約(オリジナル)

This paper proposes a joint state-parameter observer-based controller for trajectory tracking of an octocopter unmanned aerial vehicle (OUAV), for transportation of a heavy load with unknown mass and size. The multi-body dynamic model of the OUAV with a rigidly attached load is obtained, effectively considering the effects of the load parameters into the dynamics of the system. A robust nonlinear W-infinity control strategy is designed for optimal trajectory tracking of the OUAV, with information of the states and load parameters provided by a joint estimation unscented Kalman filter. The effectiveness of the proposed strategy is corroborated by numerical results.

arxiv情報

著者 Brenner S. Rego,Daniel N. Cardoso,Marco. H. Terra,Guilherme V. Raffo
発行日 2025-03-23 19:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Joint State-Parameter Observer-Based Robust Control of a UAV for Heavy Load Transportation はコメントを受け付けていません

Extended Visibility of Autonomous Vehicles via Optimized Cooperative Perception under Imperfect Communication

要約

自動運転車(AVS)は、安全にナビゲートするために個々の認識システムに依存しています。
ただし、これらのシステムは、有害な気象条件、複雑な道路幾何学、および密集した交通シナリオにおける重大な課題に直面しています。
協同的認識(CP)は、複数の車両で共有カメラフィードとセンサーの読み取りを共同で処理することにより、AVSの認識品質を拡張するための有望なアプローチとして浮上しています。
この作業は、不完全な通信の下で車両の選択とネットワークリソースの利用を最適化するために設計された新しいCPフレームワークを提示します。
最適化されたCP形成は、ヘルパー車両の空間位置、視覚範囲、モーションブラー、利用可能な通信予算などの重要な要因を考慮しています。
さらに、当社のリソース最適化モジュールは、LTEや5G NR-V2Xなどの最新の車両通信システムの現実的なモデルを考慮して、エゴ車とヘルパー車両間のデータフロー効率を最大化するために電力レベルを調整しながら通信チャネルを割り当てます。
Carlaシミュレーターによって生成された合成データを使用して、挑戦的なシナリオでの歩行者検出に関する広範な実験を通じて、アプローチを検証します。
結果は、私たちの方法が、検出精度が約10%増加する個々のAVの知覚品質を大幅に改善することを示しています。
この実質的な利益は、複雑な状況でのAVの安全性とパフォーマンスを向上させるためのCPの解き放たれた可能性を明らかにします。

要約(オリジナル)

Autonomous Vehicles (AVs) rely on individual perception systems to navigate safely. However, these systems face significant challenges in adverse weather conditions, complex road geometries, and dense traffic scenarios. Cooperative Perception (CP) has emerged as a promising approach to extending the perception quality of AVs by jointly processing shared camera feeds and sensor readings across multiple vehicles. This work presents a novel CP framework designed to optimize vehicle selection and networking resource utilization under imperfect communications. Our optimized CP formation considers critical factors such as the helper vehicles’ spatial position, visual range, motion blur, and available communication budgets. Furthermore, our resource optimization module allocates communication channels while adjusting power levels to maximize data flow efficiency between the ego and helper vehicles, considering realistic models of modern vehicular communication systems, such as LTE and 5G NR-V2X. We validate our approach through extensive experiments on pedestrian detection in challenging scenarios, using synthetic data generated by the CARLA simulator. The results demonstrate that our method significantly improves upon the perception quality of individual AVs with about 10% gain in detection accuracy. This substantial gain uncovers the unleashed potential of CP to enhance AV safety and performance in complex situations.

arxiv情報

著者 Ahmad Sarlak,Rahul Amin,Abolfazl Razi
発行日 2025-03-23 20:22:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Extended Visibility of Autonomous Vehicles via Optimized Cooperative Perception under Imperfect Communication はコメントを受け付けていません

Distributed Bayesian Estimation in Sensor Networks: Consensus on Marginal Densities

要約

この論文では、センサーネットワークの分散ベイジアン推定アルゴリズムを設計および分析することを目指しています。
私たちが対処する課題は、(i)連続変数にわたって確率分布の機能空間に分散された証明された修正アルゴリズムを導き出し、(ii)これらの結果を活用して、個々のエージェントによって観察された変数のサブセットに制限された新しい分布推定器を取得することです。
これは、協力的なローカリゼーションやフェデレーションラーニングなどのアプリケーションに関連しています。ここでは、任意のエージェントで収集されたデータは、関心のあるすべての変数のサブセットに依存します。
集中、分布、および限界分散設定のエージェントの非線形尤度からのデータを使用して、ベイジアン密度推定アルゴリズムを提示します。
分散型推定目標を設定した後、各エージェントでの最適なPDFSセットへの収束をほぼ測定することを証明します。
次に、各エージェントの関連する変数のみにわたって密度を推定するストレージ認識アルゴリズムでも同じことを証明します。
最後に、これらのアルゴリズムのガウスバージョンを提示し、Lidar Sensingに関連する非線形尤度モデルを処理するための変分推論を使用してマッピング問題に実装します。

要約(オリジナル)

In this paper, we aim to design and analyze distributed Bayesian estimation algorithms for sensor networks. The challenges we address are to (i) derive a distributed provably-correct algorithm in the functional space of probability distributions over continuous variables, and (ii) leverage these results to obtain new distributed estimators restricted to subsets of variables observed by individual agents. This relates to applications such as cooperative localization and federated learning, where the data collected at any agent depends on a subset of all variables of interest. We present Bayesian density estimation algorithms using data from non-linear likelihoods at agents in centralized, distributed, and marginal distributed settings. After setting up a distributed estimation objective, we prove almost-sure convergence to the optimal set of pdfs at each agent. Then, we prove the same for a storage-aware algorithm estimating densities only over relevant variables at each agent. Finally, we present a Gaussian version of these algorithms and implement it in a mapping problem using variational inference to handle non-linear likelihood models associated with LiDAR sensing.

arxiv情報

著者 Parth Paritosh,Nikolay Atanasov,Sonia Martinez
発行日 2025-03-23 20:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO, eess.SP | Distributed Bayesian Estimation in Sensor Networks: Consensus on Marginal Densities はコメントを受け付けていません