Dynamic Benchmarks: Spatial and Temporal Alignment for ADS Performance Evaluation

要約

現在、米国の路上では、SAE レベル 4+ の自動運転システム (ADS) が人間のドライバーなしで導入され、配車サービスとして運用されています。
このテクノロジーの現在のユースケースと将来のアプリケーションによって、フリートがいつどこで動作するかが決まり、その結果、特定の地域内の一部の人間のベンチマーク人口の運転分布からの乖離が生じる可能性があります。
ADS のパフォーマンスを評価するための既存のベンチマークは、ADS とベンチマークの衝突率の影響を郡レベルで地理的に照合するだけでした。
この研究は、ADS と人間が運転するフリート全体の間の運転配分における空間的および時間的変動を調整する動的人間ベンチマークを構築するための新しい方法論を提示します。
動的ベンチマークは、人間の警察が報告した衝突データ、人間の車両走行距離 (VMT) データ、および米国の 3 つの郡にわたって蓄積された Waymo の乗客専用 (RO) 運用データの 2,000 万マイル以上を使用して生成されました。
空間調整により、未調整のベンチマークと比較した調整後の衝突率には、さまざまな重大度レベルで大きな差があることが明らかになり、その差はサンフランシスコで 10% ~ 47% 高く、マリコパで 12% ~ 20% 高、7% ~ 34% 高でした。
ロサンゼルスの郡で。
サンフランシスコでの時刻調整は、データの可用性によりこの地域に限定されており、重大度レベルに応じて、調整後の事故率は未調整の事故率より 2% 低く、16% 高くなりました。
この調査結果は、ベンチマーク分析における空間的および時間的交絡因子を調整することの重要性を強調しており、これが最終的には ADS パフォーマンス評価のより公平なベンチマークに貢献します。

要約(オリジナル)

Deployed SAE level 4+ Automated Driving Systems (ADS) without a human driver are currently operational ride-hailing fleets on surface streets in the United States. This current use case and future applications of this technology will determine where and when the fleets operate, potentially resulting in a divergence from the distribution of driving of some human benchmark population within a given locality. Existing benchmarks for evaluating ADS performance have only done county-level geographical matching of the ADS and benchmark driving exposure in crash rates. This study presents a novel methodology for constructing dynamic human benchmarks that adjust for spatial and temporal variations in driving distribution between an ADS and the overall human driven fleet. Dynamic benchmarks were generated using human police-reported crash data, human vehicle miles traveled (VMT) data, and over 20 million miles of Waymo’s rider-only (RO) operational data accumulated across three US counties. The spatial adjustment revealed significant differences across various severity levels in adjusted crash rates compared to unadjusted benchmarks with these differences ranging from 10% to 47% higher in San Francisco, 12% to 20% higher in Maricopa, and 7% lower to 34% higher in Los Angeles counties. The time-of-day adjustment in San Francisco, limited to this region due to data availability, resulted in adjusted crash rates 2% lower to 16% higher than unadjusted rates, depending on severity level. The findings underscore the importance of adjusting for spatial and temporal confounders in benchmarking analysis, which ultimately contributes to a more equitable benchmark for ADS performance evaluations.

arxiv情報

著者 Yin-Hsiu Chen,John M. Scanlon,Kristofer D. Kusano,Timothy L. McMurry,Trent Victor
発行日 2024-10-11 15:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Benchmarks: Spatial and Temporal Alignment for ADS Performance Evaluation はコメントを受け付けていません

Implicit Graph Search for Planning on Graphs of Convex Sets

要約

凸集合グラフ (GCS) は、計画空間を凸集合に分解し、分解内の隣接関係をエンコードするグラフを形成し、同時にこのグラフを検索し、軌道の一部を最適化して取得することで、滑らかな軌道を合成するための最近の方法です。
最後の軌跡。
これを行うには、混合整数凸計画 (MICP) を解く必要があります。計算時間を軽減するために、GCS は経験的に非常に厳密な凸緩和を提案します。
この厳しい緩和にもかかわらず、現実世界のロボット工学の問題に対する GCS による動作計画は、何百万もの制約が含まれる可能性があるため、時間がかかる可能性がある同時バッチ最適化問題を解決することになります。
この問題は、GCS 問題のサイズが計画クエリに対して不変であるという事実によってさらに悪化します。
軌跡の解が凸集合の一部にのみ存在するという観察に動機付けられ、凸集合のグラフを計画するための INSATxGCS (IxG) および IxG* と呼ばれる 2 つの暗黙的なグラフ探索手法を紹介します。
INterleaved Search And Trajectory optimization (INSAT) は、グラフ上の検索と部分パスの最適化を交互に行って滑らかな軌道を見つける、以前に開発されたアルゴリズムです。
凸集合のグラフに対して暗黙的なグラフ検索手法 INSAT を使用することにより、完全性と最適性のより強力な保証を確保しながら、より迅速な計画を実現します。
Moveover では、凸集合のグラフ上で計画を立てるための検索ベースの手法を導入することで、検索の並列化、遅延計画、随時計画、将来の作業としての再計画などの確立された手法を簡単に活用できるようになります。
GCS との数値比較により、18 自由度のマルチアーム アセンブリ シナリオの計画など、いくつかのアプリケーションにわたって IxG の優位性が実証されています。

要約(オリジナル)

Graphs of Convex Sets (GCS) is a recent method for synthesizing smooth trajectories by decomposing the planning space into convex sets, forming a graph to encode the adjacency relationships within the decomposition, and then simultaneously searching this graph and optimizing parts of the trajectory to obtain the final trajectory. To do this, one must solve a Mixed Integer Convex Program (MICP) and to mitigate computational time, GCS proposes a convex relaxation that is empirically very tight. Despite this tight relaxation, motion planning with GCS for real-world robotics problems translates to solving the simultaneous batch optimization problem that may contain millions of constraints and therefore can be slow. This is further exacerbated by the fact that the size of the GCS problem is invariant to the planning query. Motivated by the observation that the trajectory solution lies only on a fraction of the set of convex sets, we present two implicit graph search methods for planning on the graph of convex sets called INSATxGCS (IxG) and IxG*. INterleaved Search And Trajectory optimization (INSAT) is a previously developed algorithm that alternates between searching on a graph and optimizing partial paths to find a smooth trajectory. By using an implicit graph search method INSAT on the graph of convex sets, we achieve faster planning while ensuring stronger guarantees on completeness and optimality. Moveover, introducing a search-based technique to plan on the graph of convex sets enables us to easily leverage well-established techniques such as search parallelization, lazy planning, anytime planning, and replanning as future work. Numerical comparisons against GCS demonstrate the superiority of IxG across several applications, including planning for an 18-degree-of-freedom multi-arm assembly scenario.

arxiv情報

著者 Ramkumar Natarajan,Chaoqi Liu,Howie Choset,Maxim Likhachev
発行日 2024-10-11 15:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Implicit Graph Search for Planning on Graphs of Convex Sets はコメントを受け付けていません

Voxel-SLAM: A Complete, Accurate, and Versatile LiDAR-Inertial SLAM System

要約

この研究では、Voxel-SLAM を紹介します。これは、短期、中期、長期、およびマルチマップ データの関連付けを完全に活用して、リアルタイムの推定と
高精度マッピング。
このシステムは、初期化、オドメトリ、ローカル マッピング、ループ クロージャ、およびグローバル マッピングの 5 つのモジュールで構成されており、すべて同じマップ表現である適応ボクセル マップを採用しています。
初期化により、正確な初期状態推定と後続のモジュールの一貫したローカル マップが提供され、システムが非常に動的な初期状態で開始できるようになります。
オドメトリは、短期データの関連付けを利用して、現在の状態を迅速に推定し、潜在的なシステムの発散を検出します。
ローカル マッピングでは、中期データ関連付けを活用し、ローカル LiDAR 慣性バンドル調整 (BA) を使用して、最近の LiDAR スキャンのスライディング ウィンドウ内の状態 (およびローカル マップ) を調整します。
ループ クロージャは、現在および以前のすべてのセッションで以前に訪れた場所を検出します。
グローバル マッピングは、効率的な階層グローバル BA を使用してグローバル マップを改良します。
ループ クロージャとグローバル マッピングは両方とも、長期的なマルチマップ データの関連付けを利用します。
私たちは、携帯機器を使用した狭い屋内環境、航空機ロボットを使用した大規模な荒野環境、車両プラットフォーム上の都市環境を含む 3 つの代表的なシーンの 30 シーケンスにわたって、他の最先端の手法との包括的なベンチマーク比較を実施しました。
他の実験では、初期化の堅牢性と効率性、複数のセッションで動作する能力、縮退環境での再ローカリゼーションを実証しています。

要約(オリジナル)

In this work, we present Voxel-SLAM: a complete, accurate, and versatile LiDAR-inertial SLAM system that fully utilizes short-term, mid-term, long-term, and multi-map data associations to achieve real-time estimation and high precision mapping. The system consists of five modules: initialization, odometry, local mapping, loop closure, and global mapping, all employing the same map representation, an adaptive voxel map. The initialization provides an accurate initial state estimation and a consistent local map for subsequent modules, enabling the system to start with a highly dynamic initial state. The odometry, exploiting the short-term data association, rapidly estimates current states and detects potential system divergence. The local mapping, exploiting the mid-term data association, employs a local LiDAR-inertial bundle adjustment (BA) to refine the states (and the local map) within a sliding window of recent LiDAR scans. The loop closure detects previously visited places in the current and all previous sessions. The global mapping refines the global map with an efficient hierarchical global BA. The loop closure and global mapping both exploit long-term and multi-map data associations. We conducted a comprehensive benchmark comparison with other state-of-the-art methods across 30 sequences from three representative scenes, including narrow indoor environments using hand-held equipment, large-scale wilderness environments with aerial robots, and urban environments on vehicle platforms. Other experiments demonstrate the robustness and efficiency of the initialization, the capacity to work in multiple sessions, and relocalization in degenerated environments.

arxiv情報

著者 Zheng Liu,Haotian Li,Chongjian Yuan,Xiyuan Liu,Jiarong Lin,Rundong Li,Chunran Zheng,Bingyang Zhou,Wenyi Liu,Fu Zhang
発行日 2024-10-11 16:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Voxel-SLAM: A Complete, Accurate, and Versatile LiDAR-Inertial SLAM System はコメントを受け付けていません

Design and Control of an Omnidirectional Aerial Robot with a Miniaturized Haptic Joystick for Physical Interaction

要約

完全に作動する空中ロボットは、過去数年にわたり、空中物理的インタラクション (APhI) における優位性を証明してきました。
この研究では、空中遠隔操作のための最小限のセットアップを提案し、これらのテクノロジーのアクセシビリティを向上させます。
4-DoF 触覚フィードバックを備えた 6-DoF ジョイスティックの設計と制御が詳細に説明されています。
これは、APhI 用の標準リモート コントローラー (RC) フォーム ファクターを備えた最初の触覚デバイスです。
ハプティックデバイスを小型化することで、触覚によるRCを強化し、身体意識を高めます。
目標は、安全な APhI の実行を支援するために、オペレーターに視覚と聴覚以外の特別な感覚を与えることです。
著者の知る限り、これは各単軸入力コマンドを分離できる最初の遠隔操作システムです。
全方向性クアローターでは、新設計により部品点数を削減することで、メンテナンスの簡素化、力と推力の重量比の向上を目指しています。
オープンソースの物理ベースのシミュレーションと成功した予備飛行テストにより、このツールが将来の APhI アプリケーションに有望であることが強調されました。

要約(オリジナル)

Fully actuated aerial robot proved their superiority for Aerial Physical Interaction (APhI) over the past years. This work proposes a minimal setup for aerial telemanipulation, enhancing accessibility of these technologies. The design and the control of a 6-DoF joystick with 4-DoF haptic feedback is detailed. It is the first haptic device with standard Remote Controller (RC) form factor for APhI. By miniaturizing haptic device, it enhances RC with the sense of touch, increasing physical awareness. The goal is to give operators an extra sense, other than vision and sound, to help to perform safe APhI. To the best of the authors knowledge, this is the first teleoperation system able to decouple each single axis input command. On the omnidirectional quadrotor, by reducing the number of components with a new design, we aim a simplified maintenance, and improved force and thrust to weight ratio. Open-sourced physic based simulation and successful preliminary flight tests highlighted the tool as promising for future APhI applications.

arxiv情報

著者 Julien Mellet,Andrea Berra,Salvatore Marcellini,Miguel Ángel Trujillo Soto,Guillermo Heredia,Fabio Ruggiero,Vincenzo Lippiello
発行日 2024-10-11 17:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Design and Control of an Omnidirectional Aerial Robot with a Miniaturized Haptic Joystick for Physical Interaction はコメントを受け付けていません

Design and Performance Evaluation of an Elbow-Based Biomechanical Energy Harvester

要約

炭素排出は気候変動の増加が原因であると長い間考えられてきました。
ここ数年、気候変動の影響が深刻化する中、二酸化炭素排出量の主な原因となっている発電に代わる環境に優しい代替手段を見つける取り組みが強化されています。
出現した顕著な方法の 1 つは、生体力学的エネルギー、つまり人間の自然な動きに基づいてエネルギーを収集することです。
この研究では、肘関節におけるギアと発電機ベースの生体力学的エネルギーハーベスターを使用した発電の実現可能性を評価します。
この関節は、MediaPipe による腕の運動解析を使用して選択されました。この関節では、肘関節が歩行中にはるかに高い角速度を示し、したがってハーベスターを構築する場所としてより高い可能性が示されました。
日常動作を妨げないように脚部の関節は排除しました。
ギアとジェネレーターのタイプは、肘関節でのエネルギー生成を最大化するように決定されました。
この装置はギアボックスと発電機を使用して構築されました。
結果は、最適な抵抗を使用すると、最大 0.16 ワットを生成したことを示しています。
これは、肘関節ギアと発電機型バイオメカニクスエネルギーハーベスターによる発電の実現可能性を示しています。

要約(オリジナル)

Carbon emissions have long been attributed to the increase in climate change. With the effects of climate change escalating in the past few years, there has been an increased effort to find green alternatives to power generation, which has been a major contributor to carbon emissions. One prominent way that has arisen is biomechanical energy, or harvesting energy based on natural human movement. This study will evaluate the feasibility of electric generation using a gear and generator-based biomechanical energy harvester in the elbow joint. The joint was chosen using kinetic arm analysis through MediaPipe, in which the elbow joint showed much higher angular velocity during walking, thus showing more potential as a place to construct the harvester. Leg joints were excluded to not obstruct daily movement. The gear and generator type was decided to maximize energy production in the elbow joint. The device was constructed using a gearbox and a generator. The results show that it generated as much as 0.16 watts using the optimal resistance. This demonstrates the feasibility of electric generation with an elbow joint gear and generator-type biomechanical energy harvester.

arxiv情報

著者 Hubert Huang,Jeffrey Huang
発行日 2024-10-11 17:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | Design and Performance Evaluation of an Elbow-Based Biomechanical Energy Harvester はコメントを受け付けていません

An End-to-End Deep Learning Method for Solving Nonlocal Allen-Cahn and Cahn-Hilliard Phase-Field Models

要約

非局所的な Allen-Cahn (AC) および Cahn-Hilliard (CH) 位相場モデルを解決するための効率的なエンドツーエンドの深層学習方法を提案します。
この取り組みの動機の 1 つは、離散化された偏微分方程式に基づく AC または CH 位相場モデルでは位相間に拡散界面が生じ、修正の唯一の手段は真の移動位相付近の空間グリッドを厳密に調整することであるという事実から生じています。
ローカル グリッド サイズよりも大幅に大きい、グリッドに依存しないパラメータによって幅が決定されるシャープなインターフェイス。
この研究では、規則的、対数的、または障害物二重井戸ポテンシャルを備えた非質量保存非局所 AC または CH 位相場モデルを導入します。
非局所性のため、これらのモデルの一部は、位相を分離する完全に鋭い界面を特徴としています。
このようなモデルを離散化すると、幅が 1 つのグリッド セル幅しかないフェーズ間の遷移が発生する可能性があります。
もう 1 つの動機は、深層学習アプローチを使用して、離散化非局所位相場モデルを解く際の高コストを改善することです。
この目的を達成するために、カスタマイズされたニューラル ネットワークの損失関数は、フーリエ コロケーション法と時間的半陰的近似を適用した結果得られる、AC または CH モデルの完全離散近似の残差を使用して定義されます。
モデル内の長距離相互作用に対処するために、非ローカル カーネルを入力チャネルとしてニューラル ネットワーク モデルに組み込むことで、ニューラル ネットワークのアーキテクチャを調整します。
次に、広範な計算実験の結果を提供して、提案された方法の精度、構造保存特性、予測能力、コスト削減を説明します。

要約(オリジナル)

We propose an efficient end-to-end deep learning method for solving nonlocal Allen-Cahn (AC) and Cahn-Hilliard (CH) phase-field models. One motivation for this effort emanates from the fact that discretized partial differential equation-based AC or CH phase-field models result in diffuse interfaces between phases, with the only recourse for remediation is to severely refine the spatial grids in the vicinity of the true moving sharp interface whose width is determined by a grid-independent parameter that is substantially larger than the local grid size. In this work, we introduce non-mass conserving nonlocal AC or CH phase-field models with regular, logarithmic, or obstacle double-well potentials. Because of non-locality, some of these models feature totally sharp interfaces separating phases. The discretization of such models can lead to a transition between phases whose width is only a single grid cell wide. Another motivation is to use deep learning approaches to ameliorate the otherwise high cost of solving discretized nonlocal phase-field models. To this end, loss functions of the customized neural networks are defined using the residual of the fully discrete approximations of the AC or CH models, which results from applying a Fourier collocation method and a temporal semi-implicit approximation. To address the long-range interactions in the models, we tailor the architecture of the neural network by incorporating a nonlocal kernel as an input channel to the neural network model. We then provide the results of extensive computational experiments to illustrate the accuracy, structure-preserving properties, predictive capabilities, and cost reductions of the proposed method.

arxiv情報

著者 Yuwei Geng,Olena Burkovska,Lili Ju,Guannan Zhang,Max Gunzburger
発行日 2024-10-11 15:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | An End-to-End Deep Learning Method for Solving Nonlocal Allen-Cahn and Cahn-Hilliard Phase-Field Models はコメントを受け付けていません

Path-minimizing Latent ODEs for improved extrapolation and inference

要約

潜在 ODE モデルは動的システムの柔軟な記述を提供しますが、外挿や複雑な非線形力学を予測するのに苦労する可能性があります。
潜在 ODE アプローチは、未知のシステム パラメーターと初期条件を識別するために暗黙的にエンコーダーに依存しますが、評価時間は既知であり、ODE ソルバーに直接提供されます。
この二分法は、時間に依存しない潜在表現を奨励することで利用できます。
潜在空間における共通の変分ペナルティを各システムの経路長に対する $\ell_2$ ペナルティに置き換えることにより、モデルは、異なる構成を持つシステムのデータ表現と簡単に区別できるデータ表現を学習します。
これにより、減衰調和振動子、自己重力流体、および捕食者-被食者システムを使用したテストで、GRU、RNN、および LSTM エンコーダ/デコーダを使用したベースライン ODE モデルと比較して、より高速なトレーニング、より小さなモデル、より正確な内挿および長時間の外挿が可能になります。

また、条件付き正規化フローのデータ要約として潜在を使用することにより、ロトカ・ヴォルテラ パラメーターと初期条件のシミュレーション ベースの推論で優れた結果が得られることも実証します。
トレーニング損失に対する変更は、デコーダーによって使用される特定の認識ネットワークに依存しないため、他の潜在 ODE モデルにも簡単に採用できます。

要約(オリジナル)

Latent ODE models provide flexible descriptions of dynamic systems, but they can struggle with extrapolation and predicting complicated non-linear dynamics. The latent ODE approach implicitly relies on encoders to identify unknown system parameters and initial conditions, whereas the evaluation times are known and directly provided to the ODE solver. This dichotomy can be exploited by encouraging time-independent latent representations. By replacing the common variational penalty in latent space with an $\ell_2$ penalty on the path length of each system, the models learn data representations that can easily be distinguished from those of systems with different configurations. This results in faster training, smaller models, more accurate interpolation and long-time extrapolation compared to the baseline ODE models with GRU, RNN, and LSTM encoder/decoders on tests with damped harmonic oscillator, self-gravitating fluid, and predator-prey systems. We also demonstrate superior results for simulation-based inference of the Lotka-Volterra parameters and initial conditions by using the latents as data summaries for a conditional normalizing flow. Our change to the training loss is agnostic to the specific recognition network used by the decoder and can therefore easily be adopted by other latent ODE models.

arxiv情報

著者 Matt L. Sampson,Peter Melchior
発行日 2024-10-11 15:50:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.LG | Path-minimizing Latent ODEs for improved extrapolation and inference はコメントを受け付けていません

DiffPO: A causal diffusion model for learning distributions of potential outcomes

要約

観察データから介入の潜在的な結果を予測することは、医療における意思決定にとって重要ですが、因果推論という根本的な問題があるため、この作業は困難です。
既存の手法は主に、不確実な定量化を伴わない潜在的な結果の点推定に限定されています。
したがって、潜在的な結果の分布に関する完全な情報は通常無視されます。
この論文では、DiffPO と呼ばれる新しい因果拡散モデルを提案します。これは、潜在的な結果の分布を学習することにより、医学において信頼できる推論を行えるように慎重に設計されています。
私たちの DiffPO では、調整された条件付きノイズ除去拡散モデルを活用して複雑な分布を学習し、新しい直交拡散損失を通じて選択バイアスに対処します。
私たちの DiffPO 手法のもう 1 つの強みは、柔軟性が高いことです (たとえば、CATE などのさまざまな因果量を推定するためにも使用できます)。
幅広い実験を通じて、私たちの方法が最先端のパフォーマンスを達成することを示しました。

要約(オリジナル)

Predicting potential outcomes of interventions from observational data is crucial for decision-making in medicine, but the task is challenging due to the fundamental problem of causal inference. Existing methods are largely limited to point estimates of potential outcomes with no uncertain quantification; thus, the full information about the distributions of potential outcomes is typically ignored. In this paper, we propose a novel causal diffusion model called DiffPO, which is carefully designed for reliable inferences in medicine by learning the distribution of potential outcomes. In our DiffPO, we leverage a tailored conditional denoising diffusion model to learn complex distributions, where we address the selection bias through a novel orthogonal diffusion loss. Another strength of our DiffPO method is that it is highly flexible (e.g., it can also be used to estimate different causal quantities such as CATE). Across a wide range of experiments, we show that our method achieves state-of-the-art performance.

arxiv情報

著者 Yuchen Ma,Valentyn Melnychuk,Jonas Schweisthal,Stefan Feuerriegel
発行日 2024-10-11 15:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DiffPO: A causal diffusion model for learning distributions of potential outcomes はコメントを受け付けていません

Enhancing Motion Variation in Text-to-Motion Models via Pose and Video Conditioned Editing

要約

テキストの説明から人間のポーズのシーケンスを生成するテキストモーションモデルが大きな注目を集めています。
ただし、データが不足しているため、これらのモデルが生成できる動作の範囲は依然として制限されています。
たとえば、現在のテキストモーションモデルでは、トレーニングデータには武道のキックしか含まれていないため、足の甲でサッカーボールを蹴るモーションを生成することはできません。
我々は、既存の基本動作を修正するための条件として短いビデオクリップまたは画像を使用する新しい方法を提案します。
このアプローチでは、モデルによるキックの理解が事前として機能し、サッカーのキックのビデオまたは画像が事後として機能し、目的のモーションの生成を可能にします。
これらの追加のモダリティを条件として組み込むことで、私たちの方法はトレーニング セットに存在しないモーションを作成し、テキストモーション データセットの制限を克服できます。
26 人の参加者を対象としたユーザー調査では、私たちのアプローチが、歩く、走る、しゃがむ、蹴るなど、テキストモーション データセット (HumanML3D など) で一般的に表現されるモーションに匹敵する、リアリズムのある目に見えないモーションを生成することが実証されました。

要約(オリジナル)

Text-to-motion models that generate sequences of human poses from textual descriptions are garnering significant attention. However, due to data scarcity, the range of motions these models can produce is still limited. For instance, current text-to-motion models cannot generate a motion of kicking a football with the instep of the foot, since the training data only includes martial arts kicks. We propose a novel method that uses short video clips or images as conditions to modify existing basic motions. In this approach, the model’s understanding of a kick serves as the prior, while the video or image of a football kick acts as the posterior, enabling the generation of the desired motion. By incorporating these additional modalities as conditions, our method can create motions not present in the training set, overcoming the limitations of text-motion datasets. A user study with 26 participants demonstrated that our approach produces unseen motions with realism comparable to commonly represented motions in text-motion datasets (e.g., HumanML3D), such as walking, running, squatting, and kicking.

arxiv情報

著者 Clayton Leite,Yu Xiao
発行日 2024-10-11 15:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhancing Motion Variation in Text-to-Motion Models via Pose and Video Conditioned Editing はコメントを受け付けていません

The Effect of Personalization in FedProx: A Fine-grained Analysis on Statistical Accuracy and Communication Efficiency

要約

FedProx は、正則化によるモデルのパーソナライゼーションを可能にする、シンプルかつ効果的なフェデレーテッド ラーニング手法です。
実際には目覚ましい成功を収めているにもかかわらず、このような正則化によって各クライアントのローカル モデルの統計的精度がどのように向上するのかについての厳密な分析は完全には確立されていません。
正則化の強度をヒューリスティックに設定することにはリスクがあり、不適切な選択は精度を低下させる可能性もあります。
この研究では、統計的精度に対する正則化の影響を分析することでギャップを埋め、パーソナライゼーションを実現するための正則化の強度を設定するための理論的なガイドラインを提供します。
さまざまな統計的不均一性の下で正則化の強度を適応的に選択することにより、FedProx は一貫して純粋なローカル トレーニングを上回り、最小最適に近い統計レートを達成できることを証明します。
さらに、リソース割り当てを明らかにするために、アルゴリズムを設計し、より強力なパーソナライゼーションにより、計算コストのオーバーヘッドを増加させることなく通信の複雑性が軽減されることを実証しました。
最後に、私たちの理論は合成データセットと現実世界のデータセットの両方で検証され、その一般化可能性が非凸設定で検証されます。

要約(オリジナル)

FedProx is a simple yet effective federated learning method that enables model personalization via regularization. Despite remarkable success in practice, a rigorous analysis of how such a regularization provably improves the statistical accuracy of each client’s local model hasn’t been fully established. Setting the regularization strength heuristically presents a risk, as an inappropriate choice may even degrade accuracy. This work fills in the gap by analyzing the effect of regularization on statistical accuracy, thereby providing a theoretical guideline for setting the regularization strength for achieving personalization. We prove that by adaptively choosing the regularization strength under different statistical heterogeneity, FedProx can consistently outperform pure local training and achieve a nearly minimax-optimal statistical rate. In addition, to shed light on resource allocation, we design an algorithm, provably showing that stronger personalization reduces communication complexity without increasing the computation cost overhead. Finally, our theory is validated on both synthetic and real-world datasets and its generalizability is verified in a non-convex setting.

arxiv情報

著者 Xin Yu,Zelin He,Ying Sun,Lingzhou Xue,Runze Li
発行日 2024-10-11 16:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.ST, stat.CO, stat.ML, stat.TH | The Effect of Personalization in FedProx: A Fine-grained Analysis on Statistical Accuracy and Communication Efficiency はコメントを受け付けていません