GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing

要約

GarmentCrafterを紹介します。これは、非専門的なユーザーがシングルビュー画像から3D衣服を作成および変更できる新しいアプローチです。
画像生成の最近の進歩により、2D衣服のデザインが促進されましたが、3D衣服の作成と編集は、非専門的なユーザーにとって依然として困難です。
シングルビュー3D再構成の既存の方法は、多くの場合、事前に訓練された生成モデルに依存して、参照画像とカメラのポーズ上の新しいビューの条件付けを合成しますが、クロスビューの一貫性がなく、異なるビューで内部関係をキャプチャできません。
この論文では、この課題にプログレッシブ深度予測とイメージワーピングを通じて、新しい見解を近似してこの課題に取り組みます。
その後、マルチビュー拡散モデルをトレーニングして、進化するカメラのポーズによって通知された、閉塞されていない未知の衣類領域を完全にします。
RGBと深さを共同で推測することにより、GarmentCrafterはインタービューのコヒーレンスを実施し、正確な形状と細かい詳細を再構築します。
広範な実験は、私たちの方法が、最先端のシングルビュー3D衣服の再構築方法と比較して、優れた視覚的忠実度と視点間の一貫性を達成することを示しています。

要約(オリジナル)

We introduce GarmentCrafter, a new approach that enables non-professional users to create and modify 3D garments from a single-view image. While recent advances in image generation have facilitated 2D garment design, creating and editing 3D garments remains challenging for non-professional users. Existing methods for single-view 3D reconstruction often rely on pre-trained generative models to synthesize novel views conditioning on the reference image and camera pose, yet they lack cross-view consistency, failing to capture the internal relationships across different views. In this paper, we tackle this challenge through progressive depth prediction and image warping to approximate novel views. Subsequently, we train a multi-view diffusion model to complete occluded and unknown clothing regions, informed by the evolving camera pose. By jointly inferring RGB and depth, GarmentCrafter enforces inter-view coherence and reconstructs precise geometries and fine details. Extensive experiments demonstrate that our method achieves superior visual fidelity and inter-view coherence compared to state-of-the-art single-view 3D garment reconstruction methods.

arxiv情報

著者 Yuanhao Wang,Cheng Zhang,Gonçalo Frazão,Jinlong Yang,Alexandru-Eugen Ichim,Thabo Beeler,Fernando De la Torre
発行日 2025-03-11 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | GarmentCrafter: Progressive Novel View Synthesis for Single-View 3D Garment Reconstruction and Editing はコメントを受け付けていません

CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving

要約

車両から車両への(V2V)協同的自律運転は、単一エージェントシステムに固有の認識と予測の不確実性に対処することにより、安全性を改善するための非常に有望です。
ただし、従来の協同的方法は、厳格なコラボレーションプロトコルと、目に見えないインタラクティブなシナリオに限られた一般化によって制約されています。
LLMベースのアプローチは一般化された推論能力を提供しますが、空間計画における課題と不安定な推論レイテンシーは、協同運転における直接的な適用を妨げます。
これらの制限に対処するために、最初のフルパイプラインLLMベースの協同運転システムであるColmdriverを提案し、効果的な言語ベースの交渉とリアルタイムの運転制御を可能にします。
colmdriverは、2つの重要なコンポーネントを備えた並列駆動パイプラインを備えています。(i)すべての車両の以前の決定からのフィードバックを通じて協力ポリシーを継続的に洗練する俳優criticパラダイムの下のLLMベースのネゴシエーションモジュール。
(ii)交渉の結果を実行可能ウェイポイントに変換する意図ガイド付きウェイポイントジェネレーター。
さらに、V2V協力を評価するための10の挑戦的なインタラクティブな運転シナリオで構成されるカーラベースのシミュレーションベンチマークであるInterdriveを紹介します。
実験結果は、Colmdriverが既存のアプローチを大幅に上回り、多様な高度にインタラクティブなV2V駆動シナリオで11%高い成功率を達成することを示しています。
コードはhttps://github.com/cxliu0314/colmdriverでリリースされます。

要約(オリジナル)

Vehicle-to-vehicle (V2V) cooperative autonomous driving holds great promise for improving safety by addressing the perception and prediction uncertainties inherent in single-agent systems. However, traditional cooperative methods are constrained by rigid collaboration protocols and limited generalization to unseen interactive scenarios. While LLM-based approaches offer generalized reasoning capabilities, their challenges in spatial planning and unstable inference latency hinder their direct application in cooperative driving. To address these limitations, we propose CoLMDriver, the first full-pipeline LLM-based cooperative driving system, enabling effective language-based negotiation and real-time driving control. CoLMDriver features a parallel driving pipeline with two key components: (i) an LLM-based negotiation module under an actor-critic paradigm, which continuously refines cooperation policies through feedback from previous decisions of all vehicles; and (ii) an intention-guided waypoint generator, which translates negotiation outcomes into executable waypoints. Additionally, we introduce InterDrive, a CARLA-based simulation benchmark comprising 10 challenging interactive driving scenarios for evaluating V2V cooperation. Experimental results demonstrate that CoLMDriver significantly outperforms existing approaches, achieving an 11% higher success rate across diverse highly interactive V2V driving scenarios. Code will be released on https://github.com/cxliu0314/CoLMDriver.

arxiv情報

著者 Changxing Liu,Genjia Liu,Zijun Wang,Jinchang Yang,Siheng Chen
発行日 2025-03-11 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MA | CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving はコメントを受け付けていません

‘Principal Components’ Enable A New Language of Images

要約

潜在的なトークン空間に証明可能なPCA様構造を埋め込む新しい視覚トークン化フレームワークを導入します。
既存の視覚トークンザーは主に再構成の忠実度のために最適化しますが、潜在空間の構造的特性を無視することがよくあります。これは、解釈可能性と下流のタスクの両方の重要な要因です。
私たちの方法は、画像の1D因果トークンシーケンスを生成します。各連続したトークンは、主成分分析に類似した数学的に保証された説明された説明の分散を数学的に保証する非重複情報を生成します。
この構造的制約により、トークン剤が最初に最も顕著な視覚的特徴を抽出し、その後のトークンが減少しているが補完的な情報を追加します。
さらに、拡散デコーダーを活用することにより、トークンの高レベルのセマンティックコンテンツと低レベルのスペクトル詳細の不要なエンタングルメントを引き起こすセマンティックスペクトルカップリング効果を特定して解決しました。
実験は、私たちのアプローチが最先端の再構成パフォーマンスを達成し、より良い解釈性が人間のビジョンシステムと整合することを可能にすることを示しています。
さらに、トークンシーケンスでトレーニングされた自動回帰モデルは、トレーニングと推論にはより少ないトークンを必要とする一方で、現在の最先端の方法に匹敵するパフォーマンスを実現します。

要約(オリジナル)

We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space — a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.

arxiv情報

著者 Xin Wen,Bingchen Zhao,Ismail Elezi,Jiankang Deng,Xiaojuan Qi
発行日 2025-03-11 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ‘Principal Components’ Enable A New Language of Images はコメントを受け付けていません

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

要約

統一されたマルチモーダル理解と視覚生成(またはマルチモーダル生成)モデルの最近の進歩は、大規模な計算の複雑さと大規模なトレーニングデータへの依存によって妨げられています。
統一された次のトークン予測パラダイムを介してテキストと画像の両方を生成する最初の線形アーキテクチャベースのマルチモーダル生成モデルであるOmnimambaを紹介します。
このモデルは、MAMBA-2の高い計算効率とメモリ効率を完全に活用し、テキスト生成からマルチモーダル生成に拡大します。
既存の統一モデルのデータ非効率性に対処するために、2つの重要なイノベーションを提案します。(1)モダリティ固有の生成を導くための語彙の分離された語彙、および(2)パラメーター効率の高い適応のためのタスク固有のLORA。
さらに、2つのタスク間のデータの不均衡を緩和するために、分離された2段階のトレーニング戦略を導入します。
これらのテクニックを備えたOmnimambaは、Show-Oの1,000倍少ない2mの画像テキストペアでトレーニングされているにもかかわらず、ベンチマーク全体でShow-Oを上回りながら、Janusflowで競争力のあるパフォーマンスを達成します。
特に、Omnimambaは優れた推論効率で際立っており、トランスベースの対応物と比較して、長いシーケンス生成で最大119.2倍のスピードアップと63%のGPUメモリ削減を達成しています。
コードとモデルはhttps://github.com/hustvl/omnimambaでリリースされます

要約(オリジナル)

Recent advancements in unified multimodal understanding and visual generation (or multimodal generation) models have been hindered by their quadratic computational complexity and dependence on large-scale training data. We present OmniMamba, the first linear-architecture-based multimodal generation model that generates both text and images through a unified next-token prediction paradigm. The model fully leverages Mamba-2’s high computational and memory efficiency, extending its capabilities from text generation to multimodal generation. To address the data inefficiency of existing unified models, we propose two key innovations: (1) decoupled vocabularies to guide modality-specific generation, and (2) task-specific LoRA for parameter-efficient adaptation. Furthermore, we introduce a decoupled two-stage training strategy to mitigate data imbalance between two tasks. Equipped with these techniques, OmniMamba achieves competitive performance with JanusFlow while surpassing Show-o across benchmarks, despite being trained on merely 2M image-text pairs, which is 1,000 times fewer than Show-o. Notably, OmniMamba stands out with outstanding inference efficiency, achieving up to a 119.2 times speedup and 63% GPU memory reduction for long-sequence generation compared to Transformer-based counterparts. Code and models are released at https://github.com/hustvl/OmniMamba

arxiv情報

著者 Jialv Zou,Bencheng Liao,Qian Zhang,Wenyu Liu,Xinggang Wang
発行日 2025-03-11 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models はコメントを受け付けていません

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

要約

長いビデオ理解における最近の進歩は、通常、注意分布に基づいて視覚トークン剪定を通じて視覚的冗長性を軽減します。
ただし、既存の方法では、デコーダー層での事後の低応答トークンプルーニングを使用していますが、視覚トークンと命令(クエリ)の間の入力レベルのセマンティック相関を見落としています。
このホワイトペーパーでは、クォータを提案します。クォータは、クエリ指向のフレームレベルの重要性評価に基づいて、視覚トークンの割り当て用に既存の大きなビデオ言語モデル(LVLMS)を拡張するアンティホックトレーニングフリーモジュラーです。
クエリ指向のトークン選択は、視覚処理をタスク固有の要件と整列させ、意味的に関連するコンテンツを保存しながらトークン予算の利用を最適化するため、重要です。
具体的には、(i)クォータは、クエリの関連性に基づいてフレームレベルの重要性スコアを戦略的に割り当て、デコーダー層でのクロスモーダルインタラクションの前に1回限りの視覚トークン割り当てを可能にします。
広範な実験結果は、LLAVA-Video-7Bでクォータを実装すると、ベースラインと同じ視覚トークン予算内で動作しながら、6つのベンチマーク(ビデオMMEおよびMLVUを含む)にわたって平均パフォーマンス改善が得られることを示しています。
コードはhttps://github.com/mac-automl/quotaでオープンソーシングされています。

要約(オリジナル)

Recent advances in long video understanding typically mitigate visual redundancy through visual token pruning based on attention distribution. However, while existing methods employ post-hoc low-response token pruning in decoder layers, they overlook the input-level semantic correlation between visual tokens and instructions (query). In this paper, we propose QuoTA, an ante-hoc training-free modular that extends existing large video-language models (LVLMs) for visual token assignment based on query-oriented frame-level importance assessment. The query-oriented token selection is crucial as it aligns visual processing with task-specific requirements, optimizing token budget utilization while preserving semantically relevant content. Specifically, (i) QuoTA strategically allocates frame-level importance scores based on query relevance, enabling one-time visual token assignment before cross-modal interactions in decoder layers, (ii) we decouple the query through Chain-of-Thoughts reasoning to facilitate more precise LVLM-based frame importance scoring, and (iii) QuoTA offers a plug-and-play functionality that extends to existing LVLMs. Extensive experimental results demonstrate that implementing QuoTA with LLaVA-Video-7B yields an average performance improvement of 3.2% across six benchmarks (including Video-MME and MLVU) while operating within an identical visual token budget as the baseline. Codes are open-sourced at https://github.com/MAC-AutoML/QuoTA.

arxiv情報

著者 Yongdong Luo,Wang Chen,Xiawu Zheng,Weizhong Huang,Shukang Yin,Haojia Lin,Chaoyou Fu,Jinfa Huang,Jiayi Ji,Jiebo Luo,Rongrong Ji
発行日 2025-03-11 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension はコメントを受け付けていません

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

要約

大規模なマルチモーダルモデル(LMMS)の推論の強化は、特に建築的制約が推論能力とモダリティアライメントを制限するコンパクトな3Bパラメーターアーキテクチャで、視覚的知覚と論理的推論の複雑な相互作用から独自の課題に直面しています。
ルールベースの強化学習(RL)はテキストのみのドメインに優れていますが、そのマルチモーダル拡張は2つの重要な障壁に直面しています:(1)曖昧な答えと希少な複雑な推論の例によるデータの制限、および(2)マルチモーダルな事前に誘発される基本的な推論を低下させます。
これらの課題に対処するために、\ textBf {Fondational Reasoning Enhancement(fre)}を介したマルチモーダル推論のルールベースのRLを適応させる2段階のフレームワークである\ textbf {lmm-r1}を提案します。
FREステージは、最初にルールベースのRLを使用したテキストのみのデータを使用して推論能力を強化し、次にMGTステージはこれらの推論機能をマルチモーダルドメインに一般化します。
QWEN2.5-VL-Instruct-3Bの実験は、LMM-R1がそれぞれマルチモーダルおよびテキストのみのベンチマークのベースラインで4.83 \%および4.5 \%の平均改善を達成し、複雑なフットボールゲームのタスクで3.63 \%のゲインを獲得することを示しています。
これらの結果は、テキストベースの推論強化により効果的なマルチモーダル一般化が可能になり、高品質のマルチモーダルトレーニングデータをバイパスするデータ効率の良いパラダイムを提供することを検証します。

要約(オリジナル)

Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \textbf{LMM-R1}, a two-stage framework adapting rule-based RL for multimodal reasoning through \textbf{Foundational Reasoning Enhancement (FRE)} followed by \textbf{Multimodal Generalization Training (MGT)}. The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that LMM-R1 achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

arxiv情報

著者 Yingzhe Peng,Gongrui Zhang,Miaosen Zhang,Zhiyuan You,Jie Liu,Qipeng Zhu,Kai Yang,Xingzhong Xu,Xin Geng,Xu Yang
発行日 2025-03-11 03:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL はコメントを受け付けていません

AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements

要約

人間のポーズ推定は、スポーツ科学、リハビリテーション、および生体力学的研究にまたがるアプリケーションを備えたコンピュータービジョンとスポーツの生体力学における重要なタスクです。
単眼3Dポーズ推定では大きな進歩がありましたが、現在のデータセットは、競争力のあるスポーツに典型的な複雑で高加速運動をキャプチャできないことがよくあります。
この作業では、このギャップに対処するために設計された新しいデータセットであるAthletepose3Dを紹介します。
Athletepose3Dには、さまざまな分野にわたる12種類のスポーツモーションが含まれており、約130万のフレームと165,000の個別の姿勢があり、特に高速で高加速運動運動を獲得しています。
データセット上の最先端の(SOTA)単眼2Dおよび3Dポーズ推定モデルを評価し、従来のデータセットでトレーニングされたモデルが運動式の動きでパフォーマンスが低いことを明らかにします。
ただし、Athletepose3Dでこれらのモデルを微調整すると、69%を超える69%を超える、214mm(MPJPE)あたりのSOTAモデル平均(MPJPE)が214mmから65mm-Aの減少を顕著に減少させます。
また、波形分析を通じて単眼のポーズ推定の運動学的精度を検証し、関節角の推定における強い相関関係を強調しますが、速度推定では制限を強調します。
私たちの仕事は、スポーツの文脈における単眼のポーズ推定モデルの包括的な評価を提供し、高性能スポーツ環境で単眼のポーズ推定技術を進めるための貴重な洞察を提供します。
データセット、コード、およびモデルチェックポイントは、https://github.com/calvinyeungck/athletepose3dで入手できます。

要約(オリジナル)

Human pose estimation is a critical task in computer vision and sports biomechanics, with applications spanning sports science, rehabilitation, and biomechanical research. While significant progress has been made in monocular 3D pose estimation, current datasets often fail to capture the complex, high-acceleration movements typical of competitive sports. In this work, we introduce AthletePose3D, a novel dataset designed to address this gap. AthletePose3D includes 12 types of sports motions across various disciplines, with approximately 1.3 million frames and 165 thousand individual postures, specifically capturing high-speed, high-acceleration athletic movements. We evaluate state-of-the-art (SOTA) monocular 2D and 3D pose estimation models on the dataset, revealing that models trained on conventional datasets perform poorly on athletic motions. However, fine-tuning these models on AthletePose3D notably reduces the SOTA model mean per joint position error (MPJPE) from 214mm to 65mm-a reduction of over 69%. We also validate the kinematic accuracy of monocular pose estimations through waveform analysis, highlighting strong correlations in joint angle estimations but limitations in velocity estimation. Our work provides a comprehensive evaluation of monocular pose estimation models in the context of sports, contributing valuable insights for advancing monocular pose estimation techniques in high-performance sports environments. The dataset, code, and model checkpoints are available at: https://github.com/calvinyeungck/AthletePose3D

arxiv情報

著者 Calvin Yeung,Tomohiro Suzuki,Ryota Tanaka,Zhuoer Yin,Keisuke Fujii
発行日 2025-03-11 16:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements はコメントを受け付けていません

Force Aware Branch Manipulation To Assist Agricultural Tasks

要約

この研究は、さまざまな農業タスクを支援するために支部を安全に操作する方法を提示します。
実際の農業環境の人間は、しばしば農業タスクを効果的に実行するために枝を操作しますが、現在の農業ロボットにはこの能力がありません。
枝を操作するためのこの提案された戦略は、密な葉のフルーツピッキング、閉塞の下で花を受粉し、ナビゲーションのための張り出しのブドウと枝を移動するなど、さまざまな精密な農業タスクに役立ちます。
提案された方法は、RRT*を変更して、ブランチの幾何学的制約を満たし、分岐の変形可能な特性に従うパスを計画します。
再計画は、ロボットが操作中に枝が損傷しないように、ロボットが目的の範囲内で力を発揮するのに役立つパスを取得するために行われます。
実験的には、この方法は50回の試行で78%の成功率を達成し、異なる出発点からターゲット領域にブランチを移動することに成功しました。

要約(オリジナル)

This study presents a methodology to safely manipulate branches to aid various agricultural tasks. Humans in a real agricultural environment often manipulate branches to perform agricultural tasks effectively, but current agricultural robots lack this capability. This proposed strategy to manipulate branches can aid in different precision agriculture tasks, such as fruit picking in dense foliage, pollinating flowers under occlusion, and moving overhanging vines and branches for navigation. The proposed method modifies RRT* to plan a path that satisfies the branch geometric constraints and obeys branch deformable characteristics. Re-planning is done to obtain a path that helps the robot exert force within a desired range so that branches are not damaged during manipulation. Experimentally, this method achieved a success rate of 78% across 50 trials, successfully moving a branch from different starting points to a target region.

arxiv情報

著者 Madhav Rijal,Rashik Shrestha,Trevor Smith,Yu Gu
発行日 2025-03-11 15:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Force Aware Branch Manipulation To Assist Agricultural Tasks はコメントを受け付けていません

TinySense: A Lighter Weight and More Power-efficient Avionics System for Flying Insect-scale Robots

要約

このホワイトペーパーでは、グラム未満の自律的な空飛ぶ昆虫ロボット(FIR)のセンサースイートに進歩を紹介します。
FIRは、体重とサイズが少ないため、材料コストとスケーラビリティの点で比類のない利点を提供します。
ただし、それらのサイズは、かなりの制御課題、特に高速ダイナミクス、制限された電力、および限られたペイロード容量をもたらします。
軽量センサーの開発には進歩があり、多くの場合生物システムからインスピレーションを得ていますが、モーションキャプチャシステムなどの外部センシングからのフィードバックに依存することなく、サブグラム航空機は持続的なホバーを達成することはできませんでした。
持続的なホバリングが可能な最も軽い車両 – 「センサーの自律性」の最初のレベル – は、はるかに大きい28 g crazyflieです。
以前の研究では、その車両のアビオニクススイートのサイズが187 mgと21 MWに減少したことが報告されていました。
ここでは、質量と電力のさらなる減少を78.4 mgと15 mWのみに報告します。
レーザーレンジファインダーをより軽量でより効率的な圧力センサーに置き換え、グローバルシッターイメージングチップの周りに小さな光学フローセンサーを構築しました。
Kalmanフィルター(KF)は、これらの測定値を融合させて、ホバーを制御するために必要な状態変数、つまりピッチ角、翻訳速度、高度を推定します。
私たちのシステムは、フライト中のCrazyFlieの推定器のパフォーマンスに匹敵するパフォーマンスを達成しました。これは、モーションキャプチャと比較して、それぞれ1.573度、0.186 m/s、および0.136 mの根平均四方誤差を備えています。

要約(オリジナル)

In this paper, we introduce advances in the sensor suite of an autonomous flying insect robot (FIR) weighing less than a gram. FIRs, because of their small weight and size, offer unparalleled advantages in terms of material cost and scalability. However, their size introduces considerable control challenges, notably high-speed dynamics, restricted power, and limited payload capacity. While there have been advancements in developing lightweight sensors, often drawing inspiration from biological systems, no sub-gram aircraft has been able to attain sustained hover without relying on feedback from external sensing such as a motion capture system. The lightest vehicle capable of sustained hovering — the first level of “sensor autonomy” — is the much larger 28 g Crazyflie. Previous work reported a reduction in size of that vehicle’s avionics suite to 187 mg and 21 mW. Here, we report a further reduction in mass and power to only 78.4 mg and 15 mW. We replaced the laser rangefinder with a lighter and more efficient pressure sensor, and built a smaller optic flow sensor around a global-shutter imaging chip. A Kalman Filter (KF) fuses these measurements to estimate the state variables that are needed to control hover: pitch angle, translational velocity, and altitude. Our system achieved performance comparable to that of the Crazyflie’s estimator while in flight, with root mean squared errors of 1.573 deg, 0.186 m/s, and 0.136 m, respectively, relative to motion capture.

arxiv情報

著者 Zhitao Yu,Joshua Tran,Claire Li,Aaron Weber,Yash P. Talwekar,Sawyer Fuller
発行日 2025-03-11 03:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | TinySense: A Lighter Weight and More Power-efficient Avionics System for Flying Insect-scale Robots はコメントを受け付けていません

FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates

要約

Federated Learning(FL)は、分散型の方法でモデルをトレーニングするための広く使用されているフレームワークであり、中央サーバーがローカルクライアントからのデータに直接アクセスできないようにします。
ただし、地元のクライアントからのモデルが集約プロセス中に中央サーバーにさらされるため、このアプローチはまだデータプライバシーを完全に維持できない可能性があります。
VLMはトレーニングデータインスタンスを簡単に記憶し、メンバーシップ推論攻撃(MIA)に対して脆弱になるため、FLでビジョン言語モデル(VLMS)をトレーニングすると、この問題がさらに重要になります。
この課題に対処するために、クライアントパラメーターの完全なセットの開示を避けるFedrandフレームワークを提案します。
このフレームワークでは、各クライアントはサーバーから低ランク適応(LORA)のサブパラメーターをランダムに選択し、LORAウェイトの残りの対応物をプライベートパラメーターとして保持します。
クライアントのプライベートデータセットで両方のパラメーターをトレーニングした後、非プライベートクライアントパラメーターのみが集約のためにサーバーに送り返されます。
このアプローチは、クライアント側のVLMパラメーターを公開するリスクを軽減し、それによりデータプライバシーを強化します。
Fedrandは、関連するベースラインと比較してMIAに対する堅牢性を改善しながら、いくつかのベンチマークデータセットで完全なLORAパラメーターを通信する方法に匹敵する精度を達成することを経験的に検証します。

要約(オリジナル)

Federated Learning (FL) is a widely used framework for training models in a decentralized manner, ensuring that the central server does not have direct access to data from local clients. However, this approach may still fail to fully preserve data privacy, as models from local clients are exposed to the central server during the aggregation process. This issue becomes even more critical when training vision-language models (VLMs) with FL, as VLMs can easily memorize training data instances, making them vulnerable to membership inference attacks (MIAs). To address this challenge, we propose the FedRand framework, which avoids disclosing the full set of client parameters. In this framework, each client randomly selects subparameters of Low-Rank Adaptation (LoRA) from the server and keeps the remaining counterparts of the LoRA weights as private parameters. After training both parameters on the client’s private dataset, only the non-private client parameters are sent back to the server for aggregation. This approach mitigates the risk of exposing client-side VLM parameters, thereby enhancing data privacy. We empirically validate that FedRand improves robustness against MIAs compared to relevant baselines while achieving accuracy comparable to methods that communicate full LoRA parameters across several benchmark datasets.

arxiv情報

著者 Sangwoo Park,Seanie Lee,Byungjoo Kim,Sung Ju Hwang
発行日 2025-03-11 12:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates はコメントを受け付けていません