QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction

要約

3D占有予測は、環境構造とセマンティクスの包括的な認識を可能にするため、堅牢な自律運転システムにとって重要です。
ほとんどの既存の方法は、密なボクセルベースのシーン表現を採用しており、運転シーンのスパースを無視し、非効率性をもたらします。
最近の作品は、まばらなガウスに基づいたオブジェクト中心の表現を探求していますが、それらの楕円形の形状は、多様な構造のモデリングを以前に制限します。
現実世界の運転シーンでは、オブジェクトは豊富な幾何学(たとえば、立方体、シリンダー、不規則な形状)を示し、正確なモデリングのために密に密集した過度の楕円形ガウス人を必要とし、非効率的な表現につながります。
これに対処するために、幾何学的に表現力豊かなスーパークエードリックをシーンプリミティブとして使用することを提案し、固有の形状の多様性を通じてより少ないプリミティブを持つ複雑な構造の効率的な表現を可能にします。
確率論的なスーパークアドリック混合モデルを開発します。これは、それぞれのスーパークアドリックを、対応するジオメトリの事前で占有確率分布として解釈し、確率的混合物を介してセマンティクスを計算します。
これに基づいて、効率的な3D占有予測のための超四半期ベースのモデルであるQuadricFormerを提示し、占有地域に超平測を集中させることによりモデリング効率をさらに強化するための剪定とスプリットモジュールを導入します。
Nuscenesデータセットでの広範な実験は、Quadricformerが優れた効率を維持しながら最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

3D occupancy prediction is crucial for robust autonomous driving systems as it enables comprehensive perception of environmental structures and semantics. Most existing methods employ dense voxel-based scene representations, ignoring the sparsity of driving scenes and resulting in inefficiency. Recent works explore object-centric representations based on sparse Gaussians, but their ellipsoidal shape prior limits the modeling of diverse structures. In real-world driving scenes, objects exhibit rich geometries (e.g., cuboids, cylinders, and irregular shapes), necessitating excessive ellipsoidal Gaussians densely packed for accurate modeling, which leads to inefficient representations. To address this, we propose to use geometrically expressive superquadrics as scene primitives, enabling efficient representation of complex structures with fewer primitives through their inherent shape diversity. We develop a probabilistic superquadric mixture model, which interprets each superquadric as an occupancy probability distribution with a corresponding geometry prior, and calculates semantics through probabilistic mixture. Building on this, we present QuadricFormer, a superquadric-based model for efficient 3D occupancy prediction, and introduce a pruning-and-splitting module to further enhance modeling efficiency by concentrating superquadrics in occupied regions. Extensive experiments on the nuScenes dataset demonstrate that QuadricFormer achieves state-of-the-art performance while maintaining superior efficiency.

arxiv情報

著者 Sicheng Zuo,Wenzhao Zheng,Xiaoyong Han,Longchao Yang,Yong Pan,Jiwen Lu
発行日 2025-06-12 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction はコメントを受け付けていません

Fine-Grained Perturbation Guidance via Attention Head Selection

要約

拡散モデルの最近のガイダンス方法は、モデルを摂動させて暗黙の弱いモデルを構築し、そこから生成をガイドすることにより逆サンプリングを操作します。
これらのアプローチの中で、注意摂​​動は、分類器のないガイダンスが適用されない無条件のシナリオで強力な経験的パフォーマンスを実証しています。
ただし、既存の注意摂動方法には、特に拡散トランス(DIT)アーキテクチャでの摂動が適用される場所を決定するための原則的なアプローチがありません。
この論文では、レイヤーレベルから個々の注意ヘッドに至るまで、注意摂​​動の粒度を調査し、特定のヘッドが構造、スタイル、テクスチャの品質などの明確な視覚概念を支配することを発見します。
この洞察に基づいて、「ヘッドハンター」を提案します。これは、ユーザー中心の目標と整合する注意ヘッドを繰り返し選択するための体系的なフレームワークであり、世代の品質と視覚属性をきれいに制御できるようにします。
さらに、選択した各ヘッドの注意マップをアイデンティティマトリックスに直線的に補間するソフトパグを導入し、連続ノブを提供して摂動強度を調整し、アーティファクトを抑制します。
私たちのアプローチは、既存のレイヤーレベルの摂動の過剰な問題を軽減するだけでなく、構成ヘッド選択を通じて特定の視覚スタイルの標的操作を可能にします。
安定した拡散3やフラックス1を含む最新の大規模なDITベースのテキストから画像モデルでの方法を検証し、一般的な品質向上とスタイル固有のガイダンスの両方で優れたパフォーマンスを実証します。
私たちの研究は、拡散モデルにおける注意摂動の最初のヘッドレベル分析を提供し、注意層内の解釈可能な専門化を明らかにし、効果的な摂動戦略の実用的な設計を可能にします。

要約(オリジナル)

Recent guidance methods in diffusion models steer reverse sampling by perturbing the model to construct an implicit weak model and guide generation away from it. Among these approaches, attention perturbation has demonstrated strong empirical performance in unconditional scenarios where classifier-free guidance is not applicable. However, existing attention perturbation methods lack principled approaches for determining where perturbations should be applied, particularly in Diffusion Transformer (DiT) architectures where quality-relevant computations are distributed across layers. In this paper, we investigate the granularity of attention perturbations, ranging from the layer level down to individual attention heads, and discover that specific heads govern distinct visual concepts such as structure, style, and texture quality. Building on this insight, we propose ‘HeadHunter’, a systematic framework for iteratively selecting attention heads that align with user-centric objectives, enabling fine-grained control over generation quality and visual attributes. In addition, we introduce SoftPAG, which linearly interpolates each selected head’s attention map toward an identity matrix, providing a continuous knob to tune perturbation strength and suppress artifacts. Our approach not only mitigates the oversmoothing issues of existing layer-level perturbation but also enables targeted manipulation of specific visual styles through compositional head selection. We validate our method on modern large-scale DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1, demonstrating superior performance in both general quality enhancement and style-specific guidance. Our work provides the first head-level analysis of attention perturbation in diffusion models, uncovering interpretable specialization within attention layers and enabling practical design of effective perturbation strategies.

arxiv情報

著者 Donghoon Ahn,Jiwon Kang,Sanghyun Lee,Minjae Kim,Jaewon Min,Wooseok Jang,Saungwu Lee,Sayak Paul,Susung Hong,Seungryong Kim
発行日 2025-06-12 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Fine-Grained Perturbation Guidance via Attention Head Selection はコメントを受け付けていません

InstaInpaint: Instant 3D-Scene Inpainting with Masked Large Reconstruction Model

要約

3Dシーンの再構築における最近の進歩により、仮想現実と拡張現実でのリアルタイムの視聴が可能になります。
オブジェクトの移動や編集など、より良い没入感のためにインタラクティブな操作をサポートするために、3Dシーンの入力メソッドが変更されたジオメトリを修復または完了するために提案されています。
ただし、現在のアプローチは、長期にわたる計算集中的な最適化に依存しているため、リアルタイムまたはオンラインのアプリケーションでは実用的ではありません。
InstainPaintを提案します。これは、0.4秒以内に2Dのインペインティング提案から3Dシーンのインペインティングを生成する参照ベースのフィードフォワードフレームワークです。
大規模なデータセットでカスタム大規模再構成モデ​​ル(LRM)のトレーニングを可能にするために、自己監視されたマスクされたマスク導入戦略を開発します。
広範な実験を通じて、一般化、テクスチャの一貫性、幾何学的正しさを改善するいくつかの重要な設計を分析して特定します。
InstainPaintは、2つの標準ベンチマークで最先端のパフォーマンスを維持しながら、以前の方法から1000倍のスピードアップを実現します。
さらに、InstainPaintは、オブジェクトの挿入やマルチレジョンインペインティングなどの柔軟なダウンストリームアプリケーションによく一般化することを示しています。
その他のビデオ結果は、プロジェクトページのページで入手できます:https://dhmbb2.github.io/instainpaint_page/。

要約(オリジナル)

Recent advances in 3D scene reconstruction enable real-time viewing in virtual and augmented reality. To support interactive operations for better immersiveness, such as moving or editing objects, 3D scene inpainting methods are proposed to repair or complete the altered geometry. However, current approaches rely on lengthy and computationally intensive optimization, making them impractical for real-time or online applications. We propose InstaInpaint, a reference-based feed-forward framework that produces 3D-scene inpainting from a 2D inpainting proposal within 0.4 seconds. We develop a self-supervised masked-finetuning strategy to enable training of our custom large reconstruction model (LRM) on the large-scale dataset. Through extensive experiments, we analyze and identify several key designs that improve generalization, textural consistency, and geometric correctness. InstaInpaint achieves a 1000x speed-up from prior methods while maintaining a state-of-the-art performance across two standard benchmarks. Moreover, we show that InstaInpaint generalizes well to flexible downstream applications such as object insertion and multi-region inpainting. More video results are available at our project page: https://dhmbb2.github.io/InstaInpaint_page/.

arxiv情報

著者 Junqi You,Chieh Hubert Lin,Weijie Lyu,Zhengbo Zhang,Ming-Hsuan Yang
発行日 2025-06-12 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InstaInpaint: Instant 3D-Scene Inpainting with Masked Large Reconstruction Model はコメントを受け付けていません

SceneCompleter: Dense 3D Scene Completion for Generative Novel View Synthesis

要約

生成モデルは、密なマルチビューキャプチャへの依存を軽減することにより、新しいビュー合成(NVS)に大きな注目を集めています。
ただし、既存の方法は通常、従来のパラダイムに分類されます。このパラダイムは、生成モデルが最初に2Dで欠落している領域を完全に完成させ、その後、シーンを再構築するために3D回復技術が続きます。これにより、生成モデルはRGBデータからのみ3D構造を推測するのに苦労するため、過度に滑らかな表面と歪んだジオメトリがしばしばなります。
この論文では、密な3Dシーンの完了を通じて3D親和的な生成新規ビューの合成を達成する新しいフレームワークであるSceneCompleterを提案します。
SceneCompleterは、2つの重要なコンポーネントを使用して、視覚的コヒーレンスと3D結合的な生成シーンの完成の両方を実現します。(1)RGBD空間での新しいビューを共同で合成するジオメトリデュアルストリーム拡散モデル。
(2)参照画像からより全体的なシーンの理解をコードするシーンの埋め込み。
構造情報とテクスチャ情報を効果的に合法化することにより、私たちの方法は、多様なデータセット全体で生成された新規ビューの合成における優れた一貫性と妥当性を示しています。
プロジェクトページ:https://chen-wl20.github.io/scenecompleter

要約(オリジナル)

Generative models have gained significant attention in novel view synthesis (NVS) by alleviating the reliance on dense multi-view captures. However, existing methods typically fall into a conventional paradigm, where generative models first complete missing areas in 2D, followed by 3D recovery techniques to reconstruct the scene, which often results in overly smooth surfaces and distorted geometry, as generative models struggle to infer 3D structure solely from RGB data. In this paper, we propose SceneCompleter, a novel framework that achieves 3D-consistent generative novel view synthesis through dense 3D scene completion. SceneCompleter achieves both visual coherence and 3D-consistent generative scene completion through two key components: (1) a geometry-appearance dual-stream diffusion model that jointly synthesizes novel views in RGBD space; (2) a scene embedder that encodes a more holistic scene understanding from the reference image. By effectively fusing structural and textural information, our method demonstrates superior coherence and plausibility in generative novel view synthesis across diverse datasets. Project Page: https://chen-wl20.github.io/SceneCompleter

arxiv情報

著者 Weiliang Chen,Jiayi Bi,Yuanhui Huang,Wenzhao Zheng,Yueqi Duan
発行日 2025-06-12 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SceneCompleter: Dense 3D Scene Completion for Generative Novel View Synthesis はコメントを受け付けていません

Aspect-Based Opinion Summarization with Argumentation Schemes

要約

レビューは、オンラインショッピングで購入決定を下す顧客にとって貴重なリソースです。
ただし、顧客が膨大な数のレビューを調べて、自動意見の要約システムの必要性を促す顕著な意見を手動で結論付けることは非現実的です。
抽出または抽象的な以前のアプローチは、接地されたアスペクト中心の概要を自動的に生成する際の課題に直面しています。
この論文では、証拠を支持する側面の観点から主要な意見を捉えるだけでなく、事前に定義された一連の側面に頼らずにさまざまなドメインに適応する新しい要約システムを提案します。
提案されたフレームワークであるAsesumは、アスペクト中心の議論を抽出し、その顕著性と妥当性を測定することにより、製品の重要な側面に関連する視点をまとめたものです。
現実世界のデータセットで実験を実施して、新規および既存の方法と比較して、元のレビューの多様な視点をキャプチャする際のアプローチの優位性を実証します。

要約(オリジナル)

Reviews are valuable resources for customers making purchase decisions in online shopping. However, it is impractical for customers to go over the vast number of reviews and manually conclude the prominent opinions, which prompts the need for automated opinion summarization systems. Previous approaches, either extractive or abstractive, face challenges in automatically producing grounded aspect-centric summaries. In this paper, we propose a novel summarization system that not only captures predominant opinions from an aspect perspective with supporting evidence, but also adapts to varying domains without relying on a pre-defined set of aspects. Our proposed framework, ASESUM, summarizes viewpoints relevant to the critical aspects of a product by extracting aspect-centric arguments and measuring their salience and validity. We conduct experiments on a real-world dataset to demonstrate the superiority of our approach in capturing diverse perspectives of the original reviews compared to new and existing methods.

arxiv情報

著者 Wendi Zhou,Ameer Saadat-Yazdi,Nadin Kokciyan
発行日 2025-06-12 14:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aspect-Based Opinion Summarization with Argumentation Schemes はコメントを受け付けていません

CoRT: Code-integrated Reasoning within Thinking

要約

O1やDeepSeek-R1などの大規模な推論モデル(LRMS)は、長い考え方(COT)を使用して自然言語の推論において顕著な進歩を示していますが、複雑な数学操作を処理する際には非効率的または不正確なままです。
計算ツール(例:計算ライブラリやシンボリックソルバーなど)を介したこれらの制限に対処することは有望ですが、技術的な課題を導入します。コードインタープリター(CI)は、モデルの内部テキスト表現を超えて外部の知識をもたらすため、直接的な組み合わせは効率的ではありません。
このペーパーでは、LRMSにCIを効果的かつ効率的に活用するための訓練後のフレームワークであるCORTを紹介します。
最初のステップとして、LRM-CI相互作用を最適化するために適切な位置に異なるヒントを戦略的に挿入するヒントエンジニアリングを通じて、コード統合推論データを合成することにより、データ不足の問題に対処します。
30の高品質サンプルを手動で作成します。このサンプルは、1.5Bから32Bのパラメーターの範囲のトレイン後モデルを作成し、微調整、拒否の微調整、強化学習を備えています。
私たちの実験結果は、ヒントエンジニアリングモデルが5つの挑戦的な数学的推論データセットにわたって、それぞれdeepseek-r1-distill-qwen-32bおよびdeepseek-r1-distill-qwen-1.5bで4 \%および8 \%の絶対改善を達成することを示しています。
さらに、ヒントエンジニアリングモデルは、32Bモデルでは約30 \%少ないトークンを使用し、自然言語モデルと比較して1.5Bモデルでは50 \%少ないトークンを使用します。
モデルとコードは、https://github.com/chengpengli1003/cortで入手できます。

要約(オリジナル)

Large Reasoning Models (LRMs) like o1 and DeepSeek-R1 have shown remarkable progress in natural language reasoning with long chain-of-thought (CoT), yet they remain inefficient or inaccurate when handling complex mathematical operations. Addressing these limitations through computational tools (e.g., computation libraries and symbolic solvers) is promising, but it introduces a technical challenge: Code Interpreter (CI) brings external knowledge beyond the model’s internal text representations, thus the direct combination is not efficient. This paper introduces CoRT, a post-training framework for teaching LRMs to leverage CI effectively and efficiently. As a first step, we address the data scarcity issue by synthesizing code-integrated reasoning data through Hint-Engineering, which strategically inserts different hints at appropriate positions to optimize LRM-CI interaction. We manually create 30 high-quality samples, upon which we post-train models ranging from 1.5B to 32B parameters, with supervised fine-tuning, rejection fine-tuning and reinforcement learning. Our experimental results demonstrate that Hint-Engineering models achieve 4\% and 8\% absolute improvements on DeepSeek-R1-Distill-Qwen-32B and DeepSeek-R1-Distill-Qwen-1.5B respectively, across five challenging mathematical reasoning datasets. Furthermore, Hint-Engineering models use about 30\% fewer tokens for the 32B model and 50\% fewer tokens for the 1.5B model compared with the natural language models. The models and code are available at https://github.com/ChengpengLi1003/CoRT.

arxiv情報

著者 Chengpeng Li,Zhengyang Tang,Ziniu Li,Mingfeng Xue,Keqin Bao,Tian Ding,Ruoyu Sun,Benyou Wang,Xiang Wang,Junyang Lin,Dayiheng Liu
発行日 2025-06-12 12:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | CoRT: Code-integrated Reasoning within Thinking はコメントを受け付けていません

MMME: A Spontaneous Multi-Modal Micro-Expression Dataset Enabling Visual-Physiological Fusion

要約

マイクロ発現(ME)は、個人の真の感情的状態を明らかにする微妙でつかの間の非言語的手がかりです。
彼らの分析は、ヘルスケア、犯罪捜査、人間のコンピューターの相互作用などの分野での有望なアプリケーションのために、かなりの関心を集めています。
しかし、既存のME研究は単一の視覚的モダリティに限定されており、他の生理学的モダリティによって伝えられた豊かな感情情報を見落とし、MEの認識と実用的なアプリケーションのニーズをはるかに下回るパフォーマンスを発見します。
したがって、MEの視覚的特徴と生理学的シグナル(PS)の間のクロスモーダル関連メカニズムを調査し、マルチモーダル融合フレームワークの開発は、ME分析を進めるための極めて重要なステップを表しています。
この研究では、新しいMEデータセットであるMMMEを紹介します。これは、初めて、顔の行動信号(MES)、中枢神経系シグナル(EEG)、および末梢PS(PPG、RSP、SKT、EDA、およびECG)の同期コレクションを可能にします。
既存のMEコーパスの制約を克服することにより、MMMEは634 MES、2,841マクロ発現(MAES)、および同期されたマルチモーダルPSの2,890回の試験で構成され、MEニューラルメカニズムを調査し、マルチモーダル融合ベースの分析を実施するための堅牢な基盤を確立します。
広範な実験では、データセットの信頼性を検証し、ME分析にベンチマークを提供し、MESとPSを統合することで認識とスポッティングのパフォーマンスが大幅に向上することを示しています。
私たちの知る限り、MMMEは、モダリティの多様性の観点から、これまでで最も包括的なMEデータセットです。
MESの神経メカニズムを調査し、視覚生理学的相乗効果を明らかにするための重要なデータサポートを提供し、ME研究のパラダイムシフトを単一モダリティの視覚分析からマルチモーダル融合に駆り立てます。
データセットは、このペーパーを受け入れると公開されます。

要約(オリジナル)

Micro-expressions (MEs) are subtle, fleeting nonverbal cues that reveal an individual’s genuine emotional state. Their analysis has attracted considerable interest due to its promising applications in fields such as healthcare, criminal investigation, and human-computer interaction. However, existing ME research is limited to single visual modality, overlooking the rich emotional information conveyed by other physiological modalities, resulting in ME recognition and spotting performance far below practical application needs. Therefore, exploring the cross-modal association mechanism between ME visual features and physiological signals (PS), and developing a multimodal fusion framework, represents a pivotal step toward advancing ME analysis. This study introduces a novel ME dataset, MMME, which, for the first time, enables synchronized collection of facial action signals (MEs), central nervous system signals (EEG), and peripheral PS (PPG, RSP, SKT, EDA, and ECG). By overcoming the constraints of existing ME corpora, MMME comprises 634 MEs, 2,841 macro-expressions (MaEs), and 2,890 trials of synchronized multimodal PS, establishing a robust foundation for investigating ME neural mechanisms and conducting multimodal fusion-based analyses. Extensive experiments validate the dataset’s reliability and provide benchmarks for ME analysis, demonstrating that integrating MEs with PS significantly enhances recognition and spotting performance. To the best of our knowledge, MMME is the most comprehensive ME dataset to date in terms of modality diversity. It provides critical data support for exploring the neural mechanisms of MEs and uncovering the visual-physiological synergistic effects, driving a paradigm shift in ME research from single-modality visual analysis to multimodal fusion. The dataset will be publicly available upon acceptance of this paper.

arxiv情報

著者 Chuang Ma,Yu Pei,Jianhang Zhang,Shaokai Zhao,Bowen Ji,Liang Xie,Ye Yan,Erwei Yin
発行日 2025-06-12 03:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMME: A Spontaneous Multi-Modal Micro-Expression Dataset Enabling Visual-Physiological Fusion はコメントを受け付けていません

SACA: A Scenario-Aware Collision Avoidance Framework for Autonomous Vehicles Integrating LLMs-Driven Reasoning

要約

極端な状況下での信頼できる衝突回避は、自動運転車にとって依然として重要な課題です。
大規模な言語モデル(LLM)は有望な推論能力を提供しますが、安全性の高い回避操作への適用は、遅延と堅牢性の問題によって制限されます。
それでも、LLMSは、感情的、法的、倫理的要因を比較検討する能力で際立っており、社会的責任と文脈を意識した衝突回避を可能にします。
このペーパーでは、予測シナリオの評価、データ駆動型の推論、およびシナリオと衝突回避の意思決定を改善するために、予測シナリオの評価、データ駆動型の推論、シナリオ – プレービューベースの展開を統合することにより、極端な状況のためのシナリオ認識衝突回避(SACA)フレームワークを提案します。
SACAは3つの重要なコンポーネントで構成されています。
まず、予測シナリオ分析モジュールは、障害物の到達可能性分析と運動意図予測を利用して、包括的な状況プロンプトを構築します。
第二に、オンライン推論モジュールは、以前の衝突回避知識を活用し、シナリオデータを微調整することにより、意思決定を改善します。
第三に、オフライン評価モジュールはパフォーマンスを評価し、メモリバンクのシナリオを保存します。
さらに、事前計算されたポリシー方法により、シナリオのプレビューと類似性と信頼レベルに基づいてポリシーを取得または推論することにより、展開性が向上します。
実際の車両テストは、ベースラインの方法と比較して、SACAが極端な高リスクシナリオで衝突損失を効果的に減らし、複雑な条件下での誤トリガーを低下させることを示しています。
プロジェクトページ:https://sean-shiyuez.github.io/saca/。

要約(オリジナル)

Reliable collision avoidance under extreme situations remains a critical challenge for autonomous vehicles. While large language models (LLMs) offer promising reasoning capabilities, their application in safety-critical evasive maneuvers is limited by latency and robustness issues. Even so, LLMs stand out for their ability to weigh emotional, legal, and ethical factors, enabling socially responsible and context-aware collision avoidance. This paper proposes a scenario-aware collision avoidance (SACA) framework for extreme situations by integrating predictive scenario evaluation, data-driven reasoning, and scenario-preview-based deployment to improve collision avoidance decision-making. SACA consists of three key components. First, a predictive scenario analysis module utilizes obstacle reachability analysis and motion intention prediction to construct a comprehensive situational prompt. Second, an online reasoning module refines decision-making by leveraging prior collision avoidance knowledge and fine-tuning with scenario data. Third, an offline evaluation module assesses performance and stores scenarios in a memory bank. Additionally, A precomputed policy method improves deployability by previewing scenarios and retrieving or reasoning policies based on similarity and confidence levels. Real-vehicle tests show that, compared with baseline methods, SACA effectively reduces collision losses in extreme high-risk scenarios and lowers false triggering under complex conditions. Project page: https://sean-shiyuez.github.io/SACA/.

arxiv情報

著者 Shiyue Zhao,Junzhi Zhang,Neda Masoud,Heye Huang,Xiaohui Hou,Chengkun He
発行日 2025-06-11 03:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | SACA: A Scenario-Aware Collision Avoidance Framework for Autonomous Vehicles Integrating LLMs-Driven Reasoning はコメントを受け付けていません

Bipedal Balance Control with Whole-body Musculoskeletal Standing and Falling Simulations

要約

バランス制御は、人間および二足歩行のロボットシステムにとって重要です。
移動中の動的バランスはかなりの注目を集めていますが、静的バランスと転倒の定量的理解は限られています。
この作業は、包括的な全身筋骨格システムを介して人間のバランスをシミュレートするための階層制御パイプラインを提示します。
安定した立位中のバランスの時空間的ダイナミクスを特定し、筋肉損傷のバランスをとる影響の影響を明らかにし、臨床データに合わせた転倒接触パターンを生成しました。
さらに、シミュレートされた股関節外骨格の支援により、バランスメンテナンスの改善と摂動下での筋肉の努力の減少が示されました。
この作品は、実験的にキャプチャするのが難しい人間のバランスダイナミクスに関するユニークな筋肉レベルの洞察を提供します。
バランス障害のある個人向けの標的介入を開発し、ヒューマノイドロボットシステムの進歩をサポートするための基盤を提供できます。

要約(オリジナル)

Balance control is important for human and bipedal robotic systems. While dynamic balance during locomotion has received considerable attention, quantitative understanding of static balance and falling remains limited. This work presents a hierarchical control pipeline for simulating human balance via a comprehensive whole-body musculoskeletal system. We identified spatiotemporal dynamics of balancing during stable standing, revealed the impact of muscle injury on balancing behavior, and generated fall contact patterns that aligned with clinical data. Furthermore, our simulated hip exoskeleton assistance demonstrated improvement in balance maintenance and reduced muscle effort under perturbation. This work offers unique muscle-level insights into human balance dynamics that are challenging to capture experimentally. It could provide a foundation for developing targeted interventions for individuals with balance impairments and support the advancement of humanoid robotic systems.

arxiv情報

著者 Chengtian Ma,Yunyue Wei,Chenhui Zuo,Chen Zhang,Yanan Sui
発行日 2025-06-11 04:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Bipedal Balance Control with Whole-body Musculoskeletal Standing and Falling Simulations はコメントを受け付けていません

Analyzing Key Objectives in Human-to-Robot Retargeting for Dexterous Manipulation

要約

人間の手からロボットの手への運動学のリターゲティングは、人間から操作のテレオ操作と模倣学習においてロボットに器用さを移すために不可欠です。
ただし、人間とロボットの手の機械的な違いにより、ロボットの手で人間の動きを完全に再現することは不可能です。
リターゲティングに関する既存の作業には、さまざまな最適化目標が組み込まれており、ハンド構成のさまざまな側面に焦点を当てています。
ただし、実験的な比較研究の欠如は、これらの目的の重要性と有効性を不明確にしています。
この研究の目的は、広範な現実世界の比較実験を通じて、器用な操作のためのこれらのリターゲティング目標を分析することです。
具体的には、最近のアプローチに現れる直感的に重要な要因を統合する包括的なリターゲティングの客観的定式化を提案します。
各因子の重要性は、運動学的姿勢のリターゲティングと現実世界のテレオ蒸発操作タスクにおける完全な目的に関する実験的アブレーション研究を通じて評価されます。
実験結果と結論は、現実世界の器用な操作のためのより正確で効果的なリターゲティングアルゴリズムを設計するための貴重な洞察を提供します。

要約(オリジナル)

Kinematic retargeting from human hands to robot hands is essential for transferring dexterity from humans to robots in manipulation teleoperation and imitation learning. However, due to mechanical differences between human and robot hands, completely reproducing human motions on robot hands is impossible. Existing works on retargeting incorporate various optimization objectives, focusing on different aspects of hand configuration. However, the lack of experimental comparative studies leaves the significance and effectiveness of these objectives unclear. This work aims to analyze these retargeting objectives for dexterous manipulation through extensive real-world comparative experiments. Specifically, we propose a comprehensive retargeting objective formulation that integrates intuitively crucial factors appearing in recent approaches. The significance of each factor is evaluated through experimental ablation studies on the full objective in kinematic posture retargeting and real-world teleoperated manipulation tasks. Experimental results and conclusions provide valuable insights for designing more accurate and effective retargeting algorithms for real-world dexterous manipulation.

arxiv情報

著者 Chendong Xin,Mingrui Yu,Yongpeng Jiang,Zhefeng Zhang,Xiang Li
発行日 2025-06-11 04:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Analyzing Key Objectives in Human-to-Robot Retargeting for Dexterous Manipulation はコメントを受け付けていません