Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models

要約

言語モデル(LMS)を評価するための心(TOM)のタスクへの関心が高まっているにもかかわらず、LMSは自己や他者の精神状態を内部的に表す方法についてはほとんど知られていません。
これらの内部メカニズムを理解することは重要です – 表面レベルのパフォーマンスを超えて移動するだけでなく、モデルのアラインメントと安全性のために、精神状態の微妙な誤った違いが生成された出力で検出されない可能性があります。
この作業では、さまざまなスケール、トレーニングレジメン、およびプロンプトにわたってモデルを調査することにより、LMSの信念表現の最初の体系的な調査を提示します – 制御タスクを使用して交絡を除外します。
私たちの実験は、モデルサイズと微調整の両方が、他の人の信念のLMSの内部表現を大幅に改善するという証拠を提供します。これらは、偽の相関の単なる副産物ではなく、変化を促す脆弱です。
重要なことに、これらの表現を強化できることを示します。モデルのアクティベーションへのターゲット編集は、間違ったTOM推論を修正する可能性があります。

要約(オリジナル)

Despite growing interest in Theory of Mind (ToM) tasks for evaluating language models (LMs), little is known about how LMs internally represent mental states of self and others. Understanding these internal mechanisms is critical – not only to move beyond surface-level performance, but also for model alignment and safety, where subtle misattributions of mental states may go undetected in generated outputs. In this work, we present the first systematic investigation of belief representations in LMs by probing models across different scales, training regimens, and prompts – using control tasks to rule out confounds. Our experiments provide evidence that both model size and fine-tuning substantially improve LMs’ internal representations of others’ beliefs, which are structured – not mere by-products of spurious correlations – yet brittle to prompt variations. Crucially, we show that these representations can be strengthened: targeted edits to model activations can correct wrong ToM inferences.

arxiv情報

著者 Matteo Bortoletto,Constantin Ruhdorfer,Lei Shi,Andreas Bulling
発行日 2025-05-19 16:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models はコメントを受け付けていません

Cayley Graph Propagation

要約

グラフ構造データのモデリングに関するグラフニューラルネットワーク(GNNS)を備えた多くのサクセスストーリーにもかかわらず、それらはクランシング過剰に対して脆弱であることで有名です。これにより、タスクはノードの距離ペア間の情報の混合を必要とします。
この問題に対処するために、以前の作業は、情報の流れを改善するためにグラフ構造を再配線することを提案しています。
あるいは、かなりの研究により、ボトルネックのないグラフ構造を発見して事前に計算することに専念して、過剰なクッシングを改善しています。
数学コミュニティ内のボトルネックのないグラフのよく見なされる家族の1つは、エキスパンダーグラフであり、以前の作業(Expanderグラフの伝播(EGP))が有名なエキスパンダーグラフファミリーの使用を提案しています。
ただし、EGPでは、使用される計算グラフは切り捨てられ、特定の入力グラフと整列しています。
この作業では、切り捨てが切望されている拡張特性に有害であることを示します。
代わりに、完全なケイリーグラフ構造を介して情報を伝播する方法であるCGPを提案し、それによってボトルネックがないようにして、スケッシングをよりよく緩和することを保証します。
いくつかの現実世界のデータセットにわたる経験的証拠は、CGPがEGPと比較して大幅な改善を回復するだけでなく、計算上複雑なグラフの再配線に似ている、または上回ることを示しています。

要約(オリジナル)

In spite of the plethora of success stories with graph neural networks (GNNs) on modelling graph-structured data, they are notoriously vulnerable to over-squashing, whereby tasks necessitate the mixing of information between distance pairs of nodes. To address this problem, prior work suggests rewiring the graph structure to improve information flow. Alternatively, a significant body of research has dedicated itself to discovering and precomputing bottleneck-free graph structures to ameliorate over-squashing. One well regarded family of bottleneck-free graphs within the mathematical community are expander graphs, with prior work — Expander Graph Propagation (EGP) — proposing the use of a well-known expander graph family — the Cayley graphs of the $\mathrm{SL}(2,\mathbb{Z}_n)$ special linear group — as a computational template for GNNs. However, in EGP the computational graphs used are truncated to align with a given input graph. In this work, we show that truncation is detrimental to the coveted expansion properties. Instead, we propose CGP, a method to propagate information over a complete Cayley graph structure, thereby ensuring it is bottleneck-free to better alleviate over-squashing. Our empirical evidence across several real-world datasets not only shows that CGP recovers significant improvements as compared to EGP, but it is also akin to or outperforms computationally complex graph rewiring techniques.

arxiv情報

著者 JJ Wilson,Maya Bechler-Speicher,Petar Veličković
発行日 2025-05-19 17:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Cayley Graph Propagation はコメントを受け付けていません

Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning

要約

Vision Transformersは、処理前に画像を均一なサイズのチャンクにパッチ化する先例を確立しています。
この設計の選択は、視覚データから包括的な構成表現を学習する際のモデルを制限する可能性があると仮定します。
このペーパーでは、ビジョン言語のトレーニング前のフレームワーク内で、意味的に意味のある視覚トークンを変圧器エンコーダーに提供するという概念を探ります。
既製のセグメンテーションとシーングラフモデルを活用して、インスタンスセグメンテーションマスク(有形トークンと呼ばれる)と関係とアクション(無形トークンと呼ばれる)の表現を抽出します。
その後、これらの新しく抽出されたトークンを組み込み、結果の埋め込みをテキスト側エンコーダーからのキャプション埋め込みで整列させることにより、ビジョン側の変圧器を事前にトレーニングします。
視覚トークン間の構造的およびセマンティックな関係をキャプチャするために、自己関節スコアを計算するために使用される加法の注意力を導入します。
COCOでの実験は、テキストからイメージ(+47%)と画像からテキストへの検索(+44%)のタスク全体で学習された表現品質のvitsよりも顕著な改善を示しています。
さらに、ARO(+18%)やWinoground(+10%)などの構成性ベンチマークの利点を紹介します。

要約(オリジナル)

Vision transformers have established a precedent of patchifying images into uniformly-sized chunks before processing. We hypothesize that this design choice may limit models in learning comprehensive and compositional representations from visual data. This paper explores the notion of providing semantically-meaningful visual tokens to transformer encoders within a vision-language pre-training framework. Leveraging off-the-shelf segmentation and scene-graph models, we extract representations of instance segmentation masks (referred to as tangible tokens) and relationships and actions (referred to as intangible tokens). Subsequently, we pre-train a vision-side transformer by incorporating these newly extracted tokens and aligning the resultant embeddings with caption embeddings from a text-side encoder. To capture the structural and semantic relationships among visual tokens, we introduce additive attention weights, which are used to compute self-attention scores. Our experiments on COCO demonstrate notable improvements over ViTs in learned representation quality across text-to-image (+47%) and image-to-text retrieval (+44%) tasks. Furthermore, we showcase the advantages on compositionality benchmarks such as ARO (+18%) and Winoground (+10%).

arxiv情報

著者 Neha Kalibhat,Priyatham Kattakinda,Sumit Nawathe,Arman Zarei,Nikita Seleznev,Samuel Sharpe,Senthil Kumar,Soheil Feizi
発行日 2025-05-19 16:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning はコメントを受け付けていません

Continuously Optimizing Radar Placement with Model Predictive Path Integrals

要約

センサーの配置を継続的に最適化することは、さまざまな軍事および民間のアプリケーションにおける正確なターゲットのローカリゼーションに不可欠です。
情報理論はセンサーの配置を最適化する際に有望であることが示されていますが、多くの研究はセンサー測定モデルを過度に単純化したり、モバイルセンサーの動的制約を無視したりします。
これらの課題に対処するために、レーダーパラメーターとレーダーターゲット距離を組み込んだ範囲測定モデルを使用して、モデル予測パス積分(MPPI)制御と組み合わせて、複雑な環境障害と動的制約を管理します。
ターゲットの状態のキューバチャーカルマンフィルター(CKF)推定器のルート平方誤差(RMSE)に基づいて、定常レーダーまたは簡素化された範囲測定モデルに対して提案されたアプローチを比較します。
さらに、時間の経過とともにレーダーとターゲットの進化するジオメトリを視覚化し、最高の測定情報ゲインの領域を強調し、アプローチの強みを示します。
提案された戦略は、ターゲットの局在化における静止レーダーと簡素化された範囲測定モデルよりも優れており、平均RMSEの38-74%の減少を達成し、すべての時間ステップにわたって500モンテカール(MC)の90%のモンテカール(MC)トライアルの90%最高密度間隔(HDI)の上部尾の33-79%の減少を達成します。
コードは、受け入れられると公開されます。

要約(オリジナル)

Continuously optimizing sensor placement is essential for precise target localization in various military and civilian applications. While information theory has shown promise in optimizing sensor placement, many studies oversimplify sensor measurement models or neglect dynamic constraints of mobile sensors. To address these challenges, we employ a range measurement model that incorporates radar parameters and radar-target distance, coupled with Model Predictive Path Integral (MPPI) control to manage complex environmental obstacles and dynamic constraints. We compare the proposed approach against stationary radars or simplified range measurement models based on the root mean squared error (RMSE) of the Cubature Kalman Filter (CKF) estimator for the targets’ state. Additionally, we visualize the evolving geometry of radars and targets over time, highlighting areas of highest measurement information gain, demonstrating the strengths of the approach. The proposed strategy outperforms stationary radars and simplified range measurement models in target localization, achieving a 38-74% reduction in mean RMSE and a 33-79% reduction in the upper tail of the 90% Highest Density Interval (HDI) over 500 Monte Carl (MC) trials across all time steps. Code will be made publicly available upon acceptance.

arxiv情報

著者 Michael Potter,Shuo Tang,Paul Ghanem,Milica Stojanovic,Pau Closas,Murat Akcakaya,Ben Wright,Marius Necsoiu,Deniz Erdogmus,Michael Everett,Tales Imbiriba
発行日 2025-05-18 19:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, stat.AP | Continuously Optimizing Radar Placement with Model Predictive Path Integrals はコメントを受け付けていません

Development of a non-wearable support robot capable of reproducing natural standing-up movements

要約

自然なスタンディングアップの動きを再現するために、最近の研究は、支援ロボットと人間の間の調整の重要性を強調しています。
ただし、多くの耐えられない補助装置は、自然の動きの軌跡を複製するのに苦労しています。
ウェアラブルデバイスは人体とのより良い調整を提供しますが、機械的および電気的危険性を完全に分離する際の課題を提示します。
これに対処するために、ウェアラブルシステムと耐えられないシステムの両方の機能を統合する新しいスタンディングアシストロボットを開発し、安全性を維持しながら高い調整を実現することを目指しています。
このデバイスは、自然な立っている動き中に股関節のS字型の軌跡と膝のアーク軌道を再現するように設計された、ヒトの関節構造と整列した4リンクメカニズムを採用しています。
主題固有の軌道データはジャイロスコープを使用して取得され、リンクの長さは最適な経路に沿って座席を駆動するために決定されました。
ステッピングモーターを使用したフィードフォワード速度制御が実装され、軌道の再現性がメカニズムの幾何学的制約に基づいて評価されました。
さまざまな条件下で軌道精度を評価するために、シートに固定された重量を使用した負荷をかける実験が行われました。
結果は、股関節と膝の軌道の繁殖誤差が座席の総変位の約4%内に残り、ターゲットパスに対する高い忠実度を示していることを示しました。
さらに、耐久性テスト、熱安全評価、リスク評価により、屋内での使用のためのシステムの信頼性と安全性が確認されました。
これらの調査結果は、提案された設計が、高齢者のケアとリハビリテーションの潜在的なアプリケーションを備えた個々の身体的特性に適応する支援技術を開発するための有望なアプローチを提供することを示唆しています。

要約(オリジナル)

To reproduce natural standing-up motion, recent studies have emphasized the importance of coordination between the assisting robot and the human. However, many non-wearable assistive devices have struggled to replicate natural motion trajectories. While wearable devices offer better coordination with the human body, they present challenges in completely isolating mechanical and electrical hazards. To address this, we developed a novel standing-assist robot that integrates features of both wearable and non-wearable systems, aiming to achieve high coordination while maintaining safety. The device employs a four-link mechanism aligned with the human joint structure, designed to reproduce the S-shaped trajectory of the hip and the arc trajectory of the knee during natural standing-up motion. Subject-specific trajectory data were obtained using a gyroscope, and the link lengths were determined to drive the seat along the optimal path. A feedforward speed control using a stepping motor was implemented, and the reproducibility of the trajectory was evaluated based on the geometric constraints of the mechanism. A load-bearing experiment with weights fixed to the seat was conducted to assess the trajectory accuracy under different conditions. Results showed that the reproduction errors for the hip and knee trajectories remained within approximately 4 percent of the seat’s total displacement, demonstrating high fidelity to the target paths. In addition, durability testing, thermal safety evaluation, and risk assessment confirmed the reliability and safety of the system for indoor use. These findings suggest that the proposed design offers a promising approach for developing assistive technologies that adapt to individual physical characteristics, with potential applications in elderly care and rehabilitation.

arxiv情報

著者 Atsuya Kusui,Susumu Hirai,Asuka Takai
発行日 2025-05-18 19:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, q-bio.NC | Development of a non-wearable support robot capable of reproducing natural standing-up movements はコメントを受け付けていません

Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing

要約

コンパクトな四角形ロボットは、実際のシナリオでの展開にますます適していることが証明されています。
サイズが小さくなると、人間の環境への簡単な統合が促進されます。
それにもかかわらず、特に地形の認識の高い計算的要求のため、不均一な地形のリアルタイムの移動は依然として困難です。
このペーパーでは、慎重な深度センサーの選択に支えられたリアルタイムの標高マッピングを活用する、挑戦的な地形におけるリソースが制約した小規模四足動物のための堅牢な強化学習ベースの外部機密運動コントローラーを提示します。
ポリシーと状態推定器の両方を同時にトレーニングします。これらの推定器は、オプションで視覚inertial匂い(VIO)と融合した、標高マッピングの臭気源源を一緒に提供します。
Vioがなくても堅牢性を維持するための追加のフライトセンサーを配置することの重要性を実証し、したがって、計算リソースを解放する可能性があります。
提案されたコントローラーは、高さが最大17.5 cmまでのステップを完璧に通過し、Vioの有無にかかわらず22.5 cmのステップで80%の成功率を達成できることを実験的に実証します。
提案されたコントローラーは、それぞれ最大1.0 m/sと1.5 RAD/sの正確な前方およびヨー速度追跡も実現します。
github.com/eth-pbl/elmap-rl-controllerでトレーニングコードをオープンソーシングします。

要約(オリジナル)

Compact quadrupedal robots are proving increasingly suitable for deployment in real-world scenarios. Their smaller size fosters easy integration into human environments. Nevertheless, real-time locomotion on uneven terrains remains challenging, particularly due to the high computational demands of terrain perception. This paper presents a robust reinforcement learning-based exteroceptive locomotion controller for resource-constrained small-scale quadrupeds in challenging terrains, which exploits real-time elevation mapping, supported by a careful depth sensor selection. We concurrently train both a policy and a state estimator, which together provide an odometry source for elevation mapping, optionally fused with visual-inertial odometry (VIO). We demonstrate the importance of positioning an additional time-of-flight sensor for maintaining robustness even without VIO, thus having the potential to free up computational resources. We experimentally demonstrate that the proposed controller can flawlessly traverse steps up to 17.5 cm in height and achieve an 80% success rate on 22.5 cm steps, both with and without VIO. The proposed controller also achieves accurate forward and yaw velocity tracking of up to 1.0 m/s and 1.5 rad/s respectively. We open-source our training code at github.com/ETH-PBL/elmap-rl-controller.

arxiv情報

著者 Davide Plozza,Patricia Apostol,Paul Joseph,Simon Schläpfer,Michele Magno
発行日 2025-05-18 20:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Robust Reinforcement Learning-Based Locomotion for Resource-Constrained Quadrupeds with Exteroceptive Sensing はコメントを受け付けていません

ProMi: An Efficient Prototype-Mixture Baseline for Few-Shot Segmentation with Bounding-Box Annotations

要約

ロボット工学アプリケーションでは、ロボットが最小限のトレーニングデータで複雑なタスクを実行し、多様で現実世界の環境への適応を促進できるため、少数のショットセグメンテーションが重要です。
ただし、少量の画像のピクセルレベルの注釈は、非常に時間がかかり、費用がかかります。
このホワイトペーパーでは、ピクセルレベルのラベルの代わりに、境界ボックスアノテーションに基づいて、新しいいくつかのショットバイナリセグメンテーション法を紹介します。
バックグラウンドクラスを分布の混合として扱う効率的​​なプロトタイプミックスベースの方法を紹介します。
私たちのアプローチは、シンプルで、トレーニングがなく、効果的で、粗い注釈が簡単に対応しています。
既存のベースラインと比較して、PROMIは大きな利益をもたらすさまざまなデータセットで最高の結果を達成し、その有効性を示しています。
さらに、現実世界のモバイルロボットタスクに合わせた定性的実験を提示し、そのようなシナリオでのアプローチの適用性を実証します。
私たちのコード:https://github.com/thalesgroup/promi。

要約(オリジナル)

In robotics applications, few-shot segmentation is crucial because it allows robots to perform complex tasks with minimal training data, facilitating their adaptation to diverse, real-world environments. However, pixel-level annotations of even small amount of images is highly time-consuming and costly. In this paper, we present a novel few-shot binary segmentation method based on bounding-box annotations instead of pixel-level labels. We introduce, ProMi, an efficient prototype-mixture-based method that treats the background class as a mixture of distributions. Our approach is simple, training-free, and effective, accommodating coarse annotations with ease. Compared to existing baselines, ProMi achieves the best results across different datasets with significant gains, demonstrating its effectiveness. Furthermore, we present qualitative experiments tailored to real-world mobile robot tasks, demonstrating the applicability of our approach in such scenarios. Our code: https://github.com/ThalesGroup/promi.

arxiv情報

著者 Florent Chiaroni,Ali Ayub,Ola Ahmad
発行日 2025-05-18 21:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | ProMi: An Efficient Prototype-Mixture Baseline for Few-Shot Segmentation with Bounding-Box Annotations はコメントを受け付けていません

Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data

要約

オフラインデータを活用することは、オンライン強化学習(RL)のサンプル効率を改善する有望な方法です。
このホワイトペーパーでは、報酬のない、混合品質の豊富な非キュレーションデータを活用し、複数の実施形態にわたって収集される豊富な非キュレーションデータを活用することにより、オフラインからオンラインのRLの使用可能なデータのプールを拡張します。
世界モデルを学ぶことはそのようなデータを利用するのに有望であるように見えますが、素朴な微調整が多くのタスクでRLトレーニングを加速できないことがわかります。
慎重な調査を通じて、この失敗は、微調整中のオフラインデータとオンラインデータの間の分布シフトに起因すると考えています。
この問題に対処し、オフラインデータを効果的に使用するために、2つの重要な手法を提案します。
これらの変更により、非キュレーションのオフラインデータにより、RLのサンプル効率が大幅に向上します。
限られたサンプル予算では、6つの実施形態にまたがる72の視覚運動タスクにわたるSCRATCのベースラインの学習上の総スコアの102.8%の相対的な改善を達成します。
移動やロボット操作などの挑戦的なタスクでは、オフラインデータを適切なマージンで利用する以前の方法よりも優れています。

要約(オリジナル)

Leveraging offline data is a promising way to improve the sample efficiency of online reinforcement learning (RL). This paper expands the pool of usable data for offline-to-online RL by leveraging abundant non-curated data that is reward-free, of mixed quality, and collected across multiple embodiments. Although learning a world model appears promising for utilizing such data, we find that naive fine-tuning fails to accelerate RL training on many tasks. Through careful investigation, we attribute this failure to the distributional shift between offline and online data during fine-tuning. To address this issue and effectively use the offline data, we propose two essential techniques: \emph{i)} experience rehearsal and \emph{ii)} execution guidance. With these modifications, the non-curated offline data substantially improves RL’s sample efficiency. Under limited sample budgets, our method achieves a 102.8\% relative improvement in aggregate score over learning-from-scratch baselines across 72 visuomotor tasks spanning 6 embodiments. On challenging tasks such as locomotion and robotic manipulation, it outperforms prior methods that utilize offline data by a decent margin.

arxiv情報

著者 Yi Zhao,Aidan Scannell,Wenshuai Zhao,Yuxin Hou,Tianyu Cui,Le Chen,Dieter Büchler,Arno Solin,Juho Kannala,Joni Pajarinen
発行日 2025-05-18 21:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data はコメントを受け付けていません

Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset

要約

デジタルツインカタログ(DTC)を紹介します。これは、新しい大規模なフォトリアリックな3Dオブジェクトデジタルツインデータセットです。
3Dオブジェクトのデジタルツインは、物理的なオブジェクトの非常に詳細で事実上区別できない表現であり、その形状、外観、物理的特性、およびその他の属性を正確にキャプチャします。
神経ベースの3D再構成と逆レンダリングの最近の進歩により、3Dオブジェクトの再構築の品質が大幅に向上しました。
これらの進歩にもかかわらず、さまざまな再構築方法のパフォーマンスを定量的に評価および比較し、トレーニングや微調整を通じて再構成の品質を改善することができる、大規模でデジタルツイン品質の現実世界のデータセットとベンチマークが不足しています。
さらに、3Dデジタルツイン作成を民主化するには、作成技術をARメガネなどの次世代のエゴセントリックコンピューティングプラットフォームと統合することが不可欠です。
現在、エゴセントリックのキャプチャされた画像を使用して3Dオブジェクトの再構成を評価するためのデータセットはありません。
これらのギャップに対処するために、DTCデータセットは、DSLRカメラとエゴセントリックARメガネを使用して、さまざまな照明条件下でキャプチャされた画像シーケンスとともに、2,000のスキャンされたデジタルツイン品質の3Dオブジェクトを備えています。
このデータセットは、3Dデジタルツイン作成タスクの最初の包括的な実世界評価ベンチマークを確立し、既存の再構築方法を比較および改善するための堅牢な基盤を提供します。
DTCデータセットは既にhttps://www.projectaria.com/datasets/dtc/でリリースされており、ベースライン評価もオープンソースにします。

要約(オリジナル)

We introduce the Digital Twin Catalog (DTC), a new large-scale photorealistic 3D object digital twin dataset. A digital twin of a 3D object is a highly detailed, virtually indistinguishable representation of a physical object, accurately capturing its shape, appearance, physical properties, and other attributes. Recent advances in neural-based 3D reconstruction and inverse rendering have significantly improved the quality of 3D object reconstruction. Despite these advancements, there remains a lack of a large-scale, digital twin-quality real-world dataset and benchmark that can quantitatively assess and compare the performance of different reconstruction methods, as well as improve reconstruction quality through training or fine-tuning. Moreover, to democratize 3D digital twin creation, it is essential to integrate creation techniques with next-generation egocentric computing platforms, such as AR glasses. Currently, there is no dataset available to evaluate 3D object reconstruction using egocentric captured images. To address these gaps, the DTC dataset features 2,000 scanned digital twin-quality 3D objects, along with image sequences captured under different lighting conditions using DSLR cameras and egocentric AR glasses. This dataset establishes the first comprehensive real-world evaluation benchmark for 3D digital twin creation tasks, offering a robust foundation for comparing and improving existing reconstruction methods. The DTC dataset is already released at https://www.projectaria.com/datasets/dtc/ and we will also make the baseline evaluations open-source.

arxiv情報

著者 Zhao Dong,Ka Chen,Zhaoyang Lv,Hong-Xing Yu,Yunzhi Zhang,Cheng Zhang,Yufeng Zhu,Stephen Tian,Zhengqin Li,Geordie Moffatt,Sean Christofferson,James Fort,Xiaqing Pan,Mingfei Yan,Jiajun Wu,Carl Yuheng Ren,Richard Newcombe
発行日 2025-05-18 21:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | Digital Twin Catalog: A Large-Scale Photorealistic 3D Object Digital Twin Dataset はコメントを受け付けていません

A Comprehensive Survey on Physical Risk Control in the Era of Foundation Model-enabled Robotics

要約

最近のファンデーションモデル対応ロボット(FMRS)は、一般的な汎用スキルを大幅に改善し、従来のロボット工学よりも適応性のある自動化を可能にします。
したがって、多様なタスクを処理する能力は、人間の労働を置き換える新しい機会を生み出します。
ただし、一般的な基礎モデルとは異なり、FMRは物理的な世界と相互作用します。物理的な世界と、その行動は人間と周囲のオブジェクトの安全性に直接影響し、慎重な展開と制御が必要です。
この命題に基づいて、我々の調査では、展開前から事前の段階までのFMRのすべての寿命をカバーすることにより、物理的リスクを軽減するためのロボット制御アプローチを包括的に要約しています。
具体的には、タイムラインを次の3つのフェーズに広く分割します。(1)展開前段階、(2)事前段階、および(3)インテキション後の段階。
この調査を通して、(i)事前のリスク軽減戦略、(ii)人間との物理的相互作用を想定する研究、および(iii)基礎モデル自体の本質的な問題を想定する研究がたくさんあることがわかります。
この調査が、FMRの物理的リスクとそのコントロールの高解像度分析を提供し、優れた人間とロボットの関係の実現に貢献するマイルストーンになることを願っています。

要約(オリジナル)

Recent Foundation Model-enabled robotics (FMRs) display greatly improved general-purpose skills, enabling more adaptable automation than conventional robotics. Their ability to handle diverse tasks thus creates new opportunities to replace human labor. However, unlike general foundation models, FMRs interact with the physical world, where their actions directly affect the safety of humans and surrounding objects, requiring careful deployment and control. Based on this proposition, our survey comprehensively summarizes robot control approaches to mitigate physical risks by covering all the lifespan of FMRs ranging from pre-deployment to post-accident stage. Specifically, we broadly divide the timeline into the following three phases: (1) pre-deployment phase, (2) pre-incident phase, and (3) post-incident phase. Throughout this survey, we find that there is much room to study (i) pre-incident risk mitigation strategies, (ii) research that assumes physical interaction with humans, and (iii) essential issues of foundation models themselves. We hope that this survey will be a milestone in providing a high-resolution analysis of the physical risks of FMRs and their control, contributing to the realization of a good human-robot relationship.

arxiv情報

著者 Takeshi Kojima,Yaonan Zhu,Yusuke Iwasawa,Toshinori Kitamura,Gang Yan,Shu Morikuni,Ryosuke Takanami,Alfredo Solano,Tatsuya Matsushima,Akiko Murakami,Yutaka Matsuo
発行日 2025-05-19 00:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | A Comprehensive Survey on Physical Risk Control in the Era of Foundation Model-enabled Robotics はコメントを受け付けていません