D^2USt3R: Enhancing 3D Reconstruction with 4D Pointmaps for Dynamic Scenes

要約

動的シーンでの3D再構成のタスクに対処します。オブジェクトの動きは、もともと静的3Dシーンの再構築用に設計されたDust3Rなどの以前の3Dポイントマップ回帰法の品質を分解します。
これらの方法は、静的な設定でエレガントで強力なソリューションを提供しますが、カメラのポーズのみに基づいてアラインメントを破壊する動的な動きの存在下で苦労しています。
これを克服するために、静的と動的3Dシーンの両方のジオメトリをフィードフォワードに同時にキャプチャする4Dポイントマップを回帰するD^2UST3Rを提案します。
空間的側面と時間的側面の両方を明示的に組み込むことにより、私たちのアプローチは、提案された4Dポイントマップへの時空間的密度の対応をうまくカプセル化し、ダウンストリームタスクを強化します。
広範な実験的評価は、提案されたアプローチが複雑な動きを特徴とするさまざまなデータセットで一貫して優れた再構成パフォーマンスを達成することを示しています。

要約(オリジナル)

We address the task of 3D reconstruction in dynamic scenes, where object motions degrade the quality of previous 3D pointmap regression methods, such as DUSt3R, originally designed for static 3D scene reconstruction. Although these methods provide an elegant and powerful solution in static settings, they struggle in the presence of dynamic motions that disrupt alignment based solely on camera poses. To overcome this, we propose D^2USt3R that regresses 4D pointmaps that simultaneiously capture both static and dynamic 3D scene geometry in a feed-forward manner. By explicitly incorporating both spatial and temporal aspects, our approach successfully encapsulates spatio-temporal dense correspondence to the proposed 4D pointmaps, enhancing downstream tasks. Extensive experimental evaluations demonstrate that our proposed approach consistently achieves superior reconstruction performance across various datasets featuring complex motions.

arxiv情報

著者 Jisang Han,Honggyu An,Jaewoo Jung,Takuya Narihira,Junyoung Seo,Kazumi Fukuda,Chaehyun Kim,Sunghwan Hong,Yuki Mitsufuji,Seungryong Kim
発行日 2025-04-08 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | D^2USt3R: Enhancing 3D Reconstruction with 4D Pointmaps for Dynamic Scenes はコメントを受け付けていません

NoveltyBench: Evaluating Language Models for Humanlike Diversity

要約

言語モデルは、標準のベンチマークで顕著な機能を実証していますが、モードの崩壊からますます苦労しており、多様で新しい出力を生成できません。
私たちの作品では、複数の異なる品質の出力を生成する言語モデルの能力を評価するために特別に設計されたベンチマークであるNebletyBenchを紹介します。
NebletyBenchは、キュレーションされたプロンプトを利用して、多様な回答とフィルタリングされた実際のユーザークエリを引き出します。
20の主要な言語モデルを評価すると、現在の最先端のシステムは、人間の作家よりも多様性が大幅に少ないことがわかります。
特に、家族内の大規模なモデルは、より小さなカウンターパートよりも多様性が少ないことが多く、標準ベンチマークの能力が生成ユーティリティに直接変換されるという概念に挑戦します。
コンテキスト内再生のような戦略を促すことは多様性を引き出すことができますが、私たちの調査結果は、現在のモデルの分布の多様性の根本的な欠如を強調し、さまざまな反応を求めているユーザーのユーティリティを減らし、品質とともに多様性を優先する新しいトレーニングと評価パラダイムの必要性を示唆しています。

要約(オリジナル)

Language models have demonstrated remarkable capabilities on standard benchmarks, yet they struggle increasingly from mode collapse, the inability to generate diverse and novel outputs. Our work introduces NoveltyBench, a benchmark specifically designed to evaluate the ability of language models to produce multiple distinct and high-quality outputs. NoveltyBench utilizes prompts curated to elicit diverse answers and filtered real-world user queries. Evaluating 20 leading language models, we find that current state-of-the-art systems generate significantly less diversity than human writers. Notably, larger models within a family often exhibit less diversity than their smaller counterparts, challenging the notion that capability on standard benchmarks translates directly to generative utility. While prompting strategies like in-context regeneration can elicit diversity, our findings highlight a fundamental lack of distributional diversity in current models, reducing their utility for users seeking varied responses and suggesting the need for new training and evaluation paradigms that prioritize diversity alongside quality.

arxiv情報

著者 Yiming Zhang,Harshita Diddee,Susan Holm,Hanchen Liu,Xinyue Liu,Vinay Samuel,Barry Wang,Daphne Ippolito
発行日 2025-04-08 16:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NoveltyBench: Evaluating Language Models for Humanlike Diversity はコメントを受け付けていません

A Taxonomy of Self-Handover

要約

自分の手の間にオブジェクトを転送する自己携帯は、一般的ではあるが理解されていない二近の行動です。
複雑なタスクのシームレスな遷移を促進しますが、その実行の根底にある戦略は、ほとんど未開拓のままです。
ここでは、21人の参加者が行う12時間以上の調理活動の手動注釈から派生した、セルフハンドオーバーの最初の体系的な分類法を紹介します。
私たちの分析では、セルフハンドオーバーは単なる受動的な移行ではなく、両手による予測的調整を含む高度に調整されたアクションであることが明らかになりました。
人間の操作の自動分析に向けたステップとして、最先端のビジョン言語モデルを使用してセルフハンドオーバータイプを分類する可能性をさらに実証します。
これらの調査結果は、双方向の調整に関する新たな洞察を提供し、スムーズなタスクの移行を可能にする際のセルフハンドオーバーの役割を強調しています。

要約(オリジナル)

Self-handover, transferring an object between one’s own hands, is a common but understudied bimanual action. While it facilitates seamless transitions in complex tasks, the strategies underlying its execution remain largely unexplored. Here, we introduce the first systematic taxonomy of self-handover, derived from manual annotation of over 12 hours of cooking activity performed by 21 participants. Our analysis reveals that self-handover is not merely a passive transition, but a highly coordinated action involving anticipatory adjustments by both hands. As a step toward automated analysis of human manipulation, we further demonstrate the feasibility of classifying self-handover types using a state-of-the-art vision-language model. These findings offer fresh insights into bimanual coordination, underscoring the role of self-handover in enabling smooth task transitions-an ability essential for adaptive dual-arm robotics.

arxiv情報

著者 Naoki Wake,Atsushi Kanehira,Kazuhiro Sasabuchi,Jun Takamatsu,Katsushi Ikeuchi
発行日 2025-04-08 10:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | A Taxonomy of Self-Handover はコメントを受け付けていません

Not All Data Are Unlearned Equally

要約

Machine Ulearningは、訓練されたモデルから特定のデータポイントから学んだ知識を削除するタスクに関係しています。
大規模な言語モデル(LLMS)のコンテキストでは、特にプライバシー目的のためにモデルから指定されたエンティティに関する知識を削除するために、最近、学習が注目を集めています。
未学習の問題に対処するためにさまざまなアプローチが提案されていますが、既存のアプローチのほとんどは、すべてのデータポイントを均等に扱うように扱います。つまり、モントリオールがカナダの都市であることを学習することは、この論文の最初の著者の電話番号を学ぶこととまったく同じ扱いになっています。
この作業では、このすべてのデータが等しい仮定がLLMの学習には当てはまらないことを示しています。
私たちは、学習の成功が、モデルのトレーニング前のデータで学習したい知識の頻度にどのように依存し、頻度が学習を強く影響することを発見する方法を調べます。
さらに、確率と生成に基づく評価の不整合の不整合を明らかにし、モデルが大きくなるにつれてこの問題が悪化することを示します。
全体として、私たちの実験は、モデルのトレーニングデータを考慮に入れるためのLLM学習のためのより良い評価慣行と新しい方法の必要性を強調しています。

要約(オリジナル)

Machine unlearning is concerned with the task of removing knowledge learned from particular data points from a trained model. In the context of large language models (LLMs), unlearning has recently received increased attention, particularly for removing knowledge about named entities from models for privacy purposes. While various approaches have been proposed to address the unlearning problem, most existing approaches treat all data points to be unlearned equally, i.e., unlearning that Montreal is a city in Canada is treated exactly the same as unlearning the phone number of the first author of this paper. In this work, we show that this all data is equal assumption does not hold for LLM unlearning. We study how the success of unlearning depends on the frequency of the knowledge we want to unlearn in the pre-training data of a model and find that frequency strongly affects unlearning, i.e., more frequent knowledge is harder to unlearn. Additionally, we uncover a misalignment between probability and generation-based evaluations of unlearning and show that this problem worsens as models become larger. Overall, our experiments highlight the need for better evaluation practices and novel methods for LLM unlearning that take the training data of models into account.

arxiv情報

著者 Aravind Krishnan,Siva Reddy,Marius Mosbach
発行日 2025-04-08 08:18:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Not All Data Are Unlearned Equally はコメントを受け付けていません

Towards Optimal Heterogeneous Client Sampling in Multi-Model Federated Learning

要約

Federated Learning(FL)により、Edge Devicesはローカルデータを共有せずにモデルを協力して訓練できます。
FLが人気を得るにつれて、クライアントは複数の無関係なFLモデルをトレーニングする必要がある場合がありますが、コミュニケーションの制約により、すべてのモデルを同時にトレーニングする能力が制限されます。
クライアントはFLモデルを順番にトレーニングできますが、日和見的にFLクライアントが異なるモデル(MMFL)と呼ばれるさまざまなモデルを同時にトレーニングすることができますが、全体的なトレーニング時間を短縮できます。
以前の作業では、トレーニングの過程で各モデルへの各クライアントの貢献を最適化しないシンプルなクライアントからモデルへの割り当てを使用しています。
シングルモデルFLでの以前の作業は、インテリジェントなクライアントの選択が収束を大幅に加速できることを示していますが、MMFLへのna \ ‘ive拡張は、サーバーとクライアントの両方で不均一なリソースの制約に違反する可能性があります。
この作業では、任意のクライアントサンプリング方法を使用したMMFLの新しい収束分析を開発し、以前の定評のあるグラデーションベースの方法の強みと制限を理論的に実証します。
この分析に動機付けられて、MMFL-LVRを提案します。MMFL-LVRは、サーバーの通信制限を明示的に尊重し、クライアントの計算コストを削減しながら、トレーニングの差異を最小限に抑える損失ベースのサンプリング方法です。
これをMMFL-Stalevrに拡張します。これには、効率と安定性が向上するための古い更新と、低オーバーヘッドの展開に適した軽量バリアントであるMMFL-Stalevreが組み込まれています。
実験では、ランダムサンプリングよりも平均精度が最大19.1%向上し、理論的最適(フルクライアント参加)からのギャップは5.4%しかないことが示されています。

要約(オリジナル)

Federated learning (FL) allows edge devices to collaboratively train models without sharing local data. As FL gains popularity, clients may need to train multiple unrelated FL models, but communication constraints limit their ability to train all models simultaneously. While clients could train FL models sequentially, opportunistically having FL clients concurrently train different models — termed multi-model federated learning (MMFL) — can reduce the overall training time. Prior work uses simple client-to-model assignments that do not optimize the contribution of each client to each model over the course of its training. Prior work on single-model FL shows that intelligent client selection can greatly accelerate convergence, but na\’ive extensions to MMFL can violate heterogeneous resource constraints at both the server and the clients. In this work, we develop a novel convergence analysis of MMFL with arbitrary client sampling methods, theoretically demonstrating the strengths and limitations of previous well-established gradient-based methods. Motivated by this analysis, we propose MMFL-LVR, a loss-based sampling method that minimizes training variance while explicitly respecting communication limits at the server and reducing computational costs at the clients. We extend this to MMFL-StaleVR, which incorporates stale updates for improved efficiency and stability, and MMFL-StaleVRE, a lightweight variant suitable for low-overhead deployment. Experiments show our methods improve average accuracy by up to 19.1% over random sampling, with only a 5.4% gap from the theoretical optimum (full client participation).

arxiv情報

著者 Haoran Zhang,Zejun Gong,Zekai Li,Marie Siew,Carlee Joe-Wong,Rachid El-Azouzi
発行日 2025-04-08 03:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, I.2.11 | Towards Optimal Heterogeneous Client Sampling in Multi-Model Federated Learning はコメントを受け付けていません

PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity

要約

深い学習が引き続き、より広大なデータセットによって推進されているため、どの例が一般化にとって最も重要であるかを理解することが重要な問題になりました。
データ選択の進捗状況は続きますが、新たなアプリケーションでは、動的なコンテキストでこの問題を研究する必要があります。
このギャップを埋めるために、インクリメンタルデータ選択(IDS)の問題を提起します。例では、例は連続ストリームとして到着し、完全なデータソースにアクセスせずに選択する必要があります。
この設定では、学習者は、基礎となるタスクを同時に学習しながら、事前定義されたサイズのトレーニングデータセットを徐々に構築する必要があります。
IDSでは、モデル状態に対する新しいサンプルの影響は、特徴空間における幾何学的関係と予測誤差の両方に根本的に依存することがわかります。
この洞察を活用して、IDSに合わせた効率的なデータ選択方法であるピーク(カーネルの類似性によって固定された予測エラー)を提案します。
当社の包括的な評価は、ピークが既存の選択戦略を常に上回ることを示しています。
さらに、トレーニングデータサイズが実際のデータセットで増加するため、ピークはランダム選択よりもますます優れたパフォーマンスリターンを生み出します。

要約(オリジナル)

As deep learning continues to be driven by ever-larger datasets, understanding which examples are most important for generalization has become a critical question. While progress in data selection continues, emerging applications require studying this problem in dynamic contexts. To bridge this gap, we pose the Incremental Data Selection (IDS) problem, where examples arrive as a continuous stream, and need to be selected without access to the full data source. In this setting, the learner must incrementally build a training dataset of predefined size while simultaneously learning the underlying task. We find that in IDS, the impact of a new sample on the model state depends fundamentally on both its geometric relationship in the feature space and its prediction error. Leveraging this insight, we propose PEAKS (Prediction Error Anchored by Kernel Similarity), an efficient data selection method tailored for IDS. Our comprehensive evaluations demonstrate that PEAKS consistently outperforms existing selection strategies. Furthermore, PEAKS yields increasingly better performance returns than random selection as training data size grows on real-world datasets.

arxiv情報

著者 Mustafa Burak Gurbuz,Xingyu Zheng,Constantine Dovrolis
発行日 2025-04-08 02:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | PEAKS: Selecting Key Training Examples Incrementally via Prediction Error Anchored by Kernel Similarity はコメントを受け付けていません

VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

要約

値ベースのパラダイム内の推論モデルに合わせた新しいフレームワークである、推論モデルのための価値ベースの拡張近位政策最適化フレームワークを提示します。
QWEN 32Bの事前訓練モデルに基づいて構築されたAIME 2024データセットVAPOのベンチマークは、$ \ MathBF {60.4} $の最先端のスコアを達成します。
同一の実験設定下での直接比較では、VAPOは、以前に報告されたDeepSeek-R1-Zero-Qwen-32BおよびDAPOの結果を10ポイント以上上回ります。
VAPOのトレーニングプロセスは、その安定性と効率を際立たせています。
わずか5,000ステップ内で最先端のパフォーマンスに達します。
さらに、複数の独立した実行にわたって、トレーニングクラッシュは発生せず、その信頼性を強調しています。
この研究は、価値ベースの強化学習フレームワークを使用して、長い考え方(ロングコット)の推論を掘り下げています。
価値ベースの方法を悩ませる3つの重要な課題を特定します:値モデルバイアス、不均一なシーケンス長の存在、および報酬信号のスパース。
Vapoは、体系的な設計を通じて、これらの課題を効果的に緩和する統合ソリューションを提供し、長期的な推論タスクのパフォーマンスを向上させます。

要約(オリジナル)

We present VAPO, Value-based Augmented Proximal Policy Optimization framework for reasoning models., a novel framework tailored for reasoning models within the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the Qwen 32B pre-trained model, attains a state-of-the-art score of $\mathbf{60.4}$. In direct comparison under identical experimental settings, VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B and DAPO by more than 10 points. The training process of VAPO stands out for its stability and efficiency. It reaches state-of-the-art performance within a mere 5,000 steps. Moreover, across multiple independent runs, no training crashes occur, underscoring its reliability. This research delves into long chain-of-thought (long-CoT) reasoning using a value-based reinforcement learning framework. We pinpoint three key challenges that plague value-based methods: value model bias, the presence of heterogeneous sequence lengths, and the sparsity of reward signals. Through systematic design, VAPO offers an integrated solution that effectively alleviates these challenges, enabling enhanced performance in long-CoT reasoning tasks.

arxiv情報

著者 Yu Yue,Yufeng Yuan,Qiying Yu,Xiaochen Zuo,Ruofei Zhu,Wenyuan Xu,Jiaze Chen,Chengyi Wang,TianTian Fan,Zhengyin Du,Xiangpeng Wei,Xiangyu Yu,Gaohong Liu,Juncai Liu,Lingjun Liu,Haibin Lin,Zhiqi Lin,Bole Ma,Chi Zhang,Mofan Zhang,Wang Zhang,Hang Zhu,Ru Zhang,Xin Liu,Mingxuan Wang,Yonghui Wu,Lin Yan
発行日 2025-04-08 03:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks はコメントを受け付けていません

Leveraging LLMs for Utility-Focused Annotation: Reducing Manual Effort for Retrieval and RAG

要約

検索モデルは通常、トレーニングと評価のための費用のかかる人間標識クエリドキュメント関連の注釈に依存しています。
このコストを削減し、関連性の判断における大規模な言語モデル(LLM)の可能性を活用するために、LLMで生成された注釈がトレーニング検索モデルで人間の注釈を効果的に置き換えることができるかどうかを調査することを目指しています。
検索は通常、関連性を強調します。これは、ドキュメントの「トピック関連性」をクエリに示すものですが、ragでは、ドキュメント(またはユーティリティ)の値は、それが回答生成にどのように貢献するかに依存します。
このミスマッチを認識すると、一部の研究者は、ドキュメントをラベルとしてドキュメントで下流タスクでLLMパフォーマンスを使用しますが、このアプローチには特定のタスクの手動回答が必要であり、高コストと一般化が限られています。
別の作業では、LLMSにRAG参照として有用なドキュメントを選択するように促し、人間の注釈の必要性を排除し、タスク固有ではありません。
LLMSのユーティリティ判断を活用して検索データに注釈を付けると、大規模なコーパスで人間の注釈なしでクロスタスク一般化を保持する場合があります。
したがって、検索およびRAGタスクのドメイン内およびドメイン外の設定の両方で大規模なレトリーバートレーニングデータについて、LLMSを介したユーティリティ中心の注釈を調査します。
LLMSによってラベル付けされた低品質の陽性の影響を減らすために、新しい損失関数、つまりdisj-infonceを設計します。
私たちの実験は、次のことが明らかになりました。(1)ユーティリティ中心の注釈で訓練されたレトリーバーは、両方のタスクでドメイン外の設定で人間の注釈で訓練されたものを大幅に上回り、優れた一般化能力を実証します。
(2)LLM注釈は、領域内の設定で人間の注釈を置き換えません。
ただし、わずか20%のヒトが解決したデータを組み込むことで、ユーティリティ中心の注釈でトレーニングされたレトリーバーを使用すると、人間の注釈で完全にトレーニングされたモデルのパフォーマンスに合わせます。

要約(オリジナル)

Retrieval models typically rely on costly human-labeled query-document relevance annotations for training and evaluation. To reduce this cost and leverage the potential of Large Language Models (LLMs) in relevance judgments, we aim to explore whether LLM-generated annotations can effectively replace human annotations in training retrieval models. Retrieval usually emphasizes relevance, which indicates ‘topic-relatedness’ of a document to a query, while in RAG, the value of a document (or utility) depends on how it contributes to answer generation. Recognizing this mismatch, some researchers use LLM performance on downstream tasks with documents as labels, but this approach requires manual answers for specific tasks, leading to high costs and limited generalization. In another line of work, prompting LLMs to select useful documents as RAG references eliminates the need for human annotation and is not task-specific. If we leverage LLMs’ utility judgments to annotate retrieval data, we may retain cross-task generalization without human annotation in large-scale corpora. Therefore, we investigate utility-focused annotation via LLMs for large-scale retriever training data across both in-domain and out-of-domain settings on the retrieval and RAG tasks. To reduce the impact of low-quality positives labeled by LLMs, we design a novel loss function, i.e., Disj-InfoNCE. Our experiments reveal that: (1) Retrievers trained on utility-focused annotations significantly outperform those trained on human annotations in the out-of-domain setting on both tasks, demonstrating superior generalization capabilities. (2) LLM annotation does not replace human annotation in the in-domain setting. However, incorporating just 20% human-annotated data enables retrievers trained with utility-focused annotations to match the performance of models trained entirely with human annotations.

arxiv情報

著者 Hengran Zhang,Minghao Tang,Keping Bi,Jiafeng Guo,Shihao Liu,Daiting Shi,Dawei Yin,Xueqi Cheng
発行日 2025-04-08 02:11:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Leveraging LLMs for Utility-Focused Annotation: Reducing Manual Effort for Retrieval and RAG はコメントを受け付けていません

The Mediating Effects of Emotions on Trust through Risk Perception and System Performance in Automated Driving

要約

自動化された車両(AVS)への信頼は伝統的に認知レンズを通じて調査されてきましたが、増え続ける証拠は、信頼を形作る上で重要な感情が果たす役割を強調しています。
この研究では、リスクの知覚とAVパフォーマンス(エラー対エラーなし)が、感情分析を使用して感情の間接的な影響を調べるために、AVSの感情的反応と信頼にどのように影響するかを調査します。
この研究では、70人の参加者(42人の男性、女性28人)が、さまざまなレベルのリスク情報(高、低、またはなし)と相まって、エラーの有無にかかわらず動作するAVSの実際の録音されたビデオを視聴しました。
彼らは、19の個別の感情項目を使用して予想される感情的反応を報告し、信頼は気質、学習、状況の信頼測定を通じて評価されました。
因子分析では、リスク認識とAVパフォーマンスの影響を受けた4つの重要な感情的要素、すなわち、敵意、自信、不安、孤独が特定されました。
線形混合モデルは、リスク認識は信頼の重要な予測因子ではなく、パフォーマンスと個人差があることを示しました。
調停分析により、自信は強いポジティブな調停者であることが明らかになり、敵対的で不安な感情は信頼に悪影響を及ぼしました。
しかし、孤独な感情は、AVパフォーマンスと信頼の関係をあまり媒介しませんでした。
結果は、リアルタイムのAV行動は、既存のリスク認識よりも信頼に影響を与えることを示しており、AVSへの信頼は、以前の信念によって形作られるよりも経験ベースである可能性があることを示しています。
また、私たちの調査結果は、自動化された運転におけるユーザーエクスペリエンスデザインに重要な意味を持つ、信頼のキャリブレーションに対する肯定的な感情的反応を促進することの重要性を強調しています。

要約(オリジナル)

Trust in automated vehicles (AVs) has traditionally been explored through a cognitive lens, but growing evidence highlights the significant role emotions play in shaping trust. This study investigates how risk perception and AV performance (error vs. no error) influence emotional responses and trust in AVs, using mediation analysis to examine the indirect effects of emotions. In this study, 70 participants (42 male, 28 female) watched real-life recorded videos of AVs operating with or without errors, coupled with varying levels of risk information (high, low, or none). They reported their anticipated emotional responses using 19 discrete emotion items, and trust was assessed through dispositional, learned, and situational trust measures. Factor analysis identified four key emotional components, namely hostility, confidence, anxiety, and loneliness, that were influenced by risk perception and AV performance. The linear mixed model showed that risk perception was not a significant predictor of trust, while performance and individual differences were. Mediation analysis revealed that confidence was a strong positive mediator, while hostile and anxious emotions negatively impacted trust. However, lonely emotions did not significantly mediate the relationship between AV performance and trust. The results show that real-time AV behavior is more influential on trust than pre-existing risk perceptions, indicating trust in AVs might be more experience-based than shaped by prior beliefs. Our findings also underscore the importance of fostering positive emotional responses for trust calibration, which has important implications for user experience design in automated driving.

arxiv情報

著者 Lilit Avetisyan,Emmanuel Abolarin,Vanik Zakarian,X. Jessie Yang,Feng Zhou
発行日 2025-04-06 14:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | The Mediating Effects of Emotions on Trust through Risk Perception and System Performance in Automated Driving はコメントを受け付けていません

DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments

要約

散らかった環境でオブジェクトをつかむことは、ロボット操作における根本的でありながら挑戦的な問題のままです。
以前の作品は、2本指のグリッパーのプッシュとグラズを把握することの間の学習ベースの相乗効果を調査していますが、器用な手で高度の自由度(DOF)を活用して、散らかった設定で把握するための効率的な歌唱を行う人はほとんどいません。
この作業では、器用なオブジェクトの歌と把握のための統一されたポリシーであるDexSingraspを紹介します。
DexSingraspにより、高度なオブジェクトのシングル化が把握を促進し、散らかった環境で効率と有効性を大幅に改善します。
乱雑なアレンジメントカリキュラム学習を組み込み、多様な乱雑な条件全体で成功率と一般化を強化しますが、政策の蒸留により、展開可能なビジョンベースのグラッピング戦略が可能になります。
アプローチを評価するために、さまざまなオブジェクトの配置と閉塞レベルを備えた、散らかった握りしめられたタスクのセットを紹介します。
実験結果は、私たちの方法が、特に密集したクラッターで、効率と成功率の両方のベースラインよりも優れていることを示しています。
コード、付録、ビデオは、プロジェクトWebサイトhttps://nus-lins-lab.github.io/dexsingweb/で入手できます。

要約(オリジナル)

Grasping objects in cluttered environments remains a fundamental yet challenging problem in robotic manipulation. While prior works have explored learning-based synergies between pushing and grasping for two-fingered grippers, few have leveraged the high degrees of freedom (DoF) in dexterous hands to perform efficient singulation for grasping in cluttered settings. In this work, we introduce DexSinGrasp, a unified policy for dexterous object singulation and grasping. DexSinGrasp enables high-dexterity object singulation to facilitate grasping, significantly improving efficiency and effectiveness in cluttered environments. We incorporate clutter arrangement curriculum learning to enhance success rates and generalization across diverse clutter conditions, while policy distillation enables a deployable vision-based grasping strategy. To evaluate our approach, we introduce a set of cluttered grasping tasks with varying object arrangements and occlusion levels. Experimental results show that our method outperforms baselines in both efficiency and grasping success rate, particularly in dense clutter. Codes, appendix, and videos are available on our project website https://nus-lins-lab.github.io/dexsingweb/.

arxiv情報

著者 Lixin Xu,Zixuan Liu,Zhewei Gui,Jingxiang Guo,Zeyu Jiang,Zhixuan Xu,Chongkai Gao,Lin Shao
発行日 2025-04-06 15:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | DexSinGrasp: Learning a Unified Policy for Dexterous Object Singulation and Grasping in Cluttered Environments はコメントを受け付けていません