TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

要約

画像テキストモデルは、画像レベルのタスクに優れていますが、詳細な視覚的理解に苦労しています。
これらのモデルは強力な視覚言語アラインメントを提供しますが、SAM2のようなセグメンテーションモデルは、オブジェクトの正確な空間境界を提供します。
この目的のために、画像テキストモデルとSAM2の強度を組み合わせて強力なテキストに合わせた領域トークンを生成するシンプルで効果的でトレーニングフリーのフレームワークであるTextregionを提案します。
これらのトークンは、オープンボキャブラリー機能を維持しながら、詳細な視覚的理解を可能にします。
それらは、オープンワールドセマンティックセグメンテーション、表現の理解、および接地など、さまざまな下流タスクに直接適用できます。
私たちは広範な評価を実施し、最先端のトレーニングのない方法と比較して、一貫して優れたまたは競争力のあるパフォーマンスを達成しています。
さらに、私たちのフレームワークは多くの画像テキストモデルと互換性があり、より強力なモデルが出現するにつれて非常に実用的で簡単に拡張可能になります。
コードは、https://github.com/avaxiao/textregionで入手できます。

要約(オリジナル)

Image-text models excel at image-level tasks but struggle with detailed visual understanding. While these models provide strong visual-language alignment, segmentation models like SAM2 offer precise spatial boundaries for objects. To this end, we propose TextRegion, a simple, effective, and training-free framework that combines the strengths of image-text models and SAM2 to generate powerful text-aligned region tokens. These tokens enable detailed visual understanding while preserving open-vocabulary capabilities. They can be directly applied to various downstream tasks, including open-world semantic segmentation, referring expression comprehension, and grounding. We conduct extensive evaluations and consistently achieve superior or competitive performance compared to state-of-the-art training-free methods. Additionally, our framework is compatible with many image-text models, making it highly practical and easily extensible as stronger models emerge. Code is available at: https://github.com/avaxiao/TextRegion.

arxiv情報

著者 Yao Xiao,Qiqian Fu,Heyi Tao,Yuqun Wu,Zhen Zhu,Derek Hoiem
発行日 2025-05-29 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models はコメントを受け付けていません

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

要約

強化学習(RL)はロボット工学の大きな進歩を遂げていますが、その複雑さと長いトレーニング時間は大きなボトルネックのままです。
このレポートでは、ヒューマノイドベンチ、イサクラブ、ムジョコプレイグラウンドなどの人気スイートでヒューマノイドロボットのトレーニングを大幅に高速化するシンプルで高速で有能なRLアルゴリズムであるFASTTD3を導入します。
私たちのレシピは非常に簡単です。並列シミュレーション、大型バッチアップデート、流通批評家、慎重に調整されたハイパーパラメーターなど、いくつかの変更を加えたオフポリシーTD3エージェントをトレーニングします。
FASTTD3は、トレーニング中は安定したままで、1つのA100 GPUで3時間以内にヒューマノイドベンチの範囲を3時間以内に解決します。
また、FASTTD3の軽量で使いやすい実装を提供して、ロボット工学のRL研究を加速します。

要約(オリジナル)

Reinforcement learning (RL) has driven significant progress in robotics, but its complexity and long training times remain major bottlenecks. In this report, we introduce FastTD3, a simple, fast, and capable RL algorithm that significantly speeds up training for humanoid robots in popular suites such as HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably simple: we train an off-policy TD3 agent with several modifications — parallel simulation, large-batch updates, a distributional critic, and carefully tuned hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours on a single A100 GPU, while remaining stable during training. We also provide a lightweight and easy-to-use implementation of FastTD3 to accelerate RL research in robotics.

arxiv情報

著者 Younggyo Seo,Carmelo Sferrazza,Haoran Geng,Michal Nauman,Zhao-Heng Yin,Pieter Abbeel
発行日 2025-05-29 17:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control はコメントを受け付けていません

Maximizing Confidence Alone Improves Reasoning

要約

強化学習(RL)により、機械学習モデルが多くの分野で大きな進歩を達成できるようになりました。
最近では、RLは、挑戦的な数学、科学、コーディングの問題を解決できるフロンティア言語モデルに力を与えました。
ただし、RLアルゴリズムの中心は報酬機能であり、報酬エンジニアリングはどのドメインでも有名な問題です。
このホワイトペーパーでは、家賃を提案します。エントロピー最小化による補強学習 – 外部報酬や根本的な回答を必要とせず、その基礎となる分布のモデルのエントロピーを本質的な報酬として使用します。
生成された答えにモデルの信頼が高くなる思考の鎖を強化することにより、モデルはその推論能力を向上させることがわかります。
実験では、GSM8K、Math500、AMC、AIME、GPQAなど、一般的に使用されている推論ベンチマークの広範なスイート、およびQwenおよびMistralファミリーのさまざまなサイズのモデルでこれらの改善を紹介します。
私たちの監視されていない学習方法の一般性は、外部の監督が利用できない幅広いドメインでの適用性に役立ちます。

要約(オリジナル)

Reinforcement learning (RL) has enabled machine learning models to achieve significant advances in many fields. Most recently, RL has empowered frontier language models to solve challenging math, science, and coding problems. However, central to any RL algorithm is the reward function, and reward engineering is a notoriously difficult problem in any domain. In this paper, we propose RENT: Reinforcement Learning via Entropy Minimization — a fully unsupervised RL method that requires no external reward or ground-truth answers, and instead uses the model’s entropy of its underlying distribution as an intrinsic reward. We find that by reinforcing the chains of thought that yield high model confidence on its generated answers, the model improves its reasoning ability. In our experiments, we showcase these improvements on an extensive suite of commonly-used reasoning benchmarks, including GSM8K, MATH500, AMC, AIME, and GPQA, and models of varying sizes from the Qwen and Mistral families. The generality of our unsupervised learning method lends itself to applicability in a wide range of domains where external supervision is unavailable.

arxiv情報

著者 Mihir Prabhudesai,Lili Chen,Alex Ippoliti,Katerina Fragkiadaki,Hao Liu,Deepak Pathak
発行日 2025-05-29 17:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Maximizing Confidence Alone Improves Reasoning はコメントを受け付けていません

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

要約

世界モデルの最近の進歩は、動的環境シミュレーションに革命をもたらし、システムが将来の状態を予見し、潜在的な行動を評価できるようになりました。
自律運転では、これらの能力は、車両が他の道路利用者の行動を予測し、リスク認識計画を実行し、シミュレーションのトレーニングを加速し、新しいシナリオに適応し、それにより安全性と信頼性を高めるのに役立ちます。
現在のアプローチは、自律的なナビゲーションタスクでの信頼できる安全性評価に重要な、閉塞処理中に堅牢な3D幾何学的一貫性または蓄積アーティファクトを維持する際に欠陥を示します。
これに対処するために、Geodriveを導入します。これは、堅牢な3Dジオメトリ条件を世界モデルの駆動に明示的に統合して、空間的理解とアクションの制御性を高めます。
具体的には、最初に入力フレームから3D表現を抽出し、次にユーザー指定のエゴカー軌道に基づいて2Dレンダリングを取得します。
動的モデリングを有効にするために、トレーニング中に動的編集モジュールを提案して、車両の位置を編集してレンダリングを強化します。
広範な実験は、私たちの方法が、アクション精度と3D空間認識の両方で既存のモデルを大幅に上回り、より安全で適応性のある、信頼性の高い自律運転のためのより現実的で適応性があり、信頼性の高いシーンモデリングにつながることを示しています。
さらに、モデルは新しい軌道に一般化し、オブジェクトの編集やオブジェクトの軌跡コントロールなどのインタラクティブなシーン編集機能を提供できます。

要約(オリジナル)

Recent advancements in world models have revolutionized dynamic environment simulation, allowing systems to foresee future states and assess potential actions. In autonomous driving, these capabilities help vehicles anticipate the behavior of other road users, perform risk-aware planning, accelerate training in simulation, and adapt to novel scenarios, thereby enhancing safety and reliability. Current approaches exhibit deficiencies in maintaining robust 3D geometric consistency or accumulating artifacts during occlusion handling, both critical for reliable safety assessment in autonomous navigation tasks. To address this, we introduce GeoDrive, which explicitly integrates robust 3D geometry conditions into driving world models to enhance spatial understanding and action controllability. Specifically, we first extract a 3D representation from the input frame and then obtain its 2D rendering based on the user-specified ego-car trajectory. To enable dynamic modeling, we propose a dynamic editing module during training to enhance the renderings by editing the positions of the vehicles. Extensive experiments demonstrate that our method significantly outperforms existing models in both action accuracy and 3D spatial awareness, leading to more realistic, adaptable, and reliable scene modeling for safer autonomous driving. Additionally, our model can generalize to novel trajectories and offers interactive scene editing capabilities, such as object editing and object trajectory control.

arxiv情報

著者 Anthony Chen,Wenzhao Zheng,Yida Wang,Xueyang Zhang,Kun Zhan,Peng Jia,Kurt Keutzer,Shanghang Zhang
発行日 2025-05-29 12:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control はコメントを受け付けていません

BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages

要約

世界中の人々は、感情を表現するために微妙で複雑な方法で言語を使用しています。
感情認識 – いくつかのNLPタスクの傘の用語は、NLP以降のさまざまなアプリケーションを影響しますが、この分野でのほとんどの作業は高リソース言語に焦点を当てています。
これにより、特に高品質の注釈付きデータセットが欠けていることが多いリソースが不足している言語については、研究努力と提案されたソリューションに大きな格差が生じています。
このペーパーでは、28の異なる言語といくつかのドメインにわたって、マルチラベルの感情発音のデータセットのコレクションであるBrightを紹介します。
明るいことは、主にアフリカ、アジア、東ヨーロッパ、ラテンアメリカの低リソース言語をカバーしており、流fluentスピーカーによってラベル付けされています。
データ収集と注釈プロセスに関連する課題を強調し、感情強度の認識と同様に、単一言語および横断的多面的な感情の識別の実験結果を報告します。
LLMの使用の有無にかかわらず、言語とテキストドメイン間のパフォーマンスの変動性を分析し、より明るいデータセットがテキストベースの感情認識のギャップに対処するための意味のあるステップを表していることを示します。

要約(オリジナル)

People worldwide use language in subtle and complex ways to express emotions. Although emotion recognition–an umbrella term for several NLP tasks–impacts various applications within NLP and beyond, most work in this area has focused on high-resource languages. This has led to significant disparities in research efforts and proposed solutions, particularly for under-resourced languages, which often lack high-quality annotated datasets. In this paper, we present BRIGHTER–a collection of multi-labeled, emotion-annotated datasets in 28 different languages and across several domains. BRIGHTER primarily covers low-resource languages from Africa, Asia, Eastern Europe, and Latin America, with instances labeled by fluent speakers. We highlight the challenges related to the data collection and annotation processes, and then report experimental results for monolingual and crosslingual multi-label emotion identification, as well as emotion intensity recognition. We analyse the variability in performance across languages and text domains, both with and without the use of LLMs, and show that the BRIGHTER datasets represent a meaningful step towards addressing the gap in text-based emotion recognition.

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Nedjma Ousidhoum,Idris Abdulmumin,Jan Philip Wahle,Terry Ruas,Meriem Beloucif,Christine de Kock,Nirmal Surange,Daniela Teodorescu,Ibrahim Said Ahmad,David Ifeoluwa Adelani,Alham Fikri Aji,Felermino D. M. A. Ali,Ilseyar Alimova,Vladimir Araujo,Nikolay Babakov,Naomi Baes,Ana-Maria Bucur,Andiswa Bukula,Guanqun Cao,Rodrigo Tufino Cardenas,Rendi Chevi,Chiamaka Ijeoma Chukwuneke,Alexandra Ciobotaru,Daryna Dementieva,Murja Sani Gadanya,Robert Geislinger,Bela Gipp,Oumaima Hourrane,Oana Ignat,Falalu Ibrahim Lawan,Rooweither Mabuya,Rahmad Mahendra,Vukosi Marivate,Alexander Panchenko,Andrew Piper,Charles Henrique Porto Ferreira,Vitaly Protasov,Samuel Rutunda,Manish Shrivastava,Aura Cristina Udrea,Lilian Diana Awuor Wanzare,Sophie Wu,Florian Valentin Wunderlich,Hanif Muhammad Zhafran,Tianhui Zhang,Yi Zhou,Saif M. Mohammad
発行日 2025-05-29 12:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages はコメントを受け付けていません

SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels

要約

3D占有予測は、強力な幾何学的認識とオブジェクト認識能力のために、自律運転の分野で多くの注目を集めています。
ただし、既存の方法では、ボクセルの最も重要な分布パターンを調査していないため、不十分な結果が生じています。
このペーパーでは、最初にボクセルのクラス間分布と幾何学的分布を調査し、それによってクラス間分布によって引き起こされる長期尾の問題と、幾何学的分布によって引き起こされるパフォーマンスの低下を解決します。
具体的には、このホワイトペーパーでは、SHTOCC(スパースヘッドテールの占有率)を提案します。これは、スパースヘッドテールボクセル構造を使用して、ヘッドとテールクラスのキーボクセルを正確に識別およびバランスさせ、デコップレッドラーニングを使用して支配的な(ヘッド)カテゴリに向けてモデルのバイアスを減らし、テールクラスのフォーカスを強化します。
実験では、複数のベースラインで大幅な改善が行われたことが示されています。SHTOCCはGPUメモリの使用量を42.2%減らし、推論速度を58.6%増加させ、精度を約7%向上させ、有効性と効率を確認します。
このコードは、https://github.com/ge95net/shtoccで入手できます

要約(オリジナル)

3D occupancy prediction has attracted much attention in the field of autonomous driving due to its powerful geometric perception and object recognition capabilities. However, existing methods have not explored the most essential distribution patterns of voxels, resulting in unsatisfactory results. This paper first explores the inter-class distribution and geometric distribution of voxels, thereby solving the long-tail problem caused by the inter-class distribution and the poor performance caused by the geometric distribution. Specifically, this paper proposes SHTOcc (Sparse Head-Tail Occupancy), which uses sparse head-tail voxel construction to accurately identify and balance key voxels in the head and tail classes, while using decoupled learning to reduce the model’s bias towards the dominant (head) category and enhance the focus on the tail class. Experiments show that significant improvements have been made on multiple baselines: SHTOcc reduces GPU memory usage by 42.2%, increases inference speed by 58.6%, and improves accuracy by about 7%, verifying its effectiveness and efficiency. The code is available at https://github.com/ge95net/SHTOcc

arxiv情報

著者 Qiucheng Yu,Yuan Xie,Xin Tan
発行日 2025-05-29 14:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels はコメントを受け付けていません

DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation

要約

なじみのない環境での適応ナビゲーションは、家庭用サービスロボットにとって重要ですが、低レベルのパス計画と高レベルのシーンの理解の両方が必要であるため、困難なままです。
最近のビジョン言語モデル(VLM)ベースのゼロショットアプローチは、以前のマップとシーン固有のトレーニングデータへの依存を減らしますが、それらは大きな制限に直面しています:離散観察からの時空の不連続性、非構造化されたメモリ表現、および航行障害につながるタスク理解が不十分です。
ヒトナビゲーション能力を模倣する腹側と背側の流れで構成される新しい認知インスパイアされたフレームワークである、ドラメモン(強化されたメモリ指向ナビゲーションを備えた分散型オントロジー対応の信頼できるエージェント)を提案します。
背面は、階層的なセマンティック空間融合とトポロジーマップを実装して、時空間的な不連続性を処理し、腹部ストリームはRAG-VLMとポリシーVLMを組み合わせて意思決定を改善します。
また、私たちのアプローチは、ナビゲーションの安全性と効率性を確保するために、NAV授業を開発しています。
HM3D、MP3D、およびGOATデータセットでDoraemonを評価します。このデータセットでは、成功率(SR)と成功の両方でパス長(SPL)メトリックで重み付けされ、既存の方法を大幅に上回ることができます。
また、ナビゲーションインテリジェンスをより良く評価するために、新しい評価メトリック(AORI)を紹介します。
包括的な実験では、以前のマップビルディングや事前トレーニングを必要とせずに、ゼロショット自律ナビゲーションにおけるドラリーモンの有効性が示されています。

要約(オリジナル)

Adaptive navigation in unfamiliar environments is crucial for household service robots but remains challenging due to the need for both low-level path planning and high-level scene understanding. While recent vision-language model (VLM) based zero-shot approaches reduce dependence on prior maps and scene-specific training data, they face significant limitations: spatiotemporal discontinuity from discrete observations, unstructured memory representations, and insufficient task understanding leading to navigation failures. We propose DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation), a novel cognitive-inspired framework consisting of Ventral and Dorsal Streams that mimics human navigation capabilities. The Dorsal Stream implements the Hierarchical Semantic-Spatial Fusion and Topology Map to handle spatiotemporal discontinuities, while the Ventral Stream combines RAG-VLM and Policy-VLM to improve decision-making. Our approach also develops Nav-Ensurance to ensure navigation safety and efficiency. We evaluate DORAEMON on the HM3D, MP3D, and GOAT datasets, where it achieves state-of-the-art performance on both success rate (SR) and success weighted by path length (SPL) metrics, significantly outperforming existing methods. We also introduce a new evaluation metric (AORI) to assess navigation intelligence better. Comprehensive experiments demonstrate DORAEMON’s effectiveness in zero-shot autonomous navigation without requiring prior map building or pre-training.

arxiv情報

著者 Tianjun Gu,Linfeng Li,Xuhong Wang,Chenghua Gong,Jingyu Gong,Zhizhong Zhang,Yuan Xie,Lizhuang Ma,Xin Tan
発行日 2025-05-29 09:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation はコメントを受け付けていません

On the performance of machine-learning-assisted Monte Carlo in sampling from simple statistical physics models

要約

近年、従来の方法を使用して研究できないサンプルが困難なシステムのシミュレーションを支援するために、機械学習技術の適用が増加しています。
多くの異なるアーキテクチャと手順の導入にもかかわらず、最適ではない実装のリスクがあるため、幅広い理論的理解がまだ不足しています。
このギャップに対処するための最初のステップとして、ここでは、キュリーワイスモデルの浅い製造アーキテクチャに適用される広く使用されているシーケンシャル温度手順の完全な分析研究を提供します。
この作業の貢献は2つあります。まず、最適な重みと勾配降下最適化下でのトレーニングの説明を説明します。
第二に、地元のメトロポリスモンテカルロのステップを追加しない場合となしで、シーケンシャルテンペリングで起こることを比較します。
したがって、この場合に適用するための最良の手順について理論的予測を行うことができます。
この作業は、機械学習技術をモンテカルロのサンプリングと最適化に統合するための明確な理論的根拠を確立します。

要約(オリジナル)

Recent years have seen a rise in the application of machine learning techniques to aid the simulation of hard-to-sample systems that cannot be studied using traditional methods. Despite the introduction of many different architectures and procedures, a wide theoretical understanding is still lacking, with the risk of suboptimal implementations. As a first step to address this gap, we provide here a complete analytic study of the widely-used Sequential Tempering procedure applied to a shallow MADE architecture for the Curie-Weiss model. The contribution of this work is twofold: firstly, we give a description of the optimal weights and of the training under Gradient Descent optimization. Secondly, we compare what happens in Sequential Tempering with and without the addition of local Metropolis Monte Carlo steps. We are thus able to give theoretical predictions on the best procedure to apply in this case. This work establishes a clear theoretical basis for the integration of machine learning techniques into Monte Carlo sampling and optimization.

arxiv情報

著者 Luca Maria Del Bono,Federico Ricci-Tersenghi,Francesco Zamponi
発行日 2025-05-29 07:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, cs.LG, physics.comp-ph | On the performance of machine-learning-assisted Monte Carlo in sampling from simple statistical physics models はコメントを受け付けていません

Pre-training for Recommendation Unlearning

要約

グラフニューラルネットワーク(GNNS)を搭載した最新の推奨システム(GNNS)は、複雑なユーザー項目インタラクションのモデリングに優れていますが、トレーニングデータを選択的に忘れる必要があるシナリオがますます増えています。
プライバシーの懸念や好みの変更により特定のインタラクションを削除するためのユーザー要求を超えて、規制フレームワークは、モデルからの特定のユーザーデータの影響を排除する推奨システムの能力を義務付けています。
この推奨事項を解き放つチャレンジは、インタラクショングラフ内の接続を削除するとモデル全体に​​リップル効果が生じ、多数のユーザーの推奨事項に影響を与える可能性があるため、独自の困難が提示されます。
従来のアプローチには重大な欠点があります。フラグメンテーション方法にグラフ構造に損傷を与え、パフォーマンスを低下させますが、影響力の技術は、特に自己監視またはランダムアーキテクチャでは、複雑なGNNには当てはまらないと仮定します。
これらの制限に対処するために、システムを効率的に解き放つ運用のためにシステムを準備する新しいモデルに依存しない前訓練前パラダイムを提案します。
影響エンコーダは、既存のモデルパラメーターと一緒にリクエストを解除し、モデルのパフォーマンス特性を維持しながら完全な再訓練を避けて、ほとんど微調整されていない未学習モデルの更新されたパラメーターを直接生成します。
パブリックベンチマークでの広範な評価は、私たちの方法が、再トレーニングアプローチと比較して10倍以上のスピードアップを提供しながら、例外的な学習効果を提供することを示しています。
https://github.com/hkuds/unlearnrecでメソッドの実装をリリースします。

要約(オリジナル)

Modern recommender systems powered by Graph Neural Networks (GNNs) excel at modeling complex user-item interactions, yet increasingly face scenarios requiring selective forgetting of training data. Beyond user requests to remove specific interactions due to privacy concerns or preference changes, regulatory frameworks mandate recommender systems’ ability to eliminate the influence of certain user data from models. This recommendation unlearning challenge presents unique difficulties as removing connections within interaction graphs creates ripple effects throughout the model, potentially impacting recommendations for numerous users. Traditional approaches suffer from significant drawbacks: fragmentation methods damage graph structure and diminish performance, while influence function techniques make assumptions that may not hold in complex GNNs, particularly with self-supervised or random architectures. To address these limitations, we propose a novel model-agnostic pre-training paradigm UnlearnRec that prepares systems for efficient unlearning operations. Our Influence Encoder takes unlearning requests together with existing model parameters and directly produces updated parameters of unlearned model with little fine-tuning, avoiding complete retraining while preserving model performance characteristics. Extensive evaluation on public benchmarks demonstrates that our method delivers exceptional unlearning effectiveness while providing more than 10x speedup compared to retraining approaches. We release our method implementation at: https://github.com/HKUDS/UnlearnRec.

arxiv情報

著者 Guoxuan Chen,Lianghao Xia,Chao Huang
発行日 2025-05-29 06:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Pre-training for Recommendation Unlearning はコメントを受け付けていません

The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector

要約

3Dオブジェクト検出は、自律駆動システムの重要なコンポーネントです。
さまざまな環境条件下で、車両、歩行者、障害物のリアルタイム認識と検出が可能になります。
既存の方法の中で、鳥瞰図(BEV)での3Dオブジェクト検出が主流のフレームワークとして浮上しています。
安全で堅牢で信頼できる3Dオブジェクトの検出を保証するために、3D敵対的な攻撃が調査されます。ここでは、攻撃が3D環境に置かれ、モデルのパフォーマンスを評価します。
車に映画を置き、歩行者の服を着ます。
3D敵対的攻撃に対する3Dオブジェクト検出モデルの脆弱性は、摂動に対するモデルの堅牢性を評価するための重要な指標として機能します。
この脆弱性を調査するために、実際の攻撃シナリオに合わせて調整された非侵襲的な3D敵対的なオブジェクトを生成します。
私たちの方法は、時間とカメラビュー全体で空間的に一貫している普遍的な敵対的なオブジェクトの存在を検証します。
具体的には、微分型レンダリング手法を採用して、敵対的なオブジェクトとターゲットビークルの間の空間的関係を正確にモデル化します。
さらに、さまざまな視点の下で視覚的な一貫性とリアリズムを強化するために、咬合とアウェアのモジュールを導入します。
複数のフレームにわたって攻撃の有効性を維持するために、私たちはBEV空間機能ガイドの最適化戦略を設計します。
実験結果は、私たちのアプローチが最先端の3Dオブジェクト検出器からの車両の予測を確実に抑制し、展開前に3Dオブジェクト検出モデルの堅牢性をテストするための重要なツールとして機能することを示しています。
さらに、生成された敵対的なオブジェクトは強力な一般化能力を示し、シーンのさまざまな位置と距離でその有効性を保持します。

要約(オリジナル)

3D object detection is a critical component in autonomous driving systems. It allows real-time recognition and detection of vehicles, pedestrians and obstacles under varying environmental conditions. Among existing methods, 3D object detection in the Bird’s Eye View (BEV) has emerged as the mainstream framework. To guarantee a safe, robust and trustworthy 3D object detection, 3D adversarial attacks are investigated, where attacks are placed in 3D environments to evaluate the model performance, e.g. putting a film on a car, clothing a pedestrian. The vulnerability of 3D object detection models to 3D adversarial attacks serves as an important indicator to evaluate the robustness of the model against perturbations. To investigate this vulnerability, we generate non-invasive 3D adversarial objects tailored for real-world attack scenarios. Our method verifies the existence of universal adversarial objects that are spatially consistent across time and camera views. Specifically, we employ differentiable rendering techniques to accurately model the spatial relationship between adversarial objects and the target vehicle. Furthermore, we introduce an occlusion-aware module to enhance visual consistency and realism under different viewpoints. To maintain attack effectiveness across multiple frames, we design a BEV spatial feature-guided optimization strategy. Experimental results demonstrate that our approach can reliably suppress vehicle predictions from state-of-the-art 3D object detectors, serving as an important tool to test robustness of 3D object detection models before deployment. Moreover, the generated adversarial objects exhibit strong generalization capabilities, retaining its effectiveness at various positions and distances in the scene.

arxiv情報

著者 Aixuan Li,Mochu Xiang,Jing Zhang,Yuchao Dai
発行日 2025-05-29 07:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector はコメントを受け付けていません