LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

要約

大規模なマルチモーダルモデル(LMMS)の推論の強化は、特に建築的制約が推論能力とモダリティアライメントを制限するコンパクトな3Bパラメーターアーキテクチャで、視覚的知覚と論理的推論の複雑な相互作用から独自の課題に直面しています。
ルールベースの強化学習(RL)はテキストのみのドメインに優れていますが、そのマルチモーダル拡張は2つの重要な障壁に直面しています:(1)曖昧な答えと希少な複雑な推論の例によるデータの制限、および(2)マルチモーダルな事前に誘発される基本的な推論を低下させます。
これらの課題に対処するために、\ textBf {Fondational Reasoning Enhancement(fre)}を介したマルチモーダル推論のルールベースのRLを適応させる2段階のフレームワークである\ textbf {lmm-r1}を提案します。
FREステージは、最初にルールベースのRLを使用したテキストのみのデータを使用して推論能力を強化し、次にMGTステージはこれらの推論機能をマルチモーダルドメインに一般化します。
QWEN2.5-VL-Instruct-3Bの実験は、LMM-R1がそれぞれマルチモーダルおよびテキストのみのベンチマークのベースラインで4.83 \%および4.5 \%の平均改善を達成し、複雑なフットボールゲームのタスクで3.63 \%のゲインを獲得することを示しています。
これらの結果は、テキストベースの推論強化により効果的なマルチモーダル一般化が可能になり、高品質のマルチモーダルトレーニングデータをバイパスするデータ効率の良いパラダイムを提供することを検証します。

要約(オリジナル)

Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \textbf{LMM-R1}, a two-stage framework adapting rule-based RL for multimodal reasoning through \textbf{Foundational Reasoning Enhancement (FRE)} followed by \textbf{Multimodal Generalization Training (MGT)}. The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that LMM-R1 achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

arxiv情報

著者 Yingzhe Peng,Gongrui Zhang,Miaosen Zhang,Zhiyuan You,Jie Liu,Qipeng Zhu,Kai Yang,Xingzhong Xu,Xin Geng,Xu Yang
発行日 2025-03-11 03:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL はコメントを受け付けていません

AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements

要約

人間のポーズ推定は、スポーツ科学、リハビリテーション、および生体力学的研究にまたがるアプリケーションを備えたコンピュータービジョンとスポーツの生体力学における重要なタスクです。
単眼3Dポーズ推定では大きな進歩がありましたが、現在のデータセットは、競争力のあるスポーツに典型的な複雑で高加速運動をキャプチャできないことがよくあります。
この作業では、このギャップに対処するために設計された新しいデータセットであるAthletepose3Dを紹介します。
Athletepose3Dには、さまざまな分野にわたる12種類のスポーツモーションが含まれており、約130万のフレームと165,000の個別の姿勢があり、特に高速で高加速運動運動を獲得しています。
データセット上の最先端の(SOTA)単眼2Dおよび3Dポーズ推定モデルを評価し、従来のデータセットでトレーニングされたモデルが運動式の動きでパフォーマンスが低いことを明らかにします。
ただし、Athletepose3Dでこれらのモデルを微調整すると、69%を超える69%を超える、214mm(MPJPE)あたりのSOTAモデル平均(MPJPE)が214mmから65mm-Aの減少を顕著に減少させます。
また、波形分析を通じて単眼のポーズ推定の運動学的精度を検証し、関節角の推定における強い相関関係を強調しますが、速度推定では制限を強調します。
私たちの仕事は、スポーツの文脈における単眼のポーズ推定モデルの包括的な評価を提供し、高性能スポーツ環境で単眼のポーズ推定技術を進めるための貴重な洞察を提供します。
データセット、コード、およびモデルチェックポイントは、https://github.com/calvinyeungck/athletepose3dで入手できます。

要約(オリジナル)

Human pose estimation is a critical task in computer vision and sports biomechanics, with applications spanning sports science, rehabilitation, and biomechanical research. While significant progress has been made in monocular 3D pose estimation, current datasets often fail to capture the complex, high-acceleration movements typical of competitive sports. In this work, we introduce AthletePose3D, a novel dataset designed to address this gap. AthletePose3D includes 12 types of sports motions across various disciplines, with approximately 1.3 million frames and 165 thousand individual postures, specifically capturing high-speed, high-acceleration athletic movements. We evaluate state-of-the-art (SOTA) monocular 2D and 3D pose estimation models on the dataset, revealing that models trained on conventional datasets perform poorly on athletic motions. However, fine-tuning these models on AthletePose3D notably reduces the SOTA model mean per joint position error (MPJPE) from 214mm to 65mm-a reduction of over 69%. We also validate the kinematic accuracy of monocular pose estimations through waveform analysis, highlighting strong correlations in joint angle estimations but limitations in velocity estimation. Our work provides a comprehensive evaluation of monocular pose estimation models in the context of sports, contributing valuable insights for advancing monocular pose estimation techniques in high-performance sports environments. The dataset, code, and model checkpoints are available at: https://github.com/calvinyeungck/AthletePose3D

arxiv情報

著者 Calvin Yeung,Tomohiro Suzuki,Ryota Tanaka,Zhuoer Yin,Keisuke Fujii
発行日 2025-03-11 16:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements はコメントを受け付けていません

Force Aware Branch Manipulation To Assist Agricultural Tasks

要約

この研究は、さまざまな農業タスクを支援するために支部を安全に操作する方法を提示します。
実際の農業環境の人間は、しばしば農業タスクを効果的に実行するために枝を操作しますが、現在の農業ロボットにはこの能力がありません。
枝を操作するためのこの提案された戦略は、密な葉のフルーツピッキング、閉塞の下で花を受粉し、ナビゲーションのための張り出しのブドウと枝を移動するなど、さまざまな精密な農業タスクに役立ちます。
提案された方法は、RRT*を変更して、ブランチの幾何学的制約を満たし、分岐の変形可能な特性に従うパスを計画します。
再計画は、ロボットが操作中に枝が損傷しないように、ロボットが目的の範囲内で力を発揮するのに役立つパスを取得するために行われます。
実験的には、この方法は50回の試行で78%の成功率を達成し、異なる出発点からターゲット領域にブランチを移動することに成功しました。

要約(オリジナル)

This study presents a methodology to safely manipulate branches to aid various agricultural tasks. Humans in a real agricultural environment often manipulate branches to perform agricultural tasks effectively, but current agricultural robots lack this capability. This proposed strategy to manipulate branches can aid in different precision agriculture tasks, such as fruit picking in dense foliage, pollinating flowers under occlusion, and moving overhanging vines and branches for navigation. The proposed method modifies RRT* to plan a path that satisfies the branch geometric constraints and obeys branch deformable characteristics. Re-planning is done to obtain a path that helps the robot exert force within a desired range so that branches are not damaged during manipulation. Experimentally, this method achieved a success rate of 78% across 50 trials, successfully moving a branch from different starting points to a target region.

arxiv情報

著者 Madhav Rijal,Rashik Shrestha,Trevor Smith,Yu Gu
発行日 2025-03-11 15:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Force Aware Branch Manipulation To Assist Agricultural Tasks はコメントを受け付けていません

TinySense: A Lighter Weight and More Power-efficient Avionics System for Flying Insect-scale Robots

要約

このホワイトペーパーでは、グラム未満の自律的な空飛ぶ昆虫ロボット(FIR)のセンサースイートに進歩を紹介します。
FIRは、体重とサイズが少ないため、材料コストとスケーラビリティの点で比類のない利点を提供します。
ただし、それらのサイズは、かなりの制御課題、特に高速ダイナミクス、制限された電力、および限られたペイロード容量をもたらします。
軽量センサーの開発には進歩があり、多くの場合生物システムからインスピレーションを得ていますが、モーションキャプチャシステムなどの外部センシングからのフィードバックに依存することなく、サブグラム航空機は持続的なホバーを達成することはできませんでした。
持続的なホバリングが可能な最も軽い車両 – 「センサーの自律性」の最初のレベル – は、はるかに大きい28 g crazyflieです。
以前の研究では、その車両のアビオニクススイートのサイズが187 mgと21 MWに減少したことが報告されていました。
ここでは、質量と電力のさらなる減少を78.4 mgと15 mWのみに報告します。
レーザーレンジファインダーをより軽量でより効率的な圧力センサーに置き換え、グローバルシッターイメージングチップの周りに小さな光学フローセンサーを構築しました。
Kalmanフィルター(KF)は、これらの測定値を融合させて、ホバーを制御するために必要な状態変数、つまりピッチ角、翻訳速度、高度を推定します。
私たちのシステムは、フライト中のCrazyFlieの推定器のパフォーマンスに匹敵するパフォーマンスを達成しました。これは、モーションキャプチャと比較して、それぞれ1.573度、0.186 m/s、および0.136 mの根平均四方誤差を備えています。

要約(オリジナル)

In this paper, we introduce advances in the sensor suite of an autonomous flying insect robot (FIR) weighing less than a gram. FIRs, because of their small weight and size, offer unparalleled advantages in terms of material cost and scalability. However, their size introduces considerable control challenges, notably high-speed dynamics, restricted power, and limited payload capacity. While there have been advancements in developing lightweight sensors, often drawing inspiration from biological systems, no sub-gram aircraft has been able to attain sustained hover without relying on feedback from external sensing such as a motion capture system. The lightest vehicle capable of sustained hovering — the first level of “sensor autonomy” — is the much larger 28 g Crazyflie. Previous work reported a reduction in size of that vehicle’s avionics suite to 187 mg and 21 mW. Here, we report a further reduction in mass and power to only 78.4 mg and 15 mW. We replaced the laser rangefinder with a lighter and more efficient pressure sensor, and built a smaller optic flow sensor around a global-shutter imaging chip. A Kalman Filter (KF) fuses these measurements to estimate the state variables that are needed to control hover: pitch angle, translational velocity, and altitude. Our system achieved performance comparable to that of the Crazyflie’s estimator while in flight, with root mean squared errors of 1.573 deg, 0.186 m/s, and 0.136 m, respectively, relative to motion capture.

arxiv情報

著者 Zhitao Yu,Joshua Tran,Claire Li,Aaron Weber,Yash P. Talwekar,Sawyer Fuller
発行日 2025-03-11 03:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | TinySense: A Lighter Weight and More Power-efficient Avionics System for Flying Insect-scale Robots はコメントを受け付けていません

FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates

要約

Federated Learning(FL)は、分散型の方法でモデルをトレーニングするための広く使用されているフレームワークであり、中央サーバーがローカルクライアントからのデータに直接アクセスできないようにします。
ただし、地元のクライアントからのモデルが集約プロセス中に中央サーバーにさらされるため、このアプローチはまだデータプライバシーを完全に維持できない可能性があります。
VLMはトレーニングデータインスタンスを簡単に記憶し、メンバーシップ推論攻撃(MIA)に対して脆弱になるため、FLでビジョン言語モデル(VLMS)をトレーニングすると、この問題がさらに重要になります。
この課題に対処するために、クライアントパラメーターの完全なセットの開示を避けるFedrandフレームワークを提案します。
このフレームワークでは、各クライアントはサーバーから低ランク適応(LORA)のサブパラメーターをランダムに選択し、LORAウェイトの残りの対応物をプライベートパラメーターとして保持します。
クライアントのプライベートデータセットで両方のパラメーターをトレーニングした後、非プライベートクライアントパラメーターのみが集約のためにサーバーに送り返されます。
このアプローチは、クライアント側のVLMパラメーターを公開するリスクを軽減し、それによりデータプライバシーを強化します。
Fedrandは、関連するベースラインと比較してMIAに対する堅牢性を改善しながら、いくつかのベンチマークデータセットで完全なLORAパラメーターを通信する方法に匹敵する精度を達成することを経験的に検証します。

要約(オリジナル)

Federated Learning (FL) is a widely used framework for training models in a decentralized manner, ensuring that the central server does not have direct access to data from local clients. However, this approach may still fail to fully preserve data privacy, as models from local clients are exposed to the central server during the aggregation process. This issue becomes even more critical when training vision-language models (VLMs) with FL, as VLMs can easily memorize training data instances, making them vulnerable to membership inference attacks (MIAs). To address this challenge, we propose the FedRand framework, which avoids disclosing the full set of client parameters. In this framework, each client randomly selects subparameters of Low-Rank Adaptation (LoRA) from the server and keeps the remaining counterparts of the LoRA weights as private parameters. After training both parameters on the client’s private dataset, only the non-private client parameters are sent back to the server for aggregation. This approach mitigates the risk of exposing client-side VLM parameters, thereby enhancing data privacy. We empirically validate that FedRand improves robustness against MIAs compared to relevant baselines while achieving accuracy comparable to methods that communicate full LoRA parameters across several benchmark datasets.

arxiv情報

著者 Sangwoo Park,Seanie Lee,Byungjoo Kim,Sung Ju Hwang
発行日 2025-03-11 12:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates はコメントを受け付けていません

ToolFuzz — Automated Agent Tool Testing

要約

大規模な言語モデル(LLM)エージェントは、実際のアプリケーションでLLMの高度な推論機能を活用しています。
環境とインターフェイスするために、これらのエージェントは、多くの場合、Web検索やデータベースAPIなどのツールに依存しています。
エージェントは、ユーザークエリに沿ったツールドキュメントをLLMに提供するため、このドキュメントの完全性と正確性が重要です。
ただし、ツールのドキュメントは、多くの場合、エージェントの正確性を妨げて、過剰、下、または不法化されています。
標準的なソフトウェアテストアプローチは、これらのエラーが自然言語で表現されているため、これらのエラーを特定するのに苦労しています。
したがって、その重要性にもかかわらず、現在、エージェントのツールドキュメントをテストする自動化された方法はありません。
この問題に対処するために、ツールドキュメントの自動テストの最初の方法であるToolfuzzを提示します。
Toolfuzzは、2つのタイプのエラーを発見するように設計されています。(1)ツールランタイムエラーにつながるユーザークエリと、(2)エージェントの応答が誤っていないユーザークエリ。
ツールフーズは、大きくて多様な自然入力セットを生成し、低い誤った陽性レートでツールの説明エラーを効果的に見つけることができます。
さらに、2つの簡単なプロンプトエンジニアリングアプローチを提示します。
評価をさらに強化するために、32の一般的なラングチェーンツールと35の新しく作成されたカスタムツールと2つの新しいベンチマークに関する3つのツールテストアプローチすべてを評価します。
多くの公開されているツールは、不足していることに苦しんでいることがわかります。
具体的には、Toolfuzzがプロンプトエンジニアリングアプローチと比較して20倍の誤った入力を識別し、信頼できるAIエージェントを構築するための重要なコンポーネントになることを示します。

要約(オリジナル)

Large Language Model (LLM) Agents leverage the advanced reasoning capabilities of LLMs in real-world applications. To interface with an environment, these agents often rely on tools, such as web search or database APIs. As the agent provides the LLM with tool documentation along the user query, the completeness and correctness of this documentation is critical. However, tool documentation is often over-, under-, or ill-specified, impeding the agent’s accuracy. Standard software testing approaches struggle to identify these errors as they are expressed in natural language. Thus, despite its importance, there currently exists no automated method to test the tool documentation for agents. To address this issue, we present ToolFuzz, the first method for automated testing of tool documentations. ToolFuzz is designed to discover two types of errors: (1) user queries leading to tool runtime errors and (2) user queries that lead to incorrect agent responses. ToolFuzz can generate a large and diverse set of natural inputs, effectively finding tool description errors at a low false positive rate. Further, we present two straightforward prompt-engineering approaches. We evaluate all three tool testing approaches on 32 common LangChain tools and 35 newly created custom tools and 2 novel benchmarks to further strengthen the assessment. We find that many publicly available tools suffer from underspecification. Specifically, we show that ToolFuzz identifies 20x more erroneous inputs compared to the prompt-engineering approaches, making it a key component for building reliable AI agents.

arxiv情報

著者 Ivan Milev,Mislav Balunović,Maximilian Baader,Martin Vechev
発行日 2025-03-11 14:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | ToolFuzz — Automated Agent Tool Testing はコメントを受け付けていません

KAA: Kolmogorov-Arnold Attention for Enhancing Attentive Graph Neural Networks

要約

注意メカニズムを備えたグラフニューラルネットワーク(GNNS)は、しばしば注意深いGNNと呼ばれ、近年、高度なGNNモデルで顕著なパラダイムとして浮上しています。
ただし、ネイバーノードをスコアリングする重要なプロセスを理解することは限られたままであり、多くの既存の注意深いGNNのパフォーマンスの低下につながります。
この論文では、現在の注意力のGNNのスコアリング機能を統合し、Kolmogorov-Arnold Network(Kan)アーキテクチャをスコアリングプロセスに統合するKolmogorov-Arnoldの注意(KAA)を提案します。
KAAは、全面的にスコアリング機能のパフォーマンスを向上させ、ほぼすべての既存の丁寧なGNNに適用できます。
KAAの表現力を他のスコアリング関数と比較するために、最大ランキング距離(MRD)を導入して、ノードの重要性のランキングエラーの上限を定量的に推定します。
私たちの分析により、幅と深さに対する限られたパラメーターと制約の下で、線形変換ベースとMLPベースのスコアリング関数の両方が有限の表現力を示すことが明らかになりました。
対照的に、提案されたKAAは、ゼロオーダーBスプライン関数によってパラメーター化された単一層KANでさえ、ほぼ無限の表現力を示しています。
さまざまなバックボーンモデルを使用したノードレベルとグラフレベルの両方のタスクでの広範な実験は、KAAが強化したスコアリング機能が一貫して元のカウンターパートを上回り、場合によっては20%以上のパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Graph neural networks (GNNs) with attention mechanisms, often referred to as attentive GNNs, have emerged as a prominent paradigm in advanced GNN models in recent years. However, our understanding of the critical process of scoring neighbor nodes remains limited, leading to the underperformance of many existing attentive GNNs. In this paper, we unify the scoring functions of current attentive GNNs and propose Kolmogorov-Arnold Attention (KAA), which integrates the Kolmogorov-Arnold Network (KAN) architecture into the scoring process. KAA enhances the performance of scoring functions across the board and can be applied to nearly all existing attentive GNNs. To compare the expressive power of KAA with other scoring functions, we introduce Maximum Ranking Distance (MRD) to quantitatively estimate their upper bounds in ranking errors for node importance. Our analysis reveals that, under limited parameters and constraints on width and depth, both linear transformation-based and MLP-based scoring functions exhibit finite expressive power. In contrast, our proposed KAA, even with a single-layer KAN parameterized by zero-order B-spline functions, demonstrates nearly infinite expressive power. Extensive experiments on both node-level and graph-level tasks using various backbone models show that KAA-enhanced scoring functions consistently outperform their original counterparts, achieving performance improvements of over 20% in some cases.

arxiv情報

著者 Taoran Fang,Tianhong Gao,Chunping Wang,Yihao Shang,Wei Chow,Lei Chen,Yang Yang
発行日 2025-03-11 08:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | KAA: Kolmogorov-Arnold Attention for Enhancing Attentive Graph Neural Networks はコメントを受け付けていません

Materials Map Integrating Experimental and Computational Data through Graph-Based Machine Learning for Enhanced Materials Discovery

要約

材料科学とデータサイエンスの統合から生じる材料情報学(MI)は、材料の発見と開発を大幅に合理化することが期待されています。
MIに使用されるデータは、計算研究と実験的研究の両方から取得されますが、統合は依然として困難です。
以前の調査では、実験データセットに隠された傾向を計算データベースに保存された構成データにキャプチャする機械学習モデルを適用することにより、これらのデータセットの統合を報告しました。
この研究では、得られたデータを使用して、材料マップの構造の関係を視覚化する材料マップを構築し、実験的研究者による研究をサポートすることを目的としています。
このマップは、Matdeeplearn(MDL)フレームワークを使用して構築されており、マップ構造の材料構造、深い学習、および寸法削減のグラフベースの表現を実装しています。
統計分析を通じて得られた材料マップを評価し、メッセージ通過ニューラルネットワーク(MPNN)を使用してMDLが材料の構造的複雑さを反映する特徴を効率的に抽出できることを発見しました。
さらに、この利点は、必ずしも材料特性の予測における精度の向上につながるとは限らないことがわかりました。
この予期せぬ結果は、MPNNに固有の高学習パフォーマンスに起因するものであり、マテリアルマップ内のデータポイントの構造化に寄与する可能性があります。

要約(オリジナル)

Materials informatics (MI), which emerges from the integration of materials science and data science, is expected to greatly streamline the material discovery and development. The data used for MI are obtained from both computational and experimental studies, while their integration remains challenging. In our previous study, we reported the integration of these datasets by applying a machine learning model that captures trends hidden in the experimental datasets to compositional data stored in the computational database. In this study, we use the obtained data to construct materials maps, which visualize the relation in the structural features of materials, aiming to support study by the experimental researchers. The map is constructed using the MatDeepLearn (MDL) framework, which implements the graph-based representation of material structures, deep learning, and dimensional reduction for the map construction. We evaluate the obtained materials maps through statistical analysis and found that the MDL using message passing neural network (MPNN) enables efficient extraction of features that reflect the structural complexity of materials. Moreover, we found that this advantage does not necessarily translate into improved accuracy in predicting material properties. We attribute this unexpected outcome to the high learning performance inherent in MPNN, which can contribute to the structuring of data points within the materials map.

arxiv情報

著者 Yusuke Hashimoto,Xue Jia,Hao Li,Takaaki Tomai
発行日 2025-03-11 06:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG | Materials Map Integrating Experimental and Computational Data through Graph-Based Machine Learning for Enhanced Materials Discovery はコメントを受け付けていません

DaD: Distilled Reinforcement Learning for Diverse Keypoint Detection

要約

キーポイントは、構造からの構造(SFM)システムが数千の画像にスケーリングできるようにするものです。
ただし、SFMは非拡張不可能であるため、キーポイント検出目標の設計は自明ではないタスクです。
通常、記述子を含む補助目標が最適化されます。
ただし、これは記述子への依存性を誘発します。これは望ましくありません。
この論文では、補強学習を通じて、キーポイント検出のための完全に自己監視され、記述されない目標を提案します。
トレーニングが退化しないようにするために、バランスの取れたTOP-Kサンプリング戦略を活用します。
これはすでに競争力のあるモデルを生成していますが、2つの定性的に異なるタイプの検出器が出現し、それぞれ明かりと暗いキーポイントのみを検出できることがわかります。
これを改善するために、私たちは、明るい検出器と暗い検出器の両方のポイントワイズの最大値のカルバック繰り返しの発散を最適化する3番目の検出器であるDADを訓練します。
私たちのアプローチは、さまざまなベンチマークにわたってSOTAを大幅に改善しています。
コードとモデルの重みは、https://github.com/parskatt/dadで公開されています

要約(オリジナル)

Keypoints are what enable Structure-from-Motion (SfM) systems to scale to thousands of images. However, designing a keypoint detection objective is a non-trivial task, as SfM is non-differentiable. Typically, an auxiliary objective involving a descriptor is optimized. This however induces a dependency on the descriptor, which is undesirable. In this paper we propose a fully self-supervised and descriptor-free objective for keypoint detection, through reinforcement learning. To ensure training does not degenerate, we leverage a balanced top-K sampling strategy. While this already produces competitive models, we find that two qualitatively different types of detectors emerge, which are only able to detect light and dark keypoints respectively. To remedy this, we train a third detector, DaD, that optimizes the Kullback-Leibler divergence of the pointwise maximum of both light and dark detectors. Our approach significantly improve upon SotA across a range of benchmarks. Code and model weights are publicly available at https://github.com/parskatt/dad

arxiv情報

著者 Johan Edstedt,Georg Bökman,Mårten Wadenbäck,Michael Felsberg
発行日 2025-03-11 02:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DaD: Distilled Reinforcement Learning for Diverse Keypoint Detection はコメントを受け付けていません

PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM

要約

このペーパーでは、投影表現を使用して2D画像をジョイントアングルに直接マッピングすることにより、明示的なポーズ推定の必要性を排除するロボットハンドコントロールの新しいフレームワークであるPoselessを紹介します。
当社のアプローチは、ランダム化されたジョイント構成によって生成された合成トレーニングデータを活用し、実際のシナリオへのゼロショット一般化とロボットから人間の手への横断的転送を可能にします。
視覚入力を投影し、トランスベースのデコーダーを使用することにより、Poselessは、深さのあいまいさやデータ不足などの課題に対処しながら、堅牢で低遅延の制御を実現します。
実験結果は、人間で標識されたデータセットに依存することなく、関節角度予測精度の競争力を示しています。

要約(オリジナル)

This paper introduces PoseLess, a novel framework for robot hand control that eliminates the need for explicit pose estimation by directly mapping 2D images to joint angles using projected representations. Our approach leverages synthetic training data generated through randomized joint configurations, enabling zero-shot generalization to real-world scenarios and cross-morphology transfer from robotic to human hands. By projecting visual inputs and employing a transformer-based decoder, PoseLess achieves robust, low-latency control while addressing challenges such as depth ambiguity and data scarcity. Experimental results demonstrate competitive performance in joint angle prediction accuracy without relying on any human-labelled dataset.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Tuan Le Duc Anh,Bui Quang Huy
発行日 2025-03-11 02:26:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | PoseLess: Depth-Free Vision-to-Joint Control via Direct Image Mapping with VLM はコメントを受け付けていません