SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks

要約

好みの最適化 (PO) は、言語モデルを人間の望ましい行動に合わせるための効果的なステップであることが証明されています。
現在のバリアントは、オフラインの Direct Preference Optimization 目標に従って、すべてのトークンが KL 発散のシグナルと損失関数への報酬に寄与する厳密な設定に焦点を当てています。
ただし、人間の好みは、シーケンス内の各単語に均等に影響を受けるのではなく、多くの場合、特定の単語やフレーズに依存します。
有害な用語が存在すると、好ましくない反応が生じます。
この観察に基づいて、我々は、PO 中にすべてのトークンが均等に重み付けされるべきではないと主張し、PO トレーニング中に各トークンに対応する KL 発散と報酬の重み付けを自動的に学習することを目的とした SparsePO と呼ばれる柔軟な目標を提案します。
私たちは、参照モデル自体から導出するか、オンザフライで学習できる重みマスクの 2 つの異なるバリアントを提案します。
特に、私たちの方法は学習されたマスクにスパース性を誘発し、モデルがトークンレベルで報酬と KL 発散寄与を最適に重み付ける方法を学習し、マスクのスパース性の最適なレベルを学習できるようにします。
感情制御、対話、テキストの要約、テキストからコードへの生成など、複数のドメインでの広範な実験により、私たちのアプローチがターゲットタスクに応じてトークンに意味のある重みを割り当て、望ましい優先順位でより多くの応答を生成し、推論タスクを向上させることが示されています。
他のトークンレベルおよびレスポンスレベルのPO方法と比較して、最大2パーセントポイントです。

要約(オリジナル)

Preference Optimization (PO) has proven an effective step for aligning language models to human-desired behaviors. Current variants, following the offline Direct Preference Optimization objective, have focused on a strict setting where all tokens are contributing signals of KL divergence and rewards to the loss function. However, human preference is not affected by each word in a sequence equally but is often dependent on specific words or phrases, e.g. existence of toxic terms leads to non-preferred responses. Based on this observation, we argue that not all tokens should be weighted equally during PO and propose a flexible objective termed SparsePO, that aims to automatically learn to weight the KL divergence and reward corresponding to each token during PO training. We propose two different variants of weight-masks that can either be derived from the reference model itself or learned on the fly. Notably, our method induces sparsity in the learned masks, allowing the model to learn how to best weight reward and KL divergence contributions at the token level, learning an optimal level of mask sparsity. Extensive experiments on multiple domains, including sentiment control, dialogue, text summarization and text-to-code generation, illustrate that our approach assigns meaningful weights to tokens according to the target task, generates more responses with the desired preference and improves reasoning tasks by up to 2 percentage points compared to other token- and response-level PO methods.

arxiv情報

著者 Fenia Christopoulou,Ronald Cardenas,Gerasimos Lampouras,Haitham Bou-Ammar,Jun Wang
発行日 2024-10-08 15:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control

要約

MPCはタイムステップごとに最適な制御問題を解くことで非線形フィードバック制御を実現しますが、計算負荷が非常に大きくなる傾向があり、制御周期内で政策を最適化することが困難です。
この問題に対処するために、考えられるアプローチの 1 つは、最終値学習を利用して計算コストを削減することです。
ただし、元の MPC セットアップでタスクが動的に変更される状況では、学習した値を他のタスクに使用することはできません。
この研究では、計算時間を削減しながらマルチタスク ポリシーの最適化を達成するために、目標条件付き最終値学習を備えた MPC フレームワークを開発します。
さらに、上位レベルの軌道プランナーが適切な目標条件付き軌道を出力できるようにする階層制御構造を使用することで、ロボット モデルが多様な動作を生成できることを実証します。
二足倒立振子ロボットモデルで提案手法を評価し、目標条件付き最終値学習と上位レベルの軌道プランナーを組み合わせることでリアルタイム制御が可能になることを確認します。
したがって、ロボットは傾斜地でもターゲットの軌道を追跡することができます。

要約(オリジナル)

While MPC enables nonlinear feedback control by solving an optimal control problem at each timestep, the computational burden tends to be significantly large, making it difficult to optimize a policy within the control period. To address this issue, one possible approach is to utilize terminal value learning to reduce computational costs. However, the learned value cannot be used for other tasks in situations where the task dynamically changes in the original MPC setup. In this study, we develop an MPC framework with goal-conditioned terminal value learning to achieve multitask policy optimization while reducing computational time. Furthermore, by using a hierarchical control structure that allows the upper-level trajectory planner to output appropriate goal-conditioned trajectories, we demonstrate that a robot model is able to generate diverse motions. We evaluate the proposed method on a bipedal inverted pendulum robot model and confirm that combining goal-conditioned terminal value learning with an upper-level trajectory planner enables real-time control; thus, the robot successfully tracks a target trajectory on sloped terrain.

arxiv情報

著者 Mitsuki Morita,Satoshi Yamamori,Satoshi Yagi,Norikazu Sugimoto,Jun Morimoto
発行日 2024-10-08 10:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | コメントする

PAMLR: A Passive-Active Multi-Armed Bandit-Based Solution for LoRa Channel Allocation

要約

都市環境における低電力無線ネットワークで低デューティ サイクル動作を実現することは、外部干渉とフェージングの複雑で変動するダイナミクスによって複雑になります。
私たちは、チャネルの最適な選択というタスクで低消費電力を達成するための強化学習の使用を検討します。
学習は、外部干渉に対処するためのパッシブ チャネル サンプリングとフェージングに対処するためのアクティブ チャネル サンプリングのハイブリッドに依存します。
当社のソリューションである LoRa 用パッシブ-アクティブ マルチアーム バンディット (PAMLR、「パメラ」と発音) は、2 種類のサンプルのバランスをとってエネルギー効率の高いチャネル選択を実現します。アクティブ チャネル測定は、ノイズしきい値を更新するために適切な低レベルに調整されます。
そして、パッシブチャネル測定を補償するために、ノイズ閾値を使用したチャネル探索から最上位のチャネルを選択するために、適切な高レベルに調整されます。
両方のタイプのサンプルのレートは、チャネルのダイナミクスに応じて調整されます。
さまざまな都市の複数の環境での広範なテストに基づいて、チャネル測定に関連するエネルギーコストを大幅に最小限に抑えながら、最適なチャネル割り当てポリシーと比較して低い SNR リグレスによって示されるように、PAMLR が優れた通信品質を維持できることを検証しました。

要約(オリジナル)

Achieving low duty cycle operation in low-power wireless networks in urban environments is complicated by the complex and variable dynamics of external interference and fading. We explore the use of reinforcement learning for achieving low power consumption for the task of optimal selection of channels. The learning relies on a hybrid of passive channel sampling for dealing with external interference and active channel sampling for dealing with fading. Our solution, Passive-Active Multi-armed bandit for LoRa (PAMLR, pronounced ‘Pamela’), balances the two types of samples to achieve energy-efficient channel selection: active channel measurements are tuned to an appropriately low level to update noise thresholds, and to compensate passive channel measurements are tuned to an appropriately high level for selecting the top-most channels from channel exploration using the noise thresholds. The rates of both types of samples are adapted in response to channel dynamics. Based on extensive testing in multiple environments in different cities, we validate that PAMLR can maintain excellent communication quality, as demonstrated by a low SNR regret compared to the optimal channel allocation policy, while substantially minimizing the energy cost associated with channel measurements.

arxiv情報

著者 Jihoon Yun,Chengzhang Li,Anish Arora
発行日 2024-10-08 12:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI | コメントする

CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures

要約

人工知能 (AI) の決定を説明することは、今日の AI における大きな課題であり、特に医療や法律などの機密性の高いシナリオに適用される場合に顕著です。
しかし、決定の背後にある論理的根拠を説明する必要性は、特定の決定が行われた \textit{理由} を正当化することが重要であるため、人間ベースの審議でも主要な問題です。
たとえば研修医は、(おそらく正しい)診断を提供するだけでなく、どのようにして特定の結論に達したかを説明することも求められます。
したがって、住民の説明スキルの訓練を支援する新しいツールを開発することが、教育における AI の中心的な目的となります。
この論文では、この方向に従い、私たちの知る限り、臨床症例の正しい診断と誤った診断が医師によって書かれた自然言語の説明で強化された医療質問応答用の初の多言語データセットを紹介します。
これらの説明には、議論の構成要素 (つまり、前提、主張) と議論の関係 (つまり、攻撃、支持) が手動で注釈付けされており、その結果、4 か国語 (英語、スペイン語、フランス語) の 558 の臨床症例で構成される多言語 CasiMedicos-Arg データセットが作成されます。
、イタリア語) 説明付き。5,021 件の主張、2,313 件の前提、2,431 件の支援関係、および 1,106 件の攻撃関係に注釈を付けました。
最後に、引数マイニング タスクのこの困難なデータセットに対して競合ベースラインがどのように機能するかを示します。

要約(オリジナル)

Explaining Artificial Intelligence (AI) decisions is a major challenge nowadays in AI, in particular when applied to sensitive scenarios like medicine and law. However, the need to explain the rationale behind decisions is a main issue also for human-based deliberation as it is important to justify \textit{why} a certain decision has been taken. Resident medical doctors for instance are required not only to provide a (possibly correct) diagnosis, but also to explain how they reached a certain conclusion. Developing new tools to aid residents to train their explanation skills is therefore a central objective of AI in education. In this paper, we follow this direction, and we present, to the best of our knowledge, the first multilingual dataset for Medical Question Answering where correct and incorrect diagnoses for a clinical case are enriched with a natural language explanation written by doctors. These explanations have been manually annotated with argument components (i.e., premise, claim) and argument relations (i.e., attack, support), resulting in the Multilingual CasiMedicos-Arg dataset which consists of 558 clinical cases in four languages (English, Spanish, French, Italian) with explanations, where we annotated 5021 claims, 2313 premises, 2431 support relations, and 1106 attack relations. We conclude by showing how competitive baselines perform over this challenging dataset for the argument mining task.

arxiv情報

著者 Ekaterina Sviridova,Anar Yeginbergen,Ainara Estarrona,Elena Cabrio,Serena Villata,Rodrigo Agerri
発行日 2024-10-08 13:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks

要約

機械の非学習は、LLM でのトレーニング データの望ましくない記憶を軽減するための有望なアプローチです。
しかし、この研究では、LLM でのアンラーニングに対する既存のアプローチが、驚くほど単純な一連の標的型再学習攻撃の影響を受けやすいことを示します。
小規模で関連性が低い可能性のあるデータ セットのみにアクセスすることで、未学習モデルのメモリを「ジョギング」して、未学習の影響を逆転できることがわかりました。
たとえば、公開されている医学論文を再学習すると、未学習の LLM が生物兵器に関する有害な知識を出力する可能性があり、ハリー ポッターシリーズに関する一般的な Wiki 情報を再学習すると、モデルが逐語的に記憶したテキストを出力する可能性があることを示します。
この非学習-再学習パイプラインを形式化し、3 つの一般的な非学習ベンチマークにわたる攻撃を調査し、調査から得られる将来の方向性とガイドラインについて議論します。

要約(オリジナル)

Machine unlearning is a promising approach to mitigate undesirable memorization of training data in LLMs. However, in this work we show that existing approaches for unlearning in LLMs are surprisingly susceptible to a simple set of targeted relearning attacks. With access to only a small and potentially loosely related set of data, we find that we can ‘jog’ the memory of unlearned models to reverse the effects of unlearning. For example, we show that relearning on public medical articles can lead an unlearned LLM to output harmful knowledge about bioweapons, and relearning general wiki information about the book series Harry Potter can force the model to output verbatim memorized text. We formalize this unlearning-relearning pipeline, explore the attack across three popular unlearning benchmarks, and discuss future directions and guidelines that result from our study.

arxiv情報

著者 Shengyuan Hu,Yiwei Fu,Zhiwei Steven Wu,Virginia Smith
発行日 2024-10-08 08:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Last Iterate Convergence in Monotone Mean Field Games

要約

Mean Field Game (MFG) は、多数のエージェントの動作をモデル化して近似するために利用されるフレームワークであり、MFG における均衡の計算は関心の対象となっています。
均衡を近似する方法が提案されているにもかかわらず、更新されたポリシーのシーケンスが均衡に収束するアルゴリズム、特に最後の反復収束を示すアルゴリズムは限られています。
MFG の平衡を計算するために、単純な近位点タイプのアルゴリズムの使用を提案します。
続いて、Lasry-Lions 型の単調性条件の下で最初の最終反復収束保証を提供します。
さらに、正規化された MFG に対してミラー降下アルゴリズムを使用して、MFG の近接点法の更新ルールを効率的に近似します。
$\mathcal{O}({\log(1/\varepsilon)})$ 回の反復後にアルゴリズムが $\varepsilon$ の精度で近似できることを示します。
この研究は、大規模かつ人口の多いゲームに対する扱いやすいアプローチを提供します。

要約(オリジナル)

Mean Field Game (MFG) is a framework utilized to model and approximate the behavior of a large number of agents, and the computation of equilibria in MFG has been a subject of interest. Despite the proposal of methods to approximate the equilibria, algorithms where the sequence of updated policy converges to equilibrium, specifically those exhibiting last-iterate convergence, have been limited. We propose the use of a simple, proximal-point-type algorithm to compute equilibria for MFGs. Subsequently, we provide the first last-iterate convergence guarantee under the Lasry–Lions-type monotonicity condition. We further employ the Mirror Descent algorithm for the regularized MFG to efficiently approximate the update rules of the proximal point method for MFGs. We demonstrate that the algorithm can approximate with an accuracy of $\varepsilon$ after $\mathcal{O}({\log(1/\varepsilon)})$ iterations. This research offers a tractable approach for large-scale and large-population games.

arxiv情報

著者 Noboru Isobe,Kenshi Abe,Kaito Ariu
発行日 2024-10-08 03:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 91A16, cs.AI, cs.GT | コメントする

MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense

要約

モデル反転 (MI) 攻撃は、ターゲット モデルの出力情報を利用してプライバシーに配慮したトレーニング データを再構築することを目的としており、ディープ ニューラル ネットワーク (DNN) のプライバシーの脅威に対する広く懸念が生じています。
残念ながら、MI 攻撃の急速な進化と並行して、包括的で整合性のある信頼できるベンチマークの欠如が、手強い課題として浮上しています。
この欠陥により、さまざまな攻撃方法間の比較が不十分になったり、実験設定が一貫性を持たなくなったりすることがあります。
この論文では、この重大なギャップに対処するためのモデル反転攻撃と防御のための最初の実用的なベンチマークを紹介します。これは \textit{MIBench} と名付けられています。
このベンチマークは、拡張可能で再現可能なモジュールベースのツールボックスとして機能し、現在合計 16 の最先端の攻撃および防御方法を統合しています。
さらに、標準化された公正な評価と分析を促進するために、一般的に使用される 9 つの評価プロトコルを含む一連の評価ツールを提供します。
この基盤を利用して、さまざまなシナリオにわたるさまざまな手法のパフォーマンスを総合的に比較および分析するために、複数の観点から広範な実験を実施します。これにより、以前の研究で一般的だった位置ずれの問題や不一致が克服されます。
収集した攻撃手法と防御戦略に基づいて、ターゲットの解像度、防御の堅牢性、モデルの予測力、モデルのアーキテクチャ、伝達性、損失関数の影響を分析します。
私たちの希望は、この \textit{MIBench} が統合された実用的で拡張可能なツールボックスを提供し、この分野の研究者によって新しい手法を厳密にテストおよび比較するために広く利用され、公平な評価を確保し、それによって将来の開発をさらに前進させることです。

要約(オリジナル)

Model Inversion (MI) attacks aim at leveraging the output information of target models to reconstruct privacy-sensitive training data, raising widespread concerns on privacy threats of Deep Neural Networks (DNNs). Unfortunately, in tandem with the rapid evolution of MI attacks, the lack of a comprehensive, aligned, and reliable benchmark has emerged as a formidable challenge. This deficiency leads to inadequate comparisons between different attack methods and inconsistent experimental setups. In this paper, we introduce the first practical benchmark for model inversion attacks and defenses to address this critical gap, which is named \textit{MIBench}. This benchmark serves as an extensible and reproducible modular-based toolbox and currently integrates a total of 16 state-of-the-art attack and defense methods. Moreover, we furnish a suite of assessment tools encompassing 9 commonly used evaluation protocols to facilitate standardized and fair evaluation and analysis. Capitalizing on this foundation, we conduct extensive experiments from multiple perspectives to holistically compare and analyze the performance of various methods across different scenarios, which overcomes the misalignment issues and discrepancy prevalent in previous works. Based on the collected attack methods and defense strategies, we analyze the impact of target resolution, defense robustness, model predictive power, model architectures, transferability and loss function. Our hope is that this \textit{MIBench} could provide a unified, practical and extensible toolbox and is widely utilized by researchers in the field to rigorously test and compare their novel methods, ensuring equitable evaluations and thereby propelling further advancements in the future development.

arxiv情報

著者 Yixiang Qiu,Hongyao Yu,Hao Fang,Wenbo Yu,Bin Chen,Xuan Wang,Shu-Tao Xia,Ke Xu
発行日 2024-10-08 06:21:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | コメントする

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

要約

最近の 3D ノベル ビュー合成 (NVS) 手法は、単一オブジェクト中心のシーンに限定されており、複雑な環境に対応するのに苦労しています。
多くの場合、トレーニングには大規模な 3D データが必要ですが、トレーニングの分布を超えた一般化が欠けています。
逆に、3D フリーの方法では、大量の 3D ベースのトレーニング データを必要とせずに、事前トレーニングされた安定した拡散モデルを使用して、複雑な自然のシーンのテキスト制御ビューを生成できますが、カメラ制御がありません。
この論文では、3D フリーのアプローチと 3D ベースのアプローチの利点を組み合わせて、単一の入力画像からカメラ制御の視点を生成できる方法を紹介します。
私たちの方法は、大規模なトレーニングや追加の 3D データやマルチビュー データを必要とせずに、複雑で多様なシーンを処理することに優れています。
弱いガイダンスには広く利用可能な事前トレーニング済み NVS モデルを活用し、この知識を 3D フリーのビュー合成アプローチに統合して、望ましい結果を達成します。
実験結果は、私たちの方法が定性的および定量的評価の両方で既存のモデルよりも優れており、さまざまなシーンにわたって希望のカメラ角度で高忠実度で一貫した新しいビューの合成を提供することを示しています。

要約(オリジナル)

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.

arxiv情報

著者 Taewon Kang,Divya Kothandaraman,Dinesh Manocha,Ming C. Lin
発行日 2024-10-08 03:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models

要約

視覚言語モデル (VLM) は、視覚タスクにおいて優れたパフォーマンスを示していますが、それを新しい領域に適応させるには、多くの場合、費用のかかる微調整が必​​要になります。
テキスト、ビジュアル、マルチモーダル プロンプトなどのプロンプト チューニング手法は、学習可能なプロンプトを活用することで効率的な代替手段を提供します。
ただし、視覚言語セグメンテーション モデル (VLSM) へのそれらの適用と、大幅なドメイン シフト下での評価は未調査のままです。
この研究では、さまざまなユニモーダルおよびマルチモーダル プロンプト チューニング技術を VLSM に統合するためのオープンソース ベンチマーク フレームワーク TuneVLSeg を紹介し、任意の数のクラスを持つ下流のセグメンテーション データセットに対してプロンプト チューニングを使用できるようにします。
TuneVLSeg には、$2$ の VLSM で使用されるさまざまなプロンプトの深さに関する $6$ のプロンプト チューニング戦略が含まれており、合計 $8$ の異なる組み合わせになります。
私たちは、3 ドルの放射線学データセット (乳腫瘍、心エコー検査、胸部 X 線病理学) と 5 ドルの非放射線学データセット (ポリープ、潰瘍、皮膚がん) を含む 8 ドルの多様な医療データセット、および 2 つの自然なドメイン セグメンテーションでさまざまな迅速な調整をテストします。
データセット。
私たちの研究では、自然領域の画像から医療データまで、大幅な領域の変化の下では、テキストのプロンプト調整が困難であることがわかりました。
さらに、視覚的なプロンプト チューニングは、マルチモーダル プロンプト チューニングよりもハイパーパラメーターが少なく、マルチモーダル アプローチに匹敵するパフォーマンスを達成できることが多く、最初の試みとしては価値があります。
私たちの研究は、堅牢なドメイン固有のセグメンテーションのためのさまざまなプロンプト チューニング手法の理解と適用性を前進させます。
ソース コードは https://github.com/naamiinepal/tunevlseg で入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) have shown impressive performance in vision tasks, but adapting them to new domains often requires expensive fine-tuning. Prompt tuning techniques, including textual, visual, and multimodal prompting, offer efficient alternatives by leveraging learnable prompts. However, their application to Vision-Language Segmentation Models (VLSMs) and evaluation under significant domain shifts remain unexplored. This work presents an open-source benchmarking framework, TuneVLSeg, to integrate various unimodal and multimodal prompt tuning techniques into VLSMs, making prompt tuning usable for downstream segmentation datasets with any number of classes. TuneVLSeg includes $6$ prompt tuning strategies on various prompt depths used in $2$ VLSMs totaling of $8$ different combinations. We test various prompt tuning on $8$ diverse medical datasets, including $3$ radiology datasets (breast tumor, echocardiograph, chest X-ray pathologies) and $5$ non-radiology datasets (polyp, ulcer, skin cancer), and two natural domain segmentation datasets. Our study found that textual prompt tuning struggles under significant domain shifts, from natural-domain images to medical data. Furthermore, visual prompt tuning, with fewer hyperparameters than multimodal prompt tuning, often achieves performance competitive to multimodal approaches, making it a valuable first attempt. Our work advances the understanding and applicability of different prompt-tuning techniques for robust domain-specific segmentation. The source code is available at https://github.com/naamiinepal/tunevlseg.

arxiv情報

著者 Rabin Adhikari,Safal Thapaliya,Manish Dhakal,Bishesh Khanal
発行日 2024-10-08 06:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Control-oriented Clustering of Visual Latent Representation

要約

私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおける視覚表現空間 (ビジョン エンコーダーからアクション デコーダーまでの情報チャネル) の幾何学構造の研究を開始します。
画像分類におけるニューラル崩壊 (NC) 現象に触発されて、同様のクラスタリングの法則が視覚表現空間にも現れるかどうかを調査します。
画像ベースの制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心的なピースは、そのような法則が存在する場合、どの暗黙のクラスに従って視覚特徴がクラスター化されるかを決定することにあります。
画像ベースの平面プッシュに焦点を当て、制御タスクにおける視覚表現の最も重要な役割は、アクション デコーダーに目標を伝えることであると仮定します。
次に、エキスパート デモンストレーションのトレーニング サンプルを、(a) 入力におけるオブジェクトとターゲットの間の相対姿勢、または (b) 出力におけるエキスパート アクションによって引き起こされるオブジェクトの相対姿勢に基づいて、8 つの「制御指向」クラスに分類します。
ここで、1 つのクラスは 1 つの相対姿勢オルサント (REPO) に対応します。
アーキテクチャの 4 つの異なるインスタンス化にわたって、8 つの REPO に従って、視覚表現空間における制御指向のクラスタリングの一般的な出現を報告します。
経験的な観察を超えて、限られた専門家のデモンストレーションでポリシーをトレーニングする際に、テスト時のパフォーマンスを向上させるアルゴリズム ツールとしてこのようなクラスタリングの法則を活用できることを示します。
特に、視覚特徴の制御指向のクラスタリングを促進するために、正則化として NC を使用してビジョン エンコーダを事前トレーニングします。
驚くべきことに、このような NC で事前トレーニングされたビジョン エンコーダは、アクション デコーダとエンドツーエンドで微調整されると、低データ領域でのテスト時間のパフォーマンスが 10% ~ 35% 向上します。
現実世界のビジョンベースの平面プッシュ実験により、制御指向の視覚表現の事前トレーニングの驚くべき利点が確認されました。

要約(オリジナル)

We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight ‘control-oriented’ classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.

arxiv情報

著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2024-10-08 02:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする