Task-Aware Robotic Grasping by evaluating Quality Diversity Solutions through Foundation Models

要約

タスクを考慮したロボット把持は、意味理解と幾何学的推論の統合を必要とする困難な問題である。本論文では、大規模言語モデル(Large Language Models: LLM)と品質多様性(Quality Diversity: QD)アルゴリズムを活用し、ゼロショットのタスク条件付き把持合成を可能にする新しいフレームワークを提案する。このフレームワークは、オブジェクトを意味のあるサブパーツに分割し、各サブパーツに意味的なラベルを付けることで、LLMを促すために使用できる構造化表現を作成する。物体の構造に関する意味的な表現と幾何学的な表現を結びつけることで、LLMが持つタスクやどの部分を把持するかに関する知識を、物理的な世界で応用することができます。QDが生成する把持アーカイブは多様な把持の集合を提供し、タスクに基づいて最適な把持を選択することを可能にする。提案手法をFranka Emikaロボットを用いてYCBデータセットのサブセットで評価した。タスクに特化した把持領域の統合されたグランドトゥルースを調査により確立する。65のタスクとオブジェクトの組み合わせにおいて、タスク条件付き把持領域の予測において73.6%の重み付きIoU(weighted intersection over union)を達成した。さらに、より少ないサブセットを対象としたエンド・ツー・エンド検証研究により、我々のアプローチの有効性が確認され、88%の回答がタスクを考慮した把持領域を対照群よりも支持した。二項検定の結果、参加者は有意にタスクを意識した把持を好むことがわかった。

要約(オリジナル)

Task-aware robotic grasping is a challenging problem that requires the integration of semantic understanding and geometric reasoning. This paper proposes a novel framework that leverages Large Language Models (LLMs) and Quality Diversity (QD) algorithms to enable zero-shot task-conditioned grasp synthesis. The framework segments objects into meaningful subparts and labels each subpart semantically, creating structured representations that can be used to prompt an LLM. By coupling semantic and geometric representations of an object’s structure, the LLM’s knowledge about tasks and which parts to grasp can be applied in the physical world. The QD-generated grasp archive provides a diverse set of grasps, allowing us to select the most suitable grasp based on the task. We evaluated the proposed method on a subset of the YCB dataset with a Franka Emika robot. A consolidated ground truth for task-specific grasp regions is established through a survey. Our work achieves a weighted intersection over union (IoU) of 73.6% in predicting task-conditioned grasp regions in 65 task-object combinations. An end-to-end validation study on a smaller subset further confirms the effectiveness of our approach, with 88% of responses favoring the task-aware grasp over the control group. A binomial test shows that participants significantly prefer the task-aware grasp.

arxiv情報

著者 Aurel X. Appius,Emiland Garrabe,Francois Helenon,Mahdi Khoramshahi,Mohamed Chetouani,Stephane Doncieux
発行日 2025-03-01 22:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Task-Aware Robotic Grasping by evaluating Quality Diversity Solutions through Foundation Models はコメントを受け付けていません

VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers

要約

自律走行では、動的環境やコーナーケースが、自車両の意思決定のロバスト性に大きな課題をもたらす。これらの課題に対処するため、エンドツーエンドの自律走行パラダイムにおける状態-行動マッピングの表現から始め、我々は新しいパイプラインであるVDT-Autoを導入する。視覚言語モデル(VLM)の状態理解の進化を活用し、拡散トランスフォーマーベースのアクション生成を組み込んだ我々のVDT-Autoは、拡散プロセスの条件付けのために、幾何学的かつ文脈的に環境を解析する。幾何学的には、鳥瞰図(BEV)エンコーダを用いて、周囲の画像から特徴グリッドを抽出する。文脈的には、微調整されたVLMの構造化された出力を、テキスト埋め込みとノイジーパスに処理する。拡散処理の間、順方向処理に加えられるノイズは、微調整されたVLMのノイズパス出力からサンプリングされ、一方、抽出されたBEV特徴グリッドと埋め込まれたテキストは、拡散トランスフォーマーの逆方向処理の条件となる。我々のVDT-Autoは、nuScenesのオープンループ計画評価において、平均0.52mのL2エラーと平均21%の衝突率を達成した。さらに、実世界でのデモンストレーションにより、VDT-Autoの優れた汎用性が示された。コードとデータセットは合格後に公開される予定である。

要約(オリジナル)

In autonomous driving, dynamic environment and corner cases pose significant challenges to the robustness of ego vehicle’s decision-making. To address these challenges, commencing with the representation of state-action mapping in the end-to-end autonomous driving paradigm, we introduce a novel pipeline, VDT-Auto. Leveraging the advancement of the state understanding of Visual Language Model (VLM), incorporating with diffusion Transformer-based action generation, our VDT-Auto parses the environment geometrically and contextually for the conditioning of the diffusion process. Geometrically, we use a bird’s-eye view (BEV) encoder to extract feature grids from the surrounding images. Contextually, the structured output of our fine-tuned VLM is processed into textual embeddings and noisy paths. During our diffusion process, the added noise for the forward process is sampled from the noisy path output of the fine-tuned VLM, while the extracted BEV feature grids and embedded texts condition the reverse process of our diffusion Transformers. Our VDT-Auto achieved 0.52m on average L2 errors and 21% on average collision rate in the nuScenes open-loop planning evaluation. Moreover, the real-world demonstration exhibited prominent generalizability of our VDT-Auto. The code and dataset will be released after acceptance.

arxiv情報

著者 Ziang Guo,Konstantin Gubernatorov,Selamawit Asfaw,Zakhar Yagudin,Dzmitry Tsetserukou
発行日 2025-03-01 23:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | VDT-Auto: End-to-end Autonomous Driving with VLM-Guided Diffusion Transformers はコメントを受け付けていません

ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos

要約

本研究では、多指ロボットハンドが多様な姿勢で多様な物体を操作するための、視覚に基づく統一的なポリシーの学習を目指す。先行研究では、ポリシーの学習に人間の映像を用いることの利点が示されているが、性能の向上は、推定された軌道のノイズによって制限されている。さらに、地上の真実の物体状態のような特権的な物体情報に依存することは、現実的なシナリオでの適用性をさらに制限する。これらの限界に対処するために、我々は、人間の映像からの視覚ベースの政策学習を改善するための新しいフレームワークViViDexを提案する。ViViDexはまず、軌跡誘導報酬を用いた強化学習を用いて、各動画の状態ベースのポリシーを学習し、動画から視覚的に自然で物理的にもっともらしい軌跡を得る。次に、状態ベースの方針から成功したエピソードをロールアウトし、特権情報を用いずに統一的な視覚的方針を学習する。視覚的点群表現をさらに強化するために座標変換を提案し、視覚的ポリシーのトレーニングのために行動クローニングと拡散ポリシーを比較する。シミュレーションと実際のロボットを用いた実験の結果、ViViDexは3つの器用な操作タスクにおいて、最先端のアプローチを凌駕することが実証された。

要約(オリジナル)

In this work, we aim to learn a unified vision-based policy for multi-fingered robot hands to manipulate a variety of objects in diverse poses. Though prior work has shown benefits of using human videos for policy learning, performance gains have been limited by the noise in estimated trajectories. Moreover, reliance on privileged object information such as ground-truth object states further limits the applicability in realistic scenarios. To address these limitations, we propose a new framework ViViDex to improve vision-based policy learning from human videos. It first uses reinforcement learning with trajectory guided rewards to train state-based policies for each video, obtaining both visually natural and physically plausible trajectories from the video. We then rollout successful episodes from state-based policies and train a unified visual policy without using any privileged information. We propose coordinate transformation to further enhance the visual point cloud representation, and compare behavior cloning and diffusion policy for the visual policy training. Experiments both in simulation and on the real robot demonstrate that ViViDex outperforms state-of-the-art approaches on three dexterous manipulation tasks.

arxiv情報

著者 Zerui Chen,Shizhe Chen,Etienne Arlaud,Ivan Laptev,Cordelia Schmid
発行日 2025-03-01 23:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO | ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos はコメントを受け付けていません

Leray-Schauder Mappings for Operator Learning

要約

コンパクトな部分空間の有限次元近似を学習するためのLeray-Schauder写像の使用に基づく、バナッハ空間間の作用素を学習するアルゴリズムを紹介する。結果として得られる手法が、(おそらく非線形な)作用素の普遍的な近似であることを示す。また、2つのベンチマークデータセットを用いて、本アプローチの効率性を実証し、最先端のモデルに匹敵する結果を得ることを示す。

要約(オリジナル)

We present an algorithm for learning operators between Banach spaces, based on the use of Leray-Schauder mappings to learn a finite-dimensional approximation of compact subspaces. We show that the resulting method is a universal approximator of (possibly nonlinear) operators. We demonstrate the efficiency of the approach on two benchmark datasets showing it achieves results comparable to state of the art models.

arxiv情報

著者 Emanuele Zappala
発行日 2025-03-03 06:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA | Leray-Schauder Mappings for Operator Learning はコメントを受け付けていません

Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models

要約

大規模言語モデル(LLM)は近年、様々なタスクにおいて目覚ましい成功を収めている。しかし、LLMを効率的に処理することは、特に小バッチの推論環境(モバイルデバイスなど)において、大きなメモリボトルネックのために課題となっている。重みのみの量子化は有望なアプローチであるが、4ビット以下の量子化は、大きな活性化外れ値のために依然として課題である。この望ましくない外れ値の影響を軽減するために、我々はまず、従来の出力チャンネル毎(per-OC)ではなく、各入力チャンネル(IC)内に量子化グループを作成する、シンプルで効果的な方法であるIC毎量子化を提案する。我々の方法は、活性化外れ値が重み行列の入力次元に影響を与えるという観察から動機づけられており、同様にIC方向に重みをグループ化することで、グループ内の外れ値を分離することができる。また、活性化の外れ値が量子化の難易度を決めるわけではなく、固有の重み感度も存在することがわかった。外れ値に優しい新しいスキームとしてIC毎の量子化を用い、様々な重み感度パターンに適応できる汎用的な量子化フレームワークであるAdaptive Dimensions (AdaDim)を提案する。我々は、Round-To-NearestやGPTQなどの先行手法を補強することで、AdaDimの有効性を実証し、様々な言語モデリングベンチマークにおいて、ベースLLM(MMLUで最大+4.7%)と命令チューニングLLM(HumanEvalで最大+10%)の両方で有意な改善を示した。コードはhttps://github.com/johnheo/adadim-llm。

要約(オリジナル)

Large Language Models (LLMs) have recently demonstrated remarkable success across various tasks. However, efficiently serving LLMs has been a challenge due to the large memory bottleneck, specifically in small batch inference settings (e.g. mobile devices). Weight-only quantization can be a promising approach, but sub-4 bit quantization remains a challenge due to large-magnitude activation outliers. To mitigate the undesirable outlier effect, we first propose per-IC quantization, a simple yet effective method that creates quantization groups within each input channel (IC) rather than the conventional per-output-channel (per-OC). Our method is motivated by the observation that activation outliers affect the input dimension of the weight matrix, so similarly grouping the weights in the IC direction can isolate outliers within a group. We also find that activation outliers do not dictate quantization difficulty, and inherent weight sensitivities also exist. With per-IC quantization as a new outlier-friendly scheme, we propose Adaptive Dimensions (AdaDim), a versatile quantization framework that can adapt to various weight sensitivity patterns. We demonstrate the effectiveness of AdaDim by augmenting prior methods such as Round-To-Nearest and GPTQ, showing significant improvements across various language modeling benchmarks for both base (up to +4.7% on MMLU) and instruction-tuned (up to +10% on HumanEval) LLMs. Code is available at https://github.com/johnheo/adadim-llm

arxiv情報

著者 Jung Hwan Heo,Jeonghoon Kim,Beomseok Kwon,Byeongwook Kim,Se Jung Kwon,Dongsoo Lee
発行日 2025-03-03 06:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models はコメントを受け付けていません

Efficient Learning Under Density Shift in Incremental Settings Using Cramér-Rao-Based Regularization

要約

データ量と速度の継続的な急増は、アルゴリズムレベルに存在する機械学習の課題を抽象化し、データオーケストレーションと分散処理アプローチを使用して対処することが多い。学習ループの自動化への関心が高まる中、古典的なインメモリ学習データ形式ではなく、連続的に到着するデータを用いた学習は、学習データのバッチ間で特徴分布が進化し、交差検証ステップにバイアスがかかるため、機械学習の課題に直面することになる( \cite{sugiyama2012machine})。本研究では、データが時間的に分散している問題に対して、分散密度推定という切り口をとる。データをバッチ処理し、ニューラルネットワークがバッチを学習データとして扱えるようにする。この方法は、バッチに対する局所最適化勾配に関する情報を含むフィッシャー情報行列を用いた事後確率吸収により、データ密度に関する知識を蓄積する。これは次のバッチにおける損失の正則化として使用されるため、データセット全体の密度推定は非同一分布シフトに対してよりロバストになる。このためには、一度に一組のバッチがメモリ上に存在する必要があり、空間コストは完全な分散データセットのサイズの関数ではない。我々は、フィッシャー情報とカルバック・ライブラー発散を活用し、データセットの断片化による自然な共変量シフトと逐次的な共変量シフトの両方に適応する、新しい正則化に基づくアプローチCovariate Shift Correction $C^{2}A$を提案した。C^{2}A$は、最新の手法に対して、最大で$19%$の精度を達成する。

要約(オリジナル)

The continuous surge in data volume and velocity is often dealt with using data orchestration and distributed processing approaches, abstracting away the machine learning challenges that exist at the algorithmic level. With growing interest in automating the learning loop, training with data that arrive in a sequence rather than in the classical in-memory training data form will face a machine learning challenge because of evolving feature distributions across batches of training data biasing the cross-validation step (\cite{sugiyama2012machine}). This work takes a distributed density estimation angle to the problem where data are temporally distributed. It processes data in batches and allows a neural network to treat a batch as training data. The method accumulates knowledge about the data density via posterior probability absorption using the Fisher Information Matrix, which contains information about the local optimization gradients for the batch. This is then used as a regularizer for the loss in the following batch, and therefore the density estimate for the entire dataset constructively gets more robust to the non-iid distribution shift. This needs the presence of a pair of batches in memory at a time, so the space cost is not a function of the size of the complete, distributed dataset. We proposed a novel regularization-based approach Covariate Shift Correction $C^{2}A$ that leverages Fisher information and Kullback-Leibler divergence to adapt to both natural and sequential covariate shift caused by dataset fragmentation. $C^{2}A$ achieves $19\%$ accuracy at maximum against state-of-the-art methods.

arxiv情報

著者 Behraj Khan,Behroz Mirza,Nouman Durrani,Tahir Syed
発行日 2025-03-03 06:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | Efficient Learning Under Density Shift in Incremental Settings Using Cramér-Rao-Based Regularization はコメントを受け付けていません

Towards Graph Foundation Models: A Study on the Generalization of Positional and Structural Encodings

要約

位置エンコーディングと構造エンコーディング(PSE)をグラフ・ニューラル・ネットワーク(GNN)に統合する最近の進歩により、様々なグラフ学習タスクにおける性能が大幅に向上した。しかし、これらのエンコーディングの一般的な適用可能性や、グラフの基礎表現としての可能性については、まだ不確かなままである。本稿では、多様なグラフデータセットにおける学習可能なPSEの微調整効率、サンプルサイズによるスケーラビリティ、汎化能力を調査する。具体的には、最小限の微調整と限られたデータで、新しいタスクに容易に適応できる普遍的な事前学習済みモデルとしての可能性を評価する。さらに、学習された表現の表現力を評価し、特に、下流のGNNを補強するために使用した場合の表現力を評価する。我々は広範なベンチマークと経験的分析を通じて、PSEが一般的に下流のモデルを強化することを実証する。しかしながら、データセットによっては、最適な性能を達成するために特定のPSEによる補強が必要となる場合がある。それにもかかわらず、我々の発見は、PSEが将来のグラフ基盤モデルの不可欠な構成要素になる大きな可能性を強調している。我々は、PSEの長所と限界に関する新たな洞察を提供し、グラフ学習における基礎モデルに関するより広範な議論に貢献する。

要約(オリジナル)

Recent advances in integrating positional and structural encodings (PSEs) into graph neural networks (GNNs) have significantly enhanced their performance across various graph learning tasks. However, the general applicability of these encodings and their potential to serve as foundational representations for graphs remain uncertain. This paper investigates the fine-tuning efficiency, scalability with sample size, and generalization capability of learnable PSEs across diverse graph datasets. Specifically, we evaluate their potential as universal pre-trained models that can be easily adapted to new tasks with minimal fine-tuning and limited data. Furthermore, we assess the expressivity of the learned representations, particularly, when used to augment downstream GNNs. We demonstrate through extensive benchmarking and empirical analysis that PSEs generally enhance downstream models. However, some datasets may require specific PSE-augmentations to achieve optimal performance. Nevertheless, our findings highlight their significant potential to become integral components of future graph foundation models. We provide new insights into the strengths and limitations of PSEs, contributing to the broader discourse on foundation models in graph learning.

arxiv情報

著者 Billy Joe Franks,Moshe Eliasof,Semih Cantürk,Guy Wolf,Carola-Bibiane Schönlieb,Sophie Fellenz,Marius Kloft
発行日 2025-03-03 08:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Towards Graph Foundation Models: A Study on the Generalization of Positional and Structural Encodings はコメントを受け付けていません

Scintillation pulse characterization with spectrum-inspired temporal neural networks: case studies on particle detector signals

要約

シンチレータを用いた粒子検出器は、高エネルギー物理学や宇宙素粒子物理学の実験、核医学イメージング、産業用検出器、環境検出器などに広く用いられている。シンチレーション信号の特性をイベントレベルで正確に抽出することは、シンチレータ自体の理解だけでなく、入射粒子の種類や物理的特性に関しても、これらのアプリケーションにとって重要である。最近の研究では、特に信号の解析形式を得るのが難しい場合やノイズが大きい場合に、データ駆動型のニューラルネットワークが従来の統計的手法を凌駕することが実証されている。しかし、密結合や畳み込みに基づくネットワークの多くは、シンチレーション信号のスペクトルや時間構造を十分に利用できず、性能向上の余地が大きい。本論文では、時系列解析の先行研究に基づき、シンチレーションパルスの特性評価に特化したネットワークアーキテクチャを提案する。核となる洞察は、原信号に対して高速フーリエ変換を直接適用し、異なる周波数成分を利用することで、提案するネットワークアーキテクチャが軽量で強化された表現学習バックボーンとして機能することである。(a)LUX暗黒物質検出器の設定で生成されたシミュレーションデータ、(b)NICA/MPD熱量計のシンチレーション変動をエミュレートするための高速エレクトロニクスを用いた実験電気信号。提案モデルは、文献の参照モデルや密結合モデルよりも有意に良好な結果を達成し、従来の機械学習手法よりも高い費用対効果を示す。

要約(オリジナル)

Particle detectors based on scintillators are widely used in high-energy physics and astroparticle physics experiments, nuclear medicine imaging, industrial and environmental detection, etc. Precisely extracting scintillation signal characteristics at the event level is important for these applications, not only in respect of understanding the scintillator itself, but also kinds and physical property of incident particles. Recent researches demonstrate data-driven neural networks surpass traditional statistical methods, especially when the analytical form of signals is hard to obtain, or noise is significant. However, most densely connected or convolution-based networks fail to fully exploit the spectral and temporal structure of scintillation signals, leaving large space for performance improvement. In this paper, we propose a network architecture specially tailored for scintillation pulse characterization based on previous works on time series analysis. The core insight is that, by directly applying Fast Fourier Transform on original signals and utilizing different frequency components, the proposed network architecture can serve as a lightweight and enhanced representation learning backbone. We prove our idea in two case studies: (a) simulation data generated with the setting of the LUX dark matter detector, and (b) experimental electrical signals with fast electronics to emulate scintillation variations for the NICA/MPD calorimeter. The proposed model achieves significantly better results than the reference model in literature and densely connected models, and demonstrates higher cost-efficiency than conventional machine learning methods.

arxiv情報

著者 Pengcheng Ai,Xiangming Sun,Zhi Deng,Xinchi Ran
発行日 2025-03-03 08:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, physics.data-an, physics.ins-det | Scintillation pulse characterization with spectrum-inspired temporal neural networks: case studies on particle detector signals はコメントを受け付けていません

Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation

要約

大量のコーパスで学習された大規模言語モデル(LLM)は、驚くべき能力を発揮している。しかし、LlamaのようなオープンソースのLLMは、そのほとんどが一般的な目的で学習されたものであるため、実世界の特定のシナリオに直接適用するには不十分かもしれません。このように、一般に公開されているLLMをカスタマイズする要求が出てくるが、現在のところ研究されていない。本研究では、事前に訓練されたLLMを新たな人間の嗜好に合わせてカスタマイズすることを検討する。具体的には、LLMは新しい嗜好を満たすだけでなく、カスタマイズ後も元の能力を維持する必要がある。人間の嗜好は報酬モデルとして表現できるという観察からヒントを得て、我々はLLMのカスタマイズを2つの報酬関数の和の最適化とすることを提案する。ここで問題となるのは、両方の報酬関数が未知であり、最新の強化学習法を適用できないことである。残差Q学習フレームワークのおかげで、報酬関数$r_1$を用いずに、事前に学習したLLMと{残差Q関数}を用いてカスタマイズしたLLMを復元することができる。さらに、一定の事前学習済みLLMに対して、報酬関数$r_2$は残差Q関数から導出できることがわかり、Bradley-Terryモデルに新しい人間の嗜好データから残差Q関数を直接学習できることがわかった。我々はこの手法をQ-Adapterと命名する。これは、事前学習されたLLMを新しい嗜好に合わせてカスタマイズするために、残差Q関数を近似するアダプタモジュールを導入するためである。Llama-3.1モデルを用いたDSPデータセットとHH-RLHFデータセットの実験により、Q-Adapterが既存の知識の保持と新しい嗜好の学習の両方に優れていることを示す。コードはhttps://github.com/mansicer/Q-Adapter。

要約(オリジナル)

Large Language Models (LLMs), trained on a large amount of corpus, have demonstrated remarkable abilities. However, it may not be sufficient to directly apply open-source LLMs like Llama to certain real-world scenarios, since most of them are trained for \emph{general} purposes. Thus, the demands for customizing publicly available LLMs emerge, but are currently under-studied. In this work, we consider customizing pre-trained LLMs with new human preferences. Specifically, the LLM should not only meet the new preference but also preserve its original capabilities after customization. Drawing inspiration from the observation that human preference can be expressed as a reward model, we propose to cast LLM customization as optimizing the sum of two reward functions, one of which (denoted as $r_1$) was used to pre-train the LLM while the other (denoted as $r_2$) characterizes the new human preference. The obstacle here is that both reward functions are unknown, making the application of modern reinforcement learning methods infeasible. Thanks to the residual Q-learning framework, we can restore the customized LLM with the pre-trained LLM and the \emph{residual Q-function} without the reward function $r_1$. Moreover, we find that for a fixed pre-trained LLM, the reward function $r_2$ can be derived from the residual Q-function, enabling us to directly learn the residual Q-function from the new human preference data upon the Bradley-Terry model. We name our method Q-Adapter as it introduces an adapter module to approximate the residual Q-function for customizing the pre-trained LLM towards the new preference. Experiments based on the Llama-3.1 model on the DSP dataset and HH-RLHF dataset illustrate the superior effectiveness of Q-Adapter on both retaining existing knowledge and learning new preferences. Code is available at https://github.com/mansicer/Q-Adapter.

arxiv情報

著者 Yi-Chen Li,Fuxiang Zhang,Wenjie Qiu,Lei Yuan,Chengxing Jia,Zongzhang Zhang,Yang Yu,Bo An
発行日 2025-03-03 08:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation はコメントを受け付けていません

Exact Certification of (Graph) Neural Networks Against Label Poisoning

要約

機械学習モデルは、ラベルの反転、すなわち、パフォーマンスを低下させるための敵対的な学習ラベルの変更(ポイズニング)に対して非常に脆弱である。従って、ロバスト性の証明書を導出することは、テスト予測が影響を受けないことを保証し、ワーストケースのロバスト性を理解するために重要である。しかし、グラフニューラルネットワーク(GNN)では、ラベルの反転を証明する問題はこれまで未解決であった。我々は、厳密な証明方法を導入し、サンプル単位の証明と集合的な証明の両方を導出することで、この状況を変える。本手法は、広いネットワークの学習ダイナミクスを捉えるためにニューラルタンジェントカーネル(NTK)を活用し、ラベルの反転を表す2値最適化問題を混合整数線形計画(MILP)に再定式化することを可能にする。我々は、ノード分類タスクにおいて、幅広いGNNアーキテクチャを認証するために我々の手法を適用する。これにより、ラベルフリッピングに対するワーストケースの頑健性に関して、$(i)$異なるベンチマークグラフ上でGNNの階層を確立し、$(ii)$活性度、深さ、スキップ結合などのアーキテクチャ選択の効果を定量化し、驚くべきことに、$(iii)$全ての調査データセットとアーキテクチャにおいて、中間の摂動バジェットで頑健性がプラトー化するという新しい現象を発見した。我々はGNNに焦点を当てたが、我々の証明はNTKを通して十分に広いNN全般に適用可能である。このように、我々の研究は、ニューラルネットワークに対してこれまでに導き出された初めてのポイズニング攻撃に対する厳密な証明書を提示しており、これは独立した関心事となりうる。コードはhttps://github.com/saper0/qpcert。

要約(オリジナル)

Machine learning models are highly vulnerable to label flipping, i.e., the adversarial modification (poisoning) of training labels to compromise performance. Thus, deriving robustness certificates is important to guarantee that test predictions remain unaffected and to understand worst-case robustness behavior. However, for Graph Neural Networks (GNNs), the problem of certifying label flipping has so far been unsolved. We change this by introducing an exact certification method, deriving both sample-wise and collective certificates. Our method leverages the Neural Tangent Kernel (NTK) to capture the training dynamics of wide networks enabling us to reformulate the bilevel optimization problem representing label flipping into a Mixed-Integer Linear Program (MILP). We apply our method to certify a broad range of GNN architectures in node classification tasks. Thereby, concerning the worst-case robustness to label flipping: $(i)$ we establish hierarchies of GNNs on different benchmark graphs; $(ii)$ quantify the effect of architectural choices such as activations, depth and skip-connections; and surprisingly, $(iii)$ uncover a novel phenomenon of the robustness plateauing for intermediate perturbation budgets across all investigated datasets and architectures. While we focus on GNNs, our certificates are applicable to sufficiently wide NNs in general through their NTK. Thus, our work presents the first exact certificate to a poisoning attack ever derived for neural networks, which could be of independent interest. The code is available at https://github.com/saper0/qpcert.

arxiv情報

著者 Mahalakshmi Sabanayagam,Lukas Gosch,Stephan Günnemann,Debarghya Ghoshdastidar
発行日 2025-03-03 09:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.LG | Exact Certification of (Graph) Neural Networks Against Label Poisoning はコメントを受け付けていません