KinMo: Kinematic-aware Human Motion Understanding and Generation

要約

現在の人間のモーション合成フレームワークは、グローバルなアクションの説明に依存しており、モーション理解と生成能力の両方を制限するモダリティギャップを作成します。
「実行」などの単一の粗い説明は、速度、四肢の位置、運動のダイナミクスのバリエーションなどの詳細をキャプチャできず、テキストとモーションモダリティの曖昧さにつながります。
この課題に対処するために、\ textBf {kinmo}を導入します。これは、運動学的グループの動きとその相互作用を組み込むことでグローバルなアクションを超えて拡張する階層的な記述可能なモーション表現に基づいて構築された統一されたフレームワークです。
この分解のための高品質で微粒の説明を生成するために、自動アノテーションパイプラインを設計し、Kinmoデータセットになります。
これらの構造化された説明を活用するために、階層的なテキストモーションアラインメントを提案し、追加のモーションの詳細を統合することにより空間的理解を改善します。
さらに、粗からファインの生成手順を導入して、強化された空間理解を活用してモーション合成を改善します。
実験結果は、キンモが動きの理解を大幅に改善することを示しており、テキストモーションの検索パフォーマンスの向上と、より微細なモーション生成と編集機能を可能にすることによって実証されています。
プロジェクトページ:https://andypinxinliu.github.io/kinmo

要約(オリジナル)

Current human motion synthesis frameworks rely on global action descriptions, creating a modality gap that limits both motion understanding and generation capabilities. A single coarse description, such as “run’, fails to capture details like variations in speed, limb positioning, and kinematic dynamics, leading to ambiguities between text and motion modalities. To address this challenge, we introduce \textbf{KinMo}, a unified framework built on a hierarchical describable motion representation that extends beyond global action by incorporating kinematic group movements and their interactions. We design an automated annotation pipeline to generate high-quality, fine-grained descriptions for this decomposition, resulting in the KinMo dataset. To leverage these structured descriptions, we propose Hierarchical Text-Motion Alignment, improving spatial understanding by integrating additional motion details. Furthermore, we introduce a coarse-to-fine generation procedure to leverage enhanced spatial understanding to improve motion synthesis. Experimental results show that KinMo significantly improves motion understanding, demonstrated by enhanced text-motion retrieval performance and enabling more fine-grained motion generation and editing capabilities. Project Page: https://andypinxinliu.github.io/KinMo

arxiv情報

著者 Pengfei Zhang,Pinxin Liu,Hyeongwoo Kim,Pablo Garrido,Bindita Chaudhuri
発行日 2025-03-11 14:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | KinMo: Kinematic-aware Human Motion Understanding and Generation はコメントを受け付けていません

A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training

要約

確率的勾配降下(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて驚くべき成功を収めています。
ただし、勾配の消失に対する感受性、入力データに対する感度、堅牢な理論的保証の欠如など、いくつかの制限があります。
近年、勾配のないアプローチを採用してモデルパラメーターを繰り返し更新することにより、モデルトレーニングの有望な代替手段として、交互の最小化(AM)メソッドが浮上しています。
その可能性にもかかわらず、これらの方法はしばしば遅い収束率を示します。
この課題に対処するために、ニューラルネットワークトレーニングのための新しいトリプルインチール型加速交互の最小化(TIAM)フレームワークを提案します。
TIAMアプローチには、特殊な近似法を備えたトリプルインチール型加速戦略が組み込まれており、各サブ問題の最適化における異なる用語のターゲット加速度を促進します。
この統合により、収束の効率が向上し、繰り返しが少ないと優れたパフォーマンスを達成します。
さらに、グローバルな収束特性と収束率を含むTIAMアルゴリズムの収束分析を提供します。
広範な実験は、TIAMメソッドの有効性を検証し、既存のアプローチと比較して、一般化能力と計算効率の大幅な改善を示しています。

要約(オリジナル)

The stochastic gradient descent (SGD) algorithm has achieved remarkable success in training deep learning models. However, it has several limitations, including susceptibility to vanishing gradients, sensitivity to input data, and a lack of robust theoretical guarantees. In recent years, alternating minimization (AM) methods have emerged as a promising alternative for model training by employing gradient-free approaches to iteratively update model parameters. Despite their potential, these methods often exhibit slow convergence rates. To address this challenge, we propose a novel Triple-Inertial Accelerated Alternating Minimization (TIAM) framework for neural network training. The TIAM approach incorporates a triple-inertial acceleration strategy with a specialized approximation method, facilitating targeted acceleration of different terms in each sub-problem optimization. This integration improves the efficiency of convergence, achieving superior performance with fewer iterations. Additionally, we provide a convergence analysis of the TIAM algorithm, including its global convergence properties and convergence rate. Extensive experiments validate the effectiveness of the TIAM method, showing significant improvements in generalization capability and computational efficiency compared to existing approaches, particularly when applied to the rectified linear unit (ReLU) and its variants.

arxiv情報

著者 Chengcheng Yan,Jiawei Xu,Qingsong Wang,Zheng Peng
発行日 2025-03-11 14:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training はコメントを受け付けていません

Chemistry-Inspired Diffusion with Non-Differentiable Guidance

要約

拡散モデルの最近の進歩は、新規分子の条件付き生成において顕著な可能性を示しています。
これらのモデルは、2つの方法でガイドできます。(i)条件を表す追加機能を明示的に、または(ii)暗黙的にプロパティ予測子を使用してガイドできます。
ただし、トレーニングプロパティの予測因子または条件付き拡散モデルには、豊富なラベル付きデータが必要であり、実際のアプリケーションでは本質的に困難です。
無条件の拡散モデルを導くために、Quantum Chemistryからのドメイン知識をQuantum Chemistryからのドメイン知識を活用することにより、大規模なラベル付きデータセットを取得することの制限を減衰させる新しいアプローチを提案します。
神経ネットワークに依存する代わりに、Oracleは推定勾配の形で正確なガイダンスを提供し、量子化学によって指定された条件分布から拡散プロセスをサンプリングできるようにします。
これが、より正確な条件付きの新規および安定した分子構造をもたらすことを示します。
私たちの実験は、私たちの方法が次のことを示しています。(1)原子力を大幅に減らし、安定性の最適化に使用すると生成された分子の妥当性を高めます。
(2)拡散モデルにおける明示的および暗黙的なガイダンスの両方と互換性があり、分子特性と安定性の共同最適化を可能にします。
(3)安定性の最適化を超えた分子最適化タスクに効果的に一般化します。

要約(オリジナル)

Recent advances in diffusion models have shown remarkable potential in the conditional generation of novel molecules. These models can be guided in two ways: (i) explicitly, through additional features representing the condition, or (ii) implicitly, using a property predictor. However, training property predictors or conditional diffusion models requires an abundance of labeled data and is inherently challenging in real-world applications. We propose a novel approach that attenuates the limitations of acquiring large labeled datasets by leveraging domain knowledge from quantum chemistry as a non-differentiable oracle to guide an unconditional diffusion model. Instead of relying on neural networks, the oracle provides accurate guidance in the form of estimated gradients, allowing the diffusion process to sample from a conditional distribution specified by quantum chemistry. We show that this results in more precise conditional generation of novel and stable molecular structures. Our experiments demonstrate that our method: (1) significantly reduces atomic forces, enhancing the validity of generated molecules when used for stability optimization; (2) is compatible with both explicit and implicit guidance in diffusion models, enabling joint optimization of molecular properties and stability; and (3) generalizes effectively to molecular optimization tasks beyond stability optimization.

arxiv情報

著者 Yuchen Shen,Chenhao Zhang,Sijie Fu,Chenghui Zhou,Newell Washburn,Barnabás Póczos
発行日 2025-03-11 14:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Chemistry-Inspired Diffusion with Non-Differentiable Guidance はコメントを受け付けていません

Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection

要約

カメラベースのマルチビュー3D検出は、低コストと幅広い適用性により、自律運転の魅力的なソリューションとして浮上しています。
ただし、3D認識ベンチマークでのPETRベースのメソッドの強力なパフォーマンスにもかかわらず、オンボード展開の直接的なINT8量子化により、MAPで58.2%、NDSで36.9%に劇的な精度が低下します。
この作業では、PETRフレームワークの重要なコンポーネントを再設計し、位置エンコーディングと画像機能の動的範囲間の矛盾を調整し、低ビットの推論のためのクロスアテナンスメカニズムを適応させるために、PETRフレームワークの重要なコンポーネントを埋め込む量子化を意識した位置であるQ-PERTを提案します。
位置エンコーディングモジュールを再設計し、適応量子化戦略を導入することにより、Q-PETRは、トレーニング後の標準8ビットの標準8ビットで1%未満のパフォーマンス分解で浮動小数点パフォーマンスを維持します。
さらに、FP32のカウンターパートと比較して、Q-PETRは2倍のスピードアップを達成し、メモリ使用量を3回削減し、リソースに制約のあるオンボードデバイス用の展開に優しいソリューションを提供します。
さまざまなPETRシリーズモデルにわたる広範な実験は、アプローチの強力な一般化と実用的な利点を検証します。

要約(オリジナル)

Camera-based multi-view 3D detection has emerged as an attractive solution for autonomous driving due to its low cost and broad applicability. However, despite the strong performance of PETR-based methods in 3D perception benchmarks, their direct INT8 quantization for onboard deployment leads to drastic accuracy drops-up to 58.2% in mAP and 36.9% in NDS on the NuScenes dataset. In this work, we propose Q-PETR, a quantization-aware position embedding transformation that re-engineers key components of the PETR framework to reconcile the discrepancy between the dynamic ranges of positional encodings and image features, and to adapt the cross-attention mechanism for low-bit inference. By redesigning the positional encoding module and introducing an adaptive quantization strategy, Q-PETR maintains floating-point performance with a performance degradation of less than 1% under standard 8-bit per-tensor post-training quantization. Moreover, compared to its FP32 counterpart, Q-PETR achieves a two-fold speedup and reduces memory usage by three times, thereby offering a deployment-friendly solution for resource-constrained onboard devices. Extensive experiments across various PETR-series models validate the strong generalization and practical benefits of our approach.

arxiv情報

著者 Jiangyong Yu,Changyong Shu,Dawei Yang,Sifan Zhou,Zichen Yu,Xing Hu,Yan Chen
発行日 2025-03-11 15:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection はコメントを受け付けていません

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

要約

検証可能な結果報酬(RLVR)による補強学習は、大規模な言語モデル(LLMS)のチェーンオブ考え(COT)の推論を効果的に拡大しました。
しかし、視覚環境での目標指向アクション推論に対する視覚言語モデル(VLM)エージェントのトレーニングにおけるその有効性はあまり確立されていません。
この作業は、24ポイントなどの複雑なカードゲームに関する広範な実験と、Alfworldからの具体化されたタスクを通じてこの問題を調査しています。
報酬がアクションの結果のみに基づいている場合、RLはVLMSのCOT推論を奨励することができず、代わりに、エージェントの思考の多様性の急速な喪失、国家releventと不完全な推論、およびその後の無効な行動を迅速に否定的に否定することを特徴とする思考崩壊と呼ばれる現象につながることがわかります。
思考崩壊に対抗するために、プロセスガイダンスの必要性を強調し、各RLステップでエージェントの推論を評価および改良する自動化された補正装置を提案します。
このシンプルでスケーラブルなGTR(ガイド付き思考強化)フレームワークは、密集した、ステップごとの人間のラベル付けを必要とせずに、同時に推論と行動を訓練します。
我々の実験は、GTRがさまざまな視覚環境でLLAVA-7Bモデルのパフォーマンスと一般化を大幅に向上させ、モデルサイズが顕著なSOTAモデルと比較して3〜5倍高いタスク成功率を達成することを示しています。

要約(オリジナル)

Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent’s thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent’s reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.

arxiv情報

著者 Tong Wei,Yijun Yang,Junliang Xing,Yuanchun Shi,Zongqing Lu,Deheng Ye
発行日 2025-03-11 15:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training はコメントを受け付けていません

A Unified Framework for Motion Reasoning and Generation in Human Interaction

要約

大規模な言語モデル(LLMS)の最近の進歩により、自然で文脈的に関連するテキストを生成する能力が大幅に向上し、より多くの人間のようなAI相互作用が可能になりました。
ただし、複数の個人が協調的な動きに従事するインタラクティブな人間のような動きを生成して理解することは、これらの相互作用をモデル化する複雑さのために困難なままです。
さらに、ユーザーの命令や割り当てられた役割に動的に適応するチャットシステムなど、多様なインタラクティブなシナリオを処理するには、統一された多用途のモデルが必要です。
これらの課題に対処するために、言語と運動の両方のモダリティを統合して、マルチターンの会話コンテキストでインタラクティブな動きを効果的に理解、生成、制御する汎用性の高いインタラクティブなモーション言語モデルであるVIMを紹介します。
主にテキストからモーションやテキストへの動きなどの一方向のタスクに焦点を当てた以前の研究とは異なり、VIMは、モーションとテキストの両方のモダリティを同時に理解し、生成できる統一されたアーキテクチャを採用しています。
このタスクをサポートするための適切なデータセットがないことを考えると、153Kのインタラクティブモーションサンプルをカバーする82.7Kマルチターンインタラクティブモーション命令を含む大規模な命令調整データセットであるInter-MT2を導入します。
Inter-MT2は、モーション編集、質問応答、ストーリー生成を含む多様な指導シナリオにまたがり、既製の大手言語モデルとモーション拡散モデルを活用して、幅広いインタラクティブモーション命令を構築します。
モーションツーテキスト、テキストからモーション、反応、モーション編集、モーションシーケンスに関する推論など、複数のインタラクティブなモーション関連のタスクにわたるVIMの汎用性を広く評価します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly improved their ability to generate natural and contextually relevant text, enabling more human-like AI interactions. However, generating and understanding interactive human-like motion, where multiple individuals engage in coordinated movements, remains challenging due to the complexity of modeling these interactions. Additionally, a unified and versatile model is needed to handle diverse interactive scenarios, such as chat systems that dynamically adapt to user instructions and assigned roles. To address these challenges, we introduce VIM, the Versatile Interactive Motion-language model, which integrates both language and motion modalities to effectively understand, generate, and control interactive motions in multi-turn conversational contexts. Unlike previous studies that primarily focus on uni-directional tasks such as text-to-motion or motion-to-text, VIM employs a unified architecture capable of simultaneously understanding and generating both motion and text modalities. Given the absence of an appropriate dataset to support this task, we introduce Inter-MT2, a large-scale instruction-tuning dataset containing 82.7K multi-turn interactive motion instructions, covering 153K interactive motion samples. Inter-MT2 spans diverse instructional scenarios, including motion editing, question answering, and story generation, leveraging off-the-shelf large language models and motion diffusion models to construct a broad set of interactive motion instructions. We extensively evaluate the versatility of VIM across multiple interactive motion-related tasks, including motion-to-text, text-to-motion, reaction generation, motion editing, and reasoning about motion sequences.

arxiv情報

著者 Jeongeun Park,Sungjoon Choi,Sangdoo Yun
発行日 2025-03-11 15:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Unified Framework for Motion Reasoning and Generation in Human Interaction はコメントを受け付けていません

Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model

要約

この研究では、腎臓の凍結アブレーション中の凍結領域(氷玉)の進行を予測するように設計された3Dフローマッチングモデルを提示します。
正確な術中ガイダンスは、隣接する健康な組織を保存しながら、完全な腫瘍の根絶を確保するために凍結アブレーションにおいて重要です。
ただし、通常、物理学駆動型または拡散ベースのシミュレーションに基づいた従来の方法は、計算的に要求が厳しく、複雑な解剖学的構造を正確に表現するのに苦労しています。
これらの制限に対処するために、私たちのアプローチは術中CTイメージングを活用してモデルを通知します。
提案された3Dフローマッチングモデルは、初期段階のCTスキャンを将来の予測にマッピングする連続変形場を学習するように訓練されています。
この変換は、アイスボールの体積膨張を推定するだけでなく、対応するセグメンテーションマスクを生成し、時間の経過とともに空間的および形態学的変化を効果的にキャプチャします。
定量分析では、モデルの堅牢性を強調し、予測と地上真実のセグメンテーションとの強い一致を示しています。
このモデルは、0.61の組合(IOU)スコアと0.75のサイコロ係数を介した交差点を達成します。
リアルタイムのCTイメージングを高度なディープラーニングテクニックと統合することにより、このアプローチは、腎臓の凍結アブレーションの術中ガイダンスを強化し、手順の結果を改善し、低侵襲手術の分野を進める可能性があります。

要約(オリジナル)

This study presents a 3D flow-matching model designed to predict the progression of the frozen region (iceball) during kidney cryoablation. Precise intraoperative guidance is critical in cryoablation to ensure complete tumor eradication while preserving adjacent healthy tissue. However, conventional methods, typically based on physics driven or diffusion based simulations, are computationally demanding and often struggle to represent complex anatomical structures accurately. To address these limitations, our approach leverages intraoperative CT imaging to inform the model. The proposed 3D flow matching model is trained to learn a continuous deformation field that maps early-stage CT scans to future predictions. This transformation not only estimates the volumetric expansion of the iceball but also generates corresponding segmentation masks, effectively capturing spatial and morphological changes over time. Quantitative analysis highlights the model robustness, demonstrating strong agreement between predictions and ground-truth segmentations. The model achieves an Intersection over Union (IoU) score of 0.61 and a Dice coefficient of 0.75. By integrating real time CT imaging with advanced deep learning techniques, this approach has the potential to enhance intraoperative guidance in kidney cryoablation, improving procedural outcomes and advancing the field of minimally invasive surgery.

arxiv情報

著者 Siyeop Yoon,Yujin Oh,Matthew Tivnan,Sifan Song,Pengfei Jin,Sekeun Kim,Hyun Jin Cho,Dufan Wu,Raul Uppot,Quanzheng Li
発行日 2025-03-11 15:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Prediction of Frozen Region Growth in Kidney Cryoablation Intervention Using a 3D Flow-Matching Model はコメントを受け付けていません

Learning to Plan with Personalized Preferences

要約

AIエージェントを日常生活に効果的に統合するには、特に共同の役割において、個々の人間の好みを理解し、適応させる必要があります。
具体化された知性に関する最近の研究は大幅に進歩していますが、通常、計画における個人的な好みを見落とす一般化されたアプローチを採用しています。
私たちは、少数のデモンストレーションから好みを学ぶだけでなく、これらの好みに基づいて計画戦略を適応させることを学ぶエージェントを開発することにより、この制限に対処します。
私たちの研究は、最小限のデモンストレーションで暗黙的に表現されているものの、多様な計画シナリオ全体で一般化できるという観察を活用しています。
この仮説を体系的に評価するために、原子作用から複雑なシーケンスに至るまでの何百もの多様な好みを特徴とする具体化されたベンチマークである、優先ベースの計画(PBP)ベンチマークを導入します。
SOTAメソッドの評価により、シンボルベースのアプローチはスケーラビリティの可能性を示していますが、パーソナライズされた好みを満たす計画を生成および実行することを学習することには重要な課題が残っています。
さらに、学習された好みを計画に組み込むことにより、個人化された計画を構築するエージェントの能力が大幅に向上することを実証します。
これらの調査結果は、適応計画のための貴重な抽象化層としての選好を確立し、優先誘導計画の生成と実行における研究のための新しい方向性を開きます。

要約(オリジナル)

Effective integration of AI agents into daily life requires them to understand and adapt to individual human preferences, particularly in collaborative roles. Although recent studies on embodied intelligence have advanced significantly, they typically adopt generalized approaches that overlook personal preferences in planning. We address this limitation by developing agents that not only learn preferences from few demonstrations but also learn to adapt their planning strategies based on these preferences. Our research leverages the observation that preferences, though implicitly expressed through minimal demonstrations, can generalize across diverse planning scenarios. To systematically evaluate this hypothesis, we introduce Preference-based Planning (PbP) benchmark, an embodied benchmark featuring hundreds of diverse preferences spanning from atomic actions to complex sequences. Our evaluation of SOTA methods reveals that while symbol-based approaches show promise in scalability, significant challenges remain in learning to generate and execute plans that satisfy personalized preferences. We further demonstrate that incorporating learned preferences as intermediate representations in planning significantly improves the agent’s ability to construct personalized plans. These findings establish preferences as a valuable abstraction layer for adaptive planning, opening new directions for research in preference-guided plan generation and execution.

arxiv情報

著者 Manjie Xu,Xinyi Yang,Wei Liang,Chi Zhang,Yixin Zhu
発行日 2025-03-11 15:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Learning to Plan with Personalized Preferences はコメントを受け付けていません

PaCA: Partial Connection Adaptation for Efficient Fine-Tuning

要約

以前のパラメーター効率の高い微調整(PEFT)アルゴリズムは、モデル全体ではなく、いくつかの追加アダプターパラメーターのみをトレーニングすることにより、大規模なニューラルネットワークモデルの微調整のメモリ使用量と計算コストを削減します。
ただし、PEFTによる計算コストの削減は、必ずしもトレーニング時間の短縮につながるわけではありません。
アダプターレイヤーの計算コストは​​、事前に保護されたレイヤーよりもはるかに小さいですが、これらの2つのタイプの層がGPUで連続的に処理されていることがよく知られており、その結果、重大なレイテンシーオーバーヘッドになります。
LORAとそのバリアントは、低ランクアダプターマトリックスと推論中に前提条件の重みと融合しますが、トレーニング中は、アダプターマトリックスが継続的に更新されている間、トレーニング中に凍結したままになり、そのようなマージを防ぎます。
この問題を軽減するために、部分的な接続適応(PACA)を提案します。これは、モデルにアダプターレイヤーを導入する代わりに、事前に処理された重みの中に微調整された部分的な接続をランダムに選択しました。
PACAは、アダプターと前処理された層の連続処理のために時間オーバーヘッドを排除することによりトレーニング速度を向上させるだけでなく、完全な活性化ではなく部分的な活性化のみをグラデーション計算のために保存する必要があるため、活性化メモリも減少します。
LORAと比較して、PACAはトレーニング時間を22%減らし、メモリ合計の使用量を16%短縮し、MMLUデータセットでの微調整やOASST1データセットでの命令調整など、さまざまな微調整シナリオで同等の精度を維持します。
PACAは量子化と組み合わせることができ、llama3.1-70bなどの大規模なモデルの微調整を可能にします。
さらに、PACAは23%長いシーケンスでトレーニングを実施し、LORAと比較してNVIDIA A100 GPUとIntel Gaudi2 HPUの両方で16%スループットを改善します。
このコードはhttps://github.com/woosunghyeon/pacaで入手できます。

要約(オリジナル)

Prior parameter-efficient fine-tuning (PEFT) algorithms reduce memory usage and computational costs of fine-tuning large neural network models by training only a few additional adapter parameters, rather than the entire model. However, the reduction in computational costs due to PEFT does not necessarily translate to a reduction in training time; although the computational costs of the adapter layers are much smaller than the pretrained layers, it is well known that those two types of layers are processed sequentially on GPUs, resulting in significant latency overhead. LoRA and its variants merge low-rank adapter matrices with pretrained weights during inference to avoid latency overhead, but during training, the pretrained weights remain frozen while the adapter matrices are continuously updated, preventing such merging. To mitigate this issue, we propose Partial Connection Adaptation (PaCA), which fine-tunes randomly selected partial connections within the pretrained weights instead of introducing adapter layers in the model. PaCA not only enhances training speed by eliminating the time overhead due to the sequential processing of the adapter and pretrained layers but also reduces activation memory since only partial activations, rather than full activations, need to be stored for gradient computation. Compared to LoRA, PaCA reduces training time by 22% and total memory usage by 16%, while maintaining comparable accuracy across various fine-tuning scenarios, such as fine-tuning on the MMLU dataset and instruction tuning on the Oasst1 dataset. PaCA can also be combined with quantization, enabling the fine-tuning of large models such as LLaMA3.1-70B. In addition, PaCA enables training with 23% longer sequence and improves throughput by 16% on both NVIDIA A100 GPU and INTEL Gaudi2 HPU compared to LoRA. The code is available at https://github.com/WooSunghyeon/paca.

arxiv情報

著者 Sunghyeon Woo,Sol Namkung,Sunwoo Lee,Inho Jeong,Beomseok Kim,Dongsuk Jeon
発行日 2025-03-11 15:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PaCA: Partial Connection Adaptation for Efficient Fine-Tuning はコメントを受け付けていません

Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidation

要約

機械学習アルゴリズムは特定の化学タスクに優れていることが示されていますが、専門家の化学的推論を特徴付ける戦略的思考を捉えるのに苦労しており、広範な採用を制限しています。
ここでは、従来の検索アルゴリズムと統合された場合、大規模な言語モデル(LLM)が強力な化学推論エンジンとして機能し、人間の専門家思考を反映するコンピューター支援化学への新しいアプローチを可能にすることを実証します。
LLMを使用して化学構造を直接操作するのではなく、化学戦略を評価し、化学的に意味のあるソリューションに検索アルゴリズムを導く能力を活用します。
このパラダイムは、2つの基本的な課題を通じて実証します。戦略を認識した補給計画とメカニズムの解明です。
レトロシンセティック計画では、私たちの方法により、化学者は自然言語で望ましい合成戦略を指定して、膨大な検索でこれらの制約を満たすルートを見つけることができます。
メカニズムの解明では、LLMSは化学原理と系統的探査を組み合わせることにより、もっともらしい反応メカニズムの検索を導きます。
私たちのアプローチは、多様な化学タスク全体で強力なパフォーマンスを示しており、より大きなモデルがますます洗練された化学的推論を示しています。
私たちのアプローチは、LLMの戦略的理解と従来の化学ツールの精度を組み合わせたコンピューター支援化学の新しいパラダイムを確立し、より直感的で強力な化学推論システムの可能性を開きます。

要約(オリジナル)

While machine learning algorithms have been shown to excel at specific chemical tasks, they have struggled to capture the strategic thinking that characterizes expert chemical reasoning, limiting their widespread adoption. Here we demonstrate that large language models (LLMs) can serve as powerful chemical reasoning engines when integrated with traditional search algorithms, enabling a new approach to computer-aided chemistry that mirrors human expert thinking. Rather than using LLMs to directly manipulate chemical structures, we leverage their ability to evaluate chemical strategies and guide search algorithms toward chemically meaningful solutions. We demonstrate this paradigm through two fundamental challenges: strategy-aware retrosynthetic planning and mechanism elucidation. In retrosynthetic planning, our method allows chemists to specify desired synthetic strategies in natural language to find routes that satisfy these constraints in vast searches. In mechanism elucidation, LLMs guide the search for plausible reaction mechanisms by combining chemical principles with systematic exploration. Our approach shows strong performance across diverse chemical tasks, with larger models demonstrating increasingly sophisticated chemical reasoning. Our approach establishes a new paradigm for computer-aided chemistry that combines the strategic understanding of LLMs with the precision of traditional chemical tools, opening possibilities for more intuitive and powerful chemical reasoning systems.

arxiv情報

著者 Andres M Bran,Theo A Neukomm,Daniel P Armstrong,Zlatko Jončev,Philippe Schwaller
発行日 2025-03-11 15:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI | Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidation はコメントを受け付けていません