MagicArticulate: Make Your 3D Models Articulation-Ready

要約

3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なアニメーションをサポートするARTICULATION-READYバージョンに変換するという需要が増加しています。
従来のアプローチは、時間がかかり、労働集約的な手動注釈に大きく依存しています。
さらに、大規模なベンチマークの欠如は、学習ベースのソリューションの開発を妨げています。
この作業では、静的3Dモデルをアーティキュレーション対応資産に自動的に変換する効果的なフレームワークであるMagicArticulateを提示します。
私たちの重要な貢献は3つあります。
まず、Objaverse-XLから慎重にキュレーションされた高品質のアーティキュレーション注釈を備えた33Kを超える3Dモデルを含む大規模なベンチマークであるArticulation-XLを紹介します。
第二に、タスクをシーケンスモデリングの問題として定式化する新しいスケルトン生成方法を提案し、自動回帰トランスを活用して、スケルトン内のさまざまな数の骨またはジョイントと、異なる3Dモデルにわたって固有の依存関係を自然に処理します。
第三に、頂点とジョイントの間に体積測地線距離前の距離を組み込んだ機能的拡散プロセスを使用して、スキニングウェイトを予測します。
広範な実験は、Magicarticulationが多様なオブジェクトカテゴリ全体で既存の方法を大幅に上回ることを示しており、現実的なアニメーションを可能にする高品質の明確化を実現しています。
プロジェクトページ:https://chaoyuesong.github.io/magicarticulate。

要約(オリジナル)

With the explosive growth of 3D content creation, there is an increasing demand for automatically converting static 3D models into articulation-ready versions that support realistic animation. Traditional approaches rely heavily on manual annotation, which is both time-consuming and labor-intensive. Moreover, the lack of large-scale benchmarks has hindered the development of learning-based solutions. In this work, we present MagicArticulate, an effective framework that automatically transforms static 3D models into articulation-ready assets. Our key contributions are threefold. First, we introduce Articulation-XL, a large-scale benchmark containing over 33k 3D models with high-quality articulation annotations, carefully curated from Objaverse-XL. Second, we propose a novel skeleton generation method that formulates the task as a sequence modeling problem, leveraging an auto-regressive transformer to naturally handle varying numbers of bones or joints within skeletons and their inherent dependencies across different 3D models. Third, we predict skinning weights using a functional diffusion process that incorporates volumetric geodesic distance priors between vertices and joints. Extensive experiments demonstrate that MagicArticulate significantly outperforms existing methods across diverse object categories, achieving high-quality articulation that enables realistic animation. Project page: https://chaoyuesong.github.io/MagicArticulate.

arxiv情報

著者 Chaoyue Song,Jianfeng Zhang,Xiu Li,Fan Yang,Yiwen Chen,Zhongcong Xu,Jun Hao Liew,Xiaoyang Guo,Fayao Liu,Jiashi Feng,Guosheng Lin
発行日 2025-02-17 18:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

要約

FLAREは、高品質のカメラのポーズと3Dジオメトリを推測するように設計されたフィードフォワードモデルであるFlareを提示します。

私たちのソリューションは、カメラポーズが重要なブリッジとして機能するカスケード学習パラダイムを特徴としており、3D構造を2D画像プレーンにマッピングする上でその重要な役割を認識しています。
具体的には、フレアはカメラのポーズ推定から始まり、その結果は、幾何学の再構築と新規ビュー統合の目的を通じて最適化された幾何学的構造と外観のその後の学習を条件としています。
トレーニング用の大規模なパブリックデータセットを利用して、私たちの方法は、推論効率を維持しながら、ポーズ推定、ジオメトリ再構成、新しいビュー合成のタスクで最先端のパフォーマンスを提供します(つまり、0.5秒未満)。
プロジェクトページとコードは、https://zhanghe3z.github.io/flare/にあります。

要約(オリジナル)

We present FLARE, a feed-forward model designed to infer high-quality camera poses and 3D geometry from uncalibrated sparse-view images (i.e., as few as 2-8 inputs), which is a challenging yet practical setting in real-world applications. Our solution features a cascaded learning paradigm with camera pose serving as the critical bridge, recognizing its essential role in mapping 3D structures onto 2D image planes. Concretely, FLARE starts with camera pose estimation, whose results condition the subsequent learning of geometric structure and appearance, optimized through the objectives of geometry reconstruction and novel-view synthesis. Utilizing large-scale public datasets for training, our method delivers state-of-the-art performance in the tasks of pose estimation, geometry reconstruction, and novel view synthesis, while maintaining the inference efficiency (i.e., less than 0.5 seconds). The project page and code can be found at: https://zhanghe3z.github.io/FLARE/

arxiv情報

著者 Shangzhan Zhang,Jianyuan Wang,Yinghao Xu,Nan Xue,Christian Rupprecht,Xiaowei Zhou,Yujun Shen,Gordon Wetzstein
発行日 2025-02-17 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views はコメントを受け付けていません

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

要約

サンプリングの軌跡を最適化することにより、下流のアライメントを強化する微調整アプローチである拡散シャープニングを提案します。
既存のRLベースの微調整方法は、単一のトレーニングタイムステップに焦点を当て、軌道レベルのアラインメントを無視しますが、最近のサンプリング軌道最適化方法は、重要な推論NFEコストを受けます。
拡散シャプニングは、パス積分フレームワークを使用してトレーニング中に最適な軌跡を選択し、報酬フィードバックを活用し、推論コストを償却することにより、これを克服します。
私たちの方法は、追加のNFEを必要とせずに、収束を速くし、最良の推論効率を備えた優れたトレーニング効率を示しています。
広範な実験では、拡散シャプニングがRLベースの微調整方法(拡散-DPOなど)とサンプリング軌道最適化方法(例:推論スケーリング)が、テキストアライメント、構成機能、人間の好みを含む多様なメトリック全体にわたって優れていることが示されています。
将来の拡散モデルの微調整のための効率的なソリューション。
コード:https://github.com/gen-verse/diffusion-sharpening

要約(オリジナル)

We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

arxiv情報

著者 Ye Tian,Ling Yang,Xinchen Zhang,Yunhai Tong,Mengdi Wang,Bin Cui
発行日 2025-02-17 18:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening はコメントを受け付けていません

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

要約

自己回帰パラダイムの顕著な成功により、Multimodal大言語モデル(MLLMS)で大きな進歩が生じ、Show-O、Transfusion、EMU3などの強力なモデルが統一された画像の理解と生成の顕著な進歩を達成しています。
初めて、一般的な現象を明らかにします。MLLMの理解能力は、通常、生成能力よりも強く、2つの間に大きなギャップがあります。
この洞察に基づいて、MLLMSの理解と生成の間のギャップをシームレスに埋めるように設計されたシンプルでありながら一般的なフレームワークであるHermesflowを提案します。
具体的には、理解と生成の両方の相同選好データをキュレートするための入力として相同データを取得します。
ペア-DPOおよびセルフプレイの反復最適化により、HermesFlowは相同選好データを使用してマルチモーダルの理解と生成を効果的に整列させます。
広範な実験は、特にマルチモーダルの理解と生成の間のギャップを狭める際に、以前の方法よりもアプローチの重要な優位性を示しています。
これらの調査結果は、次世代マルチモーダルファンデーションモデルの一般的なアライメントフレームワークとしてのHermesflowの可能性を強調しています。
コード:https://github.com/gen-verse/hermesflow

要約(オリジナル)

The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow

arxiv情報

著者 Ling Yang,Xinchen Zhang,Ye Tian,Chenming Shang,Minghao Xu,Wentao Zhang,Bin Cui
発行日 2025-02-17 18:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation はコメントを受け付けていません

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

要約

3Dボリュームビデオは、没入型の体験を提供し、デジタルメディアで牽引力を獲得しています。
人気の高まりにもかかわらず、ボリュームビデオコンテンツのストリーミングは、データ帯域幅の要件が高いため、大きな課題をもたらします。
帯域幅の問題を軽減するための自然なアプローチは、送信前にコンテンツをダウンサンプリングすることにより、体積ビデオのデータレートを下げることです。
その後、ビデオは、スーパー解像度(SR)アルゴリズムを使用してレシーバーの端でアップサンプリングして、高解像度の詳細を再構築できます。
2Dビデオコンテンツのために、超解像度の技術は広範囲に調査され、高度になっていますが、ボリュームビデオに合わせて調整されたSRアルゴリズムの作業は限られています。
このギャップと効率的なボリュームビデオストリーミングの必要性の高まりに対処するために、ボリュームコンテンツ専用に設計された新しいSRアルゴリズムを備えたVolutを開発しました。
私たちのアルゴリズムは、ルックアップテーブル(LUTS)の力を一意に活用して、低解像度の体積データの効率的かつ正確なアップスケーリングを促進します。
LUTSを使用すると、アルゴリズムが事前に計算された高解像度値を迅速に参照できるため、アップスケーリングに必要な計算の複雑さと時間を大幅に削減できます。
さらに、適応型ビデオビットレートアルゴリズム(ABR)を適用して、ネットワーク条件に応じたダウンサンプリングレートを動的に決定し、選択したビデオレートをレシーバーにストリーミングします。
関連する作業と比較して、Volutは、ラインレートでコモディティモバイルデバイスで高品質の3D SRを有効にする最初のものです。
私たちの評価によると、Volutは帯域幅の使用量を70%削減し、QOEを36.7%増加させ、ボリュームビデオストリーミングで36.7%増加し、品質の妥協なしで3D SRスピードアップを達成できます。

要約(オリジナル)

3D volumetric video provides immersive experience and is gaining traction in digital media. Despite its rising popularity, the streaming of volumetric video content poses significant challenges due to the high data bandwidth requirement. A natural approach to mitigate the bandwidth issue is to reduce the volumetric video’s data rate by downsampling the content prior to transmission. The video can then be upsampled at the receiver’s end using a super-resolution (SR) algorithm to reconstruct the high-resolution details. While super-resolution techniques have been extensively explored and advanced for 2D video content, there is limited work on SR algorithms tailored for volumetric videos. To address this gap and the growing need for efficient volumetric video streaming, we have developed VoLUT with a new SR algorithm specifically designed for volumetric content. Our algorithm uniquely harnesses the power of lookup tables (LUTs) to facilitate the efficient and accurate upscaling of low-resolution volumetric data. The use of LUTs enables our algorithm to quickly reference precomputed high-resolution values, thereby significantly reducing the computational complexity and time required for upscaling. We further apply adaptive video bit rate algorithm (ABR) to dynamically determine the downsampling rate according to the network condition and stream the selected video rate to the receiver. Compared to related work, VoLUT is the first to enable high-quality 3D SR on commodity mobile devices at line-rate. Our evaluation shows VoLUT can reduce bandwidth usage by 70% , boost QoE by 36.7% for volumetric video streaming and achieve 3D SR speed-up with no quality compromise.

arxiv情報

著者 Chendong Wang,Anlan Zhang,Yifan Yang,Lili Qiu,Yuqing Yang,Xinyang Jiang,Feng Qian,Suman Banerjee
発行日 2025-02-17 18:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution はコメントを受け付けていません

Diffusion Models without Classifier-free Guidance

要約

このホワイトペーパーでは、一般的に使用される分類器のないガイダンス(CFG)に対処および削除する拡散モデルをトレーニングするための新しい目的であるモデルガイダンス(MG)を紹介します。
当社の革新的なアプローチは、条件の事後確率を組み込むために、データ分布のみの標準モデリングを超越しています。
提案された手法はCFGのアイデアに由来し、簡単でありながら効果的であり、既存のモデルのプラグアンドプレイモジュールになります。
私たちの方法は、トレーニングプロセスを大幅に加速し、推論速度を2倍にし、CFGと同時拡散モデルを平行にし、さらには上回る例外的な品質を達成します。
広範な実験は、さまざまなモデルとデータセットでの有効性、効率、スケーラビリティを示しています。
最後に、FID 1.34のImagenet 256ベンチマークで最先端のパフォーマンスを確立します。
私たちのコードは、https://github.com/tzco/diffusion-wo-cfgで入手できます。

要約(オリジナル)

This paper presents Model-guidance (MG), a novel objective for training diffusion model that addresses and removes of the commonly used Classifier-free guidance (CFG). Our innovative approach transcends the standard modeling of solely data distribution to incorporating the posterior probability of conditions. The proposed technique originates from the idea of CFG and is easy yet effective, making it a plug-and-play module for existing models. Our method significantly accelerates the training process, doubles the inference speed, and achieve exceptional quality that parallel and even surpass concurrent diffusion models with CFG. Extensive experiments demonstrate the effectiveness, efficiency, scalability on different models and datasets. Finally, we establish state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34. Our code is available at https://github.com/tzco/Diffusion-wo-CFG.

arxiv情報

著者 Zhicong Tang,Jianmin Bao,Dong Chen,Baining Guo
発行日 2025-02-17 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Diffusion Models without Classifier-free Guidance はコメントを受け付けていません

3D Whole-body Grasp Synthesis with Directional Controllability

要約

オブジェクトを現実的に把握する3D全体の体を合成することは、アニメーション、複合現実、ロボット工学に役立ちます。
手と体は自然なW.R.T.
互いに、把握されたオブジェクト、そしてローカルシーン(つまり、オブジェクトをサポートする容器)。
さらに、このタスクのトレーニングデータは非常に不足していますが、新しいデータをキャプチャするのは高価です。
最近の作業は、分割統治アプローチを介して有限のデータセットを超えています。
最初に「ガイド」右手の把握を生成し、次にこれに合った身体を検索します。
ただし、指針の合成には制御可能性と容器の認識が欠けているため、信じられない方向(つまり、体は容器に浸透せずにこれに一致することはできません)を持ち、主要な後処理を通じて修正を必要とします。
さらに、ボディ検索には徹底的なサンプリングが必要であり、高価です。
これらは強い制限です。
CWGRASPと呼ばれる新しい方法でこれらに取り組みます。
私たちの重要なアイデアは、「遅すぎる」ではなく、「早い段階で」「早い段階で」という幾何学ベースの推論を実行することで、推論のための豊富な「コントロール」信号を提供することです。
この目的のために、CWGRASPは、最初に、オブジェクトからのレイキャストと衝突チェックを介して構築された確率モデルから、もっともらしいリーチ方向ベクター(後に腕と手に使用される)をサンプリングします。
さらに、CWGRASPは右手と左手の両方の握りにユニークに取り組んでいます。
GrabおよびReplicAgraspデータセットで評価します。
CWGRASPは、ランタイムと予算の低下でベースラインよりも優れていますが、すべてのコンポーネントはパフォーマンスに役立ちます。
コードとモデルはhttps://gpaschalidis.github.io/cwgraspで入手できます。

要約(オリジナル)

Synthesizing 3D whole bodies that realistically grasp objects is useful for animation, mixed reality, and robotics. This is challenging, because the hands and body need to look natural w.r.t. each other, the grasped object, as well as the local scene (i.e., a receptacle supporting the object). Moreover, training data for this task is really scarce, while capturing new data is expensive. Recent work goes beyond finite datasets via a divide-and-conquer approach; it first generates a ‘guiding’ right-hand grasp, and then searches for bodies that match this. However, the guiding-hand synthesis lacks controllability and receptacle awareness, so it likely has an implausible direction (i.e., a body can’t match this without penetrating the receptacle) and needs corrections through major post-processing. Moreover, the body search needs exhaustive sampling and is expensive. These are strong limitations. We tackle these with a novel method called CWGrasp. Our key idea is that performing geometry-based reasoning ‘early on,’ instead of ‘too late,’ provides rich ‘control’ signals for inference. To this end, CWGrasp first samples a plausible reaching-direction vector (used later for both the arm and hand) from a probabilistic model built via ray-casting from the object and collision checking. Moreover, CWGrasp uniquely tackles both right and left-hand grasps. We evaluate on the GRAB and ReplicaGrasp datasets. CWGrasp outperforms baselines, at lower runtime and budget, while all components help performance. Code and models are available at https://gpaschalidis.github.io/cwgrasp.

arxiv情報

著者 Georgios Paschalidis,Romana Wilschut,Dimitrije Antić,Omid Taheri,Dimitrios Tzionas
発行日 2025-02-17 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D Whole-body Grasp Synthesis with Directional Controllability はコメントを受け付けていません

ORI: O Routing Intelligence

要約

単一の大きな言語モデル(LLM)は、成長し続ける範囲のタスクに直面したときに不足していることが多く、シングルモデルのアプローチが不十分になります。
LLMのセットを活用する動的なフレームワークであるOri(Oルーティングインテリジェンス)を提案することにより、この課題に対処します。
着信クエリを最も適切なモデルにインテリジェントにルーティングすることにより、ORIはタスク固有の精度を向上させるだけでなく、効率を維持します。
多様なベンチマーク全体の包括的な評価は、計算オーバーヘッドを制御しながら一貫した精度の向上を示しています。
Intelligly Routingクエリによって、OriはMMLUで最大2.7ポイント、MUSRで最大2.8ポイント、ARCおよびBBHで最大のパフォーマンスを結び付けます。
これらの結果は、マルチモデル戦略の利点を強調し、ORIの適応アーキテクチャがどのように多様なタスクをより効果的に処理できるかを示し、複数の大手言語モデルのシステムにスケーラブルで高性能ソリューションを提供します。

要約(オリジナル)

Single large language models (LLMs) often fall short when faced with the ever-growing range of tasks, making a single-model approach insufficient. We address this challenge by proposing ORI (O Routing Intelligence), a dynamic framework that leverages a set of LLMs. By intelligently routing incoming queries to the most suitable model, ORI not only improves task-specific accuracy, but also maintains efficiency. Comprehensive evaluations across diverse benchmarks demonstrate consistent accuracy gains while controlling computational overhead. By intelligently routing queries, ORI outperforms the strongest individual models by up to 2.7 points on MMLU and 1.8 points on MuSR, ties the top performance on ARC, and on BBH. These results underscore the benefits of a multi-model strategy and demonstrate how ORI’s adaptive architecture can more effectively handle diverse tasks, offering a scalable, high-performance solution for a system of multiple large language models.

arxiv情報

著者 Ahmad Shadid,Rahul Kumar,Mohit Mayank
発行日 2025-02-17 15:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ORI: O Routing Intelligence はコメントを受け付けていません

S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation

要約

スキル学習の最近の進歩により、ロボット操作は、実際の数のデモンストレーションから複雑な操作タスクを学習できるようにすることで、新たな高みへの操作を推進しています。
ただし、これらのスキルは、トレーニングデータに表示されている特定のアクション、オブジェクト、および環境\ TextIT {インスタンス}に限定され、同じカテゴリの他のインスタンスへの移行に問題があることがよくあります。
この作業では、インスタンスレベルのトレーニングデータからカテゴリレベルのインスタンスレベルへの一般化を可能にするオープンボキャブラリー空間セマンティック拡散ポリシー(S $^2 $ -diffusion)を提示します。
スキルの機能的側面は、空間表現と組み合わせた迅速なセマンティックモジュールを介してキャプチャできることを示します。
さらに、深度推定ネットワークを活用して、単一のRGBカメラのみを使用できるようにすることを提案します。
私たちのアプローチは、シミュレーションと現実世界の両方で、さまざまな数のロボット操作タスクで評価され、比較されます。
我々の結果は、S $^2 $ -diffusionが、カテゴリに照明された要因の変化に不変であり、特定の例で訓練されていなくても、同じカテゴリ内の他のインスタンスでパフォーマンスを満たすことができることを示しています。
すべての現実世界の実験の完全なビデオは、補足資料で入手できます。

要約(オリジナル)

Recent advances in skill learning has propelled robot manipulation to new heights by enabling it to learn complex manipulation tasks from a practical number of demonstrations. However, these skills are often limited to the particular action, object, and environment \textit{instances} that are shown in the training data, and have trouble transferring to other instances of the same category. In this work we present an open-vocabulary Spatial-Semantic Diffusion policy (S$^2$-Diffusion) which enables generalization from instance-level training data to category-level, enabling skills to be transferable between instances of the same category. We show that functional aspects of skills can be captured via a promptable semantic module combined with a spatial representation. We further propose leveraging depth estimation networks to allow the use of only a single RGB camera. Our approach is evaluated and compared on a diverse number of robot manipulation tasks, both in simulation and in the real world. Our results show that S$^2$-Diffusion is invariant to changes in category-irrelevant factors as well as enables satisfying performance on other instances within the same category, even if it was not trained on that specific instance. Full videos of all real-world experiments are available in the supplementary material.

arxiv情報

著者 Quantao Yang,Michael C. Welle,Danica Kragic,Olov Andersson
発行日 2025-02-17 08:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation はコメントを受け付けていません

AffinityFlow: Guided Flows for Antibody Affinity Maturation

要約

抗体は治療薬として広く使用されていますが、その発達には、結合親和性を高めるための反復変異を含むコストのかかる親和性成熟が必要です。この論文では、抗体と抗原配列を使用して、アフィニティ成熟のシーケンスのみのシナリオを探ります。
最近、アルファフローはフローマッチング内でアルファフォルドをラップして、多様なタンパク質構造を生成し、構造のシーケンス条件付き生成モデルを可能にします。
これに基づいて、(1)構造ベースのアフィニティ予測子を使用して、(1)構造生成を高結合親和性に向けてガイドするシーケンスを修正する交互の最適化フレームワークを提案します。
ポスト選択のためのアフィニティ予測因子に基づいています。
重要な課題は、両方の予測因子をトレーニングするためのラベル付きデータがないことです。
これに対処するために、騒々しい生物物理学的エネルギーから予測因子の洗練に貴重な情報を組み込んだ共同科学モジュールを開発します。
シーケンスベースの予測子は、構造ベースの予測因子を教えるためにコンセンサスサンプルを選択し、その逆も同様です。
私たちの方法であるAffinityFlowは、アフィニティ成熟実験で最先端のパフォーマンスを実現します。
受け入れた後、コードをオープンソースする予定です。

要約(オリジナル)

Antibodies are widely used as therapeutics, but their development requires costly affinity maturation, involving iterative mutations to enhance binding affinity.This paper explores a sequence-only scenario for affinity maturation, using solely antibody and antigen sequences. Recently AlphaFlow wraps AlphaFold within flow matching to generate diverse protein structures, enabling a sequence-conditioned generative model of structure. Building on this, we propose an alternating optimization framework that (1) fixes the sequence to guide structure generation toward high binding affinity using a structure-based affinity predictor, then (2) applies inverse folding to create sequence mutations, refined by a sequence-based affinity predictor for post selection. A key challenge is the lack of labeled data for training both predictors. To address this, we develop a co-teaching module that incorporates valuable information from noisy biophysical energies into predictor refinement. The sequence-based predictor selects consensus samples to teach the structure-based predictor, and vice versa. Our method, AffinityFlow, achieves state-of-the-art performance in affinity maturation experiments. We plan to open-source our code after acceptance.

arxiv情報

著者 Can Chen,Karla-Luise Herpoldt,Chenchao Zhao,Zichen Wang,Marcus Collins,Shang Shang,Ron Benson
発行日 2025-02-17 11:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AffinityFlow: Guided Flows for Antibody Affinity Maturation はコメントを受け付けていません