FlowDock: Geometric Flow Matching for Generative Protein-Ligand Docking and Affinity Prediction

要約

タンパク質リガンド構造の強力な生成AIモデルが最近提案されていますが、これらの方法のほとんどは、柔軟なタンパク質リガンドドッキングとアフィニティ推定の両方をサポートするものはほとんどありません。
そうする人のうち、複数の結合リガンドを同時に直接モデル化することも、薬物学的に関連する薬物標的について厳密にベンチマークされている人も、創薬の取り組みにおける広範な採用を妨げている人はいません。
この作業では、任意の数の結合リガンドのためにバインド(apo)のカウンターパートに直接マッピングされることを学習する条件付きフローマッチングに基づく最初の深い幾何学的生成モデルであるフロードックを提案します。
さらに、FlowDockは、生成されたタンパク質リガンド複合体構造のそれぞれと予測された構造信頼スコアと結合親和性値を提供し、新しい(マルチリガンド)薬物ターゲットの高速仮想スクリーニングを可能にします。
For the well-known PoseBusters Benchmark dataset, FlowDock outperforms single-sequence AlphaFold 3 with a 51% blind docking success rate using unbound (apo) protein input structures and without any information derived from multiple sequence alignments, and for the challenging new DockGen-E dataset, FlowDock outperforms single-sequence AlphaFold 3 and matches single-sequence Chai-1 for binding pocket generalization.
さらに、構造予測のための技術の第16回のコミュニティ全体の批判的評価(CASP16)のリガンドカテゴリでは、140のタンパク質リガンド複合体にわたる薬理学的結合親和性推定のトップ5方法にランクされ、仮想スクリーニングにおける学習した表現の有効性が示されました。
ソースコード、データ、および事前に訓練されたモデルは、https://github.com/bioinfomachinelearning/flowdockで入手できます。

要約(オリジナル)

Powerful generative AI models of protein-ligand structure have recently been proposed, but few of these methods support both flexible protein-ligand docking and affinity estimation. Of those that do, none can directly model multiple binding ligands concurrently or have been rigorously benchmarked on pharmacologically relevant drug targets, hindering their widespread adoption in drug discovery efforts. In this work, we propose FlowDock, the first deep geometric generative model based on conditional flow matching that learns to directly map unbound (apo) structures to their bound (holo) counterparts for an arbitrary number of binding ligands. Furthermore, FlowDock provides predicted structural confidence scores and binding affinity values with each of its generated protein-ligand complex structures, enabling fast virtual screening of new (multi-ligand) drug targets. For the well-known PoseBusters Benchmark dataset, FlowDock outperforms single-sequence AlphaFold 3 with a 51% blind docking success rate using unbound (apo) protein input structures and without any information derived from multiple sequence alignments, and for the challenging new DockGen-E dataset, FlowDock outperforms single-sequence AlphaFold 3 and matches single-sequence Chai-1 for binding pocket generalization. Additionally, in the ligand category of the 16th community-wide Critical Assessment of Techniques for Structure Prediction (CASP16), FlowDock ranked among the top-5 methods for pharmacological binding affinity estimation across 140 protein-ligand complexes, demonstrating the efficacy of its learned representations in virtual screening. Source code, data, and pre-trained models are available at https://github.com/BioinfoMachineLearning/FlowDock.

arxiv情報

著者 Alex Morehead,Jianlin Cheng
発行日 2025-03-24 16:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.1, q-bio.BM, q-bio.QM | FlowDock: Geometric Flow Matching for Generative Protein-Ligand Docking and Affinity Prediction はコメントを受け付けていません

AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration

要約

大規模な言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、共同問題解決において重大な可能性を示しています。
しかし、彼らは依然として、コミュニケーションの効率が低く、最適ではないタスクのパフォーマンスの大きな課題に直面しており、エージェントのコミュニケーショントポロジの慎重な設計を特に重要にしています。
効率的なチームの役割が動的に調整されることが多いという管理理論に触発されて、エージェントドロップアウトを提案します。これは、通信グラフの隣接マトリックスを最適化することにより、さまざまなコミュニケーションラウンド全体で冗長エージェントと通信を識別し、トークンの効率とタスクのパフォーマンスを強化することでそれらを排除します。
最先端の方法と比較して、エージェントドロップアウトは、迅速なトークン消費で平均21.6%、完成トークン消費が18.4%減少し、タスクで1.14のパフォーマンス改善が得られます。
さらに、拡張された実験は、エージェントドロップアウトが顕著なドメインの転送可能性と構造の堅牢性を達成し、その信頼性と有効性を明らかにすることを示しています。
https://github.com/wangzx1219/agentdropoutでコードをリリースします。

要約(オリジナル)

Multi-agent systems (MAS) based on large language models (LLMs) have demonstrated significant potential in collaborative problem-solving. However, they still face substantial challenges of low communication efficiency and suboptimal task performance, making the careful design of the agents’ communication topologies particularly important. Inspired by the management theory that roles in an efficient team are often dynamically adjusted, we propose AgentDropout, which identifies redundant agents and communication across different communication rounds by optimizing the adjacency matrices of the communication graphs and eliminates them to enhance both token efficiency and task performance. Compared to state-of-the-art methods, AgentDropout achieves an average reduction of 21.6% in prompt token consumption and 18.4% in completion token consumption, along with a performance improvement of 1.14 on the tasks. Furthermore, the extended experiments demonstrate that AgentDropout achieves notable domain transferability and structure robustness, revealing its reliability and effectiveness. We release our code at https://github.com/wangzx1219/AgentDropout.

arxiv情報

著者 Zhexuan Wang,Yutong Wang,Xuebo Liu,Liang Ding,Miao Zhang,Jie Liu,Min Zhang
発行日 2025-03-24 17:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration はコメントを受け付けていません

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

要約

Deepseek-R1は、長いチェーン(COT)の推論が、ルールベースの報酬を備えた単純な強化学習(RL)フレームワークを通じて自然に出現することを示しています。ここでは、ベースモデルから直接開始される可能性があります。
ゼロRLトレーニングを再現するための最近の取り組みは、主にQWEN2.5モデルシリーズに焦点を当てています。これは、基本モデルがすでに強力な指導に従う能力と自己反省能力を示しているため、代表的ではないかもしれません。
この作業では、LLAMA3-8B、Mistral-7B/24B、DeepSeek-Math-7B、QWEN2.5-MATH-7B、および0.5Bから32BのすべてのQWEN2.5モデルなど、さまざまなファミリーやサイズにまたがる10の多様なベースモデルでゼロRLトレーニングを調査します。
いくつかの主要な設計戦略を活用して、調整形式の報酬とクエリの難易度を制御するなど、ほとんどの設定にわたって推論の精度と応答長の両方が大幅に改善されます。
ただし、トレーニングダイナミクスを慎重に監視することにより、さまざまなベースモデルがトレーニング中に異なるパターンを示すことがわかります。
たとえば、応答長の増加は、検証(つまり、「AHA瞬間」)などの特定の認知行動の出現と常に相関するとは限りません。
特に、Qwenファミリーからではなく、小さなモデルで初めて「Ahaの瞬間」を観察します。
成功したゼロRLトレーニングを可能にする重要なデザインと、調査結果と実践を共有しています。
さらなる研究を容易にするために、コード、モデル、分析ツールをオープンソーシングします。

要約(オリジナル)

DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the ‘aha moment’). Notably, we observe the ‘aha moment’ for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.

arxiv情報

著者 Weihao Zeng,Yuzhen Huang,Qian Liu,Wei Liu,Keqing He,Zejun Ma,Junxian He
発行日 2025-03-24 17:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild はコメントを受け付けていません

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

要約

AIコントロールプロトコルは、AIが意図的に容認できない結果を引き起こすのを防ぐことを目的とするAIシステムを有効に展開するための計画です。
このホワイトペーパーでは、AIシステムがステートレスに動作しながら、コントロールプロトコルを破壊するための独自の戦略をどの程度生成し、行動できるかを調査します(コンテキスト間でメモリ間で共有されていません)。
これを行うには、AIシステムが各コンテキストで最適な計画を確実に生成し、適切に調整された確率でアクションを実行し、コミュニケーションせずに他のインスタンスと調整する必要がある場合があります。
幅広い環境のスイートであるSubversion Strategy Evalを開発し、さまざまなプロトコルと戦略的能力をカバーし、個々の能力を分離するのに役立つ6セットのアフォーダンスをカバーしています。
検査に評価を実装し、オープンソースをリリースします。
有用なみのバージョンやOpenAI推論モデルを含むClaude 3.5モデルを評価します。
いずれのモデルでも、制御プロトコルをステートルに破壊するための戦略化における実質的な能力を示していません。
ただし、コンテキスト間で計画を共有する能力など、モデルを追加のアフォーダンスを提供すると、パフォーマンスが大幅に向上する可能性があります。
私たちの評価は、モデルが制御プロトコルを破壊することができる時期の主要な指標として機能し、AI制御評価における完全な戦略能力の最悪の仮定を緩和できることを願っています。

要約(オリジナル)

An AI control protocol is a plan for usefully deploying AI systems that aims to prevent an AI from intentionally causing some unacceptable outcome. This paper investigates how well AI systems can generate and act on their own strategies for subverting control protocols whilst operating statelessly (without shared memory between contexts). To do this, an AI system may need to reliably generate optimal plans in each context, take actions with well-calibrated probabilities, and coordinate plans with other instances of itself without communicating. We develop Subversion Strategy Eval, a suite of eight environments, covering a range of protocols and strategic capabilities, and six sets of affordances that help isolate individual capabilities. We implement the evaluation in Inspect-AI and release it open-source. We evaluate Claude 3.5 models, including helpful-only versions, as well as OpenAI reasoning models. None of the models demonstrate substantial capability in strategizing to subvert control protocols statelessly. However, providing models with additional affordances, such as the ability to share a plan between contexts, can substantially improve performance. We hope our evaluations can act as a leading indicator for when models are capable of subverting control protocols and also relax the worst-case assumption of perfect strategic ability in AI control evaluations.

arxiv情報

著者 Alex Mallen,Charlie Griffin,Misha Wagner,Alessandro Abate,Buck Shlegeris
発行日 2025-03-24 17:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? はコメントを受け付けていません

Statistical Proof of Execution (SPEX)

要約

多くの現実世界のアプリケーションは、計画とガイダンスのためのML/AI推論の広範な採用によって推進される、自動化された意思決定をますます組み込んでいます。
この研究では、自律的な意思決定における検証可能なコンピューティングの必要性が高まっています。
検証可能なコンピューティングの問題を形式化し、既存の方法よりも大幅に高速で、費用対効果が高く、よりシンプルなサンプリングベースのプロトコルを導入します。
さらに、非決定的なシナリオを効果的に管理するための一連の戦略を提案する非決定的な課題に取り組みます。

要約(オリジナル)

Many real-world applications are increasingly incorporating automated decision-making, driven by the widespread adoption of ML/AI inference for planning and guidance. This study examines the growing need for verifiable computing in autonomous decision-making. We formalize the problem of verifiable computing and introduce a sampling-based protocol that is significantly faster, more cost-effective, and simpler than existing methods. Furthermore, we tackle the challenges posed by non-determinism, proposing a set of strategies to effectively manage common scenarios.

arxiv情報

著者 Michele Dallachiesa,Antonio Pitasi,David Pinger,Josh Goodbody,Luis Vaello
発行日 2025-03-24 17:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Statistical Proof of Execution (SPEX) はコメントを受け付けていません

Large Language Models Empowered Personalized Web Agents

要約

Webエージェントは、ユーザーの命令に基づいてWebタスクの完了を自動化するための有望な方向として浮上し、ユーザーエクスペリエンスを大幅に向上させています。
最近、Webエージェントは、従来のエージェントから大規模な言語モデル(LLMS)ベースのWebエージェントに進化しました。
その成功にもかかわらず、既存のLLMベースのWebエージェントは、ユーザーのパーソナライズされた指示の理解を支援し、カスタマイズされたアクションの実行におけるパーソナライズされたデータ(ユーザープロファイルや履歴Web行動など)の重要性を見落としています。
制限を克服するために、最初に、パーソナライズされたデータとユーザーの指示を統合して、命令の理解とアクションの実行をパーソナライズするためにパーソナライズされたデータとユーザーの指示を統合するLLM能力のあるパーソナライズされたWebエージェントのタスクを策定します。
包括的な評価ベンチマークの欠如に対処するために、3つのパーソナライズされたWebタスクにわたって、ユーザーの指示、パーソナライズされたユーザーデータ、Web機能、および2つの評価パラダイムを備えたパーソナライズされたWebエージェントベンチマーク(PersonalWab)を構築します。
さらに、パーソナライズされたユーザーメモリ強化アライメント(PUMA)フレームワークを提案して、LLMをパーソナライズされたWebエージェントタスクに適応させます。
PUMAは、タスク固有の検索戦略を備えたメモリバンクを利用して、関連する履歴Web動作をフィルタリングします。
動作に基づいて、PUMAは、微調整および直接優先最適化を通じてパーソナライズされたアクション実行のためにLLMSを調整します。
広範な実験は、PersonalWabの既存のWebエージェントに対するPUMAの優位性を検証します。

要約(オリジナル)

Web agents have emerged as a promising direction to automate Web task completion based on user instructions, significantly enhancing user experience. Recently, Web agents have evolved from traditional agents to Large Language Models (LLMs)-based Web agents. Despite their success, existing LLM-based Web agents overlook the importance of personalized data (e.g., user profiles and historical Web behaviors) in assisting the understanding of users’ personalized instructions and executing customized actions. To overcome the limitation, we first formulate the task of LLM-empowered personalized Web agents, which integrate personalized data and user instructions to personalize instruction comprehension and action execution. To address the absence of a comprehensive evaluation benchmark, we construct a Personalized Web Agent Benchmark (PersonalWAB), featuring user instructions, personalized user data, Web functions, and two evaluation paradigms across three personalized Web tasks. Moreover, we propose a Personalized User Memory-enhanced Alignment (PUMA) framework to adapt LLMs to the personalized Web agent task. PUMA utilizes a memory bank with a task-specific retrieval strategy to filter relevant historical Web behaviors. Based on the behaviors, PUMA then aligns LLMs for personalized action execution through fine-tuning and direct preference optimization. Extensive experiments validate the superiority of PUMA over existing Web agents on PersonalWAB.

arxiv情報

著者 Hongru Cai,Yongqi Li,Wenjie Wang,Fengbin Zhu,Xiaoyu Shen,Wenjie Li,Tat-Seng Chua
発行日 2025-03-24 17:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Large Language Models Empowered Personalized Web Agents はコメントを受け付けていません

Mani-GS: Gaussian Splatting Manipulation with Triangular Mesh

要約

ニューラル放射輝度フィールド(NERF)などのニューラル3D表現は、写真と現実的なレンダリング結果の生成に優れていますが、コンテンツの作成に不可欠な操作と編集の柔軟性がありません。
以前の作品は、標準空間でnerfを変形させるか、明示的なメッシュに基づいて放射磁場を操作することにより、この問題に対処しようとしてきました。
ただし、NERFの操作は非常に制御できず、長いトレーニングと推論時間が必要です。
3Dガウスのスプラッティング(3DG)の出現により、非常に忠実度の斬新なビュー合成を実現できます。
ただし、レンダリング品質を維持しながら、3DGを自由に操作する効果的な手段がまだ不足しています。
この作業では、操作可能な写真と現実的なレンダリングを達成するという課題に取り組むことを目指しています。
三角メッシュを利用して、3DGを直接自己適応して操作することを提案します。
このアプローチは、さまざまな種類のガウス操作のためにさまざまなアルゴリズムを設計する必要性を減らします。
三角形の形状を認識しているガウス結合と適応方法を利用することにより、3DGS操作を達成し、操作後に高忠実度のレンダリングを維持できます。
私たちのアプローチは、高品質のレンダリングを維持しながら、大きな変形、局所操作、ソフトボディシミュレーションを処理することができます。
さらに、3DGから抽出された不正確なメッシュでもこの方法が効果的であることを実証します。
実施された実験は、私たちの方法の有効性と、ベースラインアプローチに対するその優位性を示しています。

要約(オリジナル)

Neural 3D representations such as Neural Radiance Fields (NeRF), excel at producing photo-realistic rendering results but lack the flexibility for manipulation and editing which is crucial for content creation. Previous works have attempted to address this issue by deforming a NeRF in canonical space or manipulating the radiance field based on an explicit mesh. However, manipulating NeRF is not highly controllable and requires a long training and inference time. With the emergence of 3D Gaussian Splatting (3DGS), extremely high-fidelity novel view synthesis can be achieved using an explicit point-based 3D representation with much faster training and rendering speed. However, there is still a lack of effective means to manipulate 3DGS freely while maintaining rendering quality. In this work, we aim to tackle the challenge of achieving manipulable photo-realistic rendering. We propose to utilize a triangular mesh to manipulate 3DGS directly with self-adaptation. This approach reduces the need to design various algorithms for different types of Gaussian manipulation. By utilizing a triangle shape-aware Gaussian binding and adapting method, we can achieve 3DGS manipulation and preserve high-fidelity rendering after manipulation. Our approach is capable of handling large deformations, local manipulations, and soft body simulations while keeping high-quality rendering. Furthermore, we demonstrate that our method is also effective with inaccurate meshes extracted from 3DGS. Experiments conducted demonstrate the effectiveness of our method and its superiority over baseline approaches.

arxiv情報

著者 Xiangjun Gao,Xiaoyu Li,Yiyu Zhuang,Qi Zhang,Wenbo Hu,Chaopeng Zhang,Yao Yao,Ying Shan,Long Quan
発行日 2025-03-24 15:32:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Mani-GS: Gaussian Splatting Manipulation with Triangular Mesh はコメントを受け付けていません

LGI-DETR: Local-Global Interaction for UAV Object Detection

要約

UAVは、さまざまな分野で広く使用されています。
ただし、ドローンで使用される既存のオブジェクト検出器のほとんどはエンドツーエンドではなく、さまざまな複雑なコンポーネントの設計と慎重な微調整が必​​要です。
既存のエンドツーエンドオブジェクト検出器のほとんどは、自然なシーン向けに設計されています。
UAV画像に直接適用することは理想的ではありません。
上記の課題を解決するために、UAVのローカルグローバル情報相互作用DETR、つまりLGI-Detrを設計します。
相互層の双方向の低レベルおよび高レベルの特徴情報の向上、この融合方法は、特に小さな異議検出の分野で効果的です。
エンコーダーの初期段階では、ローカル空間強化モジュール(LSE)を提案します。これにより、低レベルのリッチローカル空間情報が高レベルの機能に強化され、高レベルの情報の伝送プロセスでのローカル情報の損失が減少します。
エンコーダーの最終段階では、豊富な高レベルのグローバルセマンティック表現を低レベル機能マップと統合するように設計された新しいグローバル情報噴射モジュール(GII)を提案します。
この階層融合メカニズムは、特徴階層全体にコンテキスト情報を伝播することにより、局所受容フィールドの固有の制限に効果的に対処します。
2つの挑戦的なUAV画像オブジェクト検出ベンチマークであるVisdrone2019とUAVDTの実験結果は、提案されたモデルがSOTAモデルよりも優れていることを示しています。
ベースラインモデルと比較して、APとAP50はそれぞれ1.9%と2.4%改善されました。

要約(オリジナル)

UAV has been widely used in various fields. However, most of the existing object detectors used in drones are not end-to-end and require the design of various complex components and careful fine-tuning. Most of the existing end-to-end object detectors are designed for natural scenes. It is not ideal to apply them directly to UAV images. In order to solve the above challenges, we design an local-global information interaction DETR for UAVs, namely LGI-DETR. Cross-layer bidirectional low-level and high-level feature information enhancement, this fusion method is effective especially in the field of small objection detection. At the initial stage of encoder, we propose a local spatial enhancement module (LSE), which enhances the low-level rich local spatial information into the high-level feature, and reduces the loss of local information in the transmission process of high-level information. At the final stage of the encoder, we propose a novel global information injection module (GII) designed to integrate rich high-level global semantic representations with low-level feature maps. This hierarchical fusion mechanism effectively addresses the inherent limitations of local receptive fields by propagating contextual information across the feature hierarchy. Experimental results on two challenging UAV image object detection benchmarks, VisDrone2019 and UAVDT, show that our proposed model outperforms the SOTA model. Compared to the baseline model, AP and AP50 improved by 1.9% and 2.4%, respectively.

arxiv情報

著者 Zifa Chen
発行日 2025-03-24 15:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LGI-DETR: Local-Global Interaction for UAV Object Detection はコメントを受け付けていません

NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian Splatting

要約

ニューラル放射輝度フィールド(NERF)および3Dガウススプラッティング(3DG)は、密集したカメラの視点からの画像を使用して、顕著に高度な写真と現実的な新規ビューの合成を持っています。
ただし、これらの方法は、監督が限られているため、少ないショットシナリオで苦労しています。
この論文では、複雑な手動の正則化に依存せずに深さ情報をポイントクラウドに直接埋め込むことにより、スパースビュー画像からの新しいビュー合成を強化する3DGSベースのアプローチであるNexusgsを紹介します。
3DGSの固有のエピポラージオメトリを活用すると、この方法では、3DGを密なポイントクラウドで初期化する新しいポイントクラウド密度化戦略を導入し、過剰滑らかと過剰摂取を防ぎながら、ポイント配置のランダム性を低下させます。
具体的には、Nexusgsは3つの重要なステップで構成されています。エピポーラの深さの結びつき、流れ抵抗力のある深さブレンド、およびフローフィルタリングされた深さの剪定です。
これらのステップは、光学フローとカメラのポーズを活用して正確な深さマップを計算しながら、光学フローにしばしば関連する不正確さを軽減します。
Eppolar Depth Priorsを組み込むことにより、Nexusgsは信頼性の高い高密度ポイントクラウドカバレッジを保証し、スパースビュー条件下で安定した3DGSトレーニングをサポートします。
実験は、Nexusgが深さの精度と品質を大幅に向上させ、最先端の方法をかなりのマージンで上回ることを示しています。
さらに、競合する方法のパフォーマンスを大幅に向上させることにより、生成されたポイントクラウドの優位性を検証します。
プロジェクトページ:https://usmizuki.github.io/nexusgs/。

要約(オリジナル)

Neural Radiance Field (NeRF) and 3D Gaussian Splatting (3DGS) have noticeably advanced photo-realistic novel view synthesis using images from densely spaced camera viewpoints. However, these methods struggle in few-shot scenarios due to limited supervision. In this paper, we present NexusGS, a 3DGS-based approach that enhances novel view synthesis from sparse-view images by directly embedding depth information into point clouds, without relying on complex manual regularizations. Exploiting the inherent epipolar geometry of 3DGS, our method introduces a novel point cloud densification strategy that initializes 3DGS with a dense point cloud, reducing randomness in point placement while preventing over-smoothing and overfitting. Specifically, NexusGS comprises three key steps: Epipolar Depth Nexus, Flow-Resilient Depth Blending, and Flow-Filtered Depth Pruning. These steps leverage optical flow and camera poses to compute accurate depth maps, while mitigating the inaccuracies often associated with optical flow. By incorporating epipolar depth priors, NexusGS ensures reliable dense point cloud coverage and supports stable 3DGS training under sparse-view conditions. Experiments demonstrate that NexusGS significantly enhances depth accuracy and rendering quality, surpassing state-of-the-art methods by a considerable margin. Furthermore, we validate the superiority of our generated point clouds by substantially boosting the performance of competing methods. Project page: https://usmizuki.github.io/NexusGS/.

arxiv情報

著者 Yulong Zheng,Zicheng Jiang,Shengfeng He,Yandu Sun,Junyu Dong,Huaidong Zhang,Yong Du
発行日 2025-03-24 15:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NexusGS: Sparse View Synthesis with Epipolar Depth Priors in 3D Gaussian Splatting はコメントを受け付けていません

Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization

要約

学習可能な画像圧縮(LIC)は、RD効率で標準化されたビデオコーデックを上回る可能性を示しており、ハードウェアに優しい実装の研究を促しています。
ほとんどの既存のLICハードウェアの実装は、RD効率へのレイテンシを優先し、ハードウェア設計スペースの広範な調査を通じて優先します。
特定のハードウェアプラットフォームの設計を調整する負担がモデルの寸法にシフトし、RD効率を損なうことなく、新しいデザインパラダイムを提示します。
まず、リファレンスティーチャーからよりleanせた生徒のLICモデルを蒸留するためのフレームワークを設計します。単一のモデルハイパーパラメーターを調整することにより、複雑なハードウェア設計の探索なしで異なるハードウェアプラットフォームの制約を満たすことができます。
第二に、一般化された分裂正規化 – ポストパラメーターの量子化さえもRD効率を維持するGDNアクティベーションのハードウェアに優しい実装を提案します。
第三に、並列処理を活用してリソース割り当てを最適化することにより、利用可能なFPGAリソースを最大限に活用するPipelined FPGA構成を設計します。
最先端のLICモデルを使用した実験は、元のモデルに非常に近いことを実行しながら、既存のすべてのFPGA実装を上回ることを示しています。

要約(オリジナル)

Learnable Image Compression (LIC) has shown the potential to outperform standardized video codecs in RD efficiency, prompting the research for hardware-friendly implementations. Most existing LIC hardware implementations prioritize latency to RD-efficiency and through an extensive exploration of the hardware design space. We present a novel design paradigm where the burden of tuning the design for a specific hardware platform is shifted towards model dimensioning and without compromising on RD-efficiency. First, we design a framework for distilling a leaner student LIC model from a reference teacher: by tuning a single model hyperparameters, we can meet the constraints of different hardware platforms without a complex hardware design exploration. Second, we propose a hardware-friendly implementation of the Generalized Divisive Normalization – GDN activation that preserves RD efficiency even post parameter quantization. Third, we design a pipelined FPGA configuration which takes full advantage of available FPGA resources by leveraging parallel processing and optimizing resource allocation. Our experiments with a state of the art LIC model show that we outperform all existing FPGA implementations while performing very close to the original model.

arxiv情報

著者 Alaa Mazouz,Sumanta Chaudhuri,Marco Cagnanzzo,Mihai Mitrea,Enzo Tartaglione,Attilio Fiandrotti
発行日 2025-03-24 15:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization はコメントを受け付けていません