Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo

要約

幅広いLMアプリケーションでは、構文またはセマンティックの制約に準拠するテキストを生成する必要があります。
このような制約を課すことは、確率的条件付けとして自然に枠組みすることができますが、結果として生成される分布からの正確な生成 – LMの基本分布とは大幅に異なる可能性がありますが、一般に手に負えないものです。
この作業では、シーケンシャルモンテカルロ(SMC)に基づいて、制御されたLM生成のアーキテクチャを開発します。
SMCフレームワークにより、推論時にドメインおよび問題固有の制約を柔軟に組み込み、世代中に新しい情報に照らして計算リソースを効率的に再割り当てすることができます。
データサイエンス、テキスト間、目標推論、分子合成のPythonコード生成の4つの挑戦的なドメインの多くの代替案とアブレーションと比較することにより、オーバーヘッドがほとんどないため、私たちのアプローチにより、小さなオープンソース言語モデルが8倍以上のモデルを上回ることができることを示しています。
確率論的な視点をサポートするために、これらのパフォーマンスの改善は、後部分布のより良い近似によって促進されることを示します。
私たちのシステムは、Lew et alの枠組みに基づいています。
(2023)言語モデルの確率的プログラミング言語と統合し、ユーザーがSMCをさまざまな制御された生成問題に適用するためのシンプルでプログラム可能な方法を提供します。

要約(オリジナル)

A wide range of LM applications require generating text that conforms to syntactic or semantic constraints. Imposing such constraints can be naturally framed as probabilistic conditioning, but exact generation from the resulting distribution — which can differ substantially from the LM’s base distribution — is generally intractable. In this work, we develop an architecture for controlled LM generation based on sequential Monte Carlo (SMC). Our SMC framework allows us to flexibly incorporate domain- and problem-specific constraints at inference time, and efficiently reallocate computational resources in light of new information during the course of generation. By comparing to a number of alternatives and ablations on four challenging domains — Python code generation for data science, text-to-SQL, goal inference, and molecule synthesis — we demonstrate that, with little overhead, our approach allows small open-source language models to outperform models over 8x larger, as well as closed-source, fine-tuned ones. In support of the probabilistic perspective, we show that these performance improvements are driven by better approximation to the posterior distribution. Our system builds on the framework of Lew et al. (2023) and integrates with its language model probabilistic programming language, giving users a simple, programmable way to apply SMC to a broad variety of controlled generation problems.

arxiv情報

著者 João Loula,Benjamin LeBrun,Li Du,Ben Lipkin,Clemente Pasti,Gabriel Grand,Tianyu Liu,Yahya Emara,Marjorie Freedman,Jason Eisner,Ryan Cotterel,Vikash Mansinghka,Alexander K. Lew,Tim Vieira,Timothy J. O’Donnell
発行日 2025-04-17 17:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo はコメントを受け付けていません

A general language model for peptide identification

要約

ペプチド同定の進歩は、タンパク質機能を解読し、治療的発見を加速する当社の能力に革命をもたらしています。
Pdeepppを提示します。Pdeepppは、前処理されたタンパク質言語モデルを並列トランスCNNアーキテクチャと統合し、ペプチド特性評価タスクで最先端のパフォーマンスを実現する深い学習フレームワークを提示します。
モデルのハイブリッドアーキテクチャは、従来のアプローチと比較してUMAPの視覚化のクラスター分離が29%改善されたことで証明されるように、ローカルシーケンスモチーフとグローバルな構造的特徴の両方をキャプチャする際のユニークな機能を示しています。
33の生物学的認識タスク(翻訳後修飾サイトの予測や生物活性ペプチド識別など)にわたって評価されています。
特に、抗菌性ペプチド検出のPR AUC 0.9977で0.9726の精度を達成し、抗マラリア認識シナリオでは誤陰性を37.5%減少させました。
このフレームワークにより、正確な大規模ペプチド分析が可能になり、重要なグリコシル化部位検出の99.5%の特異性を維持しながら、シーケンスアライメントベースの方法で218*アクセラレーションを達成します。PDEEPPPは、相乗的アーキテクチャ設計を通じて計算ペプチド分析のための新しいパラダイムを確立します。
アプリケーションは、GitHub(https://github.com/fondress/pdeeppp)および抱きしめられた顔(https://huggingface.co/fondress/pdepppp)を介して公開されているコード、データ、および事前処理モデルを含む実装を行いました。

要約(オリジナル)

Advances in peptide identification are revolutionizing our ability to decipher protein functions and accelerate therapeutic discovery. We present PDeepPP, a deep learning framework that integrates pretrained protein language models with parallel transformer-CNN architectures, achieving state-of-the-art performance in peptide characterization tasks. The model’s hybrid architecture demonstrates unique capabilities in capturing both local sequence motifs and global structural features, as evidenced by 29% improved cluster separation in UMAP visualizations compared to conventional approaches. Evaluated across 33 biological recognition tasks – including post-translational modification site prediction and bioactive peptide identification – PDeepPP outperformed existing methods in 25 tasks with average AUC improvements of 4.2%. Notably, it achieved 0.9726 accuracy with PR AUC 0.9977 in antimicrobial peptide detection while reducing false negatives by 37.5% in antimalarial recognition scenarios. This framework enables accurate large-scale peptide analysis, achieving 218* acceleration over sequence-alignment-based methods while maintaining 99.5% specificity in critical glycosylation site detection.PDeepPP establishes a new paradigm for computational peptide analysis through its synergistic architecture design, enabling rapid yet precise functional annotation that bridges molecular pattern recognition with translational biomedical applications.We have made our implementation, including code, data, and pretrained models, publicly available via GitHub (https://github.com/fondress/PDeepPP) and Hugging Face (https://huggingface.co/fondress/PDeppPP).

arxiv情報

著者 Jixiu Zhai,Tianchi Lu,Haitian Zhong,Ziyang Xu,Yuhuan Liu,Shengrui Xu,Jingwan Wang,Dan Huang
発行日 2025-04-17 17:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 92C40, cs.AI, cs.LG, I.2.6 | A general language model for peptide identification はコメントを受け付けていません

Exploring Expert Failures Improves LLM Agent Tuning

要約

大規模な言語モデル(LLM)は、エージェントとして大きな可能性を示しており、複数回の推論と相互作用を必要とするタスクに優れています。
拒絶サンプリング微調整(RFT)は、エージェントとしてLLMSを微調整するための効果的な方法として浮上しています。最初に、成功した自己生成の軌跡を繰り返し微調整することにより、専門家で生成された成功した軌跡を模倣し、エージェントスキルをさらに向上させます。
ただし、専門家(GPT-4など)は主により単純なサブタスクとRFTが本質的に単純なシナリオを支持するため、多くの複雑なサブタスクが未解決のままであり、分散型(OOD)のままであり続けます。
これらの挑戦的なサブタスクを調査すると、以前に失敗した専門家の軌跡が、多くの場合、エージェントの探査効率と重要なスキルの獲得を大幅に改善できる貴重なガイダンス、たとえば計画や重要なアクションを提供できることを発見しました。
これらの観察に動機付けられて、私たちは、故障した専門家の軌跡から有益な行動を特定し、それらをトレーニングデータセットに統合するために、専門家の障害(EEF)を探索することを提案します。
潜在的に有害な行動は、モデル学習プロセスの汚染を防ぐために細心の注意を払って除外されます。
EEFは、専門家の失敗における有益な行動を活用することにより、以前に解決できなかったサブタスクを正常に解決し、エージェントのチューニングパフォーマンスを向上させます。
驚くべきことに、私たちのアプローチは、WebShopで62 \%の勝利を達成し、RFT(53。6\%)とGPT-4(35。6\%)を上回り、私たちの知る限り、WebShopで0.81のスコアを超えて81を超える最初の方法として新しい最先端を設定しました。

要約(オリジナル)

Large Language Models (LLMs) have shown tremendous potential as agents, excelling at tasks that require multiple rounds of reasoning and interactions. Rejection Sampling Fine-Tuning (RFT) has emerged as an effective method for finetuning LLMs as agents: it first imitates expert-generated successful trajectories and further improves agentic skills through iterative fine-tuning on successful, self-generated trajectories. However, since the expert (e.g., GPT-4) succeeds primarily on simpler subtasks and RFT inherently favors simpler scenarios, many complex subtasks remain unsolved and persistently out-of-distribution (OOD). Upon investigating these challenging subtasks, we discovered that previously failed expert trajectories can often provide valuable guidance, e.g., plans and key actions, that can significantly improve agent exploration efficiency and acquisition of critical skills. Motivated by these observations, we propose Exploring Expert Failures (EEF), which identifies beneficial actions from failed expert trajectories and integrates them into the training dataset. Potentially harmful actions are meticulously excluded to prevent contamination of the model learning process. By leveraging the beneficial actions in expert failures, EEF successfully solves some previously unsolvable subtasks and improves agent tuning performance. Remarkably, our approach achieved a 62\% win rate in WebShop, outperforming RFT (53. 6\%) and GPT-4 (35. 6\%), and to the best of our knowledge, setting a new state-of-the-art as the first method to surpass a score of 0.81 in WebShop and exceed 81 in SciWorld.

arxiv情報

著者 Li-Cheng Lan,Andrew Bai,Minhao Cheng,Ruochen Wang,Cho-Jui Hsieh,Tianyi Zhou
発行日 2025-04-17 17:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exploring Expert Failures Improves LLM Agent Tuning はコメントを受け付けていません

Antidistillation Sampling

要約

拡張された推論トレースを生成するフロンティアモデルは、モデルの蒸留を促進できる豊富なトークンシーケンスを誤って生成します。
この脆弱性を認識して、モデルの所有者は、モデルのパフォーマンスを損なうことなく蒸留の有効性を制限するサンプリング戦略を求める場合があります。
\ emph {diStillation sampling}は、まさにこの機能を提供します。
モデルのネクストトークン確率分布を戦略的に変更することにより、抗蒸留サンプリング毒性の痕跡を避難サンプリングし、モデルの実用性を維持しながら蒸留に効果的になります。
詳細については、https://antidistillation.comを参照してください。

要約(オリジナル)

Frontier models that generate extended reasoning traces inadvertently produce rich token sequences that can facilitate model distillation. Recognizing this vulnerability, model owners may seek sampling strategies that limit the effectiveness of distillation without compromising model performance. \emph{Antidistillation sampling} provides exactly this capability. By strategically modifying a model’s next-token probability distribution, antidistillation sampling poisons reasoning traces, rendering them significantly less effective for distillation while preserving the model’s practical utility. For further details, see https://antidistillation.com.

arxiv情報

著者 Yash Savani,Asher Trockman,Zhili Feng,Avi Schwarzschild,Alexander Robey,Marc Finzi,J. Zico Kolter
発行日 2025-04-17 17:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Antidistillation Sampling はコメントを受け付けていません

MIB: A Mechanistic Interpretability Benchmark

要約

新しい機械的解釈可能性の方法が実際の改善を達成するかどうかをどのように知ることができますか?
意味のある永続的な評価基準を追求するために、4つのタスクと5つのモデルにまたがる2つのトラックを備えたベンチマークであるMIBを提案します。
MIBは、関連する因果経路または神経言語モデルの特定の因果変数を正確かつ簡潔に回復する方法を好みます。
回路のローカリゼーショントラックは、モデルコンポーネントとそれらの間の接続を特定するメソッドを比較します – タスクを実行するために最も重要(属性パッチングや情報フロールートなど)。
因果変数のローカリゼーショントラックは、隠されたベクトルを特徴とするメソッド、たとえばスパース自動エンコーダー(SAE)または分散アライメント検索(DAS)を比較し、タスクに関連する因果変数のモデル機能を見つけます。
MIBを使用して、アトリビューションとマスクの最適化方法は、回路のローカリゼーションに最適であることがわかります。
因果変数のローカリゼーションでは、監視されたDASメソッドが最適に機能しますが、SAE機能はニューロン、つまり隠されたベクトルの標準寸法よりも優れていないことがわかります。
これらの調査結果は、MIBがメソッドの意味のある比較を可能にし、この分野で実際の進歩があったという自信を高めることを示しています。

要約(オリジナル)

How can we know whether new mechanistic interpretability methods achieve real improvements? In pursuit of meaningful and lasting evaluation standards, we propose MIB, a benchmark with two tracks spanning four tasks and five models. MIB favors methods that precisely and concisely recover relevant causal pathways or specific causal variables in neural language models. The circuit localization track compares methods that locate the model components – and connections between them – most important for performing a task (e.g., attribution patching or information flow routes). The causal variable localization track compares methods that featurize a hidden vector, e.g., sparse autoencoders (SAEs) or distributed alignment search (DAS), and locate model features for a causal variable relevant to the task. Using MIB, we find that attribution and mask optimization methods perform best on circuit localization. For causal variable localization, we find that the supervised DAS method performs best, while SAE features are not better than neurons, i.e., standard dimensions of hidden vectors. These findings illustrate that MIB enables meaningful comparisons of methods, and increases our confidence that there has been real progress in the field.

arxiv情報

著者 Aaron Mueller,Atticus Geiger,Sarah Wiegreffe,Dana Arad,Iván Arcuschin,Adam Belfki,Yik Siu Chan,Jaden Fiotto-Kaufman,Tal Haklay,Michael Hanna,Jing Huang,Rohan Gupta,Yaniv Nikankin,Hadas Orgad,Nikhil Prakash,Anja Reusch,Aruna Sankaranarayanan,Shun Shao,Alessandro Stolfo,Martin Tutek,Amir Zur,David Bau,Yonatan Belinkov
発行日 2025-04-17 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MIB: A Mechanistic Interpretability Benchmark はコメントを受け付けていません

RUKA: Rethinking the Design of Humanoid Hands with Learning

要約

器用な操作は、ロボットシステムの基本的な能力ですが、正確さ、コンパクト性、強度、手頃な価格の間のハードウェアトレードオフによって進歩が制限されています。
既存の制御方法は、手の設計とアプリケーションに妥協を課します。
しかし、学習ベースのアプローチは、特に腱駆動​​型の作動と低コストの材料による課題に対処するために、これらのトレードオフを再考する機会をもたらします。
この作品は、コンパクトで手頃な価格で有能な腱駆動のヒューマノイドハンドであるルカを提示します。
3Dプリントされた部品と既製のコンポーネントから作られたRukaには、多様な人間のようなグラスプが可能になる15の不足している自由度が15の指があります。
その腱駆動の作動により、コンパクトで人間のサイズの形式の要因を強力に把握できます。
制御の課題に対処するために、マヌスグローブによって収集されたモーションキャプチャデータから関節からアクチュエーターと指先からアクチュエータモデルを学び、手の形態学的精度を活用します。
広範な評価は、他のロボットの手と比較して、Rukaの優れた到達可能性、耐久性、および強度を示しています。
テレオ操作タスクは、ルカの器用な動きをさらに紹介します。
Ruka、コード、およびデータのオープンソースの設計と組み立ての指示は、https://rukahand.github.io/で入手できます。

要約(オリジナル)

Dexterous manipulation is a fundamental capability for robotic systems, yet progress has been limited by hardware trade-offs between precision, compactness, strength, and affordability. Existing control methods impose compromises on hand designs and applications. However, learning-based approaches present opportunities to rethink these trade-offs, particularly to address challenges with tendon-driven actuation and low-cost materials. This work presents RUKA, a tendon-driven humanoid hand that is compact, affordable, and capable. Made from 3D-printed parts and off-the-shelf components, RUKA has 5 fingers with 15 underactuated degrees of freedom enabling diverse human-like grasps. Its tendon-driven actuation allows powerful grasping in a compact, human-sized form factor. To address control challenges, we learn joint-to-actuator and fingertip-to-actuator models from motion-capture data collected by the MANUS glove, leveraging the hand’s morphological accuracy. Extensive evaluations demonstrate RUKA’s superior reachability, durability, and strength compared to other robotic hands. Teleoperation tasks further showcase RUKA’s dexterous movements. The open-source design and assembly instructions of RUKA, code, and data are available at https://ruka-hand.github.io/.

arxiv情報

著者 Anya Zorin,Irmak Guzey,Billy Yan,Aadhithya Iyer,Lisa Kondrich,Nikhil X. Bhattasali,Lerrel Pinto
発行日 2025-04-17 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RUKA: Rethinking the Design of Humanoid Hands with Learning はコメントを受け付けていません

Sleep-time Compute: Beyond Inference Scaling at Test-time

要約

スケーリングテスト時間計算は、大規模な言語モデル(LLM)を可能にするための重要な要素として困難な問題を解決できるようになりましたが、高遅延と推論コストが伴います。
クエリが表示される前にモデルがコンテキストについて「オフライン」できるようにするスリープタイムコンピューティングを導入します。ユーザーが尋ねる可能性のあるクエリを予測し、有用な量を事前に計算することにより、テスト時に計算要件を大幅に削減できます。
私たちの方法の有効性を実証するために、2つの推論タスクの修正バージョンを作成します – ステートフルGSM-シンボリックとステートフルなエイム。
睡眠時間計算は、ステートフルGSMシンボリックおよびステートフルなAIMEで同じ精度を達成するために必要なテスト時間計算量を減らすことができ、睡眠時間計算をスケーリングすることにより、ステートフルGSMシンボリックの精度をさらに13%増加させ、ステートフルAIMEで18%を増やすことができることがわかります。
さらに、コンテキストごとに複数の関連クエリを含めることにより、GSMシンボリックを拡張するマルチクエリGSMシンボリックを導入します。
マルチクエリGSM-シンボリックを使用して、関連するクエリ全体で睡眠時間計算を償却することにより、クエリあたりの平均コストを2.5倍削減できます。
次に、追加の分析を実施して、睡眠時間の計算が最も効果的であることを理解し、ユーザークエリの予測可能性が睡眠時間計算の有効性とよく相関していることを発見します。
最後に、睡眠時間計算を現実的なエージェントSWEタスクに適用するというケーススタディを実施します。

要約(オリジナル)

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to ‘think’ offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks – Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

arxiv情報

著者 Kevin Lin,Charlie Snell,Yu Wang,Charles Packer,Sarah Wooders,Ion Stoica,Joseph E. Gonzalez
発行日 2025-04-17 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Sleep-time Compute: Beyond Inference Scaling at Test-time はコメントを受け付けていません

It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization

要約

効率的かつ効果的な建築バックボーンの設計は、基礎モデルの能力を高めるための研究努力の中核となっています。
注意バイアスの人間の認知現象に触発されました – 特定のイベントまたは刺激を優先する自然な傾向 – 変圧器、タイタン、および内部の対象を使用してキーと値のマッピングを学習する関連記憶モジュールとして、変圧器、タイタン、最新の線形再発性ニューラルネットワークを含む神経アーキテクチャを再概念化します。
驚くべきことに、ほとんどの既存のシーケンスモデルは、(1)ドット製品の類似性、または(2)L2回帰目標のいずれかを注意バイアスとして活用することが観察されました。
これらの目的を超えて、トレーニング手順を安定させるための効果的な近似とともに、一連の代替注意バイアス構成を提示します。
次に、現代の深い学習アーキテクチャにおける忘却のメカニズムを保持正規化の一形態として再解釈し、シーケンスモデルに忘れられないゲートの新しいセットを提供します。
これらの洞察に基づいて、(i)関連記憶アーキテクチャ、(ii)注意バイアス目的、(iii)保持ゲート、および(iv)メモリ学習アルゴリズムの4つの選択に基づいて深い学習アーキテクチャを設計するための一般的な枠組みであるMirasを提示します。
迅速な平行化可能なトレーニングプロセスを維持しながら、既存の線形RNNの力を超える3つの新しいシーケンスモデルモデル、YAAD、およびメモを紹介します。
私たちの実験は、さまざまな強度を持つMirasの収量モデルのさまざまな設計の選択を示しています。
たとえば、MIRASの特定のインスタンスは、言語モデリング、常識的推論、集中的なタスクを思い出すなど、特別なタスクで例外的なパフォーマンスを実現し、さらにはパフォーマンスの変圧器やその他の最新の線形再発モデルです。

要約(オリジナル)

Designing efficient and effective architectural backbones has been in the core of research efforts to enhance the capability of foundation models. Inspired by the human cognitive phenomenon of attentional bias-the natural tendency to prioritize certain events or stimuli-we reconceptualize neural architectures, including Transformers, Titans, and modern linear recurrent neural networks as associative memory modules that learn a mapping of keys and values using an internal objective, referred to as attentional bias. Surprisingly, we observed that most existing sequence models leverage either (1) dot-product similarity, or (2) L2 regression objectives as their attentional bias. Going beyond these objectives, we present a set of alternative attentional bias configurations along with their effective approximations to stabilize their training procedure. We then reinterpret forgetting mechanisms in modern deep learning architectures as a form of retention regularization, providing a novel set of forget gates for sequence models. Building upon these insights, we present Miras, a general framework to design deep learning architectures based on four choices of: (i) associative memory architecture, (ii) attentional bias objective, (iii) retention gate, and (iv) memory learning algorithm. We present three novel sequence models-Moneta, Yaad, and Memora-that go beyond the power of existing linear RNNs while maintaining a fast parallelizable training process. Our experiments show different design choices in Miras yield models with varying strengths. For example, certain instances of Miras achieve exceptional performance in special tasks such as language modeling, commonsense reasoning, and recall intensive tasks, even outperforming Transformers and other modern linear recurrent models.

arxiv情報

著者 Ali Behrouz,Meisam Razaviyayn,Peilin Zhong,Vahab Mirrokni
発行日 2025-04-17 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization はコメントを受け付けていません

Hierarchical Feature Learning for Medical Point Clouds via State Space Model

要約

ディープラーニングベースのポイントクラウドモデリングは、一般的な形状分析の不可欠なコンポーネントとして広く調査されています。
最近、トランスと状態空間モデル(SSM)は、ポイントクラウド学習に有望な能力を示しています。
しかし、疾患の診断と治療に大きな可能性を秘めている医療用点雲に関する限られた研究が行われています。
このペーパーでは、SSMベースの階層機能学習フレームワークを医療ポイントクラウド理解のための紹介します。
具体的には、最も遠いポイントサンプリングを介して複数のレベルへの入力をダウンサンプリングします。
各レベルで、一連のK-Nearest Neighter(KNN)クエリを実行して、マルチスケール構造情報を集約します。
ポイントクラウドの処理におけるSSMを支援するために、不規則なポイントの効率的なシリアル化のための座標順およびインサイドアウトスキャン戦略を導入します。
ポイント機能は、バニラとグループポイントSSMブロックを介した短い隣接シーケンスとロングポイントシーケンスから徐々に計算され、ローカルパターンと長距離依存関係の両方をキャプチャします。
提案された方法を評価するために、解剖学的分類、完了、およびセグメンテーションのために、MedPointsという名前の大規模な医療ポイントクラウドデータセットを構築します。
MedPointsで行われた広範な実験は、すべてのタスクで優れたパフォーマンスを達成することを示しています。
データセットはhttps://flemme-docs.readthedocs.io/en/latest/medpoints.htmlで入手できます。
コードは、https://github.com/wlsdzyzl/flemmeの公共医療イメージングプラットフォームと統合されています。

要約(オリジナル)

Deep learning-based point cloud modeling has been widely investigated as an indispensable component of general shape analysis. Recently, transformer and state space model (SSM) have shown promising capacities in point cloud learning. However, limited research has been conducted on medical point clouds, which have great potential in disease diagnosis and treatment. This paper presents an SSM-based hierarchical feature learning framework for medical point cloud understanding. Specifically, we down-sample input into multiple levels through the farthest point sampling. At each level, we perform a series of k-nearest neighbor (KNN) queries to aggregate multi-scale structural information. To assist SSM in processing point clouds, we introduce coordinate-order and inside-out scanning strategies for efficient serialization of irregular points. Point features are calculated progressively from short neighbor sequences and long point sequences through vanilla and group Point SSM blocks, to capture both local patterns and long-range dependencies. To evaluate the proposed method, we build a large-scale medical point cloud dataset named MedPointS for anatomy classification, completion, and segmentation. Extensive experiments conducted on MedPointS demonstrate that our method achieves superior performance across all tasks. The dataset is available at https://flemme-docs.readthedocs.io/en/latest/medpoints.html. Code is merged to a public medical imaging platform: https://github.com/wlsdzyzl/flemme.

arxiv情報

著者 Guoqing Zhang,Jingyun Yang,Yang Li
発行日 2025-04-17 15:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hierarchical Feature Learning for Medical Point Clouds via State Space Model はコメントを受け付けていません

Long-Context Autoregressive Video Modeling with Next-Frame Prediction

要約

ロングコンテキストの自動網性モデリングは、言語生成を大幅に高度にしていますが、ビデオ生成は、拡張された時間的コンテキストを完全に活用するのに依然として苦労しています。
ロングコンテキストビデオモデリングを調査するために、ビデオオートレーフシュレーションモデリングの強力なベースラインであるFrame AutoreGression(FAR)を紹介します。
言語モデルがトークン(つまり、トークンAR)間の因果関係を学習するように、ファーモデル連続フレーム間の時間的因果関係をモデル化し、トークンARやビデオ拡散トランスよりも優れた収束を達成します。
遠くに構築すると、視覚的な冗長性のために長いコンテキストビデオモデリングが課題に直面していることがわかります。
ビジョントークンが言語トークンよりもはるかに速く成長するため、長いビデオでのトレーニングは計算高価です。
この問題に取り組むために、長期的なコンテキストモデリングを通じて、地域性と長距離依存のバランスをとることを提案します。
高解像度の短期コンテキストウィンドウを使用すると、細かい時間の一貫性が保証されますが、無制限の長期コンテキストウィンドウは、より少ないトークンを使用した長距離情報をエンコードします。
このアプローチを使用すると、管理可能なトークンコンテキストの長さで長いビデオシーケンスでトレーニングすることができ、それによりトレーニング時間とメモリの使用量が大幅に削減できます。
さらに、長いビデオシーケンスの推論を加速する長い短期コンテキストモデリングをサポートするように設計されたマルチレベルKVキャッシュを提案します。
私たちは、遠方の両方で最新のパフォーマンスを達成し、ビデオの自己回復モデリングにシンプルで効果的なベースラインを提供することを実証します。
このコードはhttps://github.com/showlab/farでリリースされます。

要約(オリジナル)

Long-context autoregressive modeling has significantly advanced language generation, but video generation still struggles to fully utilize extended temporal contexts. To investigate long-context video modeling, we introduce Frame AutoRegressive (FAR), a strong baseline for video autoregressive modeling. Just as language models learn causal dependencies between tokens (i.e., Token AR), FAR models temporal causal dependencies between continuous frames, achieving better convergence than Token AR and video diffusion transformers. Building on FAR, we observe that long-context video modeling faces challenges due to visual redundancy. Training on long videos is computationally expensive, as vision tokens grow much faster than language tokens. To tackle this issue, we propose balancing locality and long-range dependency through long short-term context modeling. A high-resolution short-term context window ensures fine-grained temporal consistency, while an unlimited long-term context window encodes long-range information using fewer tokens. With this approach, we can train on long video sequences with a manageable token context length, thereby significantly reducing training time and memory usage. Furthermore, we propose a multi-level KV cache designed to support the long short-term context modeling, which accelerating inference on long video sequences. We demonstrate that FAR achieves state-of-the-art performance in both short- and long-video generation, providing a simple yet effective baseline for video autoregressive modeling. The code is released at https://github.com/showlab/FAR.

arxiv情報

著者 Yuchao Gu,Weijia Mao,Mike Zheng Shou
発行日 2025-04-17 15:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long-Context Autoregressive Video Modeling with Next-Frame Prediction はコメントを受け付けていません