Cartridges: Lightweight and general-purpose long context representations via self-study

要約

大規模な言語モデルは、コーパス全体をコンテキストウィンドウに配置し、コンテキスト内学習(ICL)を活用することにより、大きなテキストコーパス(コードベース、法的文書、チャット履歴など)に基づいたクエリに答えるためによく使用されます。
現在のモデルは100K-1Mトークンのコンテキストをサポートしていますが、KVキャッシュのメモリ消費量が入力長のメモリ消費量が拡大するため、このセットアップはサービスを提供するのに費用がかかります。
別の方法を探ります。各コーパスでより小さなKVキャッシュをオフラインでトレーニングします。
推論時に、この訓練されたKVキャッシュをロードします。これはカートリッジと呼ばれ、応答をデコードします。
重大なことに、カートリッジをトレーニングするコストは、同じコーパスを参照するすべてのクエリで償却できます。
ただし、コーパスで次のトークン予測でカートリッジをトレーニングする素朴なアプローチは、ICLと競合していないことがわかります。
代わりに、コーパスに関する合成会話を生成し、コンテキスト指向の目的でカートリッジを訓練するトレーニングレシピである自己学習を提案します。
自習で訓練されたカートリッジは、ICLの機能を複製する一方で、サービスを大幅に安くしていることがわかります。
挑戦的なロングコンテキストベンチマークでは、38.6倍のメモリを使用し、26.4倍のスループットを有効にしながら、自習マッチのICLパフォーマンスで訓練されたカートリッジ。
自己学習は、モデルの有効なコンテキスト長(例:MTOBの128Kから484Kトークンなど)を拡張し、驚くべきことに、再訓練なしで推論時に構成できるカートリッジにつながります。

要約(オリジナル)

Large language models are often used to answer queries grounded in large text corpora (e.g. codebases, legal documents, or chat histories) by placing the entire corpus in the context window and leveraging in-context learning (ICL). Although current models support contexts of 100K-1M tokens, this setup is costly to serve because the memory consumption of the KV cache scales with input length. We explore an alternative: training a smaller KV cache offline on each corpus. At inference time, we load this trained KV cache, which we call a Cartridge, and decode a response. Critically, the cost of training a Cartridge can be amortized across all the queries referencing the same corpus. However, we find that the naive approach of training the Cartridge with next-token prediction on the corpus is not competitive with ICL. Instead, we propose self-study, a training recipe in which we generate synthetic conversations about the corpus and train the Cartridge with a context-distillation objective. We find that Cartridges trained with self-study replicate the functionality of ICL, while being significantly cheaper to serve. On challenging long-context benchmarks, Cartridges trained with self-study match ICL performance while using 38.6x less memory and enabling 26.4x higher throughput. Self-study also extends the model’s effective context length (e.g. from 128k to 484k tokens on MTOB) and surprisingly, leads to Cartridges that can be composed at inference time without retraining.

arxiv情報

著者 Sabri Eyuboglu,Ryan Ehrlich,Simran Arora,Neel Guha,Dylan Zinsley,Emily Liu,Will Tennien,Atri Rudra,James Zou,Azalia Mirhoseini,Christopher Re
発行日 2025-06-06 17:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Cartridges: Lightweight and general-purpose long context representations via self-study はコメントを受け付けていません

Do Large Language Models Reason Causally Like Us? Even Better?

要約

因果推論は、知性のコアコンポーネントです。
大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に印象的な能力を示しており、彼らの応答が真の理解または統計的パターンを反映しているかどうかについて疑問を提起しています。
コライダーグラフに基づいたタスクを使用して、人間の因果推論と4つのLLMを比較し、他の変数からの証拠が与えられたクエリ変数が発生する可能性を評価しました。
LLMSの因果的推論は、しばしば無意味な(GPT-3.5)から人間のような人間のようなものに及びました(GPT-4O、Gemini-Pro、およびClaude)。
計算モデルのフィッティングは、GPT-4O、Gemini-Pro、およびClaudeの優れたパフォーマンスの理由の1つが、人間の因果的推論を悩ませる「連想的バイアス」を示さなかったことであることを示しました。
それにもかかわらず、これらのLLMでさえ、「説明」などのコライダーグラフに関連する微妙な推論パターンを完全にはキャプチャしませんでした。

要約(オリジナル)

Causal reasoning is a core component of intelligence. Large language models (LLMs) have shown impressive capabilities in generating human-like text, raising questions about whether their responses reflect true understanding or statistical patterns. We compared causal reasoning in humans and four LLMs using tasks based on collider graphs, rating the likelihood of a query variable occurring given evidence from other variables. LLMs’ causal inferences ranged from often nonsensical (GPT-3.5) to human-like to often more normatively aligned than those of humans (GPT-4o, Gemini-Pro, and Claude). Computational model fitting showed that one reason for GPT-4o, Gemini-Pro, and Claude’s superior performance is they didn’t exhibit the ‘associative bias’ that plagues human causal reasoning. Nevertheless, even these LLMs did not fully capture subtler reasoning patterns associated with collider graphs, such as ‘explaining away’.

arxiv情報

著者 Hanna M. Dettki,Brenden M. Lake,Charley M. Wu,Bob Rehder
発行日 2025-06-06 17:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Do Large Language Models Reason Causally Like Us? Even Better? はコメントを受け付けていません

Distillation Robustifies Unlearning

要約

現在のLLM学習方法は堅牢ではありません。それらは、微調整のいくつかのステップで簡単に戻すことができます。
これは、不要な情報に決してさらされなかったOracleモデルを模倣する理想的な非学習トレーニング方法にも当てはまります。これは、出力ベースのFinetuningが堅牢な解除を達成するには不十分であることを示唆しています。
同様に、ランダムに初期化された学生をトレーニングして、不明確なモデルを模倣して望ましい動作を模倣し、望ましくない機能を残していることがわかります。
言い換えれば、蒸留は学習を強化します。
この洞察に基づいて、私たちは、非学習されたモデルを部分的にノイズされたコピーに蒸留するスケーラブルな方法である、非ヌーシスティルオン出力(元に戻す)を提案します。
元に戻すと、コンピューティングコストと堅牢性の間に調整可能なトレードオフが導入され、合成言語と算術タスクに関する新しいパレートフロンティアが確立されます。
その最強の設定では、コンピューティングの60〜80%しか使用しない一方で、完全なデータフィルタリングを使用して、ゼロから再登録されたモデルの堅牢性と一致します。
また、よりリアルな大量破壊プロキシ(WMDP)ベンチマークを解き放つことを元に戻すことを示しています。
蒸留は実際には広く使用されているため、事前に学習していないステップを組み込むと、堅牢な機能除去への便利なパスが提供されます。

要約(オリジナル)

Current LLM unlearning methods are not robust: they can be reverted easily with a few steps of finetuning. This is true even for the idealized unlearning method of training to imitate an oracle model that was never exposed to unwanted information, suggesting that output-based finetuning is insufficient to achieve robust unlearning. In a similar vein, we find that training a randomly initialized student to imitate an unlearned model transfers desired behaviors while leaving undesired capabilities behind. In other words, distillation robustifies unlearning. Building on this insight, we propose Unlearn-Noise-Distill-on-Outputs (UNDO), a scalable method that distills an unlearned model into a partially noised copy of itself. UNDO introduces a tunable tradeoff between compute cost and robustness, establishing a new Pareto frontier on synthetic language and arithmetic tasks. At its strongest setting, UNDO matches the robustness of a model retrained from scratch with perfect data filtering while using only 60-80% of the compute and requiring only 0.01% of the pretraining data to be labeled. We also show that UNDO robustifies unlearning on the more realistic Weapons of Mass Destruction Proxy (WMDP) benchmark. Since distillation is widely used in practice, incorporating an unlearning step beforehand offers a convenient path to robust capability removal.

arxiv情報

著者 Bruce W. Lee,Addie Foote,Alex Infanger,Leni Shor,Harish Kamath,Jacob Goldman-Wetzler,Bryce Woodworth,Alex Cloud,Alexander Matt Turner
発行日 2025-06-06 17:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Distillation Robustifies Unlearning はコメントを受け付けていません

Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias

要約

重量マトリックスの固有種を介して深いニューラルネットワーク(DNNS)を診断することは、近年の活発な研究領域でした。
高レベルでは、DNNSの固有スペクトル分析には、重量マトリックスの経験的スペクトル密度(ESD)の重度の測定が含まれます。
モデルがどれだけうまく訓練されているかについての洞察を提供し、より良いレイヤーワイズトレーニングハイパーパラメーターの割り当てに関する決定を導くことができます。
このホワイトペーパーでは、このような固有スペクトル法に関連する課題に対処します。推定されたヘビーテールネスメトリックに対する重量マトリックスのアスペクト比の影響です。
さまざまなサイズ(およびアスペクト比)のマトリックスが、重張りのメトリックを推定する際に無視できないバイアスを導入し、モデルの診断と層ごとのハイパーパラメーターの割り当てにつながることを実証します。
この課題を克服するために、固定アスペクト比を持つサブマトリックをサブサンプリングすることにより重みマトリックスを正規化する方法である農場(固定アスペクト比マトリックスサブサンプリング)を提案します。
元のESDの重張りを測定する代わりに、これらのサブサンプリングされたサブミトリックの平均ESDを測定します。
固定アスペクト比を使用して、これらのサブマトリックの重張力を測定することで、アスペクト比バイアスを効果的に軽減できることを示します。
コンピュータービジョン(CV)モデルにおける画像分類、科学機械学習(SCIML)モデルトレーニング、大規模言語モデル(LLM)剪定など、重みの固有スペクトル分析を含む、さまざまな最適化技術とアプリケーションドメインにまたがるアプローチを検証します。
我々の結果は、その単純さにもかかわらず、農場は固有種分析の精度を均一に改善し、これらのアプリケーションドメインでより効果的な層ごとのハイパーパラメーターの割り当てを可能にすることを示しています。
LLM剪定実験の1つでは、農場は、最先端の方法と比較した場合、Llama-7Bモデルの困惑を17.3%減らします。

要約(オリジナル)

Diagnosing deep neural networks (DNNs) through the eigenspectrum of weight matrices has been an active area of research in recent years. At a high level, eigenspectrum analysis of DNNs involves measuring the heavytailness of the empirical spectral densities (ESD) of weight matrices. It provides insight into how well a model is trained and can guide decisions on assigning better layer-wise training hyperparameters. In this paper, we address a challenge associated with such eigenspectrum methods: the impact of the aspect ratio of weight matrices on estimated heavytailness metrics. We demonstrate that matrices of varying sizes (and aspect ratios) introduce a non-negligible bias in estimating heavytailness metrics, leading to inaccurate model diagnosis and layer-wise hyperparameter assignment. To overcome this challenge, we propose FARMS (Fixed-Aspect-Ratio Matrix Subsampling), a method that normalizes the weight matrices by subsampling submatrices with a fixed aspect ratio. Instead of measuring the heavytailness of the original ESD, we measure the average ESD of these subsampled submatrices. We show that measuring the heavytailness of these submatrices with the fixed aspect ratio can effectively mitigate the aspect ratio bias. We validate our approach across various optimization techniques and application domains that involve eigenspectrum analysis of weights, including image classification in computer vision (CV) models, scientific machine learning (SciML) model training, and large language model (LLM) pruning. Our results show that despite its simplicity, FARMS uniformly improves the accuracy of eigenspectrum analysis while enabling more effective layer-wise hyperparameter assignment in these application domains. In one of the LLM pruning experiments, FARMS reduces the perplexity of the LLaMA-7B model by 17.3% when compared with the state-of-the-art method.

arxiv情報

著者 Yuanzhe Hu,Kinshuk Goel,Vlad Killiakov,Yaoqing Yang
発行日 2025-06-06 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias はコメントを受け付けていません

diffDemorph: Extending Reference-Free Demorphing to Unseen Faces

要約

フェイスモーフは、2つのアイデンティティに対応する2つの顔の画像を組み合わせて、構成要素の両方のアイデンティティの両方を正常に一致させるコンポジットを作成することによって作成されます。
リファレンスフリー(RF)Demorphingは、追加の参照画像を必要とせずに、モーフ画像のみを使用してこのプロセスを逆転させます。
以前のRFデモーフィング方法は、使用されたモーフィング手法(ランドマークベース)やフェイスイメージスタイル(パスポート写真など)などのモーフのテストの分布に関する仮定に依存しているため、過度に制約されています。
このホワイトペーパーでは、視覚的忠実度が高い複合モーフ画像からコンポーネントイメージを効果的に解き放つDiffdemorphと呼ばれる新しい拡散ベースのアプローチを紹介します。
私たちの方法は、テストされたすべてのデータセットで一般的なトレーニングプロトコルで$ \ geq 59.46 \%$で現在の最新技術を破り、モーフテクニックとフェイススタイル全体で一般化する最初の方法です。
合成的に生成されたフェイス画像を使用して作成されたモーフに関する方法をトレーニングし、実際のモーフでテストし、それにより技術の実用性を高めます。
6つのデータセットと2つのフェイスマッチャーでの実験により、この方法の有効性と有効性が確立されます。

要約(オリジナル)

A face morph is created by combining two face images corresponding to two identities to produce a composite that successfully matches both the constituent identities. Reference-free (RF) demorphing reverses this process using only the morph image, without the need for additional reference images. Previous RF demorphing methods are overly constrained, as they rely on assumptions about the distributions of training and testing morphs such as the morphing technique used (e.g., landmark-based) and face image style (e.g., passport photos). In this paper, we introduce a novel diffusion-based approach, referred to as diffDeMorph, that effectively disentangles component images from a composite morph image with high visual fidelity. Our method is the first to generalize across morph techniques and face styles, beating the current state of the art by $\geq 59.46\%$ under a common training protocol across all datasets tested. We train our method on morphs created using synthetically generated face images and test on real morphs, thereby enhancing the practicality of the technique. Experiments on six datasets and two face matchers establish the utility and efficacy of our method.

arxiv情報

著者 Nitish Shukla,Arun Ross
発行日 2025-06-06 13:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | diffDemorph: Extending Reference-Free Demorphing to Unseen Faces はコメントを受け付けていません

Assessing Intersectional Bias in Representations of Pre-Trained Image Recognition Models

要約

ディープラーニングモデルは驚くべき成功を収めています。
それらをトレーニングすることは、エンコードされたバイアスを永続させるリスクをもたらす事前に訓練されたモデルの上に構築することにより、しばしば加速されます。
ここでは、年齢、人種、性別の機密変数の交差点を考慮しながら、顔の画像に一般的に使用されるイメージネット分類器の表現のバイアスを調査します。
バイアスを評価するために、線形分類子プローブを使用し、アクティブ化を地形マップとして視覚化します。
ImagENet分類器の表現は、特に年齢間の区別を可能にすることがわかります。
あまり顕著ではないため、モデルは特定の民族を関連付け、中年グループの性別を区別しているように見えます。

要約(オリジナル)

Deep Learning models have achieved remarkable success. Training them is often accelerated by building on top of pre-trained models which poses the risk of perpetuating encoded biases. Here, we investigate biases in the representations of commonly used ImageNet classifiers for facial images while considering intersections of sensitive variables age, race and gender. To assess the biases, we use linear classifier probes and visualize activations as topographic maps. We find that representations in ImageNet classifiers particularly allow differentiation between ages. Less strongly pronounced, the models appear to associate certain ethnicities and distinguish genders in middle-aged groups.

arxiv情報

著者 Valerie Krug,Sebastian Stober
発行日 2025-06-06 13:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.HC, cs.LG | Assessing Intersectional Bias in Representations of Pre-Trained Image Recognition Models はコメントを受け付けていません

Full Conformal Adaptation of Medical Vision-Language Models

要約

大規模に事前に訓練されたビジョン言語モデル(VLMS)は、前例のない移転性機能を示しており、医療画像分析に徐々に統合されています。
その差別的可能性は広く調査されていますが、その信頼性の側面は見過ごされ続けています。
この作業では、ますます人気のある分割コンフォーマル予測(SCP)フレームワークの下での動作を調査します。これは、ラベル付きキャリブレーションセットを活用することにより、出力セットの特定のエラーレベルを理論的に保証します。
ただし、VLMSのゼロショットパフォーマンスは本質的に制限されており、一般的な実践には、SCPの厳格な交換可能性の仮定を吸収できない少数のショット転送学習パイプラインが含まれます。
この問題を緩和するために、完全なコンフォーマル適応は、いくつかのショット適応セットを使用して各テストデータポイントで乳で動作する、事前に訓練された基礎モデルを共同で適応およびコンフォーマル化するための新しい設定を提案します。
さらに、このフレームワークは、このような導入アプローチの計算コストを緩和するVLMS用の新しいトレーニングフリーリニアプローバーソルバーであるSS-Textで補完します。
3つの異なるモダリティ特異的医療VLMと9つの適応タスクを使用して、包括的な実験を提供します。
私たちのフレームワークには、SCPとまったく同じデータが必要であり、同じカバレッジ保証を維持しながら、設定効率の最大27%の一貫した相対改善を提供します。

要約(オリジナル)

Vision-language models (VLMs) pre-trained at large scale have shown unprecedented transferability capabilities and are being progressively integrated into medical image analysis. Although its discriminative potential has been widely explored, its reliability aspect remains overlooked. This work investigates their behavior under the increasingly popular split conformal prediction (SCP) framework, which theoretically guarantees a given error level on output sets by leveraging a labeled calibration set. However, the zero-shot performance of VLMs is inherently limited, and common practice involves few-shot transfer learning pipelines, which cannot absorb the rigid exchangeability assumptions of SCP. To alleviate this issue, we propose full conformal adaptation, a novel setting for jointly adapting and conformalizing pre-trained foundation models, which operates transductively over each test data point using a few-shot adaptation set. Moreover, we complement this framework with SS-Text, a novel training-free linear probe solver for VLMs that alleviates the computational cost of such a transductive approach. We provide comprehensive experiments using 3 different modality-specialized medical VLMs and 9 adaptation tasks. Our framework requires exactly the same data as SCP, and provides consistent relative improvements of up to 27% on set efficiency while maintaining the same coverage guarantees.

arxiv情報

著者 Julio Silva-Rodríguez,Leo Fillioux,Paul-Henry Cournède,Maria Vakalopoulou,Stergios Christodoulidis,Ismail Ben Ayed,Jose Dolz
発行日 2025-06-06 13:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Full Conformal Adaptation of Medical Vision-Language Models はコメントを受け付けていません

WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management

要約

小麦管理戦略は、収量を決定する上で重要な役割を果たします。
従来の管理上の決定は、多くの場合、労働集約型の専門家検査に依存しています。
最近、Vision-Language Models(VLM)は、スケーラブルでデータ駆動型の管理サポートを可能にする有望なソリューションとして浮上しています。
ただし、ドメイン固有の知識が不足しているため、VLMSを小麦管理タスクに直接適用すると、定量化と推論能力が低下し、最終的には曖昧または誤解を招く管理の推奨事項が生成されます。
これに応じて、小麦管理タスクのVLMパフォーマンスを強化する3層設計を備えた小麦固有のデータセットであるWishwheatを提案します。
(2)タスクを測定する定量的特性のための7,263 VQAスタイルの画像と回答のトリプレットを含む定量的データセット。
(3)さまざまな生物季節学的段階の生物的および非生物的ストレス診断と管理計画を標的とする4,888サンプルを備えた微調整データセット。
大規模な実験結果は、データセットの微調整オープンソースVLM(QWEN2.5 7Bなど)が大幅なパフォーマンスの改善につながることを示しています。
具体的には、小麦命令データセットで微調整されたQWEN2.5 VL 7Bは、小麦ストレスと成長段階の会話タスクでそれぞれ79.2%と84.6%の精度スコアを達成し、GPT-4Oなどの汎用商用モデルを11.9%および34.6%の汎用商用モデルでさえ上回ります。

要約(オリジナル)

Wheat management strategies play a critical role in determining yield. Traditional management decisions often rely on labour-intensive expert inspections, which are expensive, subjective and difficult to scale. Recently, Vision-Language Models (VLMs) have emerged as a promising solution to enable scalable, data-driven management support. However, due to a lack of domain-specific knowledge, directly applying VLMs to wheat management tasks results in poor quantification and reasoning capabilities, ultimately producing vague or even misleading management recommendations. In response, we propose WisWheat, a wheat-specific dataset with a three-layered design to enhance VLM performance on wheat management tasks: (1) a foundational pretraining dataset of 47,871 image-caption pairs for coarsely adapting VLMs to wheat morphology; (2) a quantitative dataset comprising 7,263 VQA-style image-question-answer triplets for quantitative trait measuring tasks; and (3) an Instruction Fine-tuning dataset with 4,888 samples targeting biotic and abiotic stress diagnosis and management plan for different phenological stages. Extensive experimental results demonstrate that fine-tuning open-source VLMs (e.g., Qwen2.5 7B) on our dataset leads to significant performance improvements. Specifically, the Qwen2.5 VL 7B fine-tuned on our wheat instruction dataset achieves accuracy scores of 79.2% and 84.6% on wheat stress and growth stage conversation tasks respectively, surpassing even general-purpose commercial models such as GPT-4o by a margin of 11.9% and 34.6%.

arxiv情報

著者 Bowen Yuan,Selena Song,Javier Fernandez,Yadan Luo,Mahsa Baktashmotlagh,Zijian Wang
発行日 2025-06-06 13:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management はコメントを受け付けていません

Feedback Guidance of Diffusion Models

要約

分類器のないガイダンス(CFG)は、条件付き拡散モデルのサンプルの忠実度を改善するための標準となっていますが、特定のサンプルが修正を必要とするかどうかに関係なく、一定のガイダンスを適用することにより、多様性を害し、記憶を引き起こす可能性があります。
状態依存係数を使用して、ニーズに基づいてガイダンス額を自己調整するフィードバックガイダンス(FBG)を提案します。
私たちのアプローチは、学習した条件分布が無条件分布によって直線的に破損すると仮定することにより、第一原理から導き出され、CFGの暗黙的な乗算仮定とは対照的です。
私たちのスキームは、推論中にガイダンスを動的に適応させるための条件付き信号情報性に関する独自の予測のフィードバックに依存しており、固定ハイパーパラメーターとしてのガイダンスの見解に挑戦しています。
このアプローチはImagENET512x512にベンチマークされており、分類器のないガイダンスを大幅に上回り、強力な数学的枠組みの恩恵を受けながら限られたインターバルガイダンス(LIG)に競争します。
テキストからイメージの生成では、予想されるように、私たちのアプローチは、より単純なプロンプトよりも複雑なプロンプトに高いガイダンススケールを自動的に適用し、CFGやLIGなどの既存のガイダンススキームと簡単に組み合わせることができることを実証します。

要約(オリジナル)

While Classifier-Free Guidance (CFG) has become standard for improving sample fidelity in conditional diffusion models, it can harm diversity and induce memorization by applying constant guidance regardless of whether a particular sample needs correction. We propose FeedBack Guidance (FBG), which uses a state-dependent coefficient to self-regulate guidance amounts based on need. Our approach is derived from first principles by assuming the learned conditional distribution is linearly corrupted by the unconditional distribution, contrasting with CFG’s implicit multiplicative assumption. Our scheme relies on feedback of its own predictions about the conditional signal informativeness to adapt guidance dynamically during inference, challenging the view of guidance as a fixed hyperparameter. The approach is benchmarked on ImageNet512x512, where it significantly outperforms Classifier-Free Guidance and is competitive to Limited Interval Guidance (LIG) while benefitting from a strong mathematical framework. On Text-To-Image generation, we demonstrate that, as anticipated, our approach automatically applies higher guidance scales for complex prompts than for simpler ones and that it can be easily combined with existing guidance schemes such as CFG or LIG.

arxiv情報

著者 Koulischer Felix,Handke Florian,Deleu Johannes,Demeester Thomas,Ambrogioni Luca
発行日 2025-06-06 13:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Feedback Guidance of Diffusion Models はコメントを受け付けていません

LinGuinE: Longitudinal Guidance Estimation for Volumetric Lung Tumour Segmentation

要約

肺肉総腫瘍体積のセグメンテーションは、放射線療法と外科的介入における重要な第一歩であり、化学療法反応の評価に役割を果たし始めています。
薬物に対する反応は、期間、つまり縦断的研究で一連のCTスキャンにわたって腫瘍体積を追跡することによって測定されます。
ただし、現在、自動化または半自動化された縦方向の腫瘍セグメンテーションのためのソリューションはほとんど存在しません。
このホワイトペーパーでは、肺腫瘍の縦方向のシリーズをセグメント化する自動化された方法であるLinguineを紹介します。
放射線科医は、任意の時点でCTスキャンで腫瘍の位置を示す最初の入力を提供する必要があります。
リンギンサンプルはこの腫瘍内でポイントを指し、剛性登録を使用して別の時点に伝播します。
クリック妥当性分類器は、まだ腫瘍内に該当するポイントを選択します。
これらは、新しい時点でセグメンテーションを自動的に作成するために使用されます。
肺腫瘍の第3相臨床試験と、公開されている4-D肺CBCTデータセットの臨床試験から取得したデータセットで言語をテストしました。
63の縦断的研究で、両方のテストセットのサイコロが20%以上(p <0.05)を改善することがわかります。 任意の時点を出発点として使用し、アブレーション実験を実施し、リンギンのセットアップが両方のテストデータセットで最良の結果をもたらすことがあることを示します。

要約(オリジナル)

Segmentation of lung gross tumour volumes is an important first step in radiotherapy and surgical intervention, and is starting to play a role in assessing chemotherapy response. Response to a drug is measured by tracking the tumour volumes over a series of CT scans over a time period i.e. a longitudinal study. However, there currently exist few solutions for automated or semi-automated longitudinal tumour segmentation. This paper introduces LinGuinE, an automated method to segment a longitudinal series of lung tumours. A radiologist must provide an initial input, indicating the location of the tumour in a CT scan at an arbitrary time point. LinGuinE samples points inside this tumour and propagates them to another time point using rigid registration. A click validity classifier selects points which still fall within the tumour; these are used to automatically create a segmentation in the new time point. We test LinGuinE on a dataset acquired from a phase 3 clinical trial for lung tumours and the publicly available 4-D lung CBCT dataset. We find that LinGuinE improves the Dice on both test sets by over 20% (p< 0.05) across 63 longitudinal studies. We show that any time point can be used as a starting point, conduct ablation experiments, and find that our LinGuinE setup yields the best results on both test datasets.

arxiv情報

著者 Nadine Garibli,Mayank Patwari,Bence Csiba,Yi Wei,Kostas Sidiropoulos
発行日 2025-06-06 13:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | LinGuinE: Longitudinal Guidance Estimation for Volumetric Lung Tumour Segmentation はコメントを受け付けていません