Pre-training Distillation for Large Language Models: A Design Space Exploration

要約

知識蒸留 (KD) は、大規模な教師モデルから小規模な生徒モデルに知識を伝達することを目的としています。
大規模言語モデル (LLM) の分野に KD を適用するこれまでの研究は、通常、教師モデルによって生成された指示と対応する応答から学生 LLM が直接学習するトレーニング後のフェーズに焦点を当てていました。
この論文では、KD をトレーニング前蒸留 (PD) と呼ばれる LLM のトレーニング前フェーズに拡張します。
まず、GLM-4-9B を教師 LLM として使用し、パラメータ 1.9B の生徒 LLM を蒸留する予備実験を実行し、PD の有効性を検証します。
蒸留の主要な影響因子を考慮して、ロジット処理、損失選択、スケーリング則、オフラインまたはオンライン ロジットの 4 つの側面にわたって、事前トレーニング蒸留の設計空間を体系的に調査します。
私たちは、トレーニング前蒸留の設計空間を調査するために広範な実験を実施し、より良い構成と興味深い結論を見つけます。たとえば、学生 LLM の規模が大きいほど、一般にトレーニング前蒸留からより多くのメリットが得られますが、教師 LLM の規模が大きいほど、必ずしもより良い結果が保証されるわけではありません。
設計空間の探索が、トレーニング前の蒸留における将来の実践に役立つことを願っています。

要約(オリジナル)

Knowledge distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. Previous work applying KD in the field of large language models (LLMs) typically focused on the post-training phase, where the student LLM learns directly from instructions and corresponding responses generated by the teacher model. In this paper, we extend KD to the pre-training phase of LLMs, named pre-training distillation (PD). We first conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a 1.9B parameter student LLM, validating the effectiveness of PD. Considering the key impact factors of distillation, we systematically explore the design space of pre-training distillation across four aspects: logits processing, loss selection, scaling law, and offline or online logits. We conduct extensive experiments to explore the design space of pre-training distillation and find better configurations and interesting conclusions, such as larger student LLMs generally benefiting more from pre-training distillation, while a larger teacher LLM does not necessarily guarantee better results. We hope our exploration of the design space will inform future practices in pre-training distillation.

arxiv情報

著者 Hao Peng,Xin Lv,Yushi Bai,Zijun Yao,Jiajie Zhang,Lei Hou,Juanzi Li
発行日 2024-10-21 17:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Pre-training Distillation for Large Language Models: A Design Space Exploration はコメントを受け付けていません

Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

要約

アクションチャンキングとして知られる、中間の再計画を行わずに一連のアクションを予測して実行することは、人間のデモンストレーションからロボットが学習する際に使用されることが増えています。
しかし、学習されたポリシーに対する報告された効果には一貫性がありません。一部の研究では、これが優れた結果を達成するために重要であることがわかり、他の研究ではパフォーマンスの低下が観察されています。
この論文では、まずアクションのチャンク化が学習者とデモンストレーターの間の相違にどのような影響を与えるかを詳しく分析します。
アクションのチャンク化により、学習者はデモンストレーションでの時間的依存関係をより適切に把握できるようになりますが、その代償として確率的環境での反応性が低下することがわかりました。
このトレードオフに対処するために、アクション チャンクと閉ループ操作をブリッジするテスト時推論アルゴリズムである双方向デコーディング (BID) を提案します。
BID は各タイム ステップで複数の予測をサンプリングし、次の 2 つの基準に基づいて最適な予測を検索します。(i) 逆方向コヒーレンス。以前の決定と一致するサンプルを優先します。
(ii) フォワード コントラスト。将来の計画の可能性が高いサンプルを探します。
BID は、アクション チャンク内およびアクション チャンク間で意思決定を結合することで、予期しない変更への対応性を維持しながら、長期にわたる一貫性を促進します。
実験結果は、BID が 7 つのシミュレーション ベンチマークと 2 つの現実世界のタスクにわたって 2 つの最先端の生成ポリシーのパフォーマンスを向上させることを示しています。
コードとビデオは https://bid-robot.github.io で入手できます。

要約(オリジナル)

Predicting and executing a sequence of actions without intermediate replanning, known as action chunking, is increasingly used in robot learning from human demonstrations. Yet, its reported effects on the learned policy are inconsistent: some studies find it crucial for achieving strong results, while others observe decreased performance. In this paper, we first dissect how action chunking impacts the divergence between a learner and a demonstrator. We find that action chunking allows the learner to better capture the temporal dependencies in demonstrations but at the cost of reduced reactivity in stochastic environments. To address this tradeoff, we propose Bidirectional Decoding (BID), a test-time inference algorithm that bridges action chunking with closed-loop operations. BID samples multiple predictions at each time step and searches for the optimal one based on two criteria: (i) backward coherence, which favors samples that align with previous decisions; (ii) forward contrast, which seeks samples of high likelihood for future plans. By coupling decisions within and across action chunks, BID promotes consistency over time while maintaining reactivity to unexpected changes. Experimental results show that BID boosts the performance of two state-of-the-art generative policies across seven simulation benchmarks and two real-world tasks. Code and videos are available at https://bid-robot.github.io.

arxiv情報

著者 Yuejiang Liu,Jubayer Ibn Hamid,Annie Xie,Yoonho Lee,Maximilian Du,Chelsea Finn
発行日 2024-10-21 17:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling はコメントを受け付けていません

Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping

要約

スケッチは、UI デザイナーが初期段階のアイデアを概念化するための自然でアクセスしやすい媒体です。
ただし、UI/UX 自動化に関する既存の研究では、Figma デザインや詳細なスクリーンショットなどの忠実度の高い入力が必要になることが多く、アクセシビリティが制限され、効率的なデザインの反復が妨げられます。
このギャップを埋めるために、基本的なスケッチから Web ページ プロトタイプへの変換を自動化する最先端のビジョン言語モデル (VLM) を評価するベンチマークである Sketch2Code を紹介します。
エンドツーエンドのベンチマークを超えて、Sketch2Code は、現実世界の設計ワークフローを模倣する対話型エージェント評価をサポートします。VLM ベースのエージェントは、シミュレートされたユーザーと通信することで、フィードバック指示を受動的に受け取るか、積極的に説明の質問をして、繰り返し生成を調整します。
私たちは 10 個の商用モデルとオープンソース モデルを包括的に分析し、Sketch2Code が既存の VLM にとって困難であることを示しています。
最も有能なモデルであっても、スケッチを正確に解釈し、着実な改善につながる効果的な質問を組み立てるのは困難です。
それにもかかわらず、UI/UX 専門家とのユーザー調査では、受動的フィードバック受信よりも積極的な質問をすることを非常に好むことが明らかになり、マルチターン会話エージェントのためのより効果的なパラダイムを開発する必要性が強調されています。

要約(オリジナル)

Sketches are a natural and accessible medium for UI designers to conceptualize early-stage ideas. However, existing research on UI/UX automation often requires high-fidelity inputs like Figma designs or detailed screenshots, limiting accessibility and impeding efficient design iteration. To bridge this gap, we introduce Sketch2Code, a benchmark that evaluates state-of-the-art Vision Language Models (VLMs) on automating the conversion of rudimentary sketches into webpage prototypes. Beyond end-to-end benchmarking, Sketch2Code supports interactive agent evaluation that mimics real-world design workflows, where a VLM-based agent iteratively refines its generations by communicating with a simulated user, either passively receiving feedback instructions or proactively asking clarification questions. We comprehensively analyze ten commercial and open-source models, showing that Sketch2Code is challenging for existing VLMs; even the most capable models struggle to accurately interpret sketches and formulate effective questions that lead to steady improvement. Nevertheless, a user study with UI/UX experts reveals a significant preference for proactive question-asking over passive feedback reception, highlighting the need to develop more effective paradigms for multi-turn conversational agents.

arxiv情報

著者 Ryan Li,Yanzhe Zhang,Diyi Yang
発行日 2024-10-21 17:39:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Sketch2Code: Evaluating Vision-Language Models for Interactive Web Design Prototyping はコメントを受け付けていません

CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

要約

大規模言語モデル (LLM) を継続的に改善するには、効率的かつ正確な評価が不可欠です。
さまざまな評価手法の中でも、現実の利用シーンや人間の嗜好に即した主観評価が注目を集めています。
ただし、人による評価はコストがかかり、再現性に欠けるため、このプロセスでは正確な自動評価者 (ジャッジ) が不可欠になります。
このレポートでは、初のオープンソース \textbf{オールインワン} ジャッジ LLM である \textbf{CompassJudger-1} を紹介します。
CompassJudger-1 は、優れた多用途性を発揮する汎用 LLM です。
1. 報酬モデルとして単一スコアリングと 2 つのモデルの比較を実行します。
2. 所定のフォーマットに従って評価を実施すること。
3. 批評を生み出す。
4. 一般的な LLM と同様に多様なタスクを実行します。
統一された設定の下でさまざまな審査員モデルの評価能力を評価するために、さまざまな主観的な評価タスクを網羅し、幅広いトピックをカバーする新しいベンチマークである \textbf{JudgerBench} も確立しました。
CompassJudger-1 は、多様な要件に適応する柔軟性を維持しながら、さまざまな評価タスクに対する包括的なソリューションを提供します。
CompassJudger と JudgerBench は両方ともリリースされており、https://github.com/open-compass/CompassJudger で研究コミュニティに利用できます。
これらのツールをオープンソース化することで、コラボレーションを促進し、LLM 評価方法論の進歩を加速できると私たちは信じています。

要約(オリジナル)

Efficient and accurate evaluation is crucial for the continuous improvement of large language models (LLMs). Among various assessment methods, subjective evaluation has garnered significant attention due to its superior alignment with real-world usage scenarios and human preferences. However, human-based evaluations are costly and lack reproducibility, making precise automated evaluators (judgers) vital in this process. In this report, we introduce \textbf{CompassJudger-1}, the first open-source \textbf{all-in-one} judge LLM. CompassJudger-1 is a general-purpose LLM that demonstrates remarkable versatility. It is capable of: 1. Performing unitary scoring and two-model comparisons as a reward model; 2. Conducting evaluations according to specified formats; 3. Generating critiques; 4. Executing diverse tasks like a general LLM. To assess the evaluation capabilities of different judge models under a unified setting, we have also established \textbf{JudgerBench}, a new benchmark that encompasses various subjective evaluation tasks and covers a wide range of topics. CompassJudger-1 offers a comprehensive solution for various evaluation tasks while maintaining the flexibility to adapt to diverse requirements. Both CompassJudger and JudgerBench are released and available to the research community athttps://github.com/open-compass/CompassJudger. We believe that by open-sourcing these tools, we can foster collaboration and accelerate progress in LLM evaluation methodologies.

arxiv情報

著者 Maosong Cao,Alexander Lam,Haodong Duan,Hongwei Liu,Songyang Zhang,Kai Chen
発行日 2024-10-21 17:56:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution はコメントを受け付けていません

RILe: Reinforced Imitation Learning

要約

強化学習は、複雑な動作を生成することに大きな成功を収めていますが、多くの場合、広範な報酬関数エンジニアリングが必要になります。
模倣学習と逆強化学習の敵対的バリアントは、弁別器を介して専門家のデモンストレーションからポリシーを学習することで代替手段を提供します。
ただし、これらの方法は、専門家のような動作をランダムにサンプリングすることが困難な複雑なタスクでは困難を伴います。
この制限は、ポリシーに依存しない識別子に依存していることに起因しており、特にタスクの複雑さが増し、専門家の行動がより明確になるにつれて、エージェントの改善のためのガイダンスが不十分になります。
RILe (強化模倣学習環境) を紹介します。これは、生徒のパフォーマンスと専門家のデモンストレーションとの連携に基づいて動的な報酬関数を学習する、新しいトレーナーと生徒のシステムです。
RILe では、学生が行動ポリシーを学習する一方で、トレーナーは強化学習を使用して、識別子のフィードバックを通じて自身を継続的に更新し、学生と専門家の調整を最適化します。
トレーナーは、ディスクリミネーターからの長期的な累積報酬を最適化し、タスクの複雑さと生徒の現在の能力を考慮した微妙なフィードバックを提供できるようにします。
このアプローチでは、専門家/非専門家という二元的な分類ではなく、段階的なフィードバックを提供することで、エージェントのアクションをより詳しく調査することができます。
RILe は、ポリシーに依存しないディスクリミネーターへの依存を減らすことで、従来の方法ではうまくいかない複雑な設定でのパフォーマンスの向上を可能にし、複雑なシミュレートされたロボット移動タスクにおいて既存の方法を 2 倍上回るパフォーマンスを実現します。

要約(オリジナル)

Reinforcement Learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of Imitation Learning and Inverse Reinforcement Learning offer an alternative by learning policies from expert demonstrations via a discriminator. However, these methods struggle in complex tasks where randomly sampling expert-like behaviors is challenging. This limitation stems from their reliance on policy-agnostic discriminators, which provide insufficient guidance for agent improvement, especially as task complexity increases and expert behavior becomes more distinct. We introduce RILe (Reinforced Imitation Learning environment), a novel trainer-student system that learns a dynamic reward function based on the student’s performance and alignment with expert demonstrations. In RILe, the student learns an action policy while the trainer, using reinforcement learning, continuously updates itself via the discriminator’s feedback to optimize the alignment between the student and the expert. The trainer optimizes for long-term cumulative rewards from the discriminator, enabling it to provide nuanced feedback that accounts for the complexity of the task and the student’s current capabilities. This approach allows for greater exploration of agent actions by providing graduated feedback rather than binary expert/non-expert classifications. By reducing dependence on policy-agnostic discriminators, RILe enables better performance in complex settings where traditional methods falter, outperforming existing methods by 2x in complex simulated robot-locomotion tasks.

arxiv情報

著者 Mert Albaba,Sammy Christen,Thomas Langarek,Christoph Gebhardt,Otmar Hilliges,Michael J. Black
発行日 2024-10-21 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | RILe: Reinforced Imitation Learning はコメントを受け付けていません

Reflection-Bench: probing AI intelligence with reflection

要約

予期せぬ結果や反省に応じて信念や行動を適応させる能力は、インテリジェント システムと世界との相互作用の基礎です。
認知科学の観点から見ると、これは人間と AI システムの両方に適用できるインテリジェンスの中心原理として機能します。
大規模言語モデル (LLM) の知能に関する議論に対処するために、私たちはリフレクションベンチを提案します。これは、知覚、記憶、信念の更新、意思決定、予測、反事実を含む、内省に不可欠なコア認知機能にわたる 7 つのタスクで構成される包括的なベンチマークです。
思考とメタ反射。
OpenAI o1、GPT-4、Claude 3.5 Sonnet など 13 の著名な LLM のパフォーマンスを評価しました。結果は、現在の LLM には満足のいく反射能力がまだ不足していることを示しています。
私たちはこれらの結果の根本的な原因を議論し、将来の研究への潜在的な道筋を提案します。
結論として、Reflection-Bench は、環境と確実に対話できる AI を開発するための評価ツールとインスピレーションの両方を提供します。
データとコードは https://github.com/YabYum/ReflectionBench で入手できます。

要約(オリジナル)

The ability to adapt beliefs or behaviors in response to unexpected outcomes, reflection, is fundamental to intelligent systems’ interaction with the world. From a cognitive science perspective, this serves as a core principle of intelligence applicable to both human and AI systems. To address the debate on the intelligence of large language models (LLMs), we propose Reflection-Bench, a comprehensive benchmark comprising 7 tasks spanning core cognitive functions crucial for reflection, including perception, memory, belief updating, decision-making, prediction, counterfactual thinking, and meta-reflection. We evaluate the performances of 13 prominent LLMs such as OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. The results indicate that current LLMs still lack satisfactory reflection ability. We discuss the underlying causes of these results and suggest potential avenues for future research. In conclusion, Reflection-Bench offers both evaluation tools and inspiration for developing AI capable of reliably interacting with the environment. Our data and code are available at https://github.com/YabYum/ReflectionBench.

arxiv情報

著者 Lingyu Li,Yixu Wang,Haiquan Zhao,Shuqi Kong,Yan Teng,Chunbo Li,Yingchun Wang
発行日 2024-10-21 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Reflection-Bench: probing AI intelligence with reflection はコメントを受け付けていません

Visual Representation Learning Guided By Multi-modal Prior Knowledge

要約

コンピューター ビジョンにおけるディープ ニューラル ネットワーク (DNN) は目覚ましい成功を収めていますが、トレーニング データとテスト データの間の分布の変化に直面すると、高いパフォーマンスを維持できなくなります。
この論文では、分布シフト下での汎化を改善するために、マルチモーダルな事前知識を活用した分布ベースの学習アプローチである、知識誘導型視覚表現学習 (KGV) を提案します。
私たちは 2 つの異なるモダリティからの事前知識を使用します。1) 階層関係と関連性を備えたナレッジ グラフ (KG)。
2) KG で意味論的に表現された視覚要素の合成画像を生成します。
それぞれの埋め込みは、共通の潜在空間内の指定されたモダリティから生成されます。つまり、元の画像と合成画像からの視覚的な埋め込みと、ナレッジ グラフ 埋め込み (KGE) が生成されます。
これらの埋め込みは、翻訳ベースの KGE 手法の新しい変種を介して位置合わせされます。KG のノードと関係の埋め込みは、それぞれガウス分布と変換としてモデル化されます。
マルチモデルの事前知識を組み込むことで、画像表現のより正規化された学習が可能になると主張します。
したがって、モデルはさまざまなデータ分布にわたってより適切に一般化できます。
私たちは、大小の分布の変化を伴うさまざまな画像分類タスク、つまりドイツ、中国、ロシアのデータセットにわたる道路標識分類、mini-ImageNet データセットとそのバリアント、および DVM-CAR データセットを使用した画像分類について KGV を評価します。
結果は、KGV がすべての実験においてベースラインよりも一貫して高い精度とデータ効率を示していることを示しています。

要約(オリジナル)

Despite the remarkable success of deep neural networks (DNNs) in computer vision, they fail to remain high-performing when facing distribution shifts between training and testing data. In this paper, we propose Knowledge-Guided Visual representation learning (KGV), a distribution-based learning approach leveraging multi-modal prior knowledge, to improve generalization under distribution shift. We use prior knowledge from two distinct modalities: 1) a knowledge graph (KG) with hierarchical and association relationships; and 2) generated synthetic images of visual elements semantically represented in the KG. The respective embeddings are generated from the given modalities in a common latent space, i.e., visual embeddings from original and synthetic images as well as knowledge graph embeddings (KGEs). These embeddings are aligned via a novel variant of translation-based KGE methods, where the node and relation embeddings of the KG are modeled as Gaussian distributions and translations respectively. We claim that incorporating multi-model prior knowledge enables more regularized learning of image representations. Thus, the models are able to better generalize across different data distributions. We evaluate KGV on different image classification tasks with major or minor distribution shifts, namely road sign classification across datasets from Germany, China, and Russia, image classification with the mini-ImageNet dataset and its variants, as well as the DVM-CAR dataset. The results demonstrate that KGV consistently exhibits higher accuracy and data efficiency than the baselines across all experiments.

arxiv情報

著者 Hongkuan Zhou,Lavdim Halilaj,Sebastian Monka,Stefan Schmid,Yuqicheng Zhu,Bo Xiong,Steffen Staab
発行日 2024-10-21 13:06:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Visual Representation Learning Guided By Multi-modal Prior Knowledge はコメントを受け付けていません

3D-GANTex: 3D Face Reconstruction with StyleGAN3-based Multi-View Images and 3DDFA based Mesh Generation

要約

単一の顔画像からのジオメトリとテクスチャの推定は、処理すべき情報がほとんどないため、不適切な設定の問題です。
顔を別の角度で回転すると、問題はさらに悪化します。
この論文では、最初に StyleGAN と 3D モーファブル モデルを使用して、単一の画像からテクスチャを推定する新しい方法を導入することで、この問題に取り組むことを試みます。
この方法は、GAN の潜在空間を使用してマルチビューの顔を生成することから始まります。
次に、3DMM でトレーニングされた 3DDFA が、3D 顔メッシュと、推定された顔の形状と一致する高解像度のテクスチャ マップを推定します。
結果は、生成されたメッシュが高品質で、ほぼ正確なテクスチャ表現を備えていることを示しています。

要約(オリジナル)

Geometry and texture estimation from a single face image is an ill-posed problem since there is very little information to work with. The problem further escalates when the face is rotated at a different angle. This paper tries to tackle this problem by introducing a novel method for texture estimation from a single image by first using StyleGAN and 3D Morphable Models. The method begins by generating multi-view faces using the latent space of GAN. Then 3DDFA trained on 3DMM estimates a 3D face mesh as well as a high-resolution texture map that is consistent with the estimated face shape. The result shows that the generated mesh is of high quality with near to accurate texture representation.

arxiv情報

著者 Rohit Das,Tzung-Han Lin,Ko-Chih Wang
発行日 2024-10-21 13:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D-GANTex: 3D Face Reconstruction with StyleGAN3-based Multi-View Images and 3DDFA based Mesh Generation はコメントを受け付けていません

Massimo: Public Queue Monitoring and Management using Mass-Spring Model

要約

交通渋滞を回避し、顧客満足度を向上させるためには、公共スペースにおける効率的な列制御および規制システムが非常に重要です。
この記事では、インテリジェント システムの統合と公共の場所での効率的な行列システムの作成に基づいた詳細なロードマップを提供します。
コンピュータービジョン、機械学習アルゴリズム、ディープラーニングなどのさまざまなテクノロジーの利用を通じて、私たちのシステムは、場所が混雑しているかどうか、および取るべき必要な取り組みについての正確な情報を提供します。

要約(オリジナル)

An efficient system of a queue control and regulation in public spaces is very important in order to avoid the traffic jams and to improve the customer satisfaction. This article offers a detailed road map based on a merger of intelligent systems and creating an efficient systems of queues in public places. Through the utilization of different technologies i.e. computer vision, machine learning algorithms, deep learning our system provide accurate information about the place is crowded or not and the necessary efforts to be taken.

arxiv情報

著者 Abhijeet Kumar,Unnati Singh,Rajdeep Chatterjee,Tathagata Bandyopadhyay
発行日 2024-10-21 13:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.AP | Massimo: Public Queue Monitoring and Management using Mass-Spring Model はコメントを受け付けていません

A gradient-based approach to fast and accurate head motion compensation in cone-beam CT

要約

コーンビームコンピュータ断層撮影 (CBCT) システムは、その柔軟性により、特に急性脳卒中評価などの重要なシナリオにおいて、直接的なポイントオブケア医療画像処理の有望な手段となります。
しかし、臨床ワークフローへの CBCT の統合は課題に直面しています。主にスキャン時間が長くなり、スキャン中に患者の動きが生じ、再構成されたボリュームの画質が低下することに関連しています。
この論文では、コーンビーム CT ジオメトリに対する逆投影演算子の一般化導関数を利用する、勾配ベースの最適化アルゴリズムを使用した CBCT 動き推定への新しいアプローチを紹介します。
それに基づいて、再構成空間における現在の動き推定の品質を等級付けする、完全に微分可能な目標関数が定式化されます。
動き推定を大幅に加速し、既存の方法と比較して 19 倍の高速化を実現します。
さらに、品質メトリック回帰に使用されるネットワークのアーキテクチャを調査し、短縮的なアーキテクチャよりもオートエンコーダのようなアーキテクチャを優先して、ボクセルごとの品質マップを予測することを提案します。
この変更により勾配フローが改善され、より正確な動き推定が可能になります。
提示された方法は、頭部の解剖学的構造に関する現実的な実験を通じて評価されます。
再投影誤差の初期平均 3 mm から動き補償後の 0.61 mm までの減少を達成し、既存のアプローチと比較して優れたパフォーマンスを一貫して実証します。
提案手法の中核となる逆投影演算の解析ヤコビアンは公開されています。
要約すると、この論文は、効率と精度を向上させ、時間に敏感なシナリオにおける重要な課題に対処する堅牢な動作推定アプローチを提案することにより、臨床ワークフローへの CBCT 統合の進歩に貢献します。

要約(オリジナル)

Cone-beam computed tomography (CBCT) systems, with their flexibility, present a promising avenue for direct point-of-care medical imaging, particularly in critical scenarios such as acute stroke assessment. However, the integration of CBCT into clinical workflows faces challenges, primarily linked to long scan duration resulting in patient motion during scanning and leading to image quality degradation in the reconstructed volumes. This paper introduces a novel approach to CBCT motion estimation using a gradient-based optimization algorithm, which leverages generalized derivatives of the backprojection operator for cone-beam CT geometries. Building on that, a fully differentiable target function is formulated which grades the quality of the current motion estimate in reconstruction space. We drastically accelerate motion estimation yielding a 19-fold speed-up compared to existing methods. Additionally, we investigate the architecture of networks used for quality metric regression and propose predicting voxel-wise quality maps, favoring autoencoder-like architectures over contracting ones. This modification improves gradient flow, leading to more accurate motion estimation. The presented method is evaluated through realistic experiments on head anatomy. It achieves a reduction in reprojection error from an initial average of 3mm to 0.61mm after motion compensation and consistently demonstrates superior performance compared to existing approaches. The analytic Jacobian for the backprojection operation, which is at the core of the proposed method, is made publicly available. In summary, this paper contributes to the advancement of CBCT integration into clinical workflows by proposing a robust motion estimation approach that enhances efficiency and accuracy, addressing critical challenges in time-sensitive scenarios.

arxiv情報

著者 Mareike Thies,Fabian Wagner,Noah Maul,Haijun Yu,Manuela Goldmann,Linda-Sophie Schneider,Mingxuan Gu,Siyuan Mei,Lukas Folle,Alexander Preuhs,Michael Manhart,Andreas Maier
発行日 2024-10-21 13:45:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A gradient-based approach to fast and accurate head motion compensation in cone-beam CT はコメントを受け付けていません