Progressive Human Motion Generation Based on Text and Few Motion Frames

要約

既存のテキストからモーション(T2M)メソッドは、テキストの説明から現実的な人間の動きを生み出すことができますが、テキストのみを使用することは多様な姿勢を正確に記述するには不十分であるため、生成された動きを望ましい姿勢に合わせることは依然として困難です。
より制御可能な生成を達成するために、直感的な方法は、ユーザーが正確な望ましい姿勢を説明するいくつかのモーションフレームを入力できるようにすることです。
したがって、テキストからモーションを生成し、与えられたフレームからほとんどモーションを生成することを目的とする新しいテキストフレーム(TF2M)生成タスクを探ります。
直感的には、フレームが与えられたフレームに近いほど、このフレームの不確実性が低く、このフレームに条件付けられます。
したがって、不確実性が低いフレームから複数の段階で高い不確実性を持つ人々への動きを徐々に生成するための新しいプログレッシブ運動生成(PMG)方法を提案します。
各段階で、新しいフレームは、以前の段階で生成されたフレームとフレームのフレームとフレームのフレーム認識セマンティクスに条件付けられたテキストフレームガイド付きジェネレーターによって生成されます。
さらに、テスト中に誤って生成されたフレームの多段階蓄積によって引き起こされる列車テストのギャップを軽減するために、トレーニングのための擬似フレーム交換戦略を提案します。
実験結果は、PMGが既存のT2M生成方法を1つでも与えられたフレームでも大きなマージンで上回り、PMGの有効性を検証することを示しています。
コードがリリースされます。

要約(オリジナル)

Although existing text-to-motion (T2M) methods can produce realistic human motion from text description, it is still difficult to align the generated motion with the desired postures since using text alone is insufficient for precisely describing diverse postures. To achieve more controllable generation, an intuitive way is to allow the user to input a few motion frames describing precise desired postures. Thus, we explore a new Text-Frame-to-Motion (TF2M) generation task that aims to generate motions from text and very few given frames. Intuitively, the closer a frame is to a given frame, the lower the uncertainty of this frame is when conditioned on this given frame. Hence, we propose a novel Progressive Motion Generation (PMG) method to progressively generate a motion from the frames with low uncertainty to those with high uncertainty in multiple stages. During each stage, new frames are generated by a Text-Frame Guided Generator conditioned on frame-aware semantics of the text, given frames, and frames generated in previous stages. Additionally, to alleviate the train-test gap caused by multi-stage accumulation of incorrectly generated frames during testing, we propose a Pseudo-frame Replacement Strategy for training. Experimental results show that our PMG outperforms existing T2M generation methods by a large margin with even one given frame, validating the effectiveness of our PMG. Code will be released.

arxiv情報

著者 Ling-An Zeng,Gaojie Wu,Ancong Wu,Jian-Fang Hu,Wei-Shi Zheng
発行日 2025-03-17 15:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Progressive Human Motion Generation Based on Text and Few Motion Frames はコメントを受け付けていません

UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation

要約

単眼画像からの3Dハンドのポーズと潜在的な手持ちのオブジェクトを推定することは、長年の課題です。
しかし、既存の方法は、オブジェクトと対話するベアハンドまたはハンドのいずれかに焦点を当てて、特殊なものです。
他のシナリオに適用すると、両方のシナリオとそのパフォーマンスが低下する方法を柔軟に処理できません。
この論文では、一般的な3Dハンドオブジェクトポーズ推定の統一アプローチであるUnihopeを提案し、両方のシナリオを柔軟に適応させます。
技術的には、手オブジェクトの機能をオブジェクトスイッチャーと統合するための把握対象の機能Fusionモジュールを設計して、把握状況に応じてハンドオブジェクトのポーズ推定を動的に制御します。
さらに、オブジェクトの存在に関係なく、ハンドポーズの推定の堅牢性を高めるために、現実的な閉鎖画像ペアを生成してモデルをトレーニングしてオブジェクト誘導の手オクルシオンを学習し、オクルージョンインバリアント機能を学習するためのマルチレベルの特徴強化技術を定式化します。
一般に使用される3つのベンチマークでの広範な実験は、ハンドのみおよび手観オブジェクトのシナリオに対処する際のUnihopeのSOTAパフォーマンスを示しています。
コードはhttps://github.com/joyboywang/unihope_pytorchでリリースされます。

要約(オリジナル)

Estimating the 3D pose of hand and potential hand-held object from monocular images is a longstanding challenge. Yet, existing methods are specialized, focusing on either bare-hand or hand interacting with object. No method can flexibly handle both scenarios and their performance degrades when applied to the other scenario. In this paper, we propose UniHOPE, a unified approach for general 3D hand-object pose estimation, flexibly adapting both scenarios. Technically, we design a grasp-aware feature fusion module to integrate hand-object features with an object switcher to dynamically control the hand-object pose estimation according to grasping status. Further, to uplift the robustness of hand pose estimation regardless of object presence, we generate realistic de-occluded image pairs to train the model to learn object-induced hand occlusions, and formulate multi-level feature enhancement techniques for learning occlusion-invariant features. Extensive experiments on three commonly-used benchmarks demonstrate UniHOPE’s SOTA performance in addressing hand-only and hand-object scenarios. Code will be released on https://github.com/JoyboyWang/UniHOPE_Pytorch.

arxiv情報

著者 Yinqiao Wang,Hao Xu,Pheng-Ann Heng,Chi-Wing Fu
発行日 2025-03-17 15:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation はコメントを受け付けていません

Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework

要約

コンピューター支援診断(CAD)システムの進歩にもかかわらず、乳がんは世界中の女性の間でがん関連の死亡の主要な原因の1つです。
人工知能(AI)の最近のブレークスルーは、マンモグラフィによる乳がん診断のための高度な深い学習(DL)アーキテクチャの開発に大きな約束を示しています。
これに関連して、この論文は、乳がん診断を強化するために、人間中心のワークフロー内でAIの統合に焦点を当てています。
ただし、重要な課題は、特にテスト時間中に、詳細な腫瘍への注釈への依存や見方の欠落に対する感受性など、ほとんど見落とされています。
これらの問題に対処するために、診断の堅牢性と精度を向上させるハイブリッド、マルチスケール、マルチビューのSWINトランスベースのフレームワーク(MSMV-SWIN)を提案します。
提案されているMSMV-Swinフレームワークは、意思決定サポートツールとして機能するように設計されており、放射線科医がマルチビューマンモグラムをより効果的に分析するのに役立ちます。
より具体的には、MSMV-Swinフレームワークは、乳房ローブを分離するためにセグメントのすべてのモデル(SAM)をレバレッジし、バックグラウンドノイズを減らし、包括的な機能抽出を可能にします。
提案されているMSMV-Swinフレームワークのマルチスケールの性質は、腫瘍特異的領域と腫瘍を取り巻く組織の空間特性を説明し、局所的な情報と文脈情報の両方を捕捉します。
コンテキストデータとローカライズされたデータの統合により、MSMV-Swinの出力は、放射線科医がマンモグラムを解釈する方法と一致し、より良い人間との相互作用と信頼を促進することが保証されます。
ハイブリッド融合構造は、欠落ビューに対する堅牢性を確保するように設計されています。これは、単一のマンモグラムビューのみが利用可能な場合に臨床診療で一般的な発生です。

要約(オリジナル)

Despite advancements in Computer-Aided Diagnosis (CAD) systems, breast cancer remains one of the leading causes of cancer-related deaths among women worldwide. Recent breakthroughs in Artificial Intelligence (AI) have shown significant promise in development of advanced Deep Learning (DL) architectures for breast cancer diagnosis through mammography. In this context, the paper focuses on the integration of AI within a Human-Centric workflow to enhance breast cancer diagnostics. Key challenges are, however, largely overlooked such as reliance on detailed tumor annotations and susceptibility to missing views, particularly during test time. To address these issues, we propose a hybrid, multi-scale and multi-view Swin Transformer-based framework (MSMV-Swin) that enhances diagnostic robustness and accuracy. The proposed MSMV-Swin framework is designed to work as a decision-support tool, helping radiologists analyze multi-view mammograms more effectively. More specifically, the MSMV-Swin framework leverages the Segment Anything Model (SAM) to isolate the breast lobe, reducing background noise and enabling comprehensive feature extraction. The multi-scale nature of the proposed MSMV-Swin framework accounts for tumor-specific regions as well as the spatial characteristics of tissues surrounding the tumor, capturing both localized and contextual information. The integration of contextual and localized data ensures that MSMV-Swin’s outputs align with the way radiologists interpret mammograms, fostering better human-AI interaction and trust. A hybrid fusion structure is then designed to ensure robustness against missing views, a common occurrence in clinical practice when only a single mammogram view is available.

arxiv情報

著者 Farnoush Bayatmakou,Reza Taleei,Milad Amir Toutounchian,Arash Mohammadi
発行日 2025-03-17 15:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework はコメントを受け付けていません

Classifier-Free Guidance inside the Attraction Basin May Cause Memorization

要約

拡散モデルは、トレーニングデータから画像を正確に再現する傾向があります。
トレーニングデータのこの正確な複製は、著作権侵害やプライバシーに敏感な情報の漏れにつながる可能性があるため、懸念されます。
この論文では、暗記現象に関する新しい視点を提示し、それを軽減するためのシンプルで効果的なアプローチを提案します。
私たちは、拡散軌道を記憶したイメージに向ける除去プロセスの魅力盆地のために暗記が起こると主張します。
ただし、これは、分類器のないガイダンスが適用される理想的な遷移点が発生するまで、分類器を含まないガイダンスを適用しないことにより、アトラクション盆地から拡散軌道を導くことで軽減できます。
これにより、画質が高く、コンディショニングメカニズムに適した非記憶に包まれた画像の生成につながります。
これをさらに改善するために、除去プロセスでより早く魅力盆地を逃れるためのガイダンスとは反対の新しいガイダンス手法を提示します。
私たちは、暗記が起こるさまざまなシナリオに魅力盆地の存在を示し、提案されたアプローチが暗記をうまく緩和することを示しています。

要約(オリジナル)

Diffusion models are prone to exactly reproduce images from the training data. This exact reproduction of the training data is concerning as it can lead to copyright infringement and/or leakage of privacy-sensitive information. In this paper, we present a novel perspective on the memorization phenomenon and propose a simple yet effective approach to mitigate it. We argue that memorization occurs because of an attraction basin in the denoising process which steers the diffusion trajectory towards a memorized image. However, this can be mitigated by guiding the diffusion trajectory away from the attraction basin by not applying classifier-free guidance until an ideal transition point occurs from which classifier-free guidance is applied. This leads to the generation of non-memorized images that are high in image quality and well-aligned with the conditioning mechanism. To further improve on this, we present a new guidance technique, opposite guidance, that escapes the attraction basin sooner in the denoising process. We demonstrate the existence of attraction basins in various scenarios in which memorization occurs, and we show that our proposed approach successfully mitigates memorization.

arxiv情報

著者 Anubhav Jain,Yuya Kobayashi,Takashi Shibuya,Yuhta Takida,Nasir Memon,Julian Togelius,Yuki Mitsufuji
発行日 2025-03-17 15:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Classifier-Free Guidance inside the Attraction Basin May Cause Memorization はコメントを受け付けていません

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

要約

テキストからイメージ(T2I)生成モデルはユビキタスになっていますが、特定のプロンプトに沿った画像を必ずしも生成するわけではありません。
以前の研究では、人間の判断を収集するためのメトリック、ベンチマーク、およびテンプレートを提案することによりT2Iアライメントを評価していますが、これらのコンポーネントの品質は体系的に測定されていません。
一般に、人間の評価のプロンプトセットは小さく、評価の信頼性(モデルを比較するために使用されるプロンプトセット)は評価されません。
このギャップに対処し、自動平均メトリックと人間のテンプレートを評価する広範な研究を実行します。
3つの主な貢献を提供します。(1)異なる人間のテンプレート全体でモデルを区別できる包括的なスキルベースのベンチマークを紹介します。
このスキルベースのベンチマークカテゴリは、プロンプトをサブスキルに分類し、実践者がどのスキルが挑戦的であるかだけでなく、スキルがどのレベルの複雑さで挑戦的になるかを特定できるようにします。
(2)4つのテンプレートと4つのT2Iモデルにわたって人間の評価を収集して、合計100kの注釈を付けます。
これにより、プロンプトの固有のあいまいさのために違いがどこで発生するか、およびメトリックとモデルの品質の違いによりそれらがどこに発生するかを理解することができます。
(3)最後に、新しいデータセット、異なる人間のテンプレート、TIFA160にわたって既存のメトリックよりも人間の評価とよりよく相関する新しいQAベースの自動平均メトリックを導入します。

要約(オリジナル)

While text-to-image (T2I) generative models have become ubiquitous, they do not necessarily generate images that align with a given prompt. While previous work has evaluated T2I alignment by proposing metrics, benchmarks, and templates for collecting human judgements, the quality of these components is not systematically measured. Human-rated prompt sets are generally small and the reliability of the ratings — and thereby the prompt set used to compare models — is not evaluated. We address this gap by performing an extensive study evaluating auto-eval metrics and human templates. We provide three main contributions: (1) We introduce a comprehensive skills-based benchmark that can discriminate models across different human templates. This skills-based benchmark categorises prompts into sub-skills, allowing a practitioner to pinpoint not only which skills are challenging, but at what level of complexity a skill becomes challenging. (2) We gather human ratings across four templates and four T2I models for a total of >100K annotations. This allows us to understand where differences arise due to inherent ambiguity in the prompt and where they arise due to differences in metric and model quality. (3) Finally, we introduce a new QA-based auto-eval metric that is better correlated with human ratings than existing metrics for our new dataset, across different human templates, and on TIFA160.

arxiv情報

著者 Olivia Wiles,Chuhan Zhang,Isabela Albuquerque,Ivana Kajić,Su Wang,Emanuele Bugliarello,Yasumasa Onoe,Pinelopi Papalampidi,Ira Ktena,Chris Knutsen,Cyrus Rashtchian,Anant Nawalgaria,Jordi Pont-Tuset,Aida Nematzadeh
発行日 2025-03-17 15:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings はコメントを受け付けていません

MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis

要約

ポートレートビデオ統合タスクのための微調整オープンソースの大規模VDMは、視覚品質や自然な顔の動きのダイナミクスなど、複数の次元にわたって大幅に改善される可能性があります。
彼らの進歩にもかかわらず、ステップ蒸留を達成し、大規模なVDMの実質的な計算オーバーヘッドを減らす方法は未開拓のままです。
このギャップを埋めるために、このペーパーでは、トレーニングメモリの不十分な問題と、トレーニングプロセス中にバニラDMDで観察されたトレーニング崩壊の問題の両方を軽減するために、弱いビデオ蒸留(W2SVD)を提案します。
具体的には、最初にLORAを活用して、偽の拡散トランス(DIT)を微調整して、メモリ外の問題に対処します。
次に、W2S分布マッチングを使用して、実際のDITのパラメーターを調整し、偽のDITのパラメーターに微妙にシフトします。
この調整は、低ランク分岐の弱い重量を利用することによって達成され、少数のジェネレーターによって合成されたビデオが実際のデータ分布から逸脱し、KL発散近似の不正確さにつながる難問を効果的に緩和します。
さらに、偽のデータ分布とグラウンドトゥルース分布との間の距離を最小限に抑えて、合成されたビデオの視覚品質をさらに向上させます。
Hunyuanvideoで実験的に実証されたように、W2SVDは、1/4ステップビデオ統合で標準オイラー、LCM、DMD、さらには28ステップの標準サンプリングを超えています。
プロジェクトページはhttps://w2svd.github.io/w2svd/にあります。

要約(オリジナル)

Fine-tuning open-source large-scale VDMs for the portrait video synthesis task can result in significant improvements across multiple dimensions, such as visual quality and natural facial motion dynamics. Despite their advancements, how to achieve step distillation and reduce the substantial computational overhead of large-scale VDMs remains unexplored. To fill this gap, this paper proposes Weak-to-Strong Video Distillation (W2SVD) to mitigate both the issue of insufficient training memory and the problem of training collapse observed in vanilla DMD during the training process. Specifically, we first leverage LoRA to fine-tune the fake diffusion transformer (DiT) to address the out-of-memory issue. Then, we employ the W2S distribution matching to adjust the real DiT’s parameter, subtly shifting it toward the fake DiT’s parameter. This adjustment is achieved by utilizing the weak weight of the low-rank branch, effectively alleviate the conundrum where the video synthesized by the few-step generator deviates from the real data distribution, leading to inaccuracies in the KL divergence approximation. Additionally, we minimize the distance between the fake data distribution and the ground truth distribution to further enhance the visual quality of the synthesized videos. As experimentally demonstrated on HunyuanVideo, W2SVD surpasses the standard Euler, LCM, DMD and even the 28-step standard sampling in FID/FVD and VBench in 1/4-step video synthesis. The project page is in https://w2svd.github.io/W2SVD/.

arxiv情報

著者 Shitong Shao,Hongwei Yi,Hanzhong Guo,Tian Ye,Daquan Zhou,Michael Lingelbach,Zhiqiang Xu,Zeke Xie
発行日 2025-03-17 15:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis はコメントを受け付けていません

Edit Transfer: Learning Image Editing via Vision In-Context Relations

要約

新しい設定を紹介し、転送を編集します。ここでは、モデルが単一のソースターゲットの例から変換を学習し、新しいクエリ画像に適用します。
テキストベースの方法は、テキストプロンプトを通じてセマンティック操作に優れていますが、多くの場合、正確な幾何学的な詳細(ポーズや視点の変更など)に苦労します。
一方、参照ベースの編集は、通常、スタイルや外観に焦点を当て、非剛性変換で失敗します。
ソースターゲットペアからの編集変換を明示的に学習することにより、編集転送は、テキストのみと外観中心の参照の両方の制限を軽減します。
大規模な言語モデルでのコンテキスト学習からインスピレーションを得て、DITベースのテキストからイメージモデルに基づいて、視覚的な関係学習パラダイムを提案します。
編集した例とクエリ画像を統一された4パネルの複合材に配置し、軽量のロラの微調整を適用して、最小限の例から複雑な空間変換をキャプチャします。
42のトレーニングサンプルのみを使用しているにもかかわらず、編集転送は、多様な非剛性シナリオの最先端のネクタイとRIEメソッドを大幅に上回り、少数の視覚関係学習の有効性を示しています。

要約(オリジナル)

We introduce a new setting, Edit Transfer, where a model learns a transformation from just a single source-target example and applies it to a new query image. While text-based methods excel at semantic manipulations through textual prompts, they often struggle with precise geometric details (e.g., poses and viewpoint changes). Reference-based editing, on the other hand, typically focuses on style or appearance and fails at non-rigid transformations. By explicitly learning the editing transformation from a source-target pair, Edit Transfer mitigates the limitations of both text-only and appearance-centric references. Drawing inspiration from in-context learning in large language models, we propose a visual relation in-context learning paradigm, building upon a DiT-based text-to-image model. We arrange the edited example and the query image into a unified four-panel composite, then apply lightweight LoRA fine-tuning to capture complex spatial transformations from minimal examples. Despite using only 42 training samples, Edit Transfer substantially outperforms state-of-the-art TIE and RIE methods on diverse non-rigid scenarios, demonstrating the effectiveness of few-shot visual relation learning.

arxiv情報

著者 Lan Chen,Qi Mao,Yuchao Gu,Mike Zheng Shou
発行日 2025-03-17 16:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Edit Transfer: Learning Image Editing via Vision In-Context Relations はコメントを受け付けていません

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection

要約

最近の研究では、大きな視覚言語モデル(LVLM)がしばしばオブジェクトの幻覚(OH)の問題に悩まされることが示されています。
この問題を軽減するために、このペーパーではHalluspaceと呼ばれる安全でないサブスペースに基づいて、モデルの重みを編集する効率的な方法を紹介します。
視覚コンテンツを入力として添付した真実と幻覚のテキストプロンプトを使用すると、幻覚の埋め込み機能を抽出し、LVLMSの真実の表現を削除することにより、幻覚を識別できます。
モデルの重みを直交することにより、入力機能が殿下のヌル空間に投影され、OHを削減します。
Halluspacesは一般に、以前の研究でOHの本質的な原因として示されているLVLMを構築するために適用された大規模な言語モデル(LLM)の以前の情報が含まれていることを明らかにします。
したがって、NULLスペース投影により、LLMSのプライアーが抑制されて幻覚の特徴が除外され、文脈的に正確な出力が得られます。
実験では、私たちの方法は、追加の推論コストなしで異なるLVLMファミリ全体でOHを効果的に軽減し、一般的なLVLMベンチマークで強力なパフォーマンスを示すことができることを示しています。
コードはhttps://github.com/ziwei-zheng/nulluでリリースされます。

要約(オリジナル)

Recent studies have shown that large vision-language models (LVLMs) often suffer from the issue of object hallucinations (OH). To mitigate this issue, we introduce an efficient method that edits the model weights based on an unsafe subspace, which we call HalluSpace in this paper. With truthful and hallucinated text prompts accompanying the visual content as inputs, the HalluSpace can be identified by extracting the hallucinated embedding features and removing the truthful representations in LVLMs. By orthogonalizing the model weights, input features will be projected into the Null space of the HalluSpace to reduce OH, based on which we name our method Nullu. We reveal that HalluSpaces generally contain prior information in the large language models (LLMs) applied to build LVLMs, which have been shown as essential causes of OH in previous studies. Therefore, null space projection suppresses the LLMs’ priors to filter out the hallucinated features, resulting in contextually accurate outputs. Experiments show that our method can effectively mitigate OH across different LVLM families without extra inference costs and also show strong performance in general LVLM benchmarks. Code is released at https://github.com/Ziwei-Zheng/Nullu.

arxiv情報

著者 Le Yang,Ziwei Zheng,Boxu Chen,Zhengyu Zhao,Chenhao Lin,Chao Shen
発行日 2025-03-17 16:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection はコメントを受け付けていません

LEAVS: An LLM-based Labeler for Abdominal CT Supervision

要約

放射線レポートから構造化されたラベルの抽出が採用されており、視力モデルを作成して、いくつかのタイプの異常を同時に検出しています。
ただし、既存の作業は主に胸部に焦点を当てています。
より複雑な解剖学と腹部のより広い範囲の病理学のために、腹部放射線報告で調査された研究はほとんどありません。
Leavsを提案します(腹部視力監督のための大規模な言語モデル抽出器)。
このラベル付けは、CT放射線科レポートで9つの腹部臓器の存在の確実性と7種類の異常の緊急性に注釈を付けることができます。
幅広いカバレッジを確保するために、CTレポートのほとんどの発見タイプを含む異常を選択しました。
私たちのアプローチでは、樹木ベースの決定システムで文抽出と複数選択の質問を使用して、ローカルランLLMの専門的なチェーン促進プロンプト戦略を採用しています。
LLMは、平均F1スコアが0.89の腹部臓器全体でいくつかの異常タイプを抽出し、競合するラベル付け器と人間を大幅に上回ることができることを実証します。
さらに、緊急ラベルの抽出が人間の注釈に匹敵するパフォーマンスを達成したことを示しています。
最後に、異常ラベルには、いくつかの臓器を正常または異常として分類する単一のビジョンモデルをトレーニングするための貴重な情報が含まれていることを実証します。
1,000 ctを超えるボリュームを含むパブリックCTデータセットのコードと構造的な注釈をリリースします。

要約(オリジナル)

Extracting structured labels from radiology reports has been employed to create vision models to simultaneously detect several types of abnormalities. However, existing works focus mainly on the chest region. Few works have been investigated on abdominal radiology reports due to more complex anatomy and a wider range of pathologies in the abdomen. We propose LEAVS (Large language model Extractor for Abdominal Vision Supervision). This labeler can annotate the certainty of presence and the urgency of seven types of abnormalities for nine abdominal organs on CT radiology reports. To ensure broad coverage, we chose abnormalities that encompass most of the finding types from CT reports. Our approach employs a specialized chain-of-thought prompting strategy for a locally-run LLM using sentence extraction and multiple-choice questions in a tree-based decision system. We demonstrate that the LLM can extract several abnormality types across abdominal organs with an average F1 score of 0.89, significantly outperforming competing labelers and humans. Additionally, we show that extraction of urgency labels achieved performance comparable to human annotations. Finally, we demonstrate that the abnormality labels contain valuable information for training a single vision model that classifies several organs as normal or abnormal. We release our code and structured annotations for a public CT dataset containing over 1,000 CT volumes.

arxiv情報

著者 Ricardo Bigolin Lanfredi,Yan Zhuang,Mark Finkelstein,Praveen Thoppey Srinivasan Balamuralikrishna,Luke Krembs,Brandon Khoury,Arthi Reddy,Pritam Mukherjee,Neil M. Rofsky,Ronald M. Summers
発行日 2025-03-17 16:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | LEAVS: An LLM-based Labeler for Abdominal CT Supervision はコメントを受け付けていません

STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans

要約

私たちは、多様な動物種や人間にわたるポーズの同時追跡と推定のために、変圧器ベースの識別モデル予測を利用した新しいフレームワークであるステップを紹介します。
私たちは、人間の脳が空間的連続性を搾取し、形態と動きの処理のための脳領域の専門化にもかかわらず、同時のローカリゼーションとポーズ推定を実行するという事実に触発されています。
従来の識別モデルでは、通常、モデルの重みを決定するための事前定義されたターゲット状態が必要です。これは、ガウスマップソフト予測(GMSP)およびオフセットマップ回帰アダプター(OMRA)モジュールを介して対処する課題です。
これらのモジュールは、キーポイントターゲット状態の必要性を入力として削除し、プロセスを合理化します。
私たちの方法は、特定のビデオシーケンスの初期フレームでの事前に訓練された検出器または手動の初期化を通じて初期化された既知のターゲット状態から始まります。
次に、ターゲットをシームレスに追跡し、その後のフレームの出力として解剖学的重要性のキーポイントを推定します。
一般的なトップダウンポーズ推定方法とは異なり、私たちのアプローチは、その追跡能力のためにフレームごとのターゲット検出に依存していません。
これにより、推論効率と潜在的なアプリケーションの大幅な進歩が促進されます。
多様な種を含むデータセットでアプローチをトレーニングおよび検証します。
我々の実験は、既存の方法と比較して優れた結果を示し、アクション認識や行動分析を含むがこれらに限定されないさまざまなアプリケーションへのドアを開きます。

要約(オリジナル)

We introduce STEP, a novel framework utilizing Transformer-based discriminative model prediction for simultaneous tracking and estimation of pose across diverse animal species and humans. We are inspired by the fact that the human brain exploits spatiotemporal continuity and performs concurrent localization and pose estimation despite the specialization of brain areas for form and motion processing. Traditional discriminative models typically require predefined target states for determining model weights, a challenge we address through Gaussian Map Soft Prediction (GMSP) and Offset Map Regression Adapter (OMRA) Modules. These modules remove the necessity of keypoint target states as input, streamlining the process. Our method starts with a known target state initialized through a pre-trained detector or manual initialization in the initial frame of a given video sequence. It then seamlessly tracks the target and estimates keypoints of anatomical importance as output for subsequent frames. Unlike prevalent top-down pose estimation methods, our approach doesn’t rely on per-frame target detections due to its tracking capability. This facilitates a significant advancement in inference efficiency and potential applications. We train and validate our approach on datasets encompassing diverse species. Our experiments demonstrate superior results compared to existing methods, opening doors to various applications, including but not limited to action recognition and behavioral analysis.

arxiv情報

著者 Shashikant Verma,Harish Katti,Soumyaratna Debnath,Yamuna Swamy,Shanmuganathan Raman
発行日 2025-03-17 16:22:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans はコメントを受け付けていません