LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models

要約

潜在的なビデオ拡散モデル(LVDMS)の最近の進歩は、ビデオ変動自動エンコーダー(ビデオVAE)を活用して複雑なビデオデータをコンパクトな潜在スペースに圧縮することにより、ビデオ生成に革命をもたらしました。
これに対処するために、2つの重要な革新を導入する斬新で超効率の高いビデオVAEフレームワークであるLeanvaeを提案します。(1)近隣のフィードフォワード(NAF)モジュールと非重複パッチ操作に基づく軽量アーキテクチャ、計算コストを大幅に削減し、(2)ウェーブレットの統合は、測定された技術を強化します。
広範な実験では、ビデオの再構築と生成におけるLeanvaeの優位性を検証します。特に既存のビデオVAESよりも効率を高めることで、私たちのモデルは、競争力のある再構築品質を維持しながら、最大50倍の少ないフロップと44倍のより速い推論速度を提供し、https:/github.com/wethrake-repl/leanvaeで利用できるスケーラブルで効率的なビデオ生成の洞察を提供します。

要約(オリジナル)

Recent advances in Latent Video Diffusion Models (LVDMs) have revolutionized video generation by leveraging Video Variational Autoencoders (Video VAEs) to compress intricate video data into a compact latent space.However, as LVDM training scales, the computational overhead of Video VAEs becomes a critical bottleneck, particularly for encoding high-resolution videos. To address this, we propose LeanVAE, a novel and ultra-efficient Video VAE framework that introduces two key innovations: (1) a lightweight architecture based on a Neighborhood-Aware Feedforward (NAF) module and non-overlapping patch operations, drastically reducing computational cost, and (2) the integration of wavelet transforms and compressed sensing techniques to enhance reconstruction quality. Extensive experiments validate LeanVAE’s superiority in video reconstruction and generation, particularly in enhancing efficiency over existing Video VAEs.Our model offers up to 50x fewer FLOPs and 44x faster inference speed while maintaining competitive reconstruction quality, providing insights for scalable, efficient video generation.Our models and code are available at https://github.com/westlake-repl/LeanVAE.

arxiv情報

著者 Yu Cheng,Fajie Yuan
発行日 2025-03-18 14:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models はコメントを受け付けていません

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

要約

器用なロボットの手は、低ダイバーシティデータで訓練されたモデルの制限により、複雑な環境で効果的に一般化するのに苦労しています。
ただし、現実の世界は、本質的に無限のシナリオを提示しており、あらゆる可能性のあるバリエーションを説明することは非現実的です。
自然な解決策は、複雑な環境での経験からロボットを学習できること、進化に似たアプローチ、継続的なフィードバックを通じてシステムが改善し、障害と成功の両方から学習し、最適なパフォーマンスに向けて繰り返すことを可能にすることです。
これに動機付けられて、私たちは、効率的な優先順位アライメントを通じて把握パフォーマンスを継続的に強化する進化的把握方法である進化グラスプを提案します。
具体的には、Handpose Wise Preference Optimization(HPO)を導入します。これにより、モデルは、肯定的および否定的なフィードバックの両方からの好みと継続的に整合し、把握戦略を徐々に改良します。
オンライン調整中の効率と信頼性をさらに向上させるために、推論を加速し、優先微調整に必要なタイムステップの数を減らし、プロセス全体の物理的妥当性を確保するHPO内に物理認識の一貫性モデルを組み込みます。
4つのベンチマークデータセットにわたる広範な実験は、成功率とサンプリング効率を把握した方法の最先端のパフォーマンスを示しています。
私たちの結果は、進化graspが進化の把握を可能にし、シミュレーションと実際のシナリオの両方で堅牢で物理的に実現可能で、優先順位付けされた把握を確保できることを検証します。

要約(オリジナル)

Dexterous robotic hands often struggle to generalize effectively in complex environments due to the limitations of models trained on low-diversity data. However, the real world presents an inherently unbounded range of scenarios, making it impractical to account for every possible variation. A natural solution is to enable robots learning from experience in complex environments, an approach akin to evolution, where systems improve through continuous feedback, learning from both failures and successes, and iterating toward optimal performance. Motivated by this, we propose EvolvingGrasp, an evolutionary grasp generation method that continuously enhances grasping performance through efficient preference alignment. Specifically, we introduce Handpose wise Preference Optimization (HPO), which allows the model to continuously align with preferences from both positive and negative feedback while progressively refining its grasping strategies. To further enhance efficiency and reliability during online adjustments, we incorporate a Physics-aware Consistency Model within HPO, which accelerates inference, reduces the number of timesteps needed for preference finetuning, and ensures physical plausibility throughout the process. Extensive experiments across four benchmark datasets demonstrate state of the art performance of our method in grasp success rate and sampling efficiency. Our results validate that EvolvingGrasp enables evolutionary grasp generation, ensuring robust, physically feasible, and preference-aligned grasping in both simulation and real scenarios.

arxiv情報

著者 Yufei Zhu,Yiming Zhong,Zemin Yang,Peishan Cong,Jingyi Yu,Xinge Zhu,Yuexin Ma
発行日 2025-03-18 15:01:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment はコメントを受け付けていません

ADAPT: An Autonomous Forklift for Construction Site Operation

要約

効率的な材料物流は、建設業界のコストとスケジュールを管理する上で重要な役割を果たします。
ただし、手動の材料の取り扱いは、非効率性、遅延、安全リスクに陥りやすいままです。
自律的なフォークリフトは、現場での物流を合理化するための有望なソリューションを提供し、人間のオペレーターへの依存を減らし、労働力不足を軽減します。
このペーパーでは、建設環境向けに設計された完全に自律的なオフロードフォークリフトである自律的な動的オールテレインパレットトランスポーター(ADAPT)の開発と評価を紹介します。
構造化された倉庫の設定とは異なり、建設現場は、動的障害、非構造化された地形、さまざまな気象条件など、大きな課題をもたらします。
これらの課題に対処するために、当社のシステムは、AI駆動型の知覚技術を意思決定、計画、制御のための従来のアプローチと統合し、複雑な環境での信頼できる操作を可能にします。
私たちは、さまざまな気象条件で経験豊富な人間のオペレーターとの長期的なパフォーマンスを比較して、広範な現実世界のテストを通じてシステムを検証します。
また、学んだ課題と主要な教訓の包括的な分析も提供し、自律的な重機の進歩に貢献しています。
私たちの調査結果は、自律的な屋外フォークリフトが人間レベルのパフォーマンスの近くで動作し、より安全で効率的な建設物流への実行可能なパスを提供できることを示しています。

要約(オリジナル)

Efficient material logistics play a critical role in controlling costs and schedules in the construction industry. However, manual material handling remains prone to inefficiencies, delays, and safety risks. Autonomous forklifts offer a promising solution to streamline on-site logistics, reducing reliance on human operators and mitigating labor shortages. This paper presents the development and evaluation of the Autonomous Dynamic All-terrain Pallet Transporter (ADAPT), a fully autonomous off-road forklift designed for construction environments. Unlike structured warehouse settings, construction sites pose significant challenges, including dynamic obstacles, unstructured terrain, and varying weather conditions. To address these challenges, our system integrates AI-driven perception techniques with traditional approaches for decision making, planning, and control, enabling reliable operation in complex environments. We validate the system through extensive real-world testing, comparing its long-term performance against an experienced human operator across various weather conditions. We also provide a comprehensive analysis of challenges and key lessons learned, contributing to the advancement of autonomous heavy machinery. Our findings demonstrate that autonomous outdoor forklifts can operate near human-level performance, offering a viable path toward safer and more efficient construction logistics.

arxiv情報

著者 Johannes Huemer,Markus Murschitz,Matthias Schörghuber,Lukas Reisinger,Thomas Kadiofsky,Christoph Weidinger,Mario Niedermeyer,Benedikt Widy,Marcel Zeilinger,Csaba Beleznai,Tobias Glück,Andreas Kugi,Patrik Zips
発行日 2025-03-18 15:03:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | ADAPT: An Autonomous Forklift for Construction Site Operation はコメントを受け付けていません

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation

要約

ストーリーテリングビデオジェネレーション(SVG)は、構造化された物語に続く一貫した視覚的に豊富なマルチシーンビデオを作成することを目指しています。
既存の方法は、主に高レベルの計画にLLMを使用して、シーンレベルの説明にストーリーを分解し、それが独立して生成され、縫い合わされます。
ただし、これらのアプローチは、複雑な文字とイベントの一貫した構成、複雑なモーション合成、およびMuti-Characterのカスタマイズを視覚化するため、複雑なシングルシーンの説明に合わせた高品質のビデオの生成に苦労しています。
これらの課題に対処するために、斬新なストーリーからビデオへの生成方法であるDreamRunnerを提案します。まず、大規模な言語モデル(LLM)を使用して入力スクリプトを構成して、粗粒のシーン計画ときめの粒度のオブジェクトレベルのレイアウトとモーション計画の両方を促進します。
次に、DreamRunnerは、検索されたテスト時間の適応を提示して、各シーンのオブジェクトのターゲットモーションプライアーをキャプチャし、取得したビデオに基づいた多様なモーションのカスタマイズをサポートし、複雑でスクリプト化されたモーションを使用した新しいビデオの生成を促進します。
最後に、微細なオブジェクトモーション結合とフレームごとのセマンティックコントロールのための、新しい空間的領域ベースの3D注意および以前の注入モジュールSR3AIを提案します。
DreamRunnerをさまざまなSVGベースラインと比較し、キャラクターの一貫性、テキストアライメント、およびスムーズな遷移の最先端のパフォーマンスを示しています。
さらに、DreamRunnerは、組成のテキストからビデオへの生成において、強力なきめの細かい状態フォロー能力を示し、T2V-Combenchのベースラインを大幅に上回っています。
最後に、定性的例とマルチオブジェクトの相互作用を生成するDreamRunnerの堅牢な能力を検証します。

要約(オリジナル)

Storytelling video generation (SVG) aims to produce coherent and visually rich multi-scene videos that follow a structured narrative. Existing methods primarily employ LLM for high-level planning to decompose a story into scene-level descriptions, which are then independently generated and stitched together. However, these approaches struggle with generating high-quality videos aligned with the complex single-scene description, as visualizing such complex description involves coherent composition of multiple characters and events, complex motion synthesis and muti-character customization. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner’s robust ability to generate multi-object interactions with qualitative examples.

arxiv情報

著者 Zun Wang,Jialu Li,Han Lin,Jaehong Yoon,Mohit Bansal
発行日 2025-03-18 15:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation はコメントを受け付けていません

Multi-Prototype Embedding Refinement for Semi-Supervised Medical Image Segmentation

要約

医療画像セグメンテーションは、ボクセルレベルの解剖学的構造を特定することを目的としています。
セグメンテーションの精度は、ボクセルの違いを区別することに依存しています。
クラス間の分散の研究で達成された進歩と比較して、クラス内の分散はあまり注意を払っていません。
さらに、クラスごとに学習可能な単一の体重によって制限されている従来の線形分類器は、このより細かい区別を捉えるのに苦労しています。
上記の課題に対処するために、半プロトタイプベースの埋め込み精製方法を半監視する医療画像セグメンテーションのための洗練方法を提案します。
具体的には、マルチプロトタイプベースの分類戦略を設計し、ボクセル埋め込み間の構造的関係の観点からセグメンテーションを再考します。
クラス内のバリエーションは、各クラスの複数のプロトタイプの分布に沿ってボクセルをクラスタリングすることにより調査されます。
次に、線形分類器の制限を軽減するために一貫性の制約を導入します。
この制約は、線形分類器と提案されたプロトタイプベースの分類器からの異なる分類粒度を統合します。
2つの一般的なベンチマークでの徹底的な評価では、最先端の方法と比較して優れたパフォーマンスを実現します。
コードはhttps://github.com/briley-byl123/mperで入手できます。

要約(オリジナル)

Medical image segmentation aims to identify anatomical structures at the voxel-level. Segmentation accuracy relies on distinguishing voxel differences. Compared to advancements achieved in studies of the inter-class variance, the intra-class variance receives less attention. Moreover, traditional linear classifiers, limited by a single learnable weight per class, struggle to capture this finer distinction. To address the above challenges, we propose a Multi-Prototype-based Embedding Refinement method for semi-supervised medical image segmentation. Specifically, we design a multi-prototype-based classification strategy, rethinking the segmentation from the perspective of structural relationships between voxel embeddings. The intra-class variations are explored by clustering voxels along the distribution of multiple prototypes in each class. Next, we introduce a consistency constraint to alleviate the limitation of linear classifiers. This constraint integrates different classification granularities from a linear classifier and the proposed prototype-based classifier. In the thorough evaluation on two popular benchmarks, our method achieves superior performance compared with state-of-the-art methods. Code is available at https://github.com/Briley-byl123/MPER.

arxiv情報

著者 Yali Bi,Enyu Che,Yinan Chen,Yuanpeng He,Jingwei Qu
発行日 2025-03-18 15:23:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Multi-Prototype Embedding Refinement for Semi-Supervised Medical Image Segmentation はコメントを受け付けていません

3D Densification for Multi-Map Monocular VSLAM in Endoscopy

要約

単眼内視鏡配列に適用されるマルチマップスパースの単眼の視覚同時局在とマッピングは、モーションブラー、時間的閉塞、ツールの相互作用またはウォータージェットによる内視鏡検査の頻繁な損失の後、追跡を堅牢に回復するために効率的であることが証明されています。
まばらなマルチマップは、堅牢なカメラのローカリゼーションには適していますが、環境表現のために非常に貧弱で、騒々しいです。不正確に再構築された3Dポイントの割合が高く、臨床アプリケーションのためのより重要な低密度を含むより重要なことです。
まばらな内視鏡検査のマルチマップCudasift-Slamのアートの地図を除去し、密な方法を提案します。
最新の深さの密な予測のnnライトデプスは、堅牢性のあるLMEDSによってまばらなCudasiftサブマップと一致しています。
私たちのシステムは、外れ値をフィルタリングしながら、単眼深度推定における固有のスケールのあいまいさを軽減し、信頼性の高い高密度の3Dマップにつながります。
C3VDファントムコロンデータセットの手頃な価格のコンピューティング時間で、正確な密度の高いマップ4.15 mm RMS精度の実験的証拠を提供します。
エンドマッパーデータセットからの実際の大腸内視鏡検査の質的結果を報告します。

要約(オリジナル)

Multi-map Sparse Monocular visual Simultaneous Localization and Mapping applied to monocular endoscopic sequences has proven efficient to robustly recover tracking after the frequent losses in endoscopy due to motion blur, temporal occlusion, tools interaction or water jets. The sparse multi-maps are adequate for robust camera localization, however they are very poor for environment representation, they are noisy, with a high percentage of inaccurately reconstructed 3D points, including significant outliers, and more importantly with an unacceptable low density for clinical applications. We propose a method to remove outliers and densify the maps of the state of the art for sparse endoscopy multi-map CudaSIFT-SLAM. The NN LightDepth for up-to-scale depth dense predictions are aligned with the sparse CudaSIFT submaps by means of the robust to spurious LMedS. Our system mitigates the inherent scale ambiguity in monocular depth estimation while filtering outliers, leading to reliable densified 3D maps. We provide experimental evidence of accurate densified maps 4.15 mm RMS accuracy at affordable computing time in the C3VD phantom colon dataset. We report qualitative results on the real colonoscopy from the Endomapper dataset.

arxiv情報

著者 X. Anadón,Javier Rodríguez-Puigvert,J. M. M. Montiel
発行日 2025-03-18 15:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D Densification for Multi-Map Monocular VSLAM in Endoscopy はコメントを受け付けていません

Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer

要約

トランステクノロジーの進歩に照らして、現存する研究は、双眼ステレオマッチングチャレンジの潜在的なソリューションとしてステレオトランスの構築を仮定しています。
ただし、低ランクのボトルネックと注意メカニズムの二次複雑さによって制約されているステレオトランスは、合理的な推論時間内に十分な非線形表現力を実証できません。
重要な同名のポイントに焦点を当てていないため、反射や弱いテクスチャなど、そのような方法の表現が困難な状況に対して脆弱になります。
さらに、コンピューティング速度が遅いことは、アプリケーションを助長しません。
これらの困難を克服するために、次のコンポーネントを組み込んだHadamardの注意再発ステレオトランス(HART)を提示します。1)より速い推論のために、注意メカニズムのためのHadamard製品パラダイムを提示し、線形計算の複雑さを実現します。
2)関連する特徴応答と無関係な特徴応答の違いを増幅するために、密な注意カーネル(DAK)を設計しました。
これにより、Hartは重要な詳細に集中できます。
Dakはまた、ゼロ要素を非ゼロ要素に変換して、低ランクのボトルネックによって引き起こされる表現力の低下を軽減します。
3)Hadamard製品に欠けている空間的およびチャネル相互作用を補うために、大小のカーネル畳み込みのインターリービングを通じてグローバル情報とローカル情報の両方をキャプチャすることを提案します。
実験結果は、ハートの有効性を示しています。
反射エリアでは、ハートは、提出時に公開されたすべての方法の中で、キッティ2012のベンチマークで1位にランクされました。
コードはhttps://github.com/zyangchen/hartで入手できます。

要約(オリジナル)

In light of the advancements in transformer technology, extant research posits the construction of stereo transformers as a potential solution to the binocular stereo matching challenge. However, constrained by the low-rank bottleneck and quadratic complexity of attention mechanisms, stereo transformers still fail to demonstrate sufficient nonlinear expressiveness within a reasonable inference time. The lack of focus on key homonymous points renders the representations of such methods vulnerable to challenging conditions, including reflections and weak textures. Furthermore, a slow computing speed is not conducive to the application. To overcome these difficulties, we present the Hadamard Attention Recurrent Stereo Transformer (HART) that incorporates the following components: 1) For faster inference, we present a Hadamard product paradigm for the attention mechanism, achieving linear computational complexity. 2) We designed a Dense Attention Kernel (DAK) to amplify the differences between relevant and irrelevant feature responses. This allows HART to focus on important details. DAK also converts zero elements to non-zero elements to mitigate the reduced expressiveness caused by the low-rank bottleneck. 3) To compensate for the spatial and channel interaction missing in the Hadamard product, we propose MKOI to capture both global and local information through the interleaving of large and small kernel convolutions. Experimental results demonstrate the effectiveness of our HART. In reflective area, HART ranked 1st on the KITTI 2012 benchmark among all published methods at the time of submission. Code is available at https://github.com/ZYangChen/HART.

arxiv情報

著者 Ziyang Chen,Yongjun Zhang,Wenting Li,Bingshu Wang,Yabo Wu,Yong Zhao,C. L. Philip Chen
発行日 2025-03-18 15:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer はコメントを受け付けていません

VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation

要約

最近のビデオ拡散モデルはビデオ編集を強化していますが、統一されたフレームワーク内で教育編集と多様なタスク(たとえば、追加、削除、変更)を処理することは困難なままです。
このペーパーでは、Viggieを紹介するVeggieを紹介します。これは、さまざまなユーザーの命令に基づいて、ビデオコンセプトの編集、接地、および推論を統一するシンプルなエンドツーエンドのフレームワークである、手順からグラウンドジェネレーションのビデオエディターを紹介します。
具体的には、ビデオとテキストのクエリを指定して、Veggieは最初にMLLMを使用してユーザーの意図を命令で解釈し、ビデオコンテキストに接地し、ピクセルスペース応答のフレーム固有の接地タスククエリを生成します。
拡散モデルは、これらの計画をレンダリングし、ユーザーの意図と一致する編集されたビデオを生成します。
多様なタスクと複雑な指示をサポートするために、カリキュラム学習戦略を採用しています。まず、MLLMおよびビデオ拡散モデルを大規模な指導画像編集データに合わせて、その後、高品質のマルチタスクビデオデータにエンドツーエンドの微調整を行います。
さらに、新しいデータ合成パイプラインを導入して、モデルトレーニングのペアリングされた教育ビデオ編集データを生成します。
静的画像データを、画像間モデルを活用してダイナミクスを注入することにより、多様で高品質のビデオ編集サンプルに変換します。
Veggieは、さまざまな編集スキルを備えた教育ビデオ編集で強力なパフォーマンスを示し、多用途のモデルとして最高の教育ベースラインを上回り、他のモデルはマルチタスクに苦労しています。
Veggieは、他のベースラインが失敗するビデオオブジェクトの接地と推論セグメンテーションにも優れています。
さらに、複数のタスクがどのように互いに役立つかを明らかにし、ゼロショットマルチモーダル教育やコンテキスト内のビデオ編集などの有望なアプリケーションを強調します。

要約(オリジナル)

Recent video diffusion models have enhanced video editing, but it remains challenging to handle instructional editing and diverse tasks (e.g., adding, removing, changing) within a unified framework. In this paper, we introduce VEGGIE, a Video Editor with Grounded Generation from Instructions, a simple end-to-end framework that unifies video concept editing, grounding, and reasoning based on diverse user instructions. Specifically, given a video and text query, VEGGIE first utilizes an MLLM to interpret user intentions in instructions and ground them to the video contexts, generating frame-specific grounded task queries for pixel-space responses. A diffusion model then renders these plans and generates edited videos that align with user intent. To support diverse tasks and complex instructions, we employ a curriculum learning strategy: first aligning the MLLM and video diffusion model with large-scale instructional image editing data, followed by end-to-end fine-tuning on high-quality multitask video data. Additionally, we introduce a novel data synthesis pipeline to generate paired instructional video editing data for model training. It transforms static image data into diverse, high-quality video editing samples by leveraging Image-to-Video models to inject dynamics. VEGGIE shows strong performance in instructional video editing with different editing skills, outperforming the best instructional baseline as a versatile model, while other models struggle with multi-tasking. VEGGIE also excels in video object grounding and reasoning segmentation, where other baselines fail. We further reveal how the multiple tasks help each other and highlight promising applications like zero-shot multimodal instructional and in-context video editing.

arxiv情報

著者 Shoubin Yu,Difan Liu,Ziqiao Ma,Yicong Hong,Yang Zhou,Hao Tan,Joyce Chai,Mohit Bansal
発行日 2025-03-18 15:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation はコメントを受け付けていません

Retrospective: A CORDIC Based Configurable Activation Function for NN Applications

要約

機能的な再構成性を提供することにより、リソース制約システムのASICハードウェア設計を加速するために、アクティベーション関数(AF)の設計のための肉体ベースの構成が以前に提案されました。
その導入以来、このニューラルネットワーク加速のためのこの新しいアプローチは広範な人気を獲得し、アカデミックおよび商業的なAIプロセッサの両方で活性化機能のための多くの設計に影響を与えています。
この遡及的分析では、このイニシアチブの基本的な側面を探求し、近年の重要な開発を要約し、AIアプリケーションの進化するニーズに合わせたDA-Vinci AFを紹介します。
この新世代の動的に構成可能で精密調整可能なアクティベーション関数コアは、Swish、Softmax、Selu、Geluなど、AIワークロードのさまざまな活性化関数に対するより大きな適応性を約束し、シフトとアドドのコーディック技術を利用しています。
以前に提示されたデザインは、MAC、シグモイド、およびTANH機能用に最適化されており、Relu AFSに組み込まれており、蓄積的な神経コンピューティングユニットに頂点に達しています。
これらの機能強化は、DNNS、RNN/LSTM、および変圧器に焦点を当てたAI加速器の実現のためのリソース効率の高いベクターエンジンの基本コンポーネントとして、98.5%の結果の質(QOR)を達成するためのリソース効率の高いベクターエンジンとして位置付けられています。

要約(オリジナル)

A CORDIC-based configuration for the design of Activation Functions (AF) was previously suggested to accelerate ASIC hardware design for resource-constrained systems by providing functional reconfigurability. Since its introduction, this new approach for neural network acceleration has gained widespread popularity, influencing numerous designs for activation functions in both academic and commercial AI processors. In this retrospective analysis, we explore the foundational aspects of this initiative, summarize key developments over recent years, and introduce the DA-VINCI AF tailored for the evolving needs of AI applications. This new generation of dynamically configurable and precision-adjustable activation function cores promise greater adaptability for a range of activation functions in AI workloads, including Swish, SoftMax, SeLU, and GeLU, utilizing the Shift-and-Add CORDIC technique. The previously presented design has been optimized for MAC, Sigmoid, and Tanh functionalities and incorporated into ReLU AFs, culminating in an accumulative NEURIC compute unit. These enhancements position NEURIC as a fundamental component in the resource-efficient vector engine for the realization of AI accelerators that focus on DNNs, RNNs/LSTMs, and Transformers, achieving a quality of results (QoR) of 98.5%.

arxiv情報

著者 Omkar Kokane,Gopal Raut,Salim Ullah,Mukul Lokhande,Adam Teman,Akash Kumar,Santosh Kumar Vishvakarma
発行日 2025-03-18 15:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV, cs.ET, eess.IV | Retrospective: A CORDIC Based Configurable Activation Function for NN Applications はコメントを受け付けていません

MAST-Pro: Dynamic Mixture-of-Experts for Adaptive Segmentation of Pan-Tumors with Knowledge-Driven Prompts

要約

がんの診断と治療には、正確な腫瘍のセグメンテーションが重要です。
基礎モデルには高度な汎用セグメンテーションがありますが、既存の方法は依然として格闘しています。(1)医療用プライアーの限られた組み込み、(2)ジェネリックと腫瘍固有の特徴の不均衡、(3)臨床適応のための高い計算コスト。
これらの課題に対処するために、Mast-Pro(知識駆動型プロンプトを備えた汎腫瘍の適応セグメンテーションのための専門家の混合物)、エクスペルの動的な混合(D-MOE)、および汎腫瘍セグメンテーションの知識駆動型プロンプトを統合する新しいフレームワークを提案します。
具体的には、テキストと解剖学的プロンプトはドメイン固有のプライアーを提供し、腫瘍表現学習を導きますが、D-MoEはエキスパートを動的に選択して、一般的な機能学習と腫瘍固有の特徴学習のバランスをとり、多様な腫瘍タイプ全体のセグメンテーションの精度を改善します。
効率を向上させるために、パラメーター効率の高い微調整(PEFT)を採用し、Mast-Proを最適化して計算オーバーヘッドを大幅に減らします。
多分析腫瘍データセットの実験は、Mast-Proが最先端のアプローチを上回り、平均DSCの最大5.20%の改善を達成し、精度を低下させることなくトレーニング可能なパラメーターを91.04%減らすことを示しています。

要約(オリジナル)

Accurate tumor segmentation is crucial for cancer diagnosis and treatment. While foundation models have advanced general-purpose segmentation, existing methods still struggle with: (1) limited incorporation of medical priors, (2) imbalance between generic and tumor-specific features, and (3) high computational costs for clinical adaptation. To address these challenges, we propose MAST-Pro (Mixture-of-experts for Adaptive Segmentation of pan-Tumors with knowledge-driven Prompts), a novel framework that integrates dynamic Mixture-of-Experts (D-MoE) and knowledge-driven prompts for pan-tumor segmentation. Specifically, text and anatomical prompts provide domain-specific priors, guiding tumor representation learning, while D-MoE dynamically selects experts to balance generic and tumor-specific feature learning, improving segmentation accuracy across diverse tumor types. To enhance efficiency, we employ Parameter-Efficient Fine-Tuning (PEFT), optimizing MAST-Pro with significantly reduced computational overhead. Experiments on multi-anatomical tumor datasets demonstrate that MAST-Pro outperforms state-of-the-art approaches, achieving up to a 5.20% improvement in average DSC while reducing trainable parameters by 91.04%, without compromising accuracy.

arxiv情報

著者 Runqi Meng,Sifan Song,Pengfei Jin,Yujin Oh,Lin Teng,Yulin Wang,Yiqun Sun,Ling Chen,Xiang Li,Quanzheng Li,Ning Guo,Dinggang Shen
発行日 2025-03-18 15:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MAST-Pro: Dynamic Mixture-of-Experts for Adaptive Segmentation of Pan-Tumors with Knowledge-Driven Prompts はコメントを受け付けていません