Active InSAR monitoring of building damage in Gaza during the Israel-Hamas War

要約

2023年10月7日から始まるガザ地区の空中爆撃は、21世紀の最も激しい爆撃キャンペーンの1つであり、広範な都市損害を促進しています。
地理的に動的で長期にわたる武力紛争に対する損傷を特徴付けるには、積極的な監視が必要です。
合成開口レーダー(SAR)は、die-stemporalの方法で災害誘発性の損傷をマッピングするための優先順位がありますが、持続的な危機中の積極的な監視への応用は限られています。
Sentinel-1からの干渉測定SARデータを使用して、2023年のイスラエルハマ戦争の最初の年にわたって毎週のダメージ傾向を追跡するために、長い時間ARCコヒーレント変化検出(LT-CCD)アプローチを適用します。
国連の参照データで損傷ラベルの92.5%を、無視できる(1.2%)偽陽性率を検出します。
私たちのアプローチの一時的な忠実度は、ガザ北部で焦点を当てた戦争の最初の3か月間に急速に増加していることを明らかにし、一時的な停戦中の損傷の顕著な一時停止、および紛争ホットスポットが北から南に移動するための新しい損害の急増を明らかにします。
すべての建物の5分の3(191,263)は、研究の終わりまでに損傷または破壊されます。
武力紛争ゾーンの損傷に関するタイムリーなデータが非常に必要であるため、当社の低コストおよび低遅延のアプローチにより、人道的およびジャーナリスティックな組織での損害情報を迅速に取り入れることができます。

要約(オリジナル)

Aerial bombardment of the Gaza Strip beginning October 7, 2023 is one of the most intense bombing campaigns of the twenty-first century, driving widespread urban damage. Characterizing damage over a geographically dynamic and protracted armed conflict requires active monitoring. Synthetic aperture radar (SAR) has precedence for mapping disaster-induced damage with bi-temporal methods but applications to active monitoring during sustained crises are limited. Using interferometric SAR data from Sentinel-1, we apply a long temporal-arc coherent change detection (LT-CCD) approach to track weekly damage trends over the first year of the 2023- Israel-Hamas War. We detect 92.5% of damage labels in reference data from the United Nations with a negligible (1.2%) false positive rate. The temporal fidelity of our approach reveals rapidly increasing damage during the first three months of the war focused in northern Gaza, a notable pause in damage during a temporary ceasefire, and surges of new damage as conflict hot-spots shift from north to south. Three-fifths (191,263) of all buildings are damaged or destroyed by the end of the study. With massive need for timely data on damage in armed conflict zones, our low-cost and low-latency approach enables rapid uptake of damage information at humanitarian and journalistic organizations.

arxiv情報

著者 Corey Scher,Jamon Van Den Hoek
発行日 2025-06-17 17:12:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Active InSAR monitoring of building damage in Gaza during the Israel-Hamas War はコメントを受け付けていません

SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting

要約

現実的で音声駆動型のトーキングヘッドビデオの統合において高い同期を達成することは、重要な課題です。
リアルなトーキングヘッドには、被験者のアイデンティティ、唇の動き、表情、ヘッドポーズの同期された調整が必要です。
これらの同期がないことは根本的な欠陥であり、非現実的な結果につながります。
現実的なトーキングヘッドを作成する際に「悪魔」と特定された同期の重要な問題に対処するために、Gaussian Splattingを備えたダイナミックポートレートレンダラーを特徴として、一貫した被験者のアイデンティティ保存と、3Dの顔面のブレンドシェープモデルを使用して音声を使用して音声を使用して唇の動きを整列させるフェイスシンクコントローラーを確保します。
自然の頭の動きを確保するために、ヘッドポーズを最適化するためにより大きな安定性を最適化するヘッドシンクスタビライザーを提案します。
さらに、Synctalk ++は、発現ジェネレーターと胴体修復器を組み込むことにより、分散型(OOD)オーディオへの堅牢性を高め、音声に合わせた表情とシームレスな胴体領域を生成します。
私たちのアプローチは、フレーム全体の視覚的詳細の一貫性と連続性を維持し、レンダリング速度と品質を大幅に向上させ、毎秒最大101フレームを達成します。
広範な実験とユーザー研究は、Synctalk ++が同期とリアリズムの最先端の方法よりも優れていることを示しています。
補足ビデオを見ることをお勧めします:https://ziqiaopeng.github.io/synctalk++。

要約(オリジナル)

Achieving high synchronization in the synthesis of realistic, speech-driven talking head videos presents a significant challenge. A lifelike talking head requires synchronized coordination of subject identity, lip movements, facial expressions, and head poses. The absence of these synchronizations is a fundamental flaw, leading to unrealistic results. To address the critical issue of synchronization, identified as the ”devil” in creating realistic talking heads, we introduce SyncTalk++, which features a Dynamic Portrait Renderer with Gaussian Splatting to ensure consistent subject identity preservation and a Face-Sync Controller that aligns lip movements with speech while innovatively using a 3D facial blendshape model to reconstruct accurate facial expressions. To ensure natural head movements, we propose a Head-Sync Stabilizer, which optimizes head poses for greater stability. Additionally, SyncTalk++ enhances robustness to out-of-distribution (OOD) audio by incorporating an Expression Generator and a Torso Restorer, which generate speech-matched facial expressions and seamless torso regions. Our approach maintains consistency and continuity in visual details across frames and significantly improves rendering speed and quality, achieving up to 101 frames per second. Extensive experiments and user studies demonstrate that SyncTalk++ outperforms state-of-the-art methods in synchronization and realism. We recommend watching the supplementary video: https://ziqiaopeng.github.io/synctalk++.

arxiv情報

著者 Ziqiao Peng,Wentao Hu,Junyuan Ma,Xiangyu Zhu,Xiaomei Zhang,Hao Zhao,Hui Tian,Jun He,Hongyan Liu,Zhaoxin Fan
発行日 2025-06-17 17:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting はコメントを受け付けていません

Cost-Aware Routing for Efficient Text-To-Image Generation

要約

拡散モデルは、反復的な除去プロセスを介して入力プロンプトの高忠実度画像を生成する能力でよく知られています。
残念ながら、高い忠実度は、本質的に連続的な生成プロセスのために高い計算コストでもたらされます。
この作業では、品質と計算コストのバランスを最適にし、その複雑さに応じて、各プロンプトの計算量が変化するようにフレームワークを提案します。
各プロンプトは、拡散モデルの明確な数の除去ステップ、または異なる独立したテキストからイメージモデルの明確な数の除去ステップに対応する可能性がある、最も適切なテキストからイメージまでの生成関数に自動的にルーティングされます。
均一なコスト削減技術(例:蒸留、モデルの量子化)とは異なり、私たちのアプローチは、いくつかの複雑なプロンプトに対してのみ高価な選択肢(100+除去ステップ)を予約することを学ぶことにより、最適なトレードオフを達成し、より洗練されていないプロンプトにより経済的な選択(例えば、小さな蒸留モデル)を採用します。
CocoとdiffusionDBで、9つの訓練を受けたテキストからイメージモデルへのルーティングを学習することにより、これらのモデルだけで達成可能な平均品質を実現できることを経験的に実証しています。

要約(オリジナル)

Diffusion models are well known for their ability to generate a high-fidelity image for an input prompt through an iterative denoising process. Unfortunately, the high fidelity also comes at a high computational cost due the inherently sequential generative process. In this work, we seek to optimally balance quality and computational cost, and propose a framework to allow the amount of computation to vary for each prompt, depending on its complexity. Each prompt is automatically routed to the most appropriate text-to-image generation function, which may correspond to a distinct number of denoising steps of a diffusion model, or a disparate, independent text-to-image model. Unlike uniform cost reduction techniques (e.g., distillation, model quantization), our approach achieves the optimal trade-off by learning to reserve expensive choices (e.g., 100+ denoising steps) only for a few complex prompts, and employ more economical choices (e.g., small distilled model) for less sophisticated prompts. We empirically demonstrate on COCO and DiffusionDB that by learning to route to nine already-trained text-to-image models, our approach is able to deliver an average quality that is higher than that achievable by any of these models alone.

arxiv情報

著者 Qinchan,Li,Kenneth Chen,Changyue,Su,Wittawat Jitkrittum,Qi Sun,Patsorn Sangkloy
発行日 2025-06-17 17:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Cost-Aware Routing for Efficient Text-To-Image Generation はコメントを受け付けていません

Scaling-Up the Pretraining of the Earth Observation Foundation Model PhilEO to the MajorTOM Dataset

要約

今日、地球観測(EO)衛星は大量のデータを生成し、コペルニクスセンチネル2コンステレーションだけで1日あたり約1.6TBが生成されます。
この情報を完全に活用するには、EO Foundationモデル(FMS)を大規模なラベル付けされたデータセットでプレイすることが不可欠であり、最小限のラベル付きデータを備えたいくつかの異なる下流タスクの効率的な微調整を可能にします。
この作業では、最近提案されたEO財団モデルであるPhileo Geo-Aware U-Netのスケーリングを提示します。
さまざまな数のパラメーターとアーキテクチャを備えたさまざまなPhileoモデルバリアントを開発および研究しています。
最後に、道路密度の推定、構築密度ピクセルごとの回帰、土地被覆セマンティックセグメンテーションのために、Phileoベンチのモデルを微調整し、パフォーマンスを評価します。
我々の結果は、道路密度回帰のためのすべてのNショットについて、Phileo 44M Majortom 23TBモデルがPhileo Globe 0.5TB 44Mを上回ることを示しています。
また、道路密度の推定と構築密度回帰のためのほとんどのNショットについて、Phileo 200m FastTomが他のすべてのモデルよりも優れていることを示しています。
データセットとモデルのスケーリングの両方の有効性は、Phileoベンチを使用して検証されます。
また、U-net畳み込みニューラルネットワーク(CNN)から視覚変圧器(VIT)に移行するアーキテクチャスケーリングの影響を研究します。

要約(オリジナル)

Today, Earth Observation (EO) satellites generate massive volumes of data, with the Copernicus Sentinel-2 constellation alone producing approximately 1.6TB per day. To fully exploit this information, it is essential to pretrain EO Foundation Models (FMs) on large unlabeled datasets, enabling efficient fine-tuning for several different downstream tasks with minimal labeled data. In this work, we present the scaling-up of our recently proposed EO Foundation Model, PhilEO Geo-Aware U-Net, on the unlabeled 23TB dataset MajorTOM, which covers the vast majority of the Earth’s surface, as well as on the specialized subset FastTOM 2TB that does not include oceans and ice. We develop and study various PhilEO model variants with different numbers of parameters and architectures. Finally, we fine-tune the models on the PhilEO Bench for road density estimation, building density pixel-wise regression, and land cover semantic segmentation, and we evaluate the performance. Our results demonstrate that for all n-shots for road density regression, the PhilEO 44M MajorTOM 23TB model outperforms PhilEO Globe 0.5TB 44M. We also show that for most n-shots for road density estimation and building density regression, PhilEO 200M FastTOM outperforms all the other models. The effectiveness of both dataset and model scaling is validated using the PhilEO Bench. We also study the impact of architecture scaling, transitioning from U-Net Convolutional Neural Networks (CNN) to Vision Transformers (ViT).

arxiv情報

著者 Nikolaos Dionelis,Jente Bosmans,Riccardo Musto,Giancarlo Paoletti,Simone Sarti,Giacomo Cascarano,Casper Fibaek,Luke Camilleri,Bertrand Le Saux,Nicolas Longépé
発行日 2025-06-17 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling-Up the Pretraining of the Earth Observation Foundation Model PhilEO to the MajorTOM Dataset はコメントを受け付けていません

ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM

要約

マルチモーダル大手言語モデル(MLLM)はしばしば幻覚に苦しんでいます。
それらは部分的なキューを過度に依存し、誤った応答を生成します。
最近、視覚的なコントラストデコード(VCD)や命令の対照的デコード(ICD)などの方法が、元の出力に対する摂動または負の前の入力からの予測を対比することにより、幻覚を軽減するために提案されています。
この作業では、VCDやICDなどの方法がモデルの内部注意力学に根本的に影響することを明らかにします。
この観察結果は、それらの有効性が、表面レベルの変更だけでなく、ロジットへの単に発生するのではなく、注意分布のより深い変化に起因する可能性があることを示唆しています。
この洞察に触発されて、私たちは、モデルの注意メカニズムに直接介入するために、幻覚を緩和するためのより原則的なアプローチを提供する注意のステアラブルなコントラストデコードフレームワークを提案します。
複数のMLLMアーキテクチャと多様なデコード方法にわたる実験は、このアプローチが幻覚を大幅に削減し、Pope、椅子、MMHALベンチなどのベンチマークのパフォーマンスを向上させ、同時に標準のVQAベンチマークのパフォーマンスを向上させることを示しています。

要約(オリジナル)

Multimodal Large Language Model (MLLM) often suffer from hallucinations. They over-rely on partial cues and generate incorrect responses. Recently, methods like Visual Contrastive Decoding (VCD) and Instruction Contrastive Decoding (ICD) have been proposed to mitigate hallucinations by contrasting predictions from perturbed or negatively prefixed inputs against original outputs. In this work, we uncover that methods like VCD and ICD fundamentally influence internal attention dynamics of the model. This observation suggests that their effectiveness may not stem merely from surface-level modifications to logits but from deeper shifts in attention distribution. Inspired by this insight, we propose an attention-steerable contrastive decoding framework that directly intervenes in attention mechanisms of the model to offer a more principled approach to mitigating hallucinations. Our experiments across multiple MLLM architectures and diverse decoding methods demonstrate that our approach significantly reduces hallucinations and improves the performance on benchmarks such as POPE, CHAIR, and MMHal-Bench, while simultaneously enhancing performance on standard VQA benchmarks.

arxiv情報

著者 Yujun Wang,Jinhe Bi,Yunpu Ma,Soeren Pirk
発行日 2025-06-17 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CL, cs.CV | ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM はコメントを受け付けていません

CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion

要約

拡散ポリシー(DP)により、ロボットはアクション拡散を通じて専門家のデモを模倣することにより、複雑な動作を学ぶことができます。
ただし、実際のアプリケーションでは、ハードウェアの制限はデータの品質を低下させることがよくありますが、リアルタイムの制約は瞬間的な状態およびシーンの観測に対するモデルの推論を制限します。
これらの制限により、専門家のデモンストレーションから学習の有効性が大幅に減少し、オブジェクトのローカリゼーション、把握計画、および長期タスクの実行の失敗が生じます。
これらの課題に対処するために、歴史的行動シーケンスを条件付けすることによりアクション予測を強化する新しい変圧器ベースの拡散モデルである因果拡散ポリシー(CDP)を提案し、それにより、よりコヒーレントでコンテキストを意識する視覚運動政策学習を可能にします。
自己回帰推論に関連する計算コストをさらに軽減するために、以前のタイムステップからの注意キー価値ペアを保存するためにキャッシュメカニズムも導入され、実行中の冗長計算を大幅に削減します。
多様な2D操作タスクと3D操作タスクにまたがるシミュレートされた環境と現実世界の両方の環境での広範な実験は、CDPが既存の方法よりも大幅に高い精度を達成するために履歴アクションシーケンスを独自に活用することを示しています。
さらに、劣化した入力観測品質に直面した場合でも、CDPは、現実的で不完全な条件下でのロボット制御の実用的な堅牢性を強調する、時間的連続性を推論することにより顕著な精度を維持します。

要約(オリジナル)

Diffusion Policy (DP) enables robots to learn complex behaviors by imitating expert demonstrations through action diffusion. However, in practical applications, hardware limitations often degrade data quality, while real-time constraints restrict model inference to instantaneous state and scene observations. These limitations seriously reduce the efficacy of learning from expert demonstrations, resulting in failures in object localization, grasp planning, and long-horizon task execution. To address these challenges, we propose Causal Diffusion Policy (CDP), a novel transformer-based diffusion model that enhances action prediction by conditioning on historical action sequences, thereby enabling more coherent and context-aware visuomotor policy learning. To further mitigate the computational cost associated with autoregressive inference, a caching mechanism is also introduced to store attention key-value pairs from previous timesteps, substantially reducing redundant computations during execution. Extensive experiments in both simulated and real-world environments, spanning diverse 2D and 3D manipulation tasks, demonstrate that CDP uniquely leverages historical action sequences to achieve significantly higher accuracy than existing methods. Moreover, even when faced with degraded input observation quality, CDP maintains remarkable precision by reasoning through temporal continuity, which highlights its practical robustness for robotic control under realistic, imperfect conditions.

arxiv情報

著者 Jiahua Ma,Yiran Qin,Yixiong Li,Xuanqi Liao,Yulan Guo,Ruimao Zhang
発行日 2025-06-17 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion はコメントを受け付けていません

A Production Scheduling Framework for Reinforcement Learning Under Real-World Constraints

要約

クラシックジョブショップのスケジューリング問題(JSSP)は、決定論的制約の下でMakepanの最適化に焦点を当てています。
現実世界の生産環境は、従来のスケジューリングアプローチの効果が低下する追加の複雑さを導入します。
RENFERTION LEANINE(RL)は、エージェントが適応スケジューリング戦略を学習できるようにするため、これらの課題に対処する可能性を秘めています。
ただし、実際の制約の下でRLエージェントを効果的にトレーニングおよび評価するための包括的な汎用フレームワークが不足しています。
このギャップに対処するために、輸送ロジスティクス、バッファ管理、機械の故障、セットアップ時間、確率処理条件など、Shopfloorに固有の主要な現実世界の制約を組み込むことにより、古典的なJSSP製剤を拡張するモジュラーフレームワークを提案します。
このフレームワークは、問題インスタンスの定義とシミュレーションパラメーターの構成に柔軟性を提供し、多様な生産シナリオへの適応を可能にするカスタマイズ可能なソリューションです。
標準化されたインターフェイスにより、さまざまなRLアプローチとの互換性が保証され、RLエージェントをトレーニングするための堅牢な環境を提供し、動的および不確実な条件下での異なるスケジューリング方法の標準化された比較を促進します。
jobshoplabは、研究と産業用アプリケーションの両方のオープンソースツールとしてリリースされます。https://github.com/proto-lab-ro/jobshoplabでアクセスできます

要約(オリジナル)

The classical Job Shop Scheduling Problem (JSSP) focuses on optimizing makespan under deterministic constraints. Real-world production environments introduce additional complexities that cause traditional scheduling approaches to be less effective. Reinforcement learning (RL) holds potential in addressing these challenges, as it allows agents to learn adaptive scheduling strategies. However, there is a lack of a comprehensive, general-purpose frameworks for effectively training and evaluating RL agents under real-world constraints. To address this gap, we propose a modular framework that extends classical JSSP formulations by incorporating key real-world constraints inherent to the shopfloor, including transport logistics, buffer management, machine breakdowns, setup times, and stochastic processing conditions, while also supporting multi-objective optimization. The framework is a customizable solution that offers flexibility in defining problem instances and configuring simulation parameters, enabling adaptation to diverse production scenarios. A standardized interface ensures compatibility with various RL approaches, providing a robust environment for training RL agents and facilitating the standardized comparison of different scheduling methods under dynamic and uncertain conditions. We release JobShopLab as an open-source tool for both research and industrial applications, accessible at: https://github.com/proto-lab-ro/jobshoplab

arxiv情報

著者 Jonathan Hoss,Felix Schelling,Noah Klarmann
発行日 2025-06-17 15:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Production Scheduling Framework for Reinforcement Learning Under Real-World Constraints はコメントを受け付けていません

Prefix-Tuning+: Modernizing Prefix-Tuning by Decoupling the Prefix from Attention

要約

パラメーター効率の高い微調整(PEFT)メソッドは、大規模な言語モデル(LLM)をダウンストリームタスクに迅速に適応させるために重要になっています。
初期の効果的なPEFT技術であるプレフィックスチューニングは、計算およびメモリのオーバーヘッドが大幅に減少し、完全な微調整に匹敵するパフォーマンスを達成する能力を実証しました。
しかし、以前の成功にもかかわらず、最新の最先端のLLMSのトレーニングにおけるその有効性は非常に限られています。
この作業では、注意ヘッド内の入力と接頭辞の有意性との固有のトレードオフのために、プレフィックスチューニングがLLMのパフォーマンスを低下させることを経験的に示します。
これにより、Prefix-Tuning+を導入するようになります。プレフィックスチューニングの原理を一般化しながら、Attention Head自体からプレフィックスモジュールをシフトすることで欠点に対処する新しいアーキテクチャです。
さらに、独自のコンテキストベースの方法を構築する際に将来のユーザーをガイドするための建設プロセスの概要を説明します。
私たちの実験は、さまざまなベンチマークのセットで、プレフィックスチューニング+が既存のプレフィックスチューニングメソッドを常に上回ることを示しています。
特に、いくつかの一般的なベンチマークで広く採用されているLORAメソッドと同等のパフォーマンスを実現し、プレフィックスチューニングアプローチの潜在的な最新の拡張を強調しています。
私たちの調査結果は、その固有の制限を克服することにより、プレフィックス調整がパラメーター効率の高いLLM適応の状況における競争的で関連する研究の方向性を維持できることを示唆しています。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) methods have become crucial for rapidly adapting large language models (LLMs) to downstream tasks. Prefix-Tuning, an early and effective PEFT technique, demonstrated the ability to achieve performance comparable to full fine-tuning with significantly reduced computational and memory overhead. However, despite its earlier success, its effectiveness in training modern state-of-the-art LLMs has been very limited. In this work, we demonstrate empirically that Prefix-Tuning underperforms on LLMs because of an inherent tradeoff between input and prefix significance within the attention head. This motivates us to introduce Prefix-Tuning+, a novel architecture that generalizes the principles of Prefix-Tuning while addressing its shortcomings by shifting the prefix module out of the attention head itself. We further provide an overview of our construction process to guide future users when constructing their own context-based methods. Our experiments show that, across a diverse set of benchmarks, Prefix-Tuning+ consistently outperforms existing Prefix-Tuning methods. Notably, it achieves performance on par with the widely adopted LoRA method on several general benchmarks, highlighting the potential modern extension of Prefix-Tuning approaches. Our findings suggest that by overcoming its inherent limitations, Prefix-Tuning can remain a competitive and relevant research direction in the landscape of parameter-efficient LLM adaptation.

arxiv情報

著者 Haonan Wang,Brian Chen,Siquan Li,Xinhe Liang,Hwee Kuan Lee,Kenji Kawaguchi,Tianyang Hu
発行日 2025-06-17 15:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Prefix-Tuning+: Modernizing Prefix-Tuning by Decoupling the Prefix from Attention はコメントを受け付けていません

IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems

要約

逆運動学(IK)の問題を解決することは、ロボット工学の基本ですが、主に単一のシリアルマニピュレーターで成功しています。
マルチアームロボットシステムの場合、IKは複雑なセルフコリジション、結合ジョイント、および高次元の冗長性のために依然として困難です。
これらの複雑さにより、従来のIKソルバーが遅くなり、故障する傾向があり、ソリューションの多様性が欠けています。
この論文では、マルチアームロボットシステム向けの高速で多様なIKソリューション生成向けに設計された拡散ベースのモデルであるIkdiffuserを紹介します。
Ikdiffuserは、構成スペースを介して共同分布を学習し、複雑な依存関係をキャプチャし、異なる構造のマルチアームロボットシステムにシームレスな一般化を可能にします。
さらに、Ikdiffuserは、再訓練せずに推論中に追加の目標を組み込むことができ、タスク固有の要件に汎用性と適応性を提供できます。
6つの異なるマルチアームシステムに関する実験では、提案されたIKDiffuserは、既存のソルバーと比較して、優れたソリューションの精度、精度、多様性、および計算効率を達成します。
提案されているIkdiffuserフレームワークは、マルチアームIKの問題を解決するためのスケーラブルで統一されたアプローチを提供し、リアルタイムの操作タスクにおけるマルチアームロボットシステムの可能性を促進します。

要約(オリジナル)

Solving Inverse Kinematics (IK) problems is fundamental to robotics, but has primarily been successful with single serial manipulators. For multi-arm robotic systems, IK remains challenging due to complex self-collisions, coupled joints, and high-dimensional redundancy. These complexities make traditional IK solvers slow, prone to failure, and lacking in solution diversity. In this paper, we present IKDiffuser, a diffusion-based model designed for fast and diverse IK solution generation for multi-arm robotic systems. IKDiffuser learns the joint distribution over the configuration space, capturing complex dependencies and enabling seamless generalization to multi-arm robotic systems of different structures. In addition, IKDiffuser can incorporate additional objectives during inference without retraining, offering versatility and adaptability for task-specific requirements. In experiments on 6 different multi-arm systems, the proposed IKDiffuser achieves superior solution accuracy, precision, diversity, and computational efficiency compared to existing solvers. The proposed IKDiffuser framework offers a scalable, unified approach to solving multi-arm IK problems, facilitating the potential of multi-arm robotic systems in real-time manipulation tasks.

arxiv情報

著者 Zeyu Zhang,Ziyuan Jiao
発行日 2025-06-17 08:43:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | IKDiffuser: Fast and Diverse Inverse Kinematics Solution Generation for Multi-arm Robotic Systems はコメントを受け付けていません

ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language Models

要約

量子化は、大規模な言語モデル(LLM)のメモリ要件を減らすための効果的な手法として広く研究されており、潜在的に遅延時間を改善しています。
変圧器の回転不変性の特性を利用して、回転ベースの顕著性対応体重量子化(Rosaq)を提案します。これは、投影された「主要な」寸法が自然に「顕著な」特徴と見なされる元の特徴空間ではなく、投影機能空間で顕著なチャネルを識別します。
提案されたRosaqは、1)PCAベースの投影で構成されており、最初にキャリブレーションセットで主成分分析(PCA)を実行し、PCAプロジェクション、2)Salient Channel Dentificationを介して変換されます。
実験結果は、Rosaqが元の特徴空間やその他の既存の量子化方法でのベースラインの顕著性量子化の改善を示していることを示しています。
カーネルフュージョンにより、Rosaqは、64のバッチサイズの256トークンを生成するFP16実装で約2.3倍の速度を上げます。

要約(オリジナル)

Quantization has been widely studied as an effective technique for reducing the memory requirement of large language models (LLMs), potentially improving the latency time as well. Utilizing the characteristic of rotational invariance of transformer, we propose the rotation-based saliency-aware weight quantization (ROSAQ), which identifies salient channels in the projection feature space, not in the original feature space, where the projected ‘principal’ dimensions are naturally considered as ‘salient’ features. The proposed ROSAQ consists of 1) PCA-based projection, which first performs principal component analysis (PCA) on a calibration set and transforms via the PCA projection, 2) Salient channel dentification, which selects dimensions corresponding to the K-largest eigenvalues as salient channels, and 3) Saliency-aware quantization with mixed-precision, which uses FP16 for salient dimensions and INT3/4 for other dimensions. Experiment results show that ROSAQ shows improvements over the baseline saliency-aware quantization on the original feature space and other existing quantization methods. With kernel fusion, ROSAQ presents about 2.3x speed up over FP16 implementation in generating 256 tokens with a batch size of 64.

arxiv情報

著者 Junho Yoon,Geom Lee,Donghyeon Jeon,Inho Kang,Seung-Hoon Na
発行日 2025-06-17 09:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language Models はコメントを受け付けていません