Wasserstein Policy Optimization

要約

継続的なアクション空間での補強学習のためのアクタークリティックアルゴリズムであるWasserstein Policy Optimization(WPO)を紹介します。
WPOは、有限系統パラメーター空間(たとえば、ニューラルネットワークの重み)に投影されたすべてのポリシーの空間を介したワッサースタイン勾配の流れの近似として導き出され、シンプルで完全に一般的なクローズドフォームアップデートにつながります。
結果のアルゴリズムは、決定論的および古典的なポリシー勾配法の多くの特性を組み合わせています。
決定論的なポリシーグラデーションと同様に、アクションに関するアクション値関数の勾配に関する知識を活用します。
古典的なポリシーグラデーションと同様に、修復のトリックを使用せずに、アクションよりもarbitrary意的な分布を備えた確率的ポリシーに適用できます。
Deepmind Control Suiteの結果と、最先端の連続制御方法と比較して有利な磁気閉じ込め融合タスクを示します。

要約(オリジナル)

We introduce Wasserstein Policy Optimization (WPO), an actor-critic algorithm for reinforcement learning in continuous action spaces. WPO can be derived as an approximation to Wasserstein gradient flow over the space of all policies projected into a finite-dimensional parameter space (e.g., the weights of a neural network), leading to a simple and completely general closed-form update. The resulting algorithm combines many properties of deterministic and classic policy gradient methods. Like deterministic policy gradients, it exploits knowledge of the gradient of the action-value function with respect to the action. Like classic policy gradients, it can be applied to stochastic policies with arbitrary distributions over actions — without using the reparameterization trick. We show results on the DeepMind Control Suite and a magnetic confinement fusion task which compare favorably with state-of-the-art continuous control methods.

arxiv情報

著者 David Pfau,Ian Davies,Diana Borsa,Joao G. M. Araujo,Brendan Tracey,Hado van Hasselt
発行日 2025-05-01 17:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Wasserstein Policy Optimization はコメントを受け付けていません

Artificial Scientific Discovery

要約

過去10年にわたる深い学習の爆発に根ざしたこの論文は、アルファゴからチャットグプトに及び、人工科学者のビジョンを実現するために必要な基本的な概念を経験的に調べるために、元の研究を自律的に生成し、人間の知識の拡大に貢献する能力を持つ機械を経験的に調べます。
調査は、Othelloの知識をゼロから発見したが、それを伝えることができないAlphagoゼロのようなエージェントであるOlivawから始まります。
この実現は、説明学習(EL)フレームワークの開発につながります。これは、仲間に新しい現象を説明しようとするときに科学者が直面する問題の形式化です。
効果的なEL処方により、科学的努力をシミュレートする人気のあるボードゲームであるZendoをクラックできます。
この成功には根本的な洞察が伴います。人工科学者は、その発見を説明するために使用される言語の独自の解釈を開発しなければならず、既存の硬い通訳者に依存することはありません。
通訳を学ぶプロセスそのものに疑問を呈して、私たちは現代のマルチモーダルモデルの内的機能に注意を向けます。
これは、解釈と知覚が明示的に解き放たれているクリップのようなモデルを構築するという単純なアイデアで頂点に達します。これは、少ないマルチモーダルデータとさらなるトレーニングを使用して2つの単峰性モデルを結びつける費用対効果の高いアプローチです。
最後に、ChatGptとその兄弟が人工科学者になるためにまだ欠けていることを議論し、Big-Benchシンボル解釈タスクを紹介します。これは、人間によって完全に解決されながらLLMが乱数を超えないことを見るゼンドのような説明を解釈することに関するベンチマークです。

要約(オリジナル)

Rooted in the explosion of deep learning over the past decade, this thesis spans from AlphaGo to ChatGPT to empirically examine the fundamental concepts needed to realize the vision of an artificial scientist: a machine with the capacity to autonomously generate original research and contribute to the expansion of human knowledge. The investigation begins with Olivaw, an AlphaGo Zero-like agent that discovers Othello knowledge from scratch but is unable to communicate it. This realization leads to the development of the Explanatory Learning (EL) framework, a formalization of the problem faced by a scientist when trying to explain a new phenomenon to their peers. The effective EL prescriptions allow us to crack Zendo, a popular board game simulating the scientific endeavor. This success comes with a fundamental insight: an artificial scientist must develop its own interpretation of the language used to explain its findings, and not rely on a rigid existing interpreter. Questioning the very process of learning an interpreter, we turn our attention to the inner functioning of modern multimodal models. This culminates in a simple idea to build CLIP-like models where interpretation and perception are explicitly disentangled: a cost-effective approach that couples two unimodal models using little multimodal data and no further training. Finally, we discuss what ChatGPT and its siblings are still missing to become artificial scientists, and introduce the Big-Bench Symbol Interpretation Task, a benchmark about interpreting Zendo-like explanations that sees LLMs going no further than random chance while being instead fully solved by humans.

arxiv情報

著者 Antonio Norelli
発行日 2025-05-01 17:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2 | Artificial Scientific Discovery はコメントを受け付けていません

Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks

要約

生成制御ポリシーは最近、ロボット工学の大きな進歩を解き放ちました。
これらの方法は、デモンストレーションによって提供されるトレーニングデータを使用して、拡散またはフローマッチングを介してアクションシーケンスを生成します。
しかし、既存の方法には2つの重要な制限があります。専門家のデモが必要です。これは、取得が難しい場合があり、比較的遅い準静的タスクに限定されています。
この論文では、サンプリングベースの予測制御と生成モデリングとの間の緊密な接続を活用して、これらの各問題に対処します。
特に、シミュレートが簡単だが実証が困難な高速ダイナミクスを備えたタスクの監視された学習フレームワークである生成予測制御を紹介します。
次に、訓練されたフローマッチングポリシーを推論時間で温かく起動する方法を示し、時間的な一貫性を維持し、高周波フィードバックを可能にします。
生成予測制御は、既存の行動クローンメソッドに対する補完的なアプローチを提供し、準静的なデモンストレーション指向のタスクを超えて拡大する一般主義政策への道を開くことを望んでいると考えています。

要約(オリジナル)

Generative control policies have recently unlocked major progress in robotics. These methods produce action sequences via diffusion or flow matching, with training data provided by demonstrations. But existing methods come with two key limitations: they require expert demonstrations, which can be difficult to obtain, and they are limited to relatively slow, quasi-static tasks. In this paper, we leverage a tight connection between sampling-based predictive control and generative modeling to address each of these issues. In particular, we introduce generative predictive control, a supervised learning framework for tasks with fast dynamics that are easy to simulate but difficult to demonstrate. We then show how trained flow-matching policies can be warm-started at inference time, maintaining temporal consistency and enabling high-frequency feedback. We believe that generative predictive control offers a complementary approach to existing behavior cloning methods, and hope that it paves the way toward generalist policies that extend beyond quasi-static demonstration-oriented tasks.

arxiv情報

著者 Vince Kurtz,Joel W. Burdick
発行日 2025-05-01 17:23:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks はコメントを受け付けていません

Learning An Active Inference Model of Driver Perception and Control: Application to Vehicle Car-Following

要約

この論文では、有限のデモンストションに基づいて、感覚運動制御タスクで人間の知覚と制御のモデルを学習するための一般的な推定方法を紹介します。
モデルの構造は、コントロールアクションの結果として環境と関連する観察がどのように進化するかについてのエージェントの内部表現と、観察可能な結果よりもエージェントの好みを構成しています。
積極的な推論、人間の知覚の理論と認知科学の行動と一致するモデルの構造仕様を考慮します。
アクティブな推論によれば、エージェントは世界に作用して、エージェントの現在の感覚観測が好ましい感覚観測と異なる程度の尺度として定義された驚きを最小限に抑えるように作用します。
環境のエージェントのモデルの統計精度をパラメーター化する以前の分布の構造的仮定に依存する推定に対する双レベルの最適化アプローチを提案します。
提案された方法論を説明するために、自然主義的なデータセットに基づいて、自動車中の動作のモデルの推定を提示します。
全体として、結果は、データからの人間の知覚と制御の積極的な推論モデルを学習することが、ドライビングのブラックボックスモデルの有望な代替手段であることを示しています。

要約(オリジナル)

In this paper we introduce a general estimation methodology for learning a model of human perception and control in a sensorimotor control task based upon a finite set of demonstrations. The model’s structure consists of i the agent’s internal representation of how the environment and associated observations evolve as a result of control actions and ii the agent’s preferences over observable outcomes. We consider a model’s structure specification consistent with active inference, a theory of human perception and behavior from cognitive science. According to active inference, the agent acts upon the world so as to minimize surprise defined as a measure of the extent to which an agent’s current sensory observations differ from its preferred sensory observations. We propose a bi-level optimization approach to estimation which relies on a structural assumption on prior distributions that parameterize the statistical accuracy of the human agent’s model of the environment. To illustrate the proposed methodology, we present the estimation of a model for car-following behavior based upon a naturalistic dataset. Overall, the results indicate that learning active inference models of human perception and control from data is a promising alternative to black-box models of driving.

arxiv情報

著者 Ran Wei,Anthony D. McDonald,Alfredo Garcia,Gustav Markkula,Johan Engstrom,Matthew O’Kelly
発行日 2025-05-01 17:28:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Learning An Active Inference Model of Driver Perception and Control: Application to Vehicle Car-Following はコメントを受け付けていません

AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation

要約

最近、大規模な生成モデルは、未解決のテキストからイメージまでの生成機能を実証しています。
ただし、特に複数の被験者が関与する場合、特定の被験者を持つ高忠実度のパーソナライズされた画像を生成することは、依然として課題を提示します。
この論文では、パーソナライズされた主題生成のための統一されたアプローチであるAnystoryを提案します。
AnyStoryは、単一の被験者の忠実度のパーソナライズを達成するだけでなく、被験者の忠実度を犠牲にすることなく、複数の被験者にとっても達成します。
具体的には、Anystoryは、「エンコード – ルート」の方法で主題のパーソナライズ問題をモデル化します。
エンコーディングステップでは、任意のストーリーは、普遍的で強力な画像エンコーダー、つまり、Clip Visionエンコーダーと併せて、referencenetを使用して、サブジェクト機能の高忠実度エンコードを実現します。
ルーティングステップでは、Anystoryは、分離されたインスタンスアウェア対象ルーターを使用して、潜在空間における対応する主題の潜在的な位置を正確に知覚および予測し、被験者条件の注入を導きます。
詳細な実験結果は、被験者の詳細を保持し、テキストの説明を調整し、複数の被験者のパーソナライズにおける私たちの方法の優れたパフォーマンスを示しています。
プロジェクトページはhttps://aigcdesigngroup.github.io/anystory/にあります。

要約(オリジナル)

Recently, large-scale generative models have demonstrated outstanding text-to-image generation capabilities. However, generating high-fidelity personalized images with specific subjects still presents challenges, especially in cases involving multiple subjects. In this paper, we propose AnyStory, a unified approach for personalized subject generation. AnyStory not only achieves high-fidelity personalization for single subjects, but also for multiple subjects, without sacrificing subject fidelity. Specifically, AnyStory models the subject personalization problem in an ‘encode-then-route’ manner. In the encoding step, AnyStory utilizes a universal and powerful image encoder, i.e., ReferenceNet, in conjunction with CLIP vision encoder to achieve high-fidelity encoding of subject features. In the routing step, AnyStory utilizes a decoupled instance-aware subject router to accurately perceive and predict the potential location of the corresponding subject in the latent space, and guide the injection of subject conditions. Detailed experimental results demonstrate the excellent performance of our method in retaining subject details, aligning text descriptions, and personalizing for multiple subjects. The project page is at https://aigcdesigngroup.github.io/AnyStory/ .

arxiv情報

著者 Junjie He,Yuxiang Tuo,Binghui Chen,Chongyang Zhong,Yifeng Geng,Liefeng Bo
発行日 2025-05-01 09:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation はコメントを受け付けていません

Latte: Latent Diffusion Transformer for Video Generation

要約

ビデオ生成のための新しい潜在拡散トランスであるラテを提案します。
Latteは、最初に入力ビデオから空間的トークンを抽出し、次に一連の変圧器ブロックを採用して、潜在空間でビデオ分布をモデル化します。
ビデオから抽出されたかなりの数のトークンをモデル化するために、入力ビデオの空間的および時間的寸法を分解するという観点から、4つの効率的なバリエーションが導入されます。
生成されたビデオの品質を向上させるために、ビデオクリップパッチの埋め込み、モデルバリアント、タイムステップクラスの情報注入、時間的位置埋め込み、学習戦略など、厳密な実験分析を通じてラテのベストプラクティスを決定します。
当社の包括的な評価は、Latteが4つの標準ビデオ生成データセット、つまりFaceForensics、Skytimelaps、UCF101、およびTaichi-HDで最先端のパフォーマンスを達成していることを示しています。
さらに、Latteをテキストからビデオへの生成(T2V)タスクに拡張し、Latteは最近のT2Vモデルと競合する結果を達成します。
Latteは、変圧器をビデオ生成のための拡散モデルに組み込むことに関する将来の研究のための貴重な洞察を提供していると強く信じています。

要約(オリジナル)

We propose Latte, a novel Latent Diffusion Transformer for video generation. Latte first extracts spatio-temporal tokens from input videos and then adopts a series of Transformer blocks to model video distribution in the latent space. In order to model a substantial number of tokens extracted from videos, four efficient variants are introduced from the perspective of decomposing the spatial and temporal dimensions of input videos. To improve the quality of generated videos, we determine the best practices of Latte through rigorous experimental analysis, including video clip patch embedding, model variants, timestep-class information injection, temporal positional embedding, and learning strategies. Our comprehensive evaluation demonstrates that Latte achieves state-of-the-art performance across four standard video generation datasets, i.e., FaceForensics, SkyTimelapse, UCF101, and Taichi-HD. In addition, we extend Latte to the text-to-video generation (T2V) task, where Latte achieves results that are competitive with recent T2V models. We strongly believe that Latte provides valuable insights for future research on incorporating Transformers into diffusion models for video generation.

arxiv情報

著者 Xin Ma,Yaohui Wang,Xinyuan Chen,Gengyun Jia,Ziwei Liu,Yuan-Fang Li,Cunjian Chen,Yu Qiao
発行日 2025-05-01 09:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Latte: Latent Diffusion Transformer for Video Generation はコメントを受け付けていません

Real-Time Animatable 2DGS-Avatars with Detail Enhancement from Monocular Videos

要約

単眼ビデオからの高品質でアニメーション可能な3Dヒトアバター再建は、複雑なハードウェアへの依存を減らすための大きな可能性を提供し、ゲーム開発、拡張現実、ソーシャルメディアのアプリケーションに非常に実用的です。
ただし、既存の方法は、特に動的または複雑なポーズの下で、細かい幾何学的な詳細をキャプチャし、アニメーションの安定性を維持する上で依然として大きな課題に直面しています。
これらの問題に対処するために、2Dガウススプラッティング(2DG)に基づいた、アニメーション可能な人間のアバター再建のための新しいリアルタイムフレームワークを提案します。
2DGSとグローバルSMPLポーズパラメーターを活用することにより、私たちのフレームワークは位置と回転の不一致を調整するだけでなく、再構築されたアバターの堅牢で自然なポーズ駆動型のアニメーションを可能にします。
さらに、ローカルの幾何学的特徴をグローバルなポーズパラメーターと統合することにより、回転残差を学習する回転補償ネットワーク(RCN)を導入します。
このネットワークは、非剛性変形の処理を大幅に改善し、アニメーション中にスムーズでアーティファクトフリーのポーズ遷移を保証します。
実験結果は、私たちの方法が、単眼ビデオから現実的で非常にアニメーション可能な人間のアバターを成功裏に再構築し、安定した自然なポーズの変動を確保しながら、きめ細かい詳細を効果的に保存することを示しています。
私たちのアプローチは、パブリックベンチマークの再構築品質とアニメーションの堅牢性の両方で現在の最先端の方法を上回ります。

要約(オリジナル)

High-quality, animatable 3D human avatar reconstruction from monocular videos offers significant potential for reducing reliance on complex hardware, making it highly practical for applications in game development, augmented reality, and social media. However, existing methods still face substantial challenges in capturing fine geometric details and maintaining animation stability, particularly under dynamic or complex poses. To address these issues, we propose a novel real-time framework for animatable human avatar reconstruction based on 2D Gaussian Splatting (2DGS). By leveraging 2DGS and global SMPL pose parameters, our framework not only aligns positional and rotational discrepancies but also enables robust and natural pose-driven animation of the reconstructed avatars. Furthermore, we introduce a Rotation Compensation Network (RCN) that learns rotation residuals by integrating local geometric features with global pose parameters. This network significantly improves the handling of non-rigid deformations and ensures smooth, artifact-free pose transitions during animation. Experimental results demonstrate that our method successfully reconstructs realistic and highly animatable human avatars from monocular videos, effectively preserving fine-grained details while ensuring stable and natural pose variation. Our approach surpasses current state-of-the-art methods in both reconstruction quality and animation robustness on public benchmarks.

arxiv情報

著者 Xia Yuan,Hai Yuan,Wenyi Ge,Ying Fu,Xi Wu,Guanyu Xing
発行日 2025-05-01 09:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Real-Time Animatable 2DGS-Avatars with Detail Enhancement from Monocular Videos はコメントを受け付けていません

Leveraging Pretrained Diffusion Models for Zero-Shot Part Assembly

要約

3Dパーツアセンブリは、部分的な関係を理解し​​、6-DOFポーズを予測して現実的な3D形状を構築することを目的としており、ロボットにとって重要な自律アセンブリの需要の高まりに対処します。
既存の方法は、主に監督下でニューラルネットワークをトレーニングすることにより、各部品の変換を推定します。これには、実質的にラベル付けされたデータが必要です。
ただし、データ収集のコストが高く、現実世界の形状と部品の計り知れないばらつきにより、従来の方法は大規模なアプリケーションでは実用的ではありません。
このホワイトペーパーでは、最初に、事前に訓練されたポイントクラウド拡散モデルをアセンブリプロセスの判別器として利用し、部品の操作を導き、現実的な形状を形成することを最初に提案します。
具体的には、ゼロショットパーツアセンブリに拡散モデルを使用することは、反復的な近くのポイント(ICP)プロセスに変換できることを理論的に実証します。
次に、オーバーラップ部分に対処するための新しいプッシュアウェイ戦略を提案し、それによりメソッドの堅牢性をさらに高めます。
私たちの研究を検証するために、いくつかの強力なベースライン方法との広範な実験と定量的比較を実施し、提案されたアプローチの有効性を実証し、監視された学習方法を上回ります。
このコードは、https://github.com/ruiyuan-zhang/zero-shot-assemblyでリリースされています。

要約(オリジナル)

3D part assembly aims to understand part relationships and predict their 6-DoF poses to construct realistic 3D shapes, addressing the growing demand for autonomous assembly, which is crucial for robots. Existing methods mainly estimate the transformation of each part by training neural networks under supervision, which requires a substantial quantity of manually labeled data. However, the high cost of data collection and the immense variability of real-world shapes and parts make traditional methods impractical for large-scale applications. In this paper, we propose first a zero-shot part assembly method that utilizes pre-trained point cloud diffusion models as discriminators in the assembly process, guiding the manipulation of parts to form realistic shapes. Specifically, we theoretically demonstrate that utilizing a diffusion model for zero-shot part assembly can be transformed into an Iterative Closest Point (ICP) process. Then, we propose a novel pushing-away strategy to address the overlap parts, thereby further enhancing the robustness of the method. To verify our work, we conduct extensive experiments and quantitative comparisons to several strong baseline methods, demonstrating the effectiveness of the proposed approach, which even surpasses the supervised learning method. The code has been released on https://github.com/Ruiyuan-Zhang/Zero-Shot-Assembly.

arxiv情報

著者 Ruiyuan Zhang,Qi Wang,Jiaxiang Liu,Yu Zhang,Yuchi Huo,Chao Wu
発行日 2025-05-01 09:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Pretrained Diffusion Models for Zero-Shot Part Assembly はコメントを受け付けていません

Uncertainty-aware Bayesian machine learning modelling of land cover classification

要約

土地のカバー分類には、リモートセンシング画像を介した土地の種類を決定する土地カバーマップの生産が含まれます。
近年、このような分類は機械学習分類モデルによって実行されており、大量の入力トレーニングデータを使用してピクセルあたりの土地被覆に関する非常に正確な予測を提供できます。
ただし、このようなモデルは現在、入力測定の不確実性を考慮していません。これは、計測におけるトレーサビリティに不可欠です。
この作業では、入力測定の不確実性を考慮に入れるために生成モデリングを使用したベイズ分類フレームワークを提案します。
ベイジアン二次判別分析の特定のケースを取り、2020年と2021年にコペルニクスセンチネル2の土地被覆データセットに適用します。モデルのパフォーマンスを、ランダムフォレストやニューラルネットワークなどの土地カバーマップで使用するより一般的な分類モデルに対してベンチマークします。
このようなベイジアンモデルは、より解釈可能であるという意味で、入力測定の不確実性を明示的にモデル化し、異なる年とサイズのデータ​​セット全体でクラス確率出力の予測パフォーマンスを維持しながら、計算上効率を上げているという意味で、より信頼できるものであることがわかります。

要約(オリジナル)

Land cover classification involves the production of land cover maps, which determine the type of land through remote sensing imagery. Over recent years, such classification is being performed by machine learning classification models, which can give highly accurate predictions on land cover per pixel using large quantities of input training data. However, such models do not currently take account of input measurement uncertainty, which is vital for traceability in metrology. In this work we propose a Bayesian classification framework using generative modelling to take account of input measurement uncertainty. We take the specific case of Bayesian quadratic discriminant analysis, and apply it to land cover datasets from Copernicus Sentinel-2 in 2020 and 2021. We benchmark the performance of the model against more popular classification models used in land cover maps such as random forests and neural networks. We find that such Bayesian models are more trustworthy, in the sense that they are more interpretable, explicitly model the input measurement uncertainty, and maintain predictive performance of class probability outputs across datasets of different years and sizes, whilst also being computationally efficient.

arxiv情報

著者 Samuel Bilson,Anna Pustogvar
発行日 2025-05-01 10:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Uncertainty-aware Bayesian machine learning modelling of land cover classification はコメントを受け付けていません

FOOL: Addressing the Downlink Bottleneck in Satellite Computing with Neural Feature Compression

要約

大規模な地理的地域をキャプチャするセンサーを装備したナノサテライト星座は、地球観察のための前例のない機会を提供します。
星座のサイズが増加すると、ネットワークの競合はダウンリンクボトルネックをもたらします。
Orbital Edge Computing(OEC)は、ソースでRAWキャプチャを処理することにより、転送コストを削減するための限定オンボードコンピューティングリソースを活用します。
ただし、現在のソリューションは、粗ろ過方法に依存しているか、特定の下流タスクの過度に優先するため、実用性が限られています。
この作品は、予測のパフォーマンスを維持するOECナティブおよびタスクに依存しない特徴圧縮法であるFoolを提示します。
フールパーティションで、スループットを最大化するために高解像度の衛星画像を分割します。
さらに、それはコンテキストを埋め込み、タイル間の依存関係をレバレッジして、無視できるオーバーヘッドで転送コストを削減します。
Foolは機能コンプレッサーですが、低ビットレートでの品質測定の競争力のあるスコアで画像を回復できます。
低い地球軌道で断続的に利用可能なネットワーク接続の特異性を含めることにより、転送コスト削減を広範囲に評価します。
最後に、標準化されたナノサテライトフォームファクターのシステムの実現可能性をテストします。
私たちは、Foolがダウンストリームタスクに関する以前の情報に依存することなく、データボリュームを100倍以上ダウンリンクすることを許可することを実証します。

要約(オリジナル)

Nanosatellite constellations equipped with sensors capturing large geographic regions provide unprecedented opportunities for Earth observation. As constellation sizes increase, network contention poses a downlink bottleneck. Orbital Edge Computing (OEC) leverages limited onboard compute resources to reduce transfer costs by processing the raw captures at the source. However, current solutions have limited practicability due to reliance on crude filtering methods or over-prioritizing particular downstream tasks. This work presents FOOL, an OEC-native and task-agnostic feature compression method that preserves prediction performance. FOOL partitions high-resolution satellite imagery to maximize throughput. Further, it embeds context and leverages inter-tile dependencies to lower transfer costs with negligible overhead. While FOOL is a feature compressor, it can recover images with competitive scores on quality measures at lower bitrates. We extensively evaluate transfer cost reduction by including the peculiarity of intermittently available network connections in low earth orbit. Lastly, we test the feasibility of our system for standardized nanosatellite form factors. We demonstrate that FOOL permits downlinking over 100x the data volume without relying on prior information on the downstream tasks.

arxiv情報

著者 Alireza Furutanpey,Qiyang Zhang,Philipp Raith,Tobias Pfandzelter,Shangguang Wang,Schahram Dustdar
発行日 2025-05-01 10:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, cs.LG, cs.NI, eess.IV | FOOL: Addressing the Downlink Bottleneck in Satellite Computing with Neural Feature Compression はコメントを受け付けていません