Emerging Properties in Unified Multimodal Pretraining

要約

統一されたマルチモーダルの理解と生成は、最先端の独自のシステムで印象的な能力を示しています。
この作業では、マルチモーダルの理解と生成をネイティブにサポートするOpen0Sourceの基礎モデルであるBagelを紹介します。
ベーグルは、大規模なインテリアのテキスト、画像、ビデオ、およびWebデータからキュレーションされた数兆個のトークンで前処理された統一されたdecoder0onlyモデルです。
このような多様なマルチモーダルインターリーブデータで拡大すると、ベーグルは複雑なマルチモーダル推論に新たな能力を示します。
その結果、フリーフォームの画像操作、将来のフレーム予測、3D操作、世界ナビゲーションなどの高度なマルチモーダル推論能力を示しながら、マルチモーダル生成と標準ベンチマーク全体の理解の両方でオープンソースユニファイドモデルを大幅に上回ります。
マルチモーダル研究のさらなる機会を促進することを期待して、主要な調査結果、事前トレーニングの詳細、データ作成プロトカルを共有し、コードとチェックポイントをコミュニティにリリースします。
プロジェクトページはhttps://bagel-ai.org/にあります

要約(オリジナル)

Unifying multimodal understanding and generation has shown impressive capabilities in cutting-edge proprietary systems. In this work, we introduce BAGEL, an open0source foundational model that natively supports multimodal understanding and generation. BAGEL is a unified, decoder0only model pretrained on trillions of tokens curated from large0scale interleaved text, image, video, and web data. When scaled with such diverse multimodal interleaved data, BAGEL exhibits emerging capabilities in complex multimodal reasoning. As a result, it significantly outperforms open-source unified models in both multimodal generation and understanding across standard benchmarks, while exhibiting advanced multimodal reasoning abilities such as free-form image manipulation, future frame prediction, 3D manipulation, and world navigation. In the hope of facilitating further opportunities for multimodal research, we share the key findings, pretraining details, data creation protocal, and release our code and checkpoints to the community. The project page is at https://bagel-ai.org/

arxiv情報

著者 Chaorui Deng,Deyao Zhu,Kunchang Li,Chenhui Gou,Feng Li,Zeyu Wang,Shu Zhong,Weihao Yu,Xiaonan Nie,Ziang Song,Guang Shi,Haoqi Fan
発行日 2025-05-20 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Emerging Properties in Unified Multimodal Pretraining はコメントを受け付けていません

Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers

要約

拡散ベースの変圧器は印象的な生成機能を実証していますが、その高い計算コストは​​実用的な展開を妨げています。たとえば、8192ドルの8192 $の画像を生成すると、A100 GPUで1時間以上かかります。
この作業では、grat(\ textbf {gr} ouring first、\ textbf {at}はスマートに\ tending)を提案します。
重要な洞察は、前処理された拡散トランスの学習注意マップ(局所的に焦点を当てる傾向がある)に固有のスパース性を活用し、より良いGPU並列性を活用することです。
具体的には、GRATは、GPU実行パターンと、前処理された生成トランスで学習した局所的な注意構造に合わせて、重複しないグループに隣接するトークンを最初にパーティション化します。
次に、同じグループ内のすべてのクエリトークンを、参加可能なキーとバリュートークンの共通のセットを共有することにより、注意を加速します。
これらのキーと値のトークンは、周囲のブロックや交差点領域などの構造化された領域にさらに制限されており、計算オーバーヘッドを大幅に減らします(たとえば、\ textbf {35.8 $ \ times $} $ 8192 \ times 8192 $の画像を生成するときに完全に注意を払います)。
イメージとビデオ生成のために、それぞれ前処理されたフラックスとhunyuanvideoのGratを検証します。
どちらの場合も、GRATは、完全に注意のパフォーマンスを維持しながら、微調整なしで大幅に速い推論を達成します。
Gratが、スケーラブルな視覚生成のための拡散トランスの加速に関する将来の研究を促すことを願っています。

要約(オリジナル)

Diffusion-based Transformers have demonstrated impressive generative capabilities, but their high computational costs hinder practical deployment, for example, generating an $8192\times 8192$ image can take over an hour on an A100 GPU. In this work, we propose GRAT (\textbf{GR}ouping first, \textbf{AT}tending smartly), a training-free attention acceleration strategy for fast image and video generation without compromising output quality. The key insight is to exploit the inherent sparsity in learned attention maps (which tend to be locally focused) in pretrained Diffusion Transformers and leverage better GPU parallelism. Specifically, GRAT first partitions contiguous tokens into non-overlapping groups, aligning both with GPU execution patterns and the local attention structures learned in pretrained generative Transformers. It then accelerates attention by having all query tokens within the same group share a common set of attendable key and value tokens. These key and value tokens are further restricted to structured regions, such as surrounding blocks or criss-cross regions, significantly reducing computational overhead (e.g., attaining a \textbf{35.8$\times$} speedup over full attention when generating $8192\times 8192$ images) while preserving essential attention patterns and long-range context. We validate GRAT on pretrained Flux and HunyuanVideo for image and video generation, respectively. In both cases, GRAT achieves substantially faster inference without any fine-tuning, while maintaining the performance of full attention. We hope GRAT will inspire future research on accelerating Diffusion Transformers for scalable visual generation.

arxiv情報

著者 Sucheng Ren,Qihang Yu,Ju He,Alan Yuille,Liang-Chieh Chen
発行日 2025-05-20 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Grouping First, Attending Smartly: Training-Free Acceleration for Diffusion Transformers はコメントを受け付けていません

A Practical Guide for Incorporating Symmetry in Diffusion Policy

要約

最近、政策学習のための同等のニューラルネットワークは、サンプルの効率と一般化の有望な改善を示していますが、それらの幅広い採用は、実装の複雑さのために大きな障壁に直面しています。
等量のアーキテクチャには通常、特殊な数学的定式化とカスタムネットワーク設計が必要であり、拡散ベースのモデルなどの最新のポリシーフレームワークと統合する際に大きな課題を提起します。
このホワイトペーパーでは、完全な等量設計のオーバーヘッドなしに対称性の利点を拡散ポリシーに組み込むための多くの簡単かつ実用的なアプローチを探ります。
具体的には、(i)相対的な軌跡アクションと目の握手の知覚を介した不変表現、(ii)等式のビジョンエンコーダーの統合、および(iii)フレーム平均化を使用した前提条件のエンコーダーとの対称特徴抽出を調査します。
まず、目の中での知覚と相対的またはデルタのアクションパラメーター化を組み合わせることで、固有のSE(3)不変性が得られ、したがって政策の一般化が改善されることを証明します。
次に、拡散ポリシーに対称性を統合するためのこれらの設計選択に関する系統的な実験的研究を実施し、等しい特徴抽出を伴う不変表現がポリシーのパフォーマンスを大幅に改善すると結論付けます。
私たちの方法は、実装を大幅に簡素化しながら、完全に等しいアーキテクチャと同等またはそれを超えるパフォーマンスを達成します。

要約(オリジナル)

Recently, equivariant neural networks for policy learning have shown promising improvements in sample efficiency and generalization, however, their wide adoption faces substantial barriers due to implementation complexity. Equivariant architectures typically require specialized mathematical formulations and custom network design, posing significant challenges when integrating with modern policy frameworks like diffusion-based models. In this paper, we explore a number of straightforward and practical approaches to incorporate symmetry benefits into diffusion policies without the overhead of full equivariant designs. Specifically, we investigate (i) invariant representations via relative trajectory actions and eye-in-hand perception, (ii) integrating equivariant vision encoders, and (iii) symmetric feature extraction with pretrained encoders using Frame Averaging. We first prove that combining eye-in-hand perception with relative or delta action parameterization yields inherent SE(3)-invariance, thus improving policy generalization. We then perform a systematic experimental study on those design choices for integrating symmetry in diffusion policies, and conclude that an invariant representation with equivariant feature extraction significantly improves the policy performance. Our method achieves performance on par with or exceeding fully equivariant architectures while greatly simplifying implementation.

arxiv情報

著者 Dian Wang,Boce Hu,Shuran Song,Robin Walters,Robert Platt
発行日 2025-05-20 15:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Practical Guide for Incorporating Symmetry in Diffusion Policy はコメントを受け付けていません

Minimum-Excess-Work Guidance

要約

過剰な作業を最小限に抑えることにより、統計力学に根ざした概念と最適な輸送への強力な概念接続を伴う、事前に訓練された確率フロー生成モデル(継続的な正規化フローまたは拡散モデルなど)を導くための熱力学的作業に触発された正規化フレームワークを提案します。
当社のアプローチにより、科学的アプリケーションに共通するまばらなデータレジームでの効率的なガイダンスが可能になります。
2つの戦略を紹介します。ユーザー定義のサブセットに確率質量を集中させることにより、まれな遷移状態をサンプリングするためのパスガイダンスと、エントロピーを保存しながら生成された分布を実験的な観測可能性に合わせるための観察可能なガイダンスです。
粗粒のタンパク質モデルでのフレームワークの汎用性を実証し、折り畳まれた状態間の遷移構成をサンプリングし、実験データを使用して系統的バイアスを修正するように導きます。
このメソッドは、最新の生成アーキテクチャを備えた熱力学的原理を橋渡しし、データスカルスドメインの標準的な微調整に代わる原則的で効率的で物理学に触発された代替品を提供します。
経験的結果は、サンプルの効率とバイアスの低下の改善を強調し、分子シミュレーションおよびそれ以降の適用性を強調しています。

要約(オリジナル)

We propose a regularization framework inspired by thermodynamic work for guiding pre-trained probability flow generative models (e.g., continuous normalizing flows or diffusion models) by minimizing excess work, a concept rooted in statistical mechanics and with strong conceptual connections to optimal transport. Our approach enables efficient guidance in sparse-data regimes common to scientific applications, where only limited target samples or partial density constraints are available. We introduce two strategies: Path Guidance for sampling rare transition states by concentrating probability mass on user-defined subsets, and Observable Guidance for aligning generated distributions with experimental observables while preserving entropy. We demonstrate the framework’s versatility on a coarse-grained protein model, guiding it to sample transition configurations between folded/unfolded states and correct systematic biases using experimental data. The method bridges thermodynamic principles with modern generative architectures, offering a principled, efficient, and physics-inspired alternative to standard fine-tuning in data-scarce domains. Empirical results highlight improved sample efficiency and bias reduction, underscoring its applicability to molecular simulations and beyond.

arxiv情報

著者 Christopher Kolloff,Tobias Höppe,Emmanouil Angelis,Mathias Jacob Schreiner,Stefan Bauer,Andrea Dittadi,Simon Olsson
発行日 2025-05-20 15:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Minimum-Excess-Work Guidance はコメントを受け付けていません

J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization

要約

大規模な言語モデル(LLM)開発のペースの増加に対応するために、モデルの出力評価は、LLM自体が他のモデル出力の評価と批判を担当する自動評価に至るまで、時間のかかる人間の評価から離れて移行しました。
LLM-As-Judgeモデルは、チャットの品質などの比較的単純なドメインを評価するのに優れている生成評価者のクラスですが、モデル応答がより実質的で挑戦的なコンテンツを含む集中的なドメインを推論するのに苦労しています。
既存の裁判官の欠点を改善するために、補強学習(RL)で訓練裁判官を探求します。
3つの重要な貢献をします。(1)同等の初期状態グループ相対政策最適化(EIS-GRPO)アルゴリズムを提案します。これにより、より複雑な評価設定で発生する位置バイアスに堅牢であるように裁判官を訓練できます。
(2)ReasonIngJudgeBenchを紹介します。これは、以前の作業でカバーされていない多様な推論設定で裁判官を評価するベンチマークです。
(3)GPT-4Oを上回るEIS-GRPOで訓練された7Bの裁判官であり、次の最高の小さな裁判官を6.7%と9%で訓練し、Judgent-BenchとReasoningJudgeBenchの両方で大規模なGRPO訓練を受けた裁判官のパフォーマンスを一致させるか、それを超える7Bの裁判官を訓練します。

要約(オリジナル)

To keep pace with the increasing pace of large language models (LLM) development, model output evaluation has transitioned away from time-consuming human evaluation to automatic evaluation, where LLMs themselves are tasked with assessing and critiquing other model outputs. LLM-as-judge models are a class of generative evaluators that excel in evaluating relatively simple domains, like chat quality, but struggle in reasoning intensive domains where model responses contain more substantive and challenging content. To remedy existing judge shortcomings, we explore training judges with reinforcement learning (RL). We make three key contributions: (1) We propose the Equivalent Initial State Group Relative Policy Optimization (EIS-GRPO) algorithm, which allows us to train our judge to be robust to positional biases that arise in more complex evaluation settings. (2) We introduce ReasoningJudgeBench, a benchmark that evaluates judges in diverse reasoning settings not covered by prior work. (3) We train Judge for Reasoning (J4R), a 7B judge trained with EIS-GRPO that outperforms GPT-4o and the next best small judge by 6.7% and 9%, matching or exceeding the performance of larger GRPO-trained judges on both JudgeBench and ReasoningJudgeBench.

arxiv情報

著者 Austin Xu,Yilun Zhou,Xuan-Phi Nguyen,Caiming Xiong,Shafiq Joty
発行日 2025-05-20 14:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization はコメントを受け付けていません

One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

要約

拡散ベースの生成モデルは並外れたパフォーマンスを実証していますが、それらの反復サンプリング手順は計算上高価のままです。
このコストを緩和する顕著な戦略は蒸留であり、オフライン蒸留は効率、モジュール性、柔軟性の点で特定の利点を提供します。
この作業では、原則的な蒸留フレームワークを動機付ける2つの重要な観察結果を特定します。(1)動的システム理論のレンズを通じて拡散モデルが見られている一方で、強力で採用されていないツールをさらに活用できます。
(2)拡散モデルは、潜在空間に構造化された意味的に一貫した軌跡を本質的に課します。
これらの観察に基づいて、Koopman蒸留モデルKDMを紹介します。これは、変換された空間で非線形ダイナミクスを直線的に表現するためのKoopman Theory-A Classical Frameworkに基づいた新しいオフライン蒸留アプローチです。
KDMは、学習した線形演算子がそれらを前方に伝播する埋め込みスペースに騒々しい入力をエンコードし、その後にクリーンサンプルを再構築するデコーダーが続きます。
これにより、セマンティックフィデリティを維持しながら、シングルステップの生成が可能になります。
私たちはアプローチの理論的正当化を提供します。(1)穏やかな仮定の下で、学習した拡散ダイナミクスは有限の次元Koopman表現を認めます。
(2)Koopman潜在スペースの近接性は、生成された出力のセマンティックな類似性と相関しており、効果的な軌道アライメントを可能にします。
経験的には、KDMは標準のオフライン蒸留ベンチマーク全体で最先端のパフォーマンスを達成し、単一の世代のステップでFIDスコアを最大40%改善します。
実験セットアップのすべての実装の詳細とコードは、github-https://github.com/azencot-group/kdm、またはプロジェクトページ-https://sites.google.com/view/koopman-distilation-modelに提供されています。

要約(オリジナル)

Diffusion-based generative models have demonstrated exceptional performance, yet their iterative sampling procedures remain computationally expensive. A prominent strategy to mitigate this cost is distillation, with offline distillation offering particular advantages in terms of efficiency, modularity, and flexibility. In this work, we identify two key observations that motivate a principled distillation framework: (1) while diffusion models have been viewed through the lens of dynamical systems theory, powerful and underexplored tools can be further leveraged; and (2) diffusion models inherently impose structured, semantically coherent trajectories in latent space. Building on these observations, we introduce the Koopman Distillation Model KDM, a novel offline distillation approach grounded in Koopman theory-a classical framework for representing nonlinear dynamics linearly in a transformed space. KDM encodes noisy inputs into an embedded space where a learned linear operator propagates them forward, followed by a decoder that reconstructs clean samples. This enables single-step generation while preserving semantic fidelity. We provide theoretical justification for our approach: (1) under mild assumptions, the learned diffusion dynamics admit a finite-dimensional Koopman representation; and (2) proximity in the Koopman latent space correlates with semantic similarity in the generated outputs, allowing for effective trajectory alignment. Empirically, KDM achieves state-of-the-art performance across standard offline distillation benchmarks, improving FID scores by up to 40% in a single generation step. All implementation details and code for the experimental setups are provided in our GitHub – https://github.com/azencot-group/KDM, or in our project page – https://sites.google.com/view/koopman-distillation-model.

arxiv情報

著者 Nimrod Berman,Ilan Naiman,Moshe Eliasof,Hedi Zisling,Omri Azencot
発行日 2025-05-20 14:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling はコメントを受け付けていません

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

要約

データからの堅牢な表現を学習するには、多くの場合、スケールが必要であり、クリップなどの最近のゼロショットモデルの成功につながりました。
ただし、得られた堅牢性は、これらのモデルが他のダウンストリームタスク(たとえば、スケールなど)で微調整されると簡単に劣化できます。
以前の作品は、ドメインシフトのコンテキストでこの現象をしばしば解釈し、可能な限り元のドメインを保存することを目的とした微調整方法を開発します。
ただし、別のコンテキストでは、データが限られている微調整されたモデルは、背景やテクスチャなど、人間に偽の学習機能にもなりやすくなります。
この論文では、Starft(Smolious Textual Alignment Resulization)を提案します。これは、ゼロショットモデルを微調整するための新しいフレームワークであり、それらがスプリオシティを学ぶのを防ぐことで堅牢性を高めることです。
Spuriosity注入ラベルの出力分布を元のZero-Shotモデルと並べる正規化を導入し、これらの記述から無関係な特徴をさらに抽出するようにモデルが誘導されないようにします。
最近の言語モデルを活用して、潜在的に交絡する機能を強調する代替テキストの説明を生成することにより、そのようなspuriosity注入ラベルを取得します。
広範な実験では、Starftとその新たな特性の堅牢な一般化を検証します:ゼロショットグループの堅牢性と改善されたゼロショット分類。
特に、Starftは、Waterbirds Group Shiftシナリオで、最悪のグループと平均精度の両方をそれぞれ14.30%と3.02%増加させます。

要約(オリジナル)

Learning robust representations from data often requires scale, which has led to the success of recent zero-shot models such as CLIP. However, the obtained robustness can easily be deteriorated when these models are fine-tuned on other downstream tasks (e.g., of smaller scales). Previous works often interpret this phenomenon in the context of domain shift, developing fine-tuning methods that aim to preserve the original domain as much as possible. However, in a different context, fine-tuned models with limited data are also prone to learning features that are spurious to humans, such as background or texture. In this paper, we propose StarFT (Spurious Textual Alignment Regularization), a novel framework for fine-tuning zero-shot models to enhance robustness by preventing them from learning spuriosity. We introduce a regularization that aligns the output distribution for spuriosity-injected labels with the original zero-shot model, ensuring that the model is not induced to extract irrelevant features further from these descriptions. We leverage recent language models to get such spuriosity-injected labels by generating alternative textual descriptions that highlight potentially confounding features. Extensive experiments validate the robust generalization of StarFT and its emerging properties: zero-shot group robustness and improved zero-shot classification. Notably, StarFT boosts both worst-group and average accuracy by 14.30% and 3.02%, respectively, in the Waterbirds group shift scenario, where other robust fine-tuning baselines show even degraded performance.

arxiv情報

著者 Younghyun Kim,Jongheon Jeong,Sangkyung Kwak,Kyungmin Lee,Juho Lee,Jinwoo Shin
発行日 2025-05-20 12:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment はコメントを受け付けていません

MSCEKF-MIO: Magnetic-Inertial Odometry Based on Multi-State Constraint Extended Kalman Filter

要約

多くの場合、精度の費用対効果の要件を同時に満たすことができない既存の屋内臭気技術の制限を克服するために、堅牢性 – この論文は、新しい磁力計アレイ支援慣性臭気測定アプローチであるMSCEKF-MIO(マルチステート制約拡張カルマンフィルターベースの磁気腫法)を提案します。
磁力計アレイから測定値をフィッティングすることにより磁場モデルを構築し、連続的な観測から抽出されたこのモデルの時間的変動を使用して、キャリアの絶対速度を推定します。
さらに、MSCEKFフレームワークを実装して、観測された磁場変動を慣性航法システム(INS)統合からの位置と態度の推定で融合し、それによって自律的で高精度の屋内相対位置付けを可能にします。
実験結果は、提案されたアルゴリズムが、最先端の磁気アレイ支援INSアルゴリズム(MANS)と比較して、優れた速度推定精度と水平位置決め精度を達成することを示しています。
150〜250mの軌道長のデータセットでは、提案された方法では、平均水平位置rmseが約2.5mになります。
特徴的な磁気特徴を備えた領域では、磁気介入臭気は0.07m/sの速度推定精度を達成します。
その結果、提案された方法は、複雑な屋内環境での低消費電力、費用対効果、および高い信頼性を特徴とする新しいポジショニングソリューションを提供します。

要約(オリジナル)

To overcome the limitation of existing indoor odometry technologies which often cannot simultaneously meet requirements for accuracy cost-effectiveness, and robustness-this paper proposes a novel magnetometer array-aided inertial odometry approach, MSCEKF-MIO (Multi-State Constraint Extended Kalman Filter-based Magnetic-Inertial Odometry). We construct a magnetic field model by fitting measurements from the magnetometer array and then use temporal variations in this model-extracted from continuous observations-to estimate the carrier’s absolute velocity. Furthermore, we implement the MSCEKF framework to fuse observed magnetic field variations with position and attitude estimates from inertial navigation system (INS) integration, thereby enabling autonomous, high-precision indoor relative positioning. Experimental results demonstrate that the proposed algorithm achieves superior velocity estimation accuracy and horizontal positioning precision relative to state-of-the-art magnetic array-aided INS algorithms (MAINS). On datasets with trajectory lengths of 150-250m, the proposed method yields an average horizontal position RMSE of approximately 2.5m. In areas with distinctive magnetic features, the magneto-inertial odometry achieves a velocity estimation accuracy of 0.07m/s. Consequently, the proposed method offers a novel positioning solution characterized by low power consumption, cost-effectiveness, and high reliability in complex indoor environments.

arxiv情報

著者 Jiazhu Li,Jian Kuang,Xiaoji Niu
発行日 2025-05-20 07:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SP, eess.SY | MSCEKF-MIO: Magnetic-Inertial Odometry Based on Multi-State Constraint Extended Kalman Filter はコメントを受け付けていません

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

要約

この記事では、Ig Parserの概要を説明します。これは、正式な(例:法的)規則または非公式(社会的)規範の定性的コンテンツ分析を促進するソフトウェアであり、社会システムを管理し、制度システムを説明するために構成的に運営する戦略(制度と呼ばれる)(制度と呼ばれる)戦略(慣習など)を促進します。
この目的のために、IGパーサーは、自然言語の厳密なエンコーディングを保証する特徴的な構文を採用し、多様な分析技術を使用した下流の分析をサポートするさまざまな形式への変換を自動化します。
IGパーサーの概念コアは、関連する構文であるIGスクリプト、制度的文法の概念的基盤、より具体的には制度分析の分析パラダイムである制度文法2.0を運用することです。
この記事では、概念的基盤、IGスクリプトの構文仕様、およびその建築原理を含むIGパーサーを紹介します。
この概要は、その使用と関連する利点を強調する選択的な例示的な例で補強されています。

要約(オリジナル)

This article provides an overview of IG Parser, a software that facilitates qualitative content analysis of formal (e.g., legal) rules or informal (e.g., social) norms, and strategies (such as conventions) — referred to as institutions — that govern social systems and operate configurally to describe institutional systems. To this end, the IG Parser employs a distinctive syntax that ensures rigorous encoding of natural language, while automating the transformation into various formats that support the downstream analysis using diverse analytical techniques. The conceptual core of the IG Parser is an associated syntax, IG Script, that operationalizes the conceptual foundations of the Institutional Grammar, and more specifically the Institutional Grammar 2.0, an analytical paradigm for institutional analysis. This article presents the IG Parser, including its conceptual foundations, the syntax specification of IG Script, and its architectural principles. This overview is augmented with selective illustrative examples that highlight its use and the associated benefits.

arxiv情報

著者 Christopher K. Frantz
発行日 2025-05-20 09:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T30, 68T50, cs.AI, cs.CL, cs.MA, E.2 | IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar はコメントを受け付けていません

Event-Driven Dynamic Scene Depth Completion

要約

ダイナミックシーンの深さの完了は、RGB画像やLIDAR測定などの入力モダリティの品質を大幅に低下させることができる、急速なエゴモーションとオブジェクトの動きのために大きな課題をもたらします。
従来のRGB-Dセンサーは、しばしば正確に整列し、そのような条件下で信頼できる深さをキャプチャするのに苦労しています。
対照的に、ピクセルレベルでの運動に対する高い時間分解能と感度を持つイベントカメラは、動的環境で特に有益な補完的なキューを提供します。この目的に、最初のイベント駆動型深度完了フレームワークであるEventDCを提案します。
イベント調整アライメント(EMA)とローカル深度フィルタリング(LDF)の2つの重要なコンポーネントで構成されています。
両方のモジュールは、畳み込み操作の2つの基本的なコンポーネントを適応的に学習します。オフセットと動きに敏感なイベントストリームに条件付けられています。
エンコーダでは、EMAはイベントを活用してRGB-D機能のサンプリング位置を変調して、アライメントと融合を改善するためのピクセル再分布を実現します。
デコーダーでは、LDFは、イベントからモーション認識マスクを学習することにより、移動するオブジェクトを中心に深さの推定を改善します。
さらに、EventDCには2つの損失条件が組み込まれて、グローバルなアライメントにさらに利益をもたらし、ローカル深度回復を強化します。
さらに、将来の研究を促進するために、1つの現実世界と2つの合成データセットを含むイベントベースの深度完了の最初のベンチマークを確立します。
このベンチマークでの広範な実験は、私たちのEventDCの優位性を示しています。

要約(オリジナル)

Depth completion in dynamic scenes poses significant challenges due to rapid ego-motion and object motion, which can severely degrade the quality of input modalities such as RGB images and LiDAR measurements. Conventional RGB-D sensors often struggle to align precisely and capture reliable depth under such conditions. In contrast, event cameras with their high temporal resolution and sensitivity to motion at the pixel level provide complementary cues that are %particularly beneficial in dynamic environments.To this end, we propose EventDC, the first event-driven depth completion framework. It consists of two key components: Event-Modulated Alignment (EMA) and Local Depth Filtering (LDF). Both modules adaptively learn the two fundamental components of convolution operations: offsets and weights conditioned on motion-sensitive event streams. In the encoder, EMA leverages events to modulate the sampling positions of RGB-D features to achieve pixel redistribution for improved alignment and fusion. In the decoder, LDF refines depth estimations around moving objects by learning motion-aware masks from events. Additionally, EventDC incorporates two loss terms to further benefit global alignment and enhance local depth recovery. Moreover, we establish the first benchmark for event-based depth completion comprising one real-world and two synthetic datasets to facilitate future research. Extensive experiments on this benchmark demonstrate the superiority of our EventDC.

arxiv情報

著者 Zhiqiang Yan,Jianhao Jiao,Zhengxue Wang,Gim Hee Lee
発行日 2025-05-20 07:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Event-Driven Dynamic Scene Depth Completion はコメントを受け付けていません