Autellix: An Efficient Serving Engine for LLM Agents as General Programs

要約

大規模な言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて動的な汎用エージェントプログラムに進化しています。これは、LLMコールと出力トークンをスケーリングして、AIエージェントが複雑なタスクの推論、探索、解決を支援します。
ただし、既存のLLMサービングシステムは、プログラムとコールの間の依存関係を無視し、最適化のための重要な機会を欠いています。
私たちの分析により、LLMサービスエンジンに提出されたプログラムは、主に個々のLLMリクエストとプログラムの両方で頭のブロックをブロックしたため、長い累積待機時間を経験していることが明らかになりました。
これに対処するために、エンドツーエンドのレイテンシーを最小限に抑えるためにプログラムを一流の市民として扱うLLMサービングシステムであるAutellixを紹介します。
Autellixは、プログラムレベルのコンテキストでスケジューラを充実させるLLMコールをプログラムで送信します。
以前に完了したコールに基づいて、LLMコールを優先して優先順位を付ける、シングルスレッドおよび分散プログラムのために2つのスケジューリングアルゴリズムを提案します。
私たちの評価は、多様なLLMとエージェントワークロード全体で、AutellixがVLLMなどの最先端のシステムと比較して、同じ遅延でプログラムのスループットを4〜15倍改善することを示しています。

要約(オリジナル)

Large language model (LLM) applications are evolving beyond simple chatbots into dynamic, general-purpose agentic programs, which scale LLM calls and output tokens to help AI agents reason, explore, and solve complex tasks. However, existing LLM serving systems ignore dependencies between programs and calls, missing significant opportunities for optimization. Our analysis reveals that programs submitted to LLM serving engines experience long cumulative wait times, primarily due to head-of-line blocking at both the individual LLM request and the program. To address this, we introduce Autellix, an LLM serving system that treats programs as first-class citizens to minimize their end-to-end latencies. Autellix intercepts LLM calls submitted by programs, enriching schedulers with program-level context. We propose two scheduling algorithms-for single-threaded and distributed programs-that preempt and prioritize LLM calls based on their programs’ previously completed calls. Our evaluation demonstrates that across diverse LLMs and agentic workloads, Autellix improves throughput of programs by 4-15x at the same latency compared to state-of-the-art systems, such as vLLM.

arxiv情報

著者 Michael Luo,Xiaoxiang Shi,Colin Cai,Tianjun Zhang,Justin Wong,Yichuan Wang,Chi Wang,Yanping Huang,Zhifeng Chen,Joseph E. Gonzalez,Ion Stoica
発行日 2025-02-19 18:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | Autellix: An Efficient Serving Engine for LLM Agents as General Programs はコメントを受け付けていません

Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation

要約

人間のアフォーダンス学習は、推定されたポーズがシーン内の有効な人間の行動を表すように、文脈的に関連する斬新なポーズ予測を調査します。
タスクは機械の知覚と自動化されたインタラクティブナビゲーションエージェントの基本ですが、指数関数的に多数の可能性のあるポーズとアクションのバリエーションにより、問題が挑戦的で自明でないことがあります。
ただし、2Dシーンでの人間のアフォーダンス予測のための既存のデータセットと方法は、文献では大幅に制限されています。
このホワイトペーパーでは、2つの異なるモダリティからの空間機能マップに相互に参加することにより、アフォーダンス予測のシーンコンテキストをエンコードするための新しい分析メカニズムを提案します。
提案された方法は、問題の複雑さを効率的に減らすために、個々のサブタスクの間で解き放たれます。
まず、グローバルシーンコンテキストエンコーディングに条件付けられた変分自動エンコーダー(VAE)を使用して、シーン内の人の可能性のある場所をサンプリングします。
次に、予測場所をエンコードするローカルコンテキストの分類器を使用して、既存の人間のポーズ候補のセットから潜在的なポーズテンプレートを予測します。
後続の手順では、2つのVAEを使用して、ローカルコンテキストとテンプレートクラスを条件付けすることにより、予測ポーズテンプレートのスケールと変形パラメーターをサンプリングします。
私たちの実験は、複雑な2Dシーンへの人間のアフォーダンス注入の以前のベースラインにわたって大幅な改善を示しています。

要約(オリジナル)

Human affordance learning investigates contextually relevant novel pose prediction such that the estimated pose represents a valid human action within the scene. While the task is fundamental to machine perception and automated interactive navigation agents, the exponentially large number of probable pose and action variations make the problem challenging and non-trivial. However, the existing datasets and methods for human affordance prediction in 2D scenes are significantly limited in the literature. In this paper, we propose a novel cross-attention mechanism to encode the scene context for affordance prediction by mutually attending spatial feature maps from two different modalities. The proposed method is disentangled among individual subtasks to efficiently reduce the problem complexity. First, we sample a probable location for a person within the scene using a variational autoencoder (VAE) conditioned on the global scene context encoding. Next, we predict a potential pose template from a set of existing human pose candidates using a classifier on the local context encoding around the predicted location. In the subsequent steps, we use two VAEs to sample the scale and deformation parameters for the predicted pose template by conditioning on the local context and template class. Our experiments show significant improvements over the previous baseline of human affordance injection into complex 2D scenes.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal,Michael Blumenstein
発行日 2025-02-19 11:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation はコメントを受け付けていません

V2C-Long: Longitudinal Cortex Reconstruction with Spatiotemporal Correspondence

要約

縦方向の磁気共鳴画像法(MRI)から皮質を再構築することは、人間の脳の形態学的変化を分析するために不可欠です。
深い学習を伴う皮質表面再建の最近の進歩にもかかわらず、縦断的データから生じる課題は依然として永続的です。
特に、高度に複雑な脳表面間の強い空間的ポイントの対応の欠如は、解剖学的位置が正確に一致しない場合、局所的な形態が直接匹敵しないため、下流の分析を妨げます。
この問題に対処するために、縦MRIの最初の専用の深い学習ベースの皮質再建法であるV2C-Longを提示します。
V2Cロングは、被験者と訪問にわたって強い固有の空間的対応を示し、それにより表面ベースの後処理の必要性を減らします。
再構成中に、2つの深いテンプレートと変形ネットワークの構成とメッシュ空間内の被験者内テンプレートの革新的な集約を介して、この対応を直接確立します。
2つの大規模なニューロイメージング研究でV2Cロングを検証し、表面の精度、一貫性、一般化、テスト再テストの信頼性、および感度に焦点を当てています。
結果は、既存の方法と比較して、縦断的な一貫性と精度の大幅な改善を明らかにしています。
さらに、アルツハイマー病における縦方向の皮質萎縮の強力な証拠を縦方向のフリーザーファーよりも示します。

要約(オリジナル)

Reconstructing the cortex from longitudinal magnetic resonance imaging (MRI) is indispensable for analyzing morphological alterations in the human brain. Despite the recent advancement of cortical surface reconstruction with deep learning, challenges arising from longitudinal data are still persistent. Especially the lack of strong spatiotemporal point correspondence between highly convoluted brain surfaces hinders downstream analyses, as local morphology is not directly comparable if the anatomical location is not matched precisely. To address this issue, we present V2C-Long, the first dedicated deep learning-based cortex reconstruction method for longitudinal MRI. V2C-Long exhibits strong inherent spatiotemporal correspondence across subjects and visits, thereby reducing the need for surface-based post-processing. We establish this correspondence directly during the reconstruction via the composition of two deep template-deformation networks and innovative aggregation of within-subject templates in mesh space. We validate V2C-Long on two large neuroimaging studies, focusing on surface accuracy, consistency, generalization, test-retest reliability, and sensitivity. The results reveal a substantial improvement in longitudinal consistency and accuracy compared to existing methods. In addition, we demonstrate stronger evidence for longitudinal cortical atrophy in Alzheimer’s disease than longitudinal FreeSurfer.

arxiv情報

著者 Fabian Bongratz,Jan Fecht,Anne-Marie Rickmann,Christian Wachinger
発行日 2025-02-19 12:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | V2C-Long: Longitudinal Cortex Reconstruction with Spatiotemporal Correspondence はコメントを受け付けていません

pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM

要約

Pyslamは、視覚的なスラムのオープンソースPythonフレームワークであり、単眼、ステレオ、RGB-Dカメラをサポートしています。
クラシックと最新のローカル機能の両方を統合するための柔軟なインターフェイスを提供し、さまざまなスラムタスクに適応できます。
フレームワークには、異なるループ閉鎖方法、体積再構成パイプライン、および深度予測モデルのサポートが含まれます。
さらに、視覚的な臭気とスラムアプリケーションのための一連のツールを提供します。
初心者と経験豊富な研究者の両方のために設計されたPyslamは、コミュニティの貢献を奨励し、ビジュアルスラムの分野での共同開発を促進します。

要約(オリジナル)

pySLAM is an open-source Python framework for Visual SLAM, supporting monocular, stereo, and RGB-D cameras. It provides a flexible interface for integrating both classical and modern local features, making it adaptable to various SLAM tasks. The framework includes different loop closure methods, a volumetric reconstruction pipeline, and support for depth prediction models. Additionally, it offers a suite of tools for visual odometry and SLAM applications. Designed for both beginners and experienced researchers, pySLAM encourages community contributions, fostering collaborative development in the field of Visual SLAM.

arxiv情報

著者 Luigi Freda
発行日 2025-02-19 12:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM はコメントを受け付けていません

Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition

要約

ロボット工学の最近の進歩により、長期的および大規模なミッションの実世界の自律性が促進されています。このミッションでは、場所認識によるループ閉鎖は、ポーズ推定ドリフトを緩和するために不可欠です。
ただし、リアルタイムのパフォーマンスを達成することは、高密度サンプリングの計算負担により、リソース制約のあるモバイルロボットとマルチロボットシステムにとって困難なままであり、成長するMAPデータベースとクエリサンプルを比較および検証する複雑さを高めます。
従来の方法は、特定のサンプリング間隔に依存したり、記述子機能空間ではなく3Dスペースで動作することにより、冗長な情報を保持したり、重要なデータを見逃したりすることがよくあります。
これらの課題に対処するために、サンプルスペースの概念を紹介し、LIDARベースの場所認識のための新しいキーフレームサンプリングアプローチを提案します。
私たちの方法は、高次元の記述子空間に重要な情報を保存しながら、学習ベースと手作りの記述子の両方をサポートしながら、冗長性を最小限に抑えます。
提案されたアプローチには、スライド式ウィンドウの最適化戦略が組み込まれており、効率的なキーフレームの選択とリアルタイムのパフォーマンスを確保し、ロボットパイプラインへのシームレスな統合を可能にします。
要するに、私たちのアプローチは、パラメーターチューニングなしで屋内から屋外シナリオから屋外へのシナリオから屋外へのシナリオからシームレスに適応する機能を備えた、多様なデータセット全体で堅牢なパフォーマンスを示し、ループ閉鎖検出時間とメモリ要件を削減します。

要約(オリジナル)

Recent advances in robotics are driving real-world autonomy for long-term and large-scale missions, where loop closures via place recognition are vital for mitigating pose estimation drift. However, achieving real-time performance remains challenging for resource-constrained mobile robots and multi-robot systems due to the computational burden of high-density sampling, which increases the complexity of comparing and verifying query samples against a growing map database. Conventional methods often retain redundant information or miss critical data by relying on fixed sampling intervals or operating in 3-D space instead of the descriptor feature space. To address these challenges, we introduce the concept of sample space and propose a novel keyframe sampling approach for LiDAR-based place recognition. Our method minimizes redundancy while preserving essential information in the hyper-dimensional descriptor space, supporting both learning-based and handcrafted descriptors. The proposed approach incorporates a sliding window optimization strategy to ensure efficient keyframe selection and real-time performance, enabling seamless integration into robotic pipelines. In sum, our approach demonstrates robust performance across diverse datasets, with the ability to adapt seamlessly from indoor to outdoor scenarios without parameter tuning, reducing loop closure detection times and memory requirements.

arxiv情報

著者 Nikolaos Stathoulopoulos,Vidya Sumathy,Christoforos Kanellakis,George Nikolakopoulos
発行日 2025-02-19 12:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition はコメントを受け付けていません

Spherical Dense Text-to-Image Synthesis

要約

テキストから画像への最近の進歩(T2I)は合成結果を改善しましたが、レイアウト制御と全方向性パノラマ画像の生成には課題が残っています。
高密度T2I(DT2I)および球形T2I(ST2I)モデルはこれらの問題に対処していますが、これまでのところ統一されたアプローチは存在しません。
DT2Iモデルにパノラマを生成するように促すなど、些細なアプローチは、境界で適切な球形の歪みやシームレスな遷移を生成することはできません。
私たちの研究は、球状の密なテキストからイメージ(SDT2I)が、微調整されたPanoramaモデルにトレーニングのないDT2Iアプローチを統合することで実現できることを示しています。
具体的には、それぞれMultiStitchDiffusion(MSTD)とMultiPanFusion(MPF)を提案し、それぞれMultidiffusionをStitchDiffusionとPanFusionに統合します。
SDT2Iのベンチマークは存在しないため、モデルを評価するための球面レイアウトを含む新しい合成データセットである密な合成観点(DSYNVIEW)をさらに構築します。
私たちの結果は、MSTDが画質と迅速な順守とレイアウトの順守を超えてMPFを上回ることを示しています。
MultiPanFusionはより多様な画像を生成しますが、完璧な前景オブジェクトを合成するのに苦労しています。
私たちは、MPFの改善として、前景での等電子視点からの注意をオフにするブートストラップ結合とオフを提案します。

要約(オリジナル)

Recent advancements in text-to-image (T2I) have improved synthesis results, but challenges remain in layout control and generating omnidirectional panoramic images. Dense T2I (DT2I) and spherical T2I (ST2I) models address these issues, but so far no unified approach exists. Trivial approaches, like prompting a DT2I model to generate panoramas can not generate proper spherical distortions and seamless transitions at the borders. Our work shows that spherical dense text-to-image (SDT2I) can be achieved by integrating training-free DT2I approaches into finetuned panorama models. Specifically, we propose MultiStitchDiffusion (MSTD) and MultiPanFusion (MPF) by integrating MultiDiffusion into StitchDiffusion and PanFusion, respectively. Since no benchmark for SDT2I exists, we further construct Dense-Synthetic-View (DSynView), a new synthetic dataset containing spherical layouts to evaluate our models. Our results show that MSTD outperforms MPF across image quality as well as prompt- and layout adherence. MultiPanFusion generates more diverse images but struggles to synthesize flawless foreground objects. We propose bootstrap-coupling and turning off equirectangular perspective-projection attention in the foreground as an improvement of MPF.

arxiv情報

著者 Timon Winter,Stanislav Frolov,Brian Bernhard Moser,Andreas Dengel
発行日 2025-02-19 13:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spherical Dense Text-to-Image Synthesis はコメントを受け付けていません

Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention

要約

畳み込みネットワーク、トランス、ハイブリッドモデル、およびMambaベースのアーキテクチャは、さまざまな医療画像分類タスクで強力なパフォーマンスを実証しています。
ただし、これらの方法は、主にラベル付きデータを使用してクリーン画像を分類するように設計されています。
対照的に、実際の臨床データには、多くの場合、マルチセンター研究に固有の画像腐敗が含まれ、メーカー全体のイメージング機器のバリエーションに由来します。
このホワイトペーパーでは、一般化された医療画像分類を目指して、Kolmogorov-Arnold Network(Kan)層を初めて変圧器アーキテクチャに組み込んだ新しいアーキテクチャであるMedical Vision Transformer(MedVitv2)を紹介します。
元のMedVitの精度を高めながら、計算負荷を減らすための効率的なKanブロックを開発しました。
さらに、メドビットの脆弱性を拡大したときに、強化された拡張近隣の注意(DINA)、グローバルなコンテキストをキャプチャし、受容フィールドを拡大してモデルを効果的かつ拡大できる拡張ドットプロダクト注意カーネルの適応を提案します。
機能の崩壊の問題に対処します。
さらに、階層的なハイブリッド戦略が導入され、ローカル機能の知覚とグローバルな特徴の知覚ブロックを効率的な方法で積み重ね、ローカルおよびグローバルな特徴の知覚をバランスしてパフォーマンスを高めます。
17の医療画像分類データセットと12の破損した医療画像データセットに関する広範な実験は、MedVitv2が計算の複雑さを減らした29の実験のうち27で最先端の結果を達成したことを示しています。
MedVitv2は、以前のバージョンよりも計算上効率が高く、精度を大幅に向上させ、MedMnistで4.6 \%、非ムニストで5.8 \%、MedMnist-C Benchmarkで13.4 \%の改善を達成します。

要約(オリジナル)

Convolutional networks, transformers, hybrid models, and Mamba-based architectures have demonstrated strong performance across various medical image classification tasks. However, these methods were primarily designed to classify clean images using labeled data. In contrast, real-world clinical data often involve image corruptions that are unique to multi-center studies and stem from variations in imaging equipment across manufacturers. In this paper, we introduce the Medical Vision Transformer (MedViTV2), a novel architecture incorporating Kolmogorov-Arnold Network (KAN) layers into the transformer architecture for the first time, aiming for generalized medical image classification. We have developed an efficient KAN block to reduce computational load while enhancing the accuracy of the original MedViT. Additionally, to counteract the fragility of our MedViT when scaled up, we propose an enhanced Dilated Neighborhood Attention (DiNA), an adaptation of the efficient fused dot-product attention kernel capable of capturing global context and expanding receptive fields to scale the model effectively and addressing feature collapse issues. Moreover, a hierarchical hybrid strategy is introduced to stack our Local Feature Perception and Global Feature Perception blocks in an efficient manner, which balances local and global feature perceptions to boost performance. Extensive experiments on 17 medical image classification datasets and 12 corrupted medical image datasets demonstrate that MedViTV2 achieved state-of-the-art results in 27 out of 29 experiments with reduced computational complexity. MedViTV2 is 44\% more computationally efficient than the previous version and significantly enhances accuracy, achieving improvements of 4.6\% on MedMNIST, 5.8\% on NonMNIST, and 13.4\% on the MedMNIST-C benchmark.

arxiv情報

著者 Omid Nejati Manzari,Hojat Asgariandehkordi,Taha Koleilat,Yiming Xiao,Hassan Rivaz
発行日 2025-02-19 13:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention はコメントを受け付けていません

Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields

要約

ビデオフレーム補間(VFI)は、連続した入力フレーム間で中間ビデオフレームを生成することを目的としています。
イベントカメラは、輝度のみをエンコードするマイクロ秒の時間分解能でのみ変化するバイオインスパイアセンサーであるため、いくつかの作品はイベントカメラを利用してVFIのパフォーマンスを向上させました。
ただし、既存の方法では、イベントまたは近似のみを備えた双方向間モーションフィールドを推定します。これは、実際のシナリオでは複雑なモーションを考慮することはできません。
このホワイトペーパーでは、非対称双方向の動きのフィールド推定を備えた新しいイベントベースのVFIフレームワークを提案します。
詳細には、EIF-BiofNetは、近似方法なしでフレーム間モーションフィールドを直接推定するために、イベントと画像の各貴重な特性を利用しています。
さらに、相補的な注意ベースのフレーム合成ネットワークを開発して、相補的なワーピングベースと合成ベースの機能を効率的に活用します。
最後に、以前のイベントベースのVFIデータセットの制限を克服するために、高いフレームレート、極端な動き、動的テクスチャを備えた、大規模なイベントベースのVFIデータセット、ERF-X170FPSを構築します。
大規模な実験結果は、さまざまなデータセットで最先端のVFIメソッドよりも、この方法が大幅にパフォーマンス改善を示していることを検証します。
プロジェクトページは、https://github.com/intelpro/cbmnetで入手できます

要約(オリジナル)

Video Frame Interpolation (VFI) aims to generate intermediate video frames between consecutive input frames. Since the event cameras are bio-inspired sensors that only encode brightness changes with a micro-second temporal resolution, several works utilized the event camera to enhance the performance of VFI. However, existing methods estimate bidirectional inter-frame motion fields with only events or approximations, which can not consider the complex motion in real-world scenarios. In this paper, we propose a novel event-based VFI framework with cross-modal asymmetric bidirectional motion field estimation. In detail, our EIF-BiOFNet utilizes each valuable characteristic of the events and images for direct estimation of inter-frame motion fields without any approximation methods. Moreover, we develop an interactive attention-based frame synthesis network to efficiently leverage the complementary warping-based and synthesis-based features. Finally, we build a large-scale event-based VFI dataset, ERF-X170FPS, with a high frame rate, extreme motion, and dynamic textures to overcome the limitations of previous event-based VFI datasets. Extensive experimental results validate that our method shows significant performance improvement over the state-of-the-art VFI methods on various datasets. Our project pages are available at: https://github.com/intelpro/CBMNet

arxiv情報

著者 Taewoo Kim,Yujeong Chae,Hyun-Kurl Jang,Kuk-Jin Yoon
発行日 2025-02-19 13:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields はコメントを受け付けていません

CARE: Confidence-Aware Regression Estimation of building density fine-tuning EO Foundation Models

要約

正確な信頼性の定量化と評価を実行することは、深いニューラルネットワークが障害を予測し、パフォーマンスを向上させ、実際のアプリケーションでの能力を向上させ、実生活での実用的な展開のために重要です。
ピクセルごとの回帰タスクの場合、セマンティックセグメンテーションなどの分類タスクとは対照的に、文献では信頼の定量化と評価は十分に対処されていません。
ソフトマックス出力層は、ピクセルごとの回帰問題を解決する深いニューラルネットワークでは使用されません。
この論文では、これらの問題に対処するために、提案されたモデル信頼認識回帰推定(CARE)を開発、訓練、評価します。
モデルケアは、回帰出力の結果に自信を計算して割り当てます。
地球観測のためのAIファンデーションモデル(EO)の下流タスクとして回帰問題を解決することに焦点を当てています。
建物の密度を推定するためのコペルニクスセンチネル-2衛星星座からのデータに関するモデルケアと実験結果を評価します。提案された方法が回帰問題に正常に適用できることを示しています。
また、アプローチが他の方法よりも優れていることも示しています。

要約(オリジナル)

Performing accurate confidence quantification and assessment is important for deep neural networks to predict their failures, improve their performance and enhance their capabilities in real-world applications, for their practical deployment in real life. For pixel-wise regression tasks, confidence quantification and assessment has not been well addressed in the literature, in contrast to classification tasks like semantic segmentation. The softmax output layer is not used in deep neural networks that solve pixel-wise regression problems. In this paper, to address these problems, we develop, train and evaluate the proposed model Confidence-Aware Regression Estimation (CARE). Our model CARE computes and assigns confidence to regression output results. We focus on solving regression problems as downstream tasks of an AI Foundation Model for Earth Observation (EO). We evaluate the proposed model CARE and experimental results on data from the Copernicus Sentinel-2 satellite constellation for estimating the density of buildings show that the proposed method can be successfully applied to regression problems. We also show that our approach outperforms other methods.

arxiv情報

著者 Nikolaos Dionelis,Jente Bosmans,Nicolas Longépé
発行日 2025-02-19 14:02:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CARE: Confidence-Aware Regression Estimation of building density fine-tuning EO Foundation Models はコメントを受け付けていません

Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation

要約

既存の方法は、分類の問題として偽のニュースビデオの検出に対処していますが、特定のニュースコンテンツが偽物として識別される理由は明らかではありません。
適切な説明がなければ、エンドユーザーは偽のニュースの潜在的な意味を理解できない場合があります。
したがって、ニュースビデオの虚偽を明らかにする自然言語の説明を生成するために、新しいニュースビデオの説明(FNVE)を提案します。
この目的のために、私たちは最初に、偽のニュースビデオ投稿を説明するために2つの新しいデータセットであるOnveとVTSEを開発しました。
次に、onveとvtseのベンチマークにマルチモーダル関係グラフトランス(MRGT)モデルを提案します。
MRGTは、マルチモーダル関係を包括的に表すためにマルチモーダル関係グラフを導入し、世代を説明するためにBARTベースのデコーダーを導入します。
実験結果は、提案されたMRGTが強力なベースラインよりも優れていることを示しています。
さらに、注釈付きのOnveおよびVTSEに関する人間の評価も、妥当性の評価の点で高いスコアを達成しています。

要約(オリジナル)

Although existing methods have addressed fake news video detection as a classification problem, it is not clear why certain news content is identified as fake. Without proper explanation, end users may not be able to understand the potential meaning of fake news. Therefore, we propose a novel task, Fake News Video Explanation (FNVE), to generate natural language explanations that reveal the falseness of news videos. To this end, we first developed ONVE and VTSE, two new datasets to explain fake news video posts. Then, we propose a Multimodal Relation Graph Transformer (MRGT) model to benchmark ONVE and VTSE. MRGT introduces a multimodal relation graph to comprehensively represent multimodal relations and then introduces a BART-based decoder to explain generations. The experimental results show that the proposed MRGT outperforms the strong baselines. In addition, the human evaluation on the annotated ONVE and VTSE also achieves high scores in terms of adequacy rating.

arxiv情報

著者 Lizhi Chen,Zhong Qian,Peifeng Li,Qiaoming Zhu
発行日 2025-02-19 14:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Multimodal Fake News Video Explanation Generation: Dataset, Model, and Evaluation はコメントを受け付けていません