Upgrade or Switch: Do We Need a New Registry Architecture for the Internet of AI Agents?

要約

新たなAIエージェントのインターネットは、人間スケールのリアクティブな相互作用のために設計された既存のWebインフラストラクチャに挑戦します。
従来のWebリソースとは異なり、自律AIエージェントはアクションを開始し、持続的な状態を維持し、サブエージェントを産み、同僚と直接交渉します。
このペーパーでは、既存のインフラストラクチャをアップグレードするか、自律エージェント向けに専用のレジストリアーキテクチャを実装するかを分析します。
重大な障害ポイントを特定します:DNS伝播(24〜48時間対必要なミリ秒)、証明書の取り消しは、エージェントスケールルーティングに不十分なIPv4/IPv6に対処します。
3つのアプローチを評価します。(1)パスのアップグレード、(2)スイッチオプション、(3)ハイブリッドレジストリ。
ダイヤルアップ間のトランジションに類似していると、エージェントの要件が定性的であり、増分ではなく変更を構成することがわかります。
アップグレードは互換性と展開をより高速に提供しますが、クリーンスレートソリューションはパフォーマンスを向上させますが、採用にはより長く必要です。
私たちの分析は、重要なエージェントの集中レジストリと特殊なユースケースのフェデレーションメッシュを使用して、ハイブリッドアプローチが出現することを示唆しています。

要約(オリジナル)

The emerging Internet of AI Agents challenges existing web infrastructure designed for human-scale, reactive interactions. Unlike traditional web resources, autonomous AI agents initiate actions, maintain persistent state, spawn sub-agents, and negotiate directly with peers: demanding millisecond-level discovery, instant credential revocation, and cryptographic behavioral proofs that exceed current DNS/PKI capabilities. This paper analyzes whether to upgrade existing infrastructure or implement purpose-built registry architectures for autonomous agents. We identify critical failure points: DNS propagation (24-48 hours vs. required milliseconds), certificate revocation unable to scale to trillions of entities, and IPv4/IPv6 addressing inadequate for agent-scale routing. We evaluate three approaches: (1) Upgrade paths, (2) Switch options, (3) Hybrid registries. Drawing parallels to dialup-to-broadband transitions, we find that agent requirements constitute qualitative, and not incremental, changes. While upgrades offer compatibility and faster deployment, clean-slate solutions provide better performance but require longer for adoption. Our analysis suggests hybrid approaches will emerge, with centralized registries for critical agents and federated meshes for specialized use cases.

arxiv情報

著者 Ramesh Raskar,Pradyumna Chari,Jared James Grogan,Mahesh Lambe,Robert Lincourt,Raghu Bala,Abhishek Singh,Ayush Chopra,Rajesh Ranjan,Shailja Gupta,Dimitris Stripelis,Maria Gorskikh,Sichao Wang
発行日 2025-06-13 17:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.NI | Upgrade or Switch: Do We Need a New Registry Architecture for the Internet of AI Agents? はコメントを受け付けていません

Reimagining Dance: Real-time Music Co-creation between Dancers and AI

要約

ダンスのパフォーマンスは、伝統的に、動きが音楽に反応する一方的な関係に従っています。
AIはさまざまなクリエイティブドメインで進歩していますが、ダンスへのアプリケーションは主に音楽の入力から振り付けを生成することに焦点を当てています。
ダンサーが動きを通して音楽環境を動的に形成できるようにするシステムを提示します。
私たちのマルチモーダルアーキテクチャは、ダンスの動きに対応して、事前に録音された音楽クリップをインテリジェントに組み合わせて、パフォーマーと作曲家の両方としてダンサーが機能する双方向の創造的パートナーシップを確立することにより、一貫した音楽作曲を作成します。
パフォーマンスデータの相関分析を通じて、動きの品質とオーディオ機能の間の新しいコミュニケーションパターンを示します。
このアプローチは、幅広い集団にわたってプロのダンスパフォーマンスと即興的な芸術的表現の両方の可能性を拡大する応答性のあるコラボレーターとしての舞台芸術におけるAIの役割を再概念化します。

要約(オリジナル)

Dance performance traditionally follows a unidirectional relationship where movement responds to music. While AI has advanced in various creative domains, its application in dance has primarily focused on generating choreography from musical input. We present a system that enables dancers to dynamically shape musical environments through their movements. Our multi-modal architecture creates a coherent musical composition by intelligently combining pre-recorded musical clips in response to dance movements, establishing a bidirectional creative partnership where dancers function as both performers and composers. Through correlation analysis of performance data, we demonstrate emergent communication patterns between movement qualities and audio features. This approach reconceptualizes the role of AI in performing arts as a responsive collaborator that expands possibilities for both professional dance performance and improvisational artistic expression across broader populations.

arxiv情報

著者 Olga Vechtomova,Jeff Bos
発行日 2025-06-13 17:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SD, eess.AS | Reimagining Dance: Real-time Music Co-creation between Dancers and AI はコメントを受け付けていません

Cartridges: Lightweight and general-purpose long context representations via self-study

要約

大規模な言語モデルは、コーパス全体をコンテキストウィンドウに配置し、コンテキスト内学習(ICL)を活用することにより、大きなテキストコーパス(コードベース、法的文書、チャット履歴など)に基づいたクエリに答えるためによく使用されます。
現在のモデルは100K-1Mトークンのコンテキストをサポートしていますが、KVキャッシュのメモリ消費量が入力長のメモリ消費量が拡大するため、このセットアップはサービスを提供するのに費用がかかります。
別の方法を探ります。各コーパスでより小さなKVキャッシュをオフラインでトレーニングします。
推論時に、この訓練されたKVキャッシュをロードします。これはカートリッジと呼ばれ、応答をデコードします。
重大なことに、カートリッジをトレーニングするコストは、同じコーパスを参照するすべてのクエリで償却できます。
ただし、コーパスで次のトークン予測でカートリッジをトレーニングする素朴なアプローチは、ICLと競合していないことがわかります。
代わりに、コーパスに関する合成会話を生成し、コンテキスト指向の目的でカートリッジを訓練するトレーニングレシピである自己学習を提案します。
自習で訓練されたカートリッジは、ICLの機能を複製する一方で、サービスを大幅に安くしていることがわかります。
挑戦的なロングコンテキストベンチマークでは、38.6倍のメモリを使用し、26.4倍のスループットを有効にしながら、自習マッチのICLパフォーマンスで訓練されたカートリッジ。
自己学習は、モデルの有効なコンテキスト長(例:MTOBの128Kから484Kトークンなど)を拡張し、驚くべきことに、再訓練なしで推論時に構成できるカートリッジにつながります。

要約(オリジナル)

Large language models are often used to answer queries grounded in large text corpora (e.g. codebases, legal documents, or chat histories) by placing the entire corpus in the context window and leveraging in-context learning (ICL). Although current models support contexts of 100K-1M tokens, this setup is costly to serve because the memory consumption of the KV cache scales with input length. We explore an alternative: training a smaller KV cache offline on each corpus. At inference time, we load this trained KV cache, which we call a Cartridge, and decode a response. Critically, the cost of training a Cartridge can be amortized across all the queries referencing the same corpus. However, we find that the naive approach of training the Cartridge with next-token prediction on the corpus is not competitive with ICL. Instead, we propose self-study, a training recipe in which we generate synthetic conversations about the corpus and train the Cartridge with a context-distillation objective. We find that Cartridges trained with self-study replicate the functionality of ICL, while being significantly cheaper to serve. On challenging long-context benchmarks, Cartridges trained with self-study match ICL performance while using 38.6x less memory and enabling 26.4x higher throughput. Self-study also extends the model’s effective context length (e.g. from 128k to 484k tokens on MTOB) and surprisingly, leads to Cartridges that can be composed at inference time without retraining.

arxiv情報

著者 Sabri Eyuboglu,Ryan Ehrlich,Simran Arora,Neel Guha,Dylan Zinsley,Emily Liu,Will Tennien,Atri Rudra,James Zou,Azalia Mirhoseini,Christopher Re
発行日 2025-06-13 17:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Cartridges: Lightweight and general-purpose long context representations via self-study はコメントを受け付けていません

Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making

要約

大規模な言語モデル(LLM)は、複雑な推論を必要とするタスクにますます使用されています。
ほとんどのベンチマークは最終的な結果に焦点を当てていますが、リソースの制約の下での計画、改訂、意思決定など、中間の推論ステップを見落としています。
これらの内部プロセスを測定することは、モデルの動作を理解し、信頼性を向上させるために不可欠であると主張します。
戦略的なゲームを自然評価環境として使用することを提案します:明確な状態、限られたリソース、自動フィードバックを備えた閉鎖されたルールベースのシステム。
計画、改訂、およびリソースに制約のある意思決定という3つのコアディメンションに沿ってLLMを評価するフレームワークを紹介します。
これを運用するために、過補正リスク率、修正成功率、改善勾配、予算過剰比など、勝利率を超えたメトリックを定義します。
12の主要なモデルにわたる4320の敵対的なラウンドで、ChatGpt-O3-Miniはトップコンポジットスコアを達成し、勝利率は74.7%、修正成功率は78.6%、0.041の改善が行われます。
対照的に、Qwen -Plusは、81.6%の過補正リスク率にもかかわらず、その試合の25.6%しか勝ちません – 主に過剰なリソースの使用によるものです。
また、過補正リスク率と補正の成功率の間に負の相関関係が観察され(ピアソンr = -0.51、p = 0.093)、より頻繁な編集が常に結果を改善するとは限らないことを示唆しています。
私たちの調査結果は、LLMSが決定することだけでなく、それらがそれらの決定にどのように到達するかを評価することの価値を強調しています

要約(オリジナル)

Large language models (LLMs) are increasingly used for tasks that require complex reasoning. Most benchmarks focus on final outcomes but overlook the intermediate reasoning steps – such as planning, revision, and decision making under resource constraints. We argue that measuring these internal processes is essential for understanding model behavior and improving reliability. We propose using strategic games as a natural evaluation environment: closed, rule-based systems with clear states, limited resources, and automatic feedback. We introduce a framework that evaluates LLMs along three core dimensions: planning, revision, and resource-constrained decision making. To operationalize this, we define metrics beyond win rate, including overcorrection risk rate, correction success rate, improvement slope, and over-budget ratio. In 4320 adversarial rounds across 12 leading models, ChatGPT-o3-mini achieves the top composite score, with a win rate of 74.7 percent, a correction success rate of 78.6 percent, and an improvement slope of 0.041. By contrast, Qwen-Plus, despite an overcorrection risk rate of 81.6 percent, wins only 25.6 percent of its matches – primarily due to excessive resource use. We also observe a negative correlation between overcorrection risk rate and correction success rate (Pearson r = -0.51, p = 0.093), suggesting that more frequent edits do not always improve outcomes. Our findings highlight the value of assessing not only what LLMs decide but how they arrive at those decisions

arxiv情報

著者 Xiaopeng Yuan,Xingjian Zhang,Ke Xu,Yifan Xu,Lijun Yu,Jindong Wang,Yushun Dong,Haohan Wang
発行日 2025-06-13 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Tracing LLM Reasoning Processes with Strategic Games: A Framework for Planning, Revision, and Resource-Constrained Decision Making はコメントを受け付けていません

code_transformed: The Influence of Large Language Models on Code

要約

コーディングは、人間と機械の間の相互作用の最も基本的なモードの1つです。
大規模な言語モデル(LLMS)の急速な進歩により、コード生成機能はプログラミングプラクティスを大幅に再構築し始めました。
この開発により、中心的な質問が促されます。LLMSはコードスタイルを変換しましたか?また、そのような変換をどのように特徴付けることができますか?
この論文では、コードスタイルに対するLLMの影響を調査する先駆的な研究を提示し、義務の義務、複雑さ、保守性、および類似性に焦点を当てています。
2020年から2025年の間に公開されたARXIVペーパーにリンクされた19,000を超えるGithubリポジトリのコードを分析することにより、LLM生成コードの特性と整合するコーディングスタイルの進化における測定可能な傾向を特定します。
たとえば、PythonコードのSnake \ _Case変数名の割合は、2023年第1四半期の47%から2025四半期の51%に増加しました。さらに、LLMSが推論プロセスを調べてアルゴリズムの問​​題にどのようにアプローチするかを調査します。
LLMSの多様性と使用シナリオの多様性を考えると、他の要因の中でも、LLMSによって生成または支援されたコードの割合を正確に推定することは困難または不可能です。
実験結果は、LLMが実際のプログラミングスタイルに影響するという最初の大規模な経験的証拠を提供します。

要約(オリジナル)

Coding remains one of the most fundamental modes of interaction between humans and machines. With the rapid advancement of Large Language Models (LLMs), code generation capabilities have begun to significantly reshape programming practices. This development prompts a central question: Have LLMs transformed code style, and how can such transformation be characterized? In this paper, we present a pioneering study that investigates the impact of LLMs on code style, with a focus on naming conventions, complexity, maintainability, and similarity. By analyzing code from over 19,000 GitHub repositories linked to arXiv papers published between 2020 and 2025, we identify measurable trends in the evolution of coding style that align with characteristics of LLM-generated code. For instance, the proportion of snake\_case variable names in Python code increased from 47% in Q1 2023 to 51% in Q1 2025. Furthermore, we investigate how LLMs approach algorithmic problems by examining their reasoning processes. Given the diversity of LLMs and usage scenarios, among other factors, it is difficult or even impossible to precisely estimate the proportion of code generated or assisted by LLMs. Our experimental results provide the first large-scale empirical evidence that LLMs affect real-world programming style.

arxiv情報

著者 Yuliang Xu,Siming Huang,Mingmeng Geng,Yao Wan,Xuanhua Shi,Dongping Chen
発行日 2025-06-13 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | code_transformed: The Influence of Large Language Models on Code はコメントを受け付けていません

MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space

要約

ビジョン言語モデル(VLM)は、視覚的なレイアウトとテキストを解釈する際の顕著な能力を実証しています。
ただし、Webページやデジタルドキュメントなどの実際のシナリオで一般的な発生である画像として提示された多材料データに対して、堅牢性と理由を解釈する能力に大きな課題が残っています。
既存のベンチマークは通常、単一のテーブルまたは非視覚データ(テキスト/構造化)に対応します。
これにより、重要なギャップが残ります。彼らは、多様なテーブル画像を解析し、それらの情報を相関させる能力を評価しません。
Mtabvvqaを紹介します。Mtabvqaは、そのギャップを橋渡しするために回答する多重視覚視覚質問用に特別に設計された新しいベンチマークです。
MTABVQAは、視覚的にレンダリングされたいくつかのテーブル画像にわたってマルチホップの推論を必要とする3,745の複雑な質問回答ペアで構成されています。
MTABVQAの最先端のVLMに広範なベンチマーク結果を提供し、重大なパフォーマンスの制限を明らかにします。
さらに、トレーニング後の手法を調査して、これらの推論能力を高め、大規模な命令調整データセットであるMTABVQA-Instructをリリースします。
私たちの実験は、MTABVQAインストラクションを使用した微調整VLMが視覚的な多亜鉛豊かな推論でのパフォーマンスを大幅に向上させることを示しています。
コードとデータセット(https://huggingface.co/datasets/mtabvqa/mtabvqa-eval)はオンラインで入手できます(https://anonymous.4open.science/r/mtabvqa-murnlp-b16e)。

要約(オリジナル)

Vision-Language Models (VLMs) have demonstrated remarkable capabilities in interpreting visual layouts and text. However, a significant challenge remains in their ability to interpret robustly and reason over multi-tabular data presented as images, a common occurrence in real-world scenarios like web pages and digital documents. Existing benchmarks typically address single tables or non-visual data (text/structured). This leaves a critical gap: they don’t assess the ability to parse diverse table images, correlate information across them, and perform multi-hop reasoning on the combined visual data. We introduce MTabVQA, a novel benchmark specifically designed for multi-tabular visual question answering to bridge that gap. MTabVQA comprises 3,745 complex question-answer pairs that necessitate multi-hop reasoning across several visually rendered table images. We provide extensive benchmark results for state-of-the-art VLMs on MTabVQA, revealing significant performance limitations. We further investigate post-training techniques to enhance these reasoning abilities and release MTabVQA-Instruct, a large-scale instruction-tuning dataset. Our experiments show that fine-tuning VLMs with MTabVQA-Instruct substantially improves their performance on visual multi-tabular reasoning. Code and dataset (https://huggingface.co/datasets/mtabvqa/MTabVQA-Eval) are available online (https://anonymous.4open.science/r/MTabVQA-EMNLP-B16E).

arxiv情報

著者 Anshul Singh,Chris Biemann,Jan Strich
発行日 2025-06-13 11:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space はコメントを受け付けていません

Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation

要約

地球観測のビジョン言語モデル(EO)は通常、視覚的なデータのスペクトルに唯一のモデル入力として依存しているため、衛星が記録したマルチスペクトルチャネルで利用可能な豊富なスペクトル情報を活用できません。
したがって、大規模なマルチスペクトルデータセットで対照的な学習で事前に訓練された最初のビジョン言語モデルであるLlama3-MS-Clipを紹介し、スペクトル範囲の拡張によるパフォーマンスの向上に関するレポートを紹介します。
さらに、マルチスペクトルデータの最大の画像キャプションデータセットを提示します。これは、LLAMA3-llava-nextおよび序曲マップデータを使用して生成された100万個のセンチネル2サンプルと、対応するテキスト説明で構成されます。
ドメインの専門家によって検証されたスケーラブルなキャプションパイプラインを開発します。
さまざまな複雑さの3つのデータセットを使用して、マルチスペクトルゼロショット画像の分類と検索のLLAMA3-MS-CLIPを評価します。
我々の結果は、LLAMA3-MS-CLIPが他のRGBベースのアプローチを大幅に上回り、分類精度を平均で +6.77%、2番目のベストモデルと比較して +4.63%のMAPで検索パフォーマンスを改善することを示しています。
私たちの結果は、多宇宙視覚学習の関連性を強調しています。
画像キャプションデータセット、コード、およびモデルの重みは、https://github.com/ibm/ms-clipで入手できます。

要約(オリジナル)

Vision-language models for Earth observation (EO) typically rely on the visual spectrum of data as the only model input, thus failing to leverage the rich spectral information available in the multispectral channels recorded by satellites. Therefore, we introduce Llama3-MS-CLIP, the first vision-language model pre-trained with contrastive learning on a large-scale multispectral dataset and report on the performance gains due to the extended spectral range. Furthermore, we present the largest-to-date image-caption dataset for multispectral data, consisting of one million Sentinel-2 samples and corresponding textual descriptions generated using Llama3-LLaVA-Next and Overture Maps data. We develop a scalable captioning pipeline, which is validated by domain experts. We evaluate Llama3-MS-CLIP on multispectral zero-shot image classification and retrieval using three datasets of varying complexity. Our results demonstrate that Llama3-MS-CLIP significantly outperforms other RGB-based approaches, improving classification accuracy by +6.77% on average and retrieval performance by +4.63% mAP compared to the second-best model. Our results emphasize the relevance of multispectral vision-language learning. The image-caption dataset, code, and model weights are available at https://github.com/IBM/MS-CLIP.

arxiv情報

著者 Clive Tinashe Marimo,Benedikt Blumenstiel,Maximilian Nitsche,Johannes Jakubik,Thomas Brunschwiler
発行日 2025-06-13 11:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation はコメントを受け付けていません

DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation

要約

不完全なマルチモーダル医療画像セグメンテーションは、不均衡なモダリティの欠落や不均一なモダリティの貢献など、モダリティの不均衡から重要な課題に直面しています。
完全なモダリティの可用性の理想的な仮定に依存しているため、既存の方法は貢献のバランスをとり、モダリティ間の構造的関係を無視することができず、実際の臨床シナリオで最適ではないパフォーマンスをもたらします。
これらの制限に対処するために、Dynamic Modality-Aware Fusion Network(DMAF-NET)という名前の新しいモデルを提案します。
DMAF-NETは、3つの重要なアイデアを採用しています。
まず、動的モダリティアウェアフュージョン(DMAF)モジュールを導入して、トランスの注意とアダプティブマスキングと重量モダリティの貢献を注意マップを介して動的に組み合わせることにより、欠落モダリティ干渉を抑制します。
第二に、相乗的な関係の蒸留とプロトタイプの蒸留フレームワークを設計して、クロスモーダルクラス固有のプロトタイプアライメントを通じてセマンティックな一貫性を確保しながら、共流の一貫性とマスクされたグラフの注意を介してグローバルローカル特徴のアライメントを実施します。
第三に、蒸留ギャップをリアルタイムで追跡することにより、不均衡な欠落率の下で最適化を安定させ、適応的に再び測定する損失とスケーリング勾配によってモダリティ全体の収束速度のバランスをとるための動的トレーニング監視(DTM)戦略を提示します。
Brats2020とMyops2020での広範な実験は、DMAF-NETが不完全なマルチモーダル医療画像セグメンテーションの既存の方法を上回ることを示しています。
Brats2020とMyops2020での広範な実験は、DMAF-NETが不完全なマルチモーダル医療画像セグメンテーションの既存の方法を上回ることを示しています。
私たちのコードは、https://github.com/violet-42/dmaf-netで入手できます。

要約(オリジナル)

Incomplete multi-modal medical image segmentation faces critical challenges from modality imbalance, including imbalanced modality missing rates and heterogeneous modality contributions. Due to their reliance on idealized assumptions of complete modality availability, existing methods fail to dynamically balance contributions and neglect the structural relationships between modalities, resulting in suboptimal performance in real-world clinical scenarios. To address these limitations, we propose a novel model, named Dynamic Modality-Aware Fusion Network (DMAF-Net). The DMAF-Net adopts three key ideas. First, it introduces a Dynamic Modality-Aware Fusion (DMAF) module to suppress missing-modality interference by combining transformer attention with adaptive masking and weight modality contributions dynamically through attention maps. Second, it designs a synergistic Relation Distillation and Prototype Distillation framework to enforce global-local feature alignment via covariance consistency and masked graph attention, while ensuring semantic consistency through cross-modal class-specific prototype alignment. Third, it presents a Dynamic Training Monitoring (DTM) strategy to stabilize optimization under imbalanced missing rates by tracking distillation gaps in real-time, and to balance convergence speeds across modalities by adaptively reweighting losses and scaling gradients. Extensive experiments on BraTS2020 and MyoPS2020 demonstrate that DMAF-Net outperforms existing methods for incomplete multi-modal medical image segmentation. Extensive experiments on BraTS2020 and MyoPS2020 demonstrate that DMAF-Net outperforms existing methods for incomplete multi-modal medical image segmentation. Our code is available at https://github.com/violet-42/DMAF-Net.

arxiv情報

著者 Libin Lan,Hongxing Li,Zunhui Xia,Yudong Zhang
発行日 2025-06-13 11:38:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation はコメントを受け付けていません

Foundation Models in Medical Imaging — A Review and Outlook

要約

ファンデーションモデル(FMS)は、非標識データの大規模なコレクションから学習することにより、医療画像の分析方法を変えています。
手動で注釈された例に依存する代わりに、FMSは、後に追加の監督がほとんどない特定の臨床タスクに適応できる汎用の視覚的特徴を学習するために事前に訓練されています。
このレビューでは、FMが病理学、放射線学、および眼科で開発および適用されている方法を調べ、150を超える研究からの証拠に基づいています。
モデルアーキテクチャ、自己監視学習方法、下流適応のための戦略など、FMパイプラインのコアコンポーネントを説明します。
また、各イメージングドメインでFMがどのように使用されているかを確認し、アプリケーション全体で設計の選択肢を比較します。
最後に、将来の研究を導くための重要な課題と未解決の質問について説明します。

要約(オリジナル)

Foundation models (FMs) are changing the way medical images are analyzed by learning from large collections of unlabeled data. Instead of relying on manually annotated examples, FMs are pre-trained to learn general-purpose visual features that can later be adapted to specific clinical tasks with little additional supervision. In this review, we examine how FMs are being developed and applied in pathology, radiology, and ophthalmology, drawing on evidence from over 150 studies. We explain the core components of FM pipelines, including model architectures, self-supervised learning methods, and strategies for downstream adaptation. We also review how FMs are being used in each imaging domain and compare design choices across applications. Finally, we discuss key challenges and open questions to guide future research.

arxiv情報

著者 Vivien van Veldhuizen,Vanessa Botha,Chunyao Lu,Melis Erdal Cesur,Kevin Groot Lipman,Edwin D. de Jong,Hugo Horlings,Clárisa I. Sanchez,Cees G. M. Snoek,Lodewyk Wessels,Ritse Mann,Eric Marcus,Jonas Teuwen
発行日 2025-06-13 12:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Foundation Models in Medical Imaging — A Review and Outlook はコメントを受け付けていません

Vision-Language Models for Edge Networks: A Comprehensive Survey

要約

Vision Large Language Models(VLMS)は、視覚的理解と自然言語処理を組み合わせ、画像キャプション、視覚的な質問への回答、ビデオ分析などのタスクを可能にします。
VLMは、自動運転車、スマートサーベイランス、ヘルスケアなどのドメイン全体で印象的な機能を示していますが、リソース制約のあるエッジデバイスへの展開は、処理能力、メモリ、およびエネルギーの制限により依然として困難です。
この調査では、剪定、量子化、知識蒸留、効率を高める特殊なハードウェアソリューションなど、モデル圧縮技術に焦点を当てたエッジ環境のVLMを最適化する最近の進歩を調査します。
効率的なトレーニングと微調整方法、エッジ展開の課題、プライバシーに関する考慮事項の詳細な議論を提供します。
さらに、ヘルスケア、環境監視、および自律システム全体の軽量VLMの多様なアプリケーションについて説明し、それらの影響の高まりを示しています。
主要な設計戦略、現在の課題、将来の方向性に関する推奨事項を強調することにより、この調査は、VLMSの実際の展開に関するさらなる研究を促すことを目的としており、最終的にはリソース制限設定で高度なAIにアクセスできます。

要約(オリジナル)

Vision Large Language Models (VLMs) combine visual understanding with natural language processing, enabling tasks like image captioning, visual question answering, and video analysis. While VLMs show impressive capabilities across domains such as autonomous vehicles, smart surveillance, and healthcare, their deployment on resource-constrained edge devices remains challenging due to processing power, memory, and energy limitations. This survey explores recent advancements in optimizing VLMs for edge environments, focusing on model compression techniques, including pruning, quantization, knowledge distillation, and specialized hardware solutions that enhance efficiency. We provide a detailed discussion of efficient training and fine-tuning methods, edge deployment challenges, and privacy considerations. Additionally, we discuss the diverse applications of lightweight VLMs across healthcare, environmental monitoring, and autonomous systems, illustrating their growing impact. By highlighting key design strategies, current challenges, and offering recommendations for future directions, this survey aims to inspire further research into the practical deployment of VLMs, ultimately making advanced AI accessible in resource-limited settings.

arxiv情報

著者 Ahmed Sharshar,Latif U. Khan,Waseem Ullah,Mohsen Guizani
発行日 2025-06-13 12:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Vision-Language Models for Edge Networks: A Comprehensive Survey はコメントを受け付けていません