Do LLMs estimate uncertainty well in instruction-following?

要約

大規模な言語モデル(LLM)は、ユーザーの指示に正確に従うことができれば、さまざまなドメインにわたって貴重な個人AIエージェントになる可能性があります。
しかし、最近の研究では、LLMSの指導能力に大きな制限が示されており、ハイステークスアプリケーションにおける信頼性に関する懸念が高まっています。
展開のリスクを軽減するには、指示を順守する際のLLMSの不確実性を正確に推定することが重要です。
私たちの知る限り、命令に従うという文脈におけるLLMSの不確実性推定能力の最初の体系的な評価を提示します。
私たちの研究は、既存の指導に従うベンチマークで重要な課題を特定します。このベンチマークでは、複数の要因が命令に従っていることに由来し、メソッドとモデル間の分離と比較を複雑にします。
これらの問題に対処するために、2つのベンチマークバージョンのデータを使用した制御された評価セットアップを導入し、さまざまな条件下で不確実性推定方法の包括的な比較を可能にします。
私たちの調査結果は、既存の不確実性方法が闘っていることを示しています。特に、モデルが次の指示に微妙なエラーを犯した場合です。
内部モデルの状態はいくらかの改善をもたらしますが、より複雑なシナリオでは不十分なままです。
制御された評価セットアップからの洞察は、LLMの制限と、指導に従うタスクの不確実性の推定の可能性を重要な理解を提供し、より信頼できるAIエージェントへの道を開きます。

要約(オリジナル)

Large language models (LLMs) could be valuable personal AI agents across various domains, provided they can precisely follow user instructions. However, recent studies have shown significant limitations in LLMs’ instruction-following capabilities, raising concerns about their reliability in high-stakes applications. Accurately estimating LLMs’ uncertainty in adhering to instructions is critical to mitigating deployment risks. We present, to our knowledge, the first systematic evaluation of the uncertainty estimation abilities of LLMs in the context of instruction-following. Our study identifies key challenges with existing instruction-following benchmarks, where multiple factors are entangled with uncertainty stems from instruction-following, complicating the isolation and comparison across methods and models. To address these issues, we introduce a controlled evaluation setup with two benchmark versions of data, enabling a comprehensive comparison of uncertainty estimation methods under various conditions. Our findings show that existing uncertainty methods struggle, particularly when models make subtle errors in instruction following. While internal model states provide some improvement, they remain inadequate in more complex scenarios. The insights from our controlled evaluation setups provide a crucial understanding of LLMs’ limitations and potential for uncertainty estimation in instruction-following tasks, paving the way for more trustworthy AI agents.

arxiv情報

著者 Juyeon Heo,Miao Xiong,Christina Heinze-Deml,Jaya Narain
発行日 2025-03-28 15:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do LLMs estimate uncertainty well in instruction-following? はコメントを受け付けていません

Niyama : Breaking the Silos of LLM Inference Serving

要約

大規模な言語モデル(LLMS)の広範な採用により、非常に異なる遅延要件を備えた多様なアプリケーションが可能になりました。
既存のLLMサービングフレームワークは、粗粒のワークロード分離(インタラクティブとバッチ)を備えたサイロ化されたインフラストラクチャに依存しています。
これにより、交通量のサージ中の運用上の非効率性、過剰な導入、負荷管理が不十分になります。
共有インフラストラクチャ上の多様なワークロードの効率的な共同スケジュールを可能にする新しいQoS駆動型の推論サービスシステムであるNiyamaを紹介します。
Niyamaは、アプリケーションが正確な遅延要件を指定できるように、きめ細かいQoS分類を導入し、リアルタイムシステム状態に基づいてスケジューリングの決定を動的に適応させます。
LLM推論の予測可能な実行特性を活用して、Niyamaは、厳格なQoS保証を維持しながら、全体的なスループットを改善する動的なチャンキングメカニズムを実装します。
さらに、Niyamaは、公平性と効率のバランスをとるハイブリッド優先順位付けポリシーを採用しており、過負荷条件中に優雅なサービスの劣化を可能にする選択的要求降格を採用しています。
私たちの評価は、QoS保証を維持しながら、Niyamaが現在のサイロ化された展開と比較してサービング容量を32%増加させることを示しています。
特に、極端な負荷の下では、システムは現在の戦略と比較してSLO違反を数桁削減します。

要約(オリジナル)

The widespread adoption of Large Language Models (LLMs) has enabled diverse applications with very different latency requirements. Existing LLM serving frameworks rely on siloed infrastructure with coarse-grained workload segregation — interactive and batch — leading to inefficient resource utilization and limited support for fine-grained Quality-of-Service (QoS) differentiation. This results in operational inefficiencies, over-provisioning and poor load management during traffic surges. We present Niyama, a novel QoS-driven inference serving system that enables efficient co-scheduling of diverse workloads on shared infrastructure. Niyama introduces fine-grained QoS classification allowing applications to specify precise latency requirements, and dynamically adapts scheduling decisions based on real-time system state. Leveraging the predictable execution characteristics of LLM inference, Niyama implements a dynamic chunking mechanism to improve overall throughput while maintaining strict QoS guarantees. Additionally, Niyama employs a hybrid prioritization policy that balances fairness and efficiency, and employs selective request relegation that enables graceful service degradation during overload conditions. Our evaluation demonstrates that Niyama increases serving capacity by 32% compared to current siloed deployments, while maintaining QoS guarantees. Notably, under extreme load, our system reduces SLO violations by an order of magnitude compared to current strategies.

arxiv情報

著者 Kanishk Goel,Jayashree Mohan,Nipun Kwatra,Ravi Shreyas Anupindi,Ramachandran Ramjee
発行日 2025-03-28 16:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | Niyama : Breaking the Silos of LLM Inference Serving はコメントを受け付けていません

Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm

要約

この作業では、\ textbf {loc} ality based \ textbf {fac} torized \ textbf {m} ulti-agent \ textbf {a} ctor- \ textbf {c} ritic(loc-facmac)と呼ばれる新しい協同組合マルチエージェント補強学習方法を紹介します。
FACMACなどの既存の最先端のアルゴリズムは、分散型システムにおける個々のロボットのアクションの品質を正確に反映していないグローバルな報酬情報に依存しています。
地域の概念を批評家の学習に統合します。批評家学習では、トレーニング中に強く関連するロボットがパーティションを形成します。
同じパーティション内のロボットは、相互に大きな影響を与え、より正確なポリシー評価につながります。
さらに、ロボット間の関係をキャプチャする依存書グラフを構築し、パーティションプロセスを促進します。
このアプローチは、次元の呪いを軽減し、ロボットが無関係な情報を使用することを防ぎます。
私たちの方法は、ローカルの報酬に焦点を当て、パーティションベースの学習を活用してトレーニングの効率とパフォーマンスを向上させることにより、既存のアルゴリズムを改善します。
廊下、マルチカートポール、および境界協力的ナビゲーションの3つの環境でのloc-Facmacのパフォーマンスを評価します。
パフォーマンスに対するパーティションサイズの影響を調査し、結果をLOMAQ、FACMAC、QMIXなどのベースラインMARLアルゴリズムと比較します。
実験では、局所構造が適切に定義されている場合、loc-facmacがこれらのベースラインアルゴリズムを108 \%まで上回ることを明らかにしており、俳優criticフレームワークのローカリティ構造を活用することでMARLのパフォーマンスが向上することを示しています。

要約(オリジナル)

In this work, we present a novel cooperative multi-agent reinforcement learning method called \textbf{Loc}ality based \textbf{Fac}torized \textbf{M}ulti-Agent \textbf{A}ctor-\textbf{C}ritic (Loc-FACMAC). Existing state-of-the-art algorithms, such as FACMAC, rely on global reward information, which may not accurately reflect the quality of individual robots’ actions in decentralized systems. We integrate the concept of locality into critic learning, where strongly related robots form partitions during training. Robots within the same partition have a greater impact on each other, leading to more precise policy evaluation. Additionally, we construct a dependency graph to capture the relationships between robots, facilitating the partitioning process. This approach mitigates the curse of dimensionality and prevents robots from using irrelevant information. Our method improves existing algorithms by focusing on local rewards and leveraging partition-based learning to enhance training efficiency and performance. We evaluate the performance of Loc-FACMAC in three environments: Hallway, Multi-cartpole, and Bounded-Cooperative-Navigation. We explore the impact of partition sizes on the performance and compare the result with baseline MARL algorithms such as LOMAQ, FACMAC, and QMIX. The experiments reveal that, if the locality structure is defined properly, Loc-FACMAC outperforms these baseline algorithms up to 108\%, indicating that exploiting the locality structure in the actor-critic framework improves the MARL performance.

arxiv情報

著者 Chak Lam Shek,Amrit Singh Bedi,Anjon Basak,Ellen Novoseller,Nick Waytowich,Priya Narayanan,Dinesh Manocha,Pratap Tokekar
発行日 2025-03-28 16:19:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm はコメントを受け付けていません

A Framework for Cryptographic Verifiability of End-to-End AI Pipelines

要約

複数の産業部門にわたる人工知能の統合の増加は、その開発と展開の透明性、信頼、監査可能性を確保するための堅牢なメカニズムを必要とします。
このトピックは、AIの安全性に関する規制と法律を導入するためのさまざまな管轄区域での最近の呼び出しに照らして特に重要です。
このホワイトペーパーでは、完全に検証可能なAIパイプラインのフレームワークを提案し、重要なコンポーネントを特定し、データ調達からトレーニング、推論、および学習まで、AIライフサイクルのさまざまな段階にわたる検証可能性に寄与する既存の暗号化アプローチを分析することを提案します。
このフレームワークは、AIが生成された資産とともに暗号化された証明を提供して、その出所と正確性の下流の検証を可能にすることにより、誤った情報と戦うために使用できます。
私たちの調査結果は、孤立したAIプロセスに効率的であるだけでなく、AIパイプライン内の異なるプロセスで効率的に「リンク可能」である暗号化ツールを開発するために進行中の研究の重要性を強調し、エンドツーエンドの検証可能なAIテクノロジーの開発をサポートします。

要約(オリジナル)

The increasing integration of Artificial Intelligence across multiple industry sectors necessitates robust mechanisms for ensuring transparency, trust, and auditability of its development and deployment. This topic is particularly important in light of recent calls in various jurisdictions to introduce regulation and legislation on AI safety. In this paper, we propose a framework for complete verifiable AI pipelines, identifying key components and analyzing existing cryptographic approaches that contribute to verifiability across different stages of the AI lifecycle, from data sourcing to training, inference, and unlearning. This framework could be used to combat misinformation by providing cryptographic proofs alongside AI-generated assets to allow downstream verification of their provenance and correctness. Our findings underscore the importance of ongoing research to develop cryptographic tools that are not only efficient for isolated AI processes, but that are efficiently `linkable’ across different processes within the AI pipeline, to support the development of end-to-end verifiable AI technologies.

arxiv情報

著者 Kar Balan,Robert Learney,Tim Wood
発行日 2025-03-28 16:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | A Framework for Cryptographic Verifiability of End-to-End AI Pipelines はコメントを受け付けていません

Quantum Neural Network Restatement of Markov Jump Process

要約

探索的データ分析における多くの課題にもかかわらず、人工ニューラルネットワークは、理論的および実用的なアプリケーションの両方で科学者と研究者に強い関心を動機付けてきました。
人工ニューラルネットワークのこのような人気のソースの中で、非線形動的システム、一般化、および適応の可能性をモデル化する能力が言及されるべきです。
それにもかかわらず、データ学習と予測のためのユニークな構造を安定化する上でのさまざまな基礎となる確率プロセスの役割については、依然として重要な議論があります。
機械インテリジェントシステムの理論的および数値的研究に対するこのような障害の1つは、次元の呪いと高次元確率分布からのサンプリングです。
一般に、この呪いは状態の効率的な説明を防ぎ、システムが効率的に説明および研究されるための重要な複雑さの障壁を提供します。
この一連の研究では、量子情報に関する学習理論のそのような抽象的な概念の直接的な治療と説明が最も有利な候補の1つです。
したがって、これらの記事の主題は、量子機械システムの観点からの設計、適応、および計算的に困難な問題の定式化の問題に専念しています。
推論統計の言語におけるこのようなダイナミクスの微視的記述を特徴付けるために、D次元ガウス密度の共分散行列推定と動的システムの固有値問題のベイズ解釈が評価されます。

要約(オリジナル)

Despite the many challenges in exploratory data analysis, artificial neural networks have motivated strong interests in scientists and researchers both in theoretical as well as practical applications. Among sources of such popularity of artificial neural networks the ability of modeling non-linear dynamical systems, generalization, and adaptation possibilities should be mentioned. Despite this, there is still significant debate about the role of various underlying stochastic processes in stabilizing a unique structure for data learning and prediction. One of such obstacles to the theoretical and numerical study of machine intelligent systems is the curse of dimensionality and the sampling from high-dimensional probability distributions. In general, this curse prevents efficient description of states, providing a significant complexity barrier for the system to be efficiently described and studied. In this strand of research, direct treatment and description of such abstract notions of learning theory in terms of quantum information be one of the most favorable candidates. Hence, the subject matter of these articles is devoted to problems of design, adaptation and the formulations of computationally hard problems in terms of quantum mechanical systems. In order to characterize the microscopic description of such dynamics in the language of inferential statistics, covariance matrix estimation of d-dimensional Gaussian densities and Bayesian interpretation of eigenvalue problem for dynamical systems is assessed.

arxiv情報

著者 Z. Zarezadeh,N. Zarezadeh
発行日 2025-03-28 16:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA | Quantum Neural Network Restatement of Markov Jump Process はコメントを受け付けていません

On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations

要約

ディープ補強学習(DRL)は、エージェントがニューラルネットワークを使用して、特定の環境でどのアクションをとるかを学習する人工知能のパラダイムです。
DRLは最近、運転シミュレータ、3Dロボット制御、マルチプレイヤーオンラインバトルアリーナビデオゲームなどの複雑な環境を解決できることから牽引力を獲得しました。
深いQネットワーク(DQN)や近位政策最適化(PPO)アルゴリズムなど、これらのエージェントのトレーニングを担当する最先端のアルゴリズムの多数の実装が現在存在しています。
ただし、研究では、同じアルゴリズムの実装が一貫性があり、したがって互換性があると仮定する間違いを犯します。
この論文では、微分テストレンズを通じて、実装の矛盾の程度、実装のパフォーマンスへの影響、および交換可能な実装の仮定に基づく以前の研究の結論への影響を研究した結果を提示します。
微分テストの結果は、テストされたアルゴリズムの実装間で有意な矛盾を示し、それらが交換できないことを示しています。
特に、56ゲームでテストされた5つのPPO実装のうち、3つの実装は合計試験の50%で超人的なパフォーマンスを達成しましたが、他の2つの実装では、総トライアルの15%未満で超人的なパフォーマンスを達成しました。
実装のソースコードの細心の手動分析の一環として、実装の不一致を分析し、コードレベルの矛盾が主にこれらの矛盾を引き起こしたと判断しました。
最後に、私たちは研究を再現し、実装の交換性のこの仮定が実験の結果をひっくり返すのに十分であることを示しました。
したがって、これには、実装がどのように使用されているかが変化する必要があります。

要約(オリジナル)

Deep Reinforcement Learning (DRL) is a paradigm of artificial intelligence where an agent uses a neural network to learn which actions to take in a given environment. DRL has recently gained traction from being able to solve complex environments like driving simulators, 3D robotic control, and multiplayer-online-battle-arena video games. Numerous implementations of the state-of-the-art algorithms responsible for training these agents, like the Deep Q-Network (DQN) and Proximal Policy Optimization (PPO) algorithms, currently exist. However, studies make the mistake of assuming implementations of the same algorithm to be consistent and thus, interchangeable. In this paper, through a differential testing lens, we present the results of studying the extent of implementation inconsistencies, their effect on the implementations’ performance, as well as their impact on the conclusions of prior studies under the assumption of interchangeable implementations. The outcomes of our differential tests showed significant discrepancies between the tested algorithm implementations, indicating that they are not interchangeable. In particular, out of the five PPO implementations tested on 56 games, three implementations achieved superhuman performance for 50% of their total trials while the other two implementations only achieved superhuman performance for less than 15% of their total trials. As part of a meticulous manual analysis of the implementations’ source code, we analyzed implementation discrepancies and determined that code-level inconsistencies primarily caused these discrepancies. Lastly, we replicated a study and showed that this assumption of implementation interchangeability was sufficient to flip experiment outcomes. Therefore, this calls for a shift in how implementations are being used.

arxiv情報

著者 Rajdeep Singh Hundal,Yan Xiao,Xiaochun Cao,Jin Song Dong,Manuel Rigger
発行日 2025-03-28 16:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.5 | On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations はコメントを受け付けていません

Towards shutdownable agents via stochastic choice

要約

不完全な設定提案(IPP)は、高度な人工薬剤がシャットダウンに抵抗しないようにするためのアイデアです。
IPPの重要な部分は、(1)各軌道長を効果的に条件とした目標を追求するために、エージェントを訓練するために、同じ長さの軌跡(Drest)の割引報酬(drest)を使用することです(2)異なる軌道の長さ(軌道長について)を選択することです。
この論文では、有用性と中立性に関する評価指標を提案します。
Drest Reward機能を使用して、シンプルなエージェントを訓練してGridworldsをナビゲートします。これらのエージェントは、有用で中立であることを学びます。
したがって、私たちの結果は、Drest Reward関数が高度なエージェントを有用で中立にするように訓練できるという最初の証拠を提供します。
私たちの理論的作業は、これらのエージェントが有用で閉鎖可能であることを示唆しています。

要約(オリジナル)

The Incomplete Preferences Proposal (IPP) is an idea for ensuring that advanced artificial agents never resist shutdown. A key part of the IPP is using a novel `Discounted Reward for Same-Length Trajectories (DReST)’ reward function to train agents to (1) pursue goals effectively conditional on each trajectory-length (be `USEFUL’), and (2) choose stochastically between different trajectory-lengths (be `NEUTRAL’ about trajectory-lengths). In this paper, we propose evaluation metrics for USEFULNESS and NEUTRALITY. We use a DReST reward function to train simple agents to navigate gridworlds, and we find that these agents learn to be USEFUL and NEUTRAL. Our results thus provide some initial evidence that DReST reward functions could train advanced agents to be USEFUL and NEUTRAL. Our theoretical work suggests that these agents would be useful and shutdownable.

arxiv情報

著者 Elliott Thornley,Alexander Roman,Christos Ziakas,Leyton Ho,Louis Thomson
発行日 2025-03-28 16:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards shutdownable agents via stochastic choice はコメントを受け付けていません

Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish

要約

この研究では、19世紀のラテンアメリカの新聞でのデータセットを強化し、皮肉の検出を改善するために、大規模な言語モデル(LLMS)の使用を調査します。
マルチクラスとバイナリ分類タスクの両方を通じて、皮肉の微妙なニュアンスの性質をキャプチャする際に、BERTおよびGPT-4Oモデルの有効性を評価するために2つの戦略が採用されました。
最初に、感情的および文脈的な手がかりを豊かにすることに焦点を当てたデータセットの強化を実装しました。
ただし、これらは歴史的な言語分析に限られた影響を示しました。
2番目の戦略である半自動注釈プロセスは、クラスの不均衡に効果的に対処し、高品質の注釈でデータセットを増強しました。
皮肉の複雑さによってもたらされる課題にもかかわらず、この作業は、2つの重要な貢献を通じて感情分析の進歩に貢献します。センチメント分析と皮肉検出のためにタグ付けされた新しい歴史的なスペインのデータセットの導入と、人間の専門知識がLLMSを洗練するために重要である半自動注釈方法を提案し、歴史的文脈を補充し、COREとCOREの導入と文化的な文脈を豊かにします。

要約(オリジナル)

This study explores the use of large language models (LLMs) to enhance datasets and improve irony detection in 19th-century Latin American newspapers. Two strategies were employed to evaluate the efficacy of BERT and GPT-4o models in capturing the subtle nuances nature of irony, through both multi-class and binary classification tasks. First, we implemented dataset enhancements focused on enriching emotional and contextual cues; however, these showed limited impact on historical language analysis. The second strategy, a semi-automated annotation process, effectively addressed class imbalance and augmented the dataset with high-quality annotations. Despite the challenges posed by the complexity of irony, this work contributes to the advancement of sentiment analysis through two key contributions: introducing a new historical Spanish dataset tagged for sentiment analysis and irony detection, and proposing a semi-automated annotation methodology where human expertise is crucial for refining LLMs results, enriched by incorporating historical and cultural contexts as core features.

arxiv情報

著者 Kevin Cohen,Laura Manrique-Gómez,Rubén Manrique
発行日 2025-03-28 16:33:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, I.2.7 | Historical Ink: Exploring Large Language Models for Irony Detection in 19th-Century Spanish はコメントを受け付けていません

Generative Latent Neural PDE Solver using Flow Matching

要約

自動脱着次のステップ予測モデルは、データ駆動型ニューラルソルバーを構築して、時間依存の部分微分方程式(PDE)を予測するための事実上の標準となっています。
拡散確率モデルに密接に関連するデノワーズトレーニングは、神経ソルバーの時間的安定性を高めることが示されていますが、その確率的推論メカニズムにより、アンサンブルの予測と不確実性の定量化が可能になります。
原則として、このようなトレーニングには、トレーニングと推論の両方で一連の離散化された拡散タイムステップをサンプリングし、必然的に計算オーバーヘッドを増加させます。
さらに、ほとんどの拡散モデルは、構造化された均一なグリッドに等方性ガウスノイズを適用し、不規則なドメインへの適応性を制限します。
PDEシミュレーションの潜在的な拡散モデルを提案し、PDE状態を低次元潜在空間に埋め込み、計算コストを大幅に削減します。
私たちのフレームワークでは、自動エンコーダーを使用して、さまざまな種類のメッシュを統合された構造化された潜在網にマッピングし、複雑なジオメトリをキャプチャします。
一般的な拡散パスを分析することにより、トレーニングとテストの両方でフローマッチングから粗くサンプリングされたノイズスケジュールを使用することを提案します。
数値実験は、提案されたモデルが精度と長期の安定性の両方におけるいくつかの決定論的ベースラインよりも優れていることを示しており、堅牢なデータ駆動型PDE学習のための拡散ベースのアプローチの可能性を強調しています。

要約(オリジナル)

Autoregressive next-step prediction models have become the de-facto standard for building data-driven neural solvers to forecast time-dependent partial differential equations (PDEs). Denoise training that is closely related to diffusion probabilistic model has been shown to enhance the temporal stability of neural solvers, while its stochastic inference mechanism enables ensemble predictions and uncertainty quantification. In principle, such training involves sampling a series of discretized diffusion timesteps during both training and inference, inevitably increasing computational overhead. In addition, most diffusion models apply isotropic Gaussian noise on structured, uniform grids, limiting their adaptability to irregular domains. We propose a latent diffusion model for PDE simulation that embeds the PDE state in a lower-dimensional latent space, which significantly reduces computational costs. Our framework uses an autoencoder to map different types of meshes onto a unified structured latent grid, capturing complex geometries. By analyzing common diffusion paths, we propose to use a coarsely sampled noise schedule from flow matching for both training and testing. Numerical experiments show that the proposed model outperforms several deterministic baselines in both accuracy and long-term stability, highlighting the potential of diffusion-based approaches for robust data-driven PDE learning.

arxiv情報

著者 Zijie Li,Anthony Zhou,Amir Barati Farimani
発行日 2025-03-28 16:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Generative Latent Neural PDE Solver using Flow Matching はコメントを受け付けていません

Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users

要約

このペーパーでは、視覚障害のある個人の支援技術としてのマルチモーダル大手言語モデル(MLLMS)の有効性を探ります。
ユーザー調査を実施して、採用パターンとユーザーが直面する重要な課題を特定します。
これらのモデルの採用率が高いにもかかわらず、我々の調査結果は、特に視覚的解釈のためだけに頼ることができる個人にとって、文脈的理解、文化的感受性、複雑なシーンの理解に関連する懸念を強調しています。
これらの結果から通知されて、光字点字認識に関する新しいタスクを含む、画像とビデオの入力を含む5つのユーザー中心のタスクを照合します。
12のMLLMの体系的な評価は、文化的文脈、多言語サポート、点字読解力、支援オブジェクト認識、幻覚に関連する制限を克服するためにさらなる進歩が必要であることを明らかにしています。
この作業は、アクセシビリティのためのマルチモーダルAIの将来の方向性に関する重要な洞察を提供し、より包括的で堅牢で信頼できる視覚援助技術の必要性を強調しています。

要約(オリジナル)

This paper explores the effectiveness of Multimodal Large Language models (MLLMs) as assistive technologies for visually impaired individuals. We conduct a user survey to identify adoption patterns and key challenges users face with such technologies. Despite a high adoption rate of these models, our findings highlight concerns related to contextual understanding, cultural sensitivity, and complex scene understanding, particularly for individuals who may rely solely on them for visual interpretation. Informed by these results, we collate five user-centred tasks with image and video inputs, including a novel task on Optical Braille Recognition. Our systematic evaluation of twelve MLLMs reveals that further advancements are necessary to overcome limitations related to cultural context, multilingual support, Braille reading comprehension, assistive object recognition, and hallucinations. This work provides critical insights into the future direction of multimodal AI for accessibility, underscoring the need for more inclusive, robust, and trustworthy visual assistance technologies.

arxiv情報

著者 Antonia Karamolegkou,Malvina Nikandrou,Georgios Pantazopoulos,Danae Sanchez Villegas,Phillip Rust,Ruchira Dhar,Daniel Hershcovich,Anders Søgaard
発行日 2025-03-28 16:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users はコメントを受け付けていません