PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims

要約

特許請求は、発明の保護範囲を定義します。
請求に曖昧さがある場合、それは特許局によって拒否されます。
米国では、これは不定(35 U.S.C {\ s} 112(b))と呼ばれ、特許適用拒否の最も頻繁な理由の1つです。
特許明確性試験のための自動方法の開発は、特許の起草と検査をより効率的にする可能性がありますが、これまでに注釈付きのデータセットは公開されていません。
不明確性の理由で注釈が付けられた自然言語処理(NLP)に関連する特許出願(NLP)からの14K米国の特許請求の新しいデータセットであるPedantic(特許明確性試験コーパス)を紹介します。
USPTOからオフィスアクションドキュメントを取得し、大規模な言語モデル(LLM)を使用して不明確性の理由を抽出する完全に自動パイプラインを使用してPedanticを構築します。
人間の検証研究では、高品質の注釈を生成する際のパイプラインの精度を確認しています。
バイナリ分類メトリックを超えて洞察を得るために、すべてのモデル引用された理由の自由形式の推論をすべての審査官引用理由と比較するLLM-As-Judge評価を実装します。
QWEN 2.5 32Bおよび72Bに基づくLLMエージェントは、根本的な理由を正しく特定しているにもかかわらず、明確さ予測のロジスティック回帰ベースラインを上回るのに苦労していることを示しています。
Pedanticは、特許AIの研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にします。
データセットとコードを公開します。

要約(オリジナル)

Patent claims define the scope of protection for an invention. If there are ambiguities in a claim, it is rejected by the patent office. In the US, this is referred to as indefiniteness (35 U.S.C {\S} 112(b)) and is among the most frequent reasons for patent application rejection. The development of automatic methods for patent definiteness examination has the potential to make patent drafting and examination more efficient, but no annotated dataset has been published to date. We introduce PEDANTIC (Patent Definiteness Examination Corpus), a novel dataset of 14k US patent claims from patent applications relating to Natural Language Processing (NLP), annotated with reasons for indefiniteness. We construct PEDANTIC using a fully automatic pipeline that retrieves office action documents from the USPTO and uses Large Language Models (LLMs) to extract the reasons for indefiniteness. A human validation study confirms the pipeline’s accuracy in generating high-quality annotations. To gain insight beyond binary classification metrics, we implement an LLM-as-Judge evaluation that compares the free-form reasoning of every model-cited reason with every examiner-cited reason. We show that LLM agents based on Qwen 2.5 32B and 72B struggle to outperform logistic regression baselines on definiteness prediction, even though they often correctly identify the underlying reasons. PEDANTIC provides a valuable resource for patent AI researchers, enabling the development of advanced examination models. We will publicly release the dataset and code.

arxiv情報

著者 Valentin Knappich,Annemarie Friedrich,Anna Hätty,Simon Razniewski
発行日 2025-05-28 10:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims はコメントを受け付けていません

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

要約

大規模な言語モデルにおける専門家(MOE)の混合物の外科は、はるかに大きなモデルパラメーターカウントと学習能力に対して実行コストのわずかな価格を約束します。
ただし、一部の専門家は他の専門家よりもはるかに頻繁に活性化されていることが一般的に観察されており、異なるデバイスで専門家を並行して実行する際にシステムの非効率性につながることが観察されています。
したがって、グループ化された専門家(MOGE)の混合物を紹介します。これは、選択中に専門家をグループ化し、自然のMOEよりも専門家のワークロードのバランスをとります。
トークンを制約して、事前定義された各専門家グループ内の同数の専門家をアクティブにします。
モデルの実行が複数のデバイスで配布されると、このアーキテクチャ設計により、デバイス全体でバランスの取れた計算負荷が保証され、特に推論フェーズのスループットが大幅に向上します。
さらに、Ascend NPUにPangue Pro Moeを構築します。これは、720億パラメーターのMogeに基づくまばらなモデルであり、そのうち160億がトークンごとに活性化されます。
Pangue Pro Moeの構成は、広範なシステムシミュレーション研究を通じてAscend 300i Duoと800i A2に最適化されています。
私たちの実験は、MOGEが実際に、モデルトレーニングとAscend NPUの推論の両方で、専門家の負荷分散とより効率的な実行につながることを示しています。
Pangue Pro Moeの推論パフォーマンスは、カードごとに1148トークン/sを達成し、投機的加速によりカードあたり1528トークン/sにさらに改善でき、同等の32Bおよび72Bの密度モデルを上回ります。
さらに、Ascend 300i Duoのモデル推論のための優れたコスト対パフォーマンス比を達成しています。
我々の研究は、Ascend NPUが大規模な並列化でPangue Pro Moeをトレーニングできることを示しています。

要約(オリジナル)

The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning capacity, because only a small fraction of parameters are activated for each input token. However, it is commonly observed that some experts are activated far more often than others, leading to system inefficiency when running the experts on different devices in parallel. Therefore, we introduce Mixture of Grouped Experts (MoGE), which groups the experts during selection and balances the expert workload better than MoE in nature. It constrains tokens to activate an equal number of experts within each predefined expert group. When a model execution is distributed on multiple devices, this architectural design ensures a balanced computational load across devices, significantly enhancing throughput, particularly for the inference phase. Further, we build Pangu Pro MoE on Ascend NPUs, a sparse model based on MoGE with 72 billion total parameters, 16 billion of which are activated for each token. The configuration of Pangu Pro MoE is optimized for Ascend 300I Duo and 800I A2 through extensive system simulation studies. Our experiments indicate that MoGE indeed leads to better expert load balancing and more efficient execution for both model training and inference on Ascend NPUs. The inference performance of Pangu Pro MoE achieves 1148 tokens/s per card and can be further improved to 1528 tokens/s per card by speculative acceleration, outperforming comparable 32B and 72B Dense models. Furthermore, we achieve an excellent cost-to-performance ratio for model inference on Ascend 300I Duo. Our studies show that Ascend NPUs are capable of training Pangu Pro MoE with massive parallelization to make it a leading model within the sub-100B total parameter class, outperforming prominent open-source models like GLM-Z1-32B and Qwen3-32B.

arxiv情報

著者 Yehui Tang,Xiaosong Li,Fangcheng Liu,Wei Guo,Hang Zhou,Yaoyuan Wang,Kai Han,Xianzhi Yu,Jinpeng Li,Hui Zang,Fei Mi,Xiaojun Meng,Zhicheng Liu,Hanting Chen,Binfan Zheng,Can Chen,Youliang Yan,Ruiming Tang,Peifeng Qin,Xinghao Chen,Dacheng Tao,Yunhe Wang
発行日 2025-05-28 10:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity はコメントを受け付けていません

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

要約

Video Virtual Try-On(VVT)は、連続したビデオフレームにわたる衣服の自然な外観をシミュレートし、動的なバリエーションと人体の動きとの相互作用をキャプチャすることを目的としています。
ただし、現在のVVTメソッドは、時空間的な一貫性と衣服の内容の保存という点で依然として課題に直面しています。
第一に、彼らはU-NETに基づいて拡散モデルを使用します。U-Netは、表現力のある能力が制限され、複雑な詳細を再構築するのに苦労しています。
第二に、彼らは空間的および時間的注意のために分離モデリングアプローチを採用します。これは、構造的関係の効果的なキャプチャとフレーム間の動的な一貫性を妨げます。
第三に、衣服の詳細の表現は不十分であり、特に人間の動きの間、全体的な合成結果のリアリズムと安定性に影響を与えます。
上記の課題に対処するために、大規模なビデオ拡散トランスの上に構築されたビデオ仮想トライオンフレームワークであるMagicTryonを提案します。
U-Netアーキテクチャを拡散トランスに置き換え、完全な自己触媒を組み合わせて、ビデオの時空間的な一貫性を共同でモデル化します。
粗から洗練された衣服の保存戦略を設計します。
粗い戦略は、埋め込み段階で衣服トークンを統合しますが、細かい戦略には、除去段階でのセマンティクス、テクスチャ、輪郭線などの複数の衣服ベースの条件が組み込まれています。
さらに、衣服地域の忠実度をさらに最適化するために、マスクを意識した損失を導入します。
画像とビデオの両方のデータセットでの広範な実験は、この方法が包括的な評価で既存のSOTAメソッドを上回り、野生のシナリオに一般化することを示しています。

要約(オリジナル)

Video Virtual Try-On (VVT) aims to simulate the natural appearance of garments across consecutive video frames, capturing their dynamic variations and interactions with human body motion. However, current VVT methods still face challenges in terms of spatiotemporal consistency and garment content preservation. First, they use diffusion models based on the U-Net, which are limited in their expressive capability and struggle to reconstruct complex details. Second, they adopt a separative modeling approach for spatial and temporal attention, which hinders the effective capture of structural relationships and dynamic consistency across frames. Third, their expression of garment details remains insufficient, affecting the realism and stability of the overall synthesized results, especially during human motion. To address the above challenges, we propose MagicTryOn, a video virtual try-on framework built upon the large-scale video diffusion Transformer. We replace the U-Net architecture with a diffusion Transformer and combine full self-attention to jointly model the spatiotemporal consistency of videos. We design a coarse-to-fine garment preservation strategy. The coarse strategy integrates garment tokens during the embedding stage, while the fine strategy incorporates multiple garment-based conditions, such as semantics, textures, and contour lines during the denoising stage. Moreover, we introduce a mask-aware loss to further optimize garment region fidelity. Extensive experiments on both image and video try-on datasets demonstrate that our method outperforms existing SOTA methods in comprehensive evaluations and generalizes to in-the-wild scenarios.

arxiv情報

著者 Guangyuan Li,Siming Zheng,Hao Zhang,Jinwei Chen,Junsheng Luan,Binkai Ou,Lei Zhao,Bo Li,Peng-Tao Jiang
発行日 2025-05-28 12:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on はコメントを受け付けていません

HoliTom: Holistic Token Merging for Fast Video Large Language Models

要約

ビデオ大規模な言語モデル(ビデオLLM)はビデオ理解に優れていますが、冗長なビデオトークンのためにかなりの計算非効率性に直面しています。
既存のトークン剪定方法はソリューションを提供します。
ただし、FASTVなどのLLM内で動作するアプローチ(内部LLM剪定)は、浅い層で固有の計算オーバーヘッドを発生します。
対照的に、LLMの前にトークン剪定を実行する方法(外側LLM剪定)は、主に個々のフレームまたは限られた時間窓内の空間冗長性に対処し、より長いビデオシーケンスにわたる重要なグローバルな時間的ダイナミクスと相関を無視します。
これは、最適下の時空間削減につながり、ビデオの圧縮率を完全に活用しません。
重要なことに、これらの戦略を組み合わせることの相乗的な潜在的および相互の影響は未開拓のままです。
冗長性をさらに低減するために、新しいトレーニングのないホリスケートトークンマージフレームワークであるHolitomを紹介します。
Holitomは、グローバルな冗長性を意識した時間的セグメンテーションを通じて外部LLM剪定を採用し、その後空間的なマージを行い、視覚トークンを90%以上削減し、LLMの計算負担を大幅に緩和します。
これを補完すると、優れたパフォーマンスと外部LLMプルーニングとの互換性のために設計された、堅牢な内部llmトークンの類似性ベースのマージアプローチを導入します。
評価は、LLAVA-OneVision-7Bでのメソッドの有望な効率パフォーマンストレードオフを示しており、元のパフォーマンスの99.1%を維持しながら、計算コストをフロップの6.9%に削減します。
さらに、スループットのデコードにおける時間の時間(TTFT)の2.28倍の減少と1.32倍の加速を達成し、効率的なビデオLLMS推論のための統合された剪定アプローチの実際的な利点を強調しています。

要約(オリジナル)

Video large language models (video LLMs) excel at video comprehension but face significant computational inefficiency due to redundant video tokens. Existing token pruning methods offer solutions. However, approaches operating within the LLM (inner-LLM pruning), such as FastV, incur intrinsic computational overhead in shallow layers. In contrast, methods performing token pruning before the LLM (outer-LLM pruning) primarily address spatial redundancy within individual frames or limited temporal windows, neglecting the crucial global temporal dynamics and correlations across longer video sequences. This leads to sub-optimal spatio-temporal reduction and does not leverage video compressibility fully. Crucially, the synergistic potential and mutual influence of combining these strategies remain unexplored. To further reduce redundancy, we introduce HoliTom, a novel training-free holistic token merging framework. HoliTom employs outer-LLM pruning through global redundancy-aware temporal segmentation, followed by spatial-temporal merging to reduce visual tokens by over 90%, significantly alleviating the LLM’s computational burden. Complementing this, we introduce a robust inner-LLM token similarity-based merging approach, designed for superior performance and compatibility with outer-LLM pruning. Evaluations demonstrate our method’s promising efficiency-performance trade-off on LLaVA-OneVision-7B, reducing computational costs to 6.9% of FLOPs while maintaining 99.1% of the original performance. Furthermore, we achieve a 2.28x reduction in Time-To-First-Token (TTFT) and a 1.32x acceleration in decoding throughput, highlighting the practical benefits of our integrated pruning approach for efficient video LLMs inference.

arxiv情報

著者 Kele Shao,Keda Tao,Can Qin,Haoxuan You,Yang Sui,Huan Wang
発行日 2025-05-28 10:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HoliTom: Holistic Token Merging for Fast Video Large Language Models はコメントを受け付けていません

Visuospatial Cognitive Assistant

要約

ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠ですが、現在の視覚言語モデル(VLM)に挑戦しています。
この論文は、2つの重要な貢献をしています。
まず、VICA(視覚空間認知アシスタント)-322Kを紹介します。322K、実際の屋内ビデオ(Arkitscenes、Scannet、Scannet ++)の322,003 QAペアの多様なデータセットを紹介し、3Dメタデータベースの複雑な推論の監督を提供します。
第二に、VICA-322Kで微調整されたVICA-7Bを開発します。VICA-322Kは、8つのVSIベンチタスクすべてで新しい最先端を達成し、より大きなモデルを含む既存のモデルを上回ります(たとえば、絶対距離で+26.1)。
解釈可能性のために、明示的な推論チェーンを備えたデータセットであるVICA-Thinking-2.68Kを提示し、VICA-7Bを微調整して、その空間推論を明確にするモデルであるVICA-7B考えを作成します。
私たちの研究は、ターゲットデータの重要性を強調し、時間的空間モデリングを改善するためのパスを提案しています。
すべてのリソースをリリースして、堅牢な視覚空間情報の研究を促進します。

要約(オリジナル)

Video-based spatial cognition is vital for robotics and embodied AI but challenges current Vision-Language Models (VLMs). This paper makes two key contributions. First, we introduce ViCA (Visuospatial Cognitive Assistant)-322K, a diverse dataset of 322,003 QA pairs from real-world indoor videos (ARKitScenes, ScanNet, ScanNet++), offering supervision for 3D metadata-grounded queries and video-based complex reasoning. Second, we develop ViCA-7B, fine-tuned on ViCA-322K, which achieves new state-of-the-art on all eight VSI-Bench tasks, outperforming existing models, including larger ones (e.g., +26.1 on Absolute Distance). For interpretability, we present ViCA-Thinking-2.68K, a dataset with explicit reasoning chains, and fine-tune ViCA-7B to create ViCA-7B-Thinking, a model that articulates its spatial reasoning. Our work highlights the importance of targeted data and suggests paths for improved temporal-spatial modeling. We release all resources to foster research in robust visuospatial intelligence.

arxiv情報

著者 Qi Feng
発行日 2025-05-28 08:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Visuospatial Cognitive Assistant はコメントを受け付けていません

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

要約

マルチモーダルの大手言語モデル(MLLM)は一般的なビジョン言語タスクに優れていますが、視覚空間認知 – 空間レイアウト、関係、ダイナミクスに関する推論 – は依然として重要な課題です。
多くの場合、既存のモデルには、必要なアーキテクチャコンポーネントと、きめ細かい空間的理解のための専門的なトレーニングデータが欠けています。
空間推論を強化するために設計された新規MLLMであるVICA2(視覚空間認知アシスタント2)を紹介します。
VICA2は、セマンティクス用のSiglipと空間構造のhieraを統合するデュアルビジョンエンコーダーアーキテクチャを備えており、効率のためのトークン比制御メカニズムと組み合わせています。
また、ターゲット命令チューニングのために322,000を超える空間的に接地された質問回答ペアを備えた新しい大規模なデータセットであるVICA-322Kも開発しました。
挑戦的なVSIベンチベンチマークでは、VICA2-7Bモデルは最先端の平均スコア56.8を達成し、大規模なオープンソースモデル(LLAVA-Next-Video-72B、40.9など)および主要な専有モデル(Gemini-1.5 Pro、45.4)を大幅に上回ります。
これは、コンパクトモデルで強力な視覚空間知能を達成する際のアプローチの有効性を示しています。
さらなる研究を促進するために、VICA2、そのコードベース、およびVICA-322Kデータセットをリリースします。

要約(オリジナル)

While Multimodal Large Language Models (MLLMs) excel at general vision-language tasks, visuospatial cognition – reasoning about spatial layouts, relations, and dynamics – remains a significant challenge. Existing models often lack the necessary architectural components and specialized training data for fine-grained spatial understanding. We introduce ViCA2 (Visuospatial Cognitive Assistant 2), a novel MLLM designed to enhance spatial reasoning. ViCA2 features a dual vision encoder architecture integrating SigLIP for semantics and Hiera for spatial structure, coupled with a token ratio control mechanism for efficiency. We also developed ViCA-322K, a new large-scale dataset with over 322,000 spatially grounded question-answer pairs for targeted instruction tuning. On the challenging VSI-Bench benchmark, our ViCA2-7B model achieves a state-of-the-art average score of 56.8, significantly surpassing larger open-source models (e.g., LLaVA-NeXT-Video-72B, 40.9) and leading proprietary models (Gemini-1.5 Pro, 45.4). This demonstrates the effectiveness of our approach in achieving strong visuospatial intelligence with a compact model. We release ViCA2, its codebase, and the ViCA-322K dataset to facilitate further research.

arxiv情報

著者 Qi Feng
発行日 2025-05-28 08:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts はコメントを受け付けていません

AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping

要約

正確な作物マッピングは、個々のフィールドテクスチャから景観レベルのコンテキストに至るまでの空間スケールの範囲であり、時間スケールが短期の生物季節学的遷移と完全な成長シーズンダイナミクスの両方をキャプチャする多面的な時空パターンのモデリングに基本的に依存しています。
トランスベースのリモートセンシング基礎モデル(RSFMS)は、統一された時空処理のための生来の能力により、作物マッピングの有望な可能性を提供します。
ただし、現在のRSFMは、作物マッピングの最適ではありません。作物システムのマルチスケールの性質を無視する固定された空間的窓を使用するか、空間パターンのみに焦点を当てることにより一時的な情報を完全に無視します。
これらのギャップを橋渡しするために、農業作物マッピング専用に設計されたマルチソースリモートセンシングファンデーションモデルであるAgrifmを紹介します。
私たちのアプローチは、同時に階層的空間的特徴抽出の必要性を確立することから始まり、時間のダウンサンプリングが空間スケーリング操作と同期される修正ビデオのSWINトランスアーキテクチャの開発につながります。
この変更されたバックボーンにより、長い系列衛星入力の効率的な統一処理が可能になります。
Agrifmは、Modis、Landsat-8/9、Sentinel-2を含む3つの衛星ソースから一時的に豊富なデータストリームを活用し、土地被覆製品が監督する2,500万枚以上の画像サンプルを含むグローバルな代表的なデータセットで事前に訓練されています。
結果のフレームワークには、これらの学習された時空表現を動的に融合し、多様な下流タスクをサポートする汎用性の高いデコーダーアーキテクチャが組み込まれています。
包括的な評価は、すべての下流タスクにわたる従来の深い学習アプローチと最先端の汎用RSFMよりもAgrifmの優れたパフォーマンスを示しています。
コードはhttps://github.com/flyakon/agrifmで入手できます。

要約(オリジナル)

Accurate crop mapping fundamentally relies on modeling multi-scale spatiotemporal patterns, where spatial scales range from individual field textures to landscape-level context, and temporal scales capture both short-term phenological transitions and full growing-season dynamics. Transformer-based remote sensing foundation models (RSFMs) offer promising potential for crop mapping due to their innate ability for unified spatiotemporal processing. However, current RSFMs remain suboptimal for crop mapping: they either employ fixed spatiotemporal windows that ignore the multi-scale nature of crop systems or completely disregard temporal information by focusing solely on spatial patterns. To bridge these gaps, we present AgriFM, a multi-source remote sensing foundation model specifically designed for agricultural crop mapping. Our approach begins by establishing the necessity of simultaneous hierarchical spatiotemporal feature extraction, leading to the development of a modified Video Swin Transformer architecture where temporal down-sampling is synchronized with spatial scaling operations. This modified backbone enables efficient unified processing of long time-series satellite inputs. AgriFM leverages temporally rich data streams from three satellite sources including MODIS, Landsat-8/9 and Sentinel-2, and is pre-trained on a global representative dataset comprising over 25 million image samples supervised by land cover products. The resulting framework incorporates a versatile decoder architecture that dynamically fuses these learned spatiotemporal representations, supporting diverse downstream tasks. Comprehensive evaluations demonstrate AgriFM’s superior performance over conventional deep learning approaches and state-of-the-art general-purpose RSFMs across all downstream tasks. Codes will be available at https://github.com/flyakon/AgriFM.

arxiv情報

著者 Wenyuan Li,Shunlin Liang,Keyan Chen,Yongzhe Chen,Han Ma,Jianglei Xu,Yichuan Ma,Shikang Guan,Husheng Fang,Zhenwei Shi
発行日 2025-05-28 09:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping はコメントを受け付けていません

Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs

要約

今日のクラウドホストのアプリケーションとサービスは複雑なシステムであり、パフォーマンスまたは機能的不安定性は、数十または数百の潜在的な根本原因を持つことができます。
私たちの仮説は、最新のAIツールのパターンマッチング機能と自然なマルチモーダルRAG LLMインターフェイスを組み合わせることにより、問題の識別と解像度を簡素化できるということです。
ARCAは、このドメインをターゲットにする新しいマルチモーダルラグLLMシステムです。
段階的な評価は、ARCAが最先端の代替案よりも優れていることを示しています。

要約(オリジナル)

Today’s cloud-hosted applications and services are complex systems, and a performance or functional instability can have dozens or hundreds of potential root causes. Our hypothesis is that by combining the pattern matching capabilities of modern AI tools with a natural multi-modal RAG LLM interface, problem identification and resolution can be simplified. ARCA is a new multi-modal RAG LLM system that targets this domain. Step-wise evaluations show that ARCA outperforms state-of-the-art alternatives.

arxiv情報

著者 Yifan Wang,Kenneth P. Birman
発行日 2025-05-28 02:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.OS | Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs はコメントを受け付けていません

Automating eHMI Action Design with LLMs for Automated Vehicle Communication

要約

自動化された車両(AVS)と他の道路利用者間に明示的な通信チャネルがないため、不確実なシナリオでメッセージを効果的に伝えるために、外部のヒューマシンインターフェイス(EHMI)を使用する必要があります。
現在、ほとんどのEHMI研究は、これらのメッセージを実行するために事前定義されたテキストメッセージと手動で設計されたアクションを採用しています。これにより、動的シナリオの適応性が不可欠なEHMISの実際の展開が制限されています。
大規模な言語モデル(LLM)の一般化と汎用性を考えると、メッセージアクションデザインタスクの自動アクションデザイナーとして潜在的に機能する可能性があります。
このアイデアを検証するために、3つの貢献をします。(1)LLMと3Dレンダラーを統合するパイプラインを提案し、LLMSをアクションデザイナーとして使用して、EHMISを制御し、アクションクリップをレンダリングするための実行可能アクションを生成します。
(2)8つの意図されたメッセージと4つの代表的なEHMIモダリティに対して合計320のアクションシーケンスを含むユーザー定格のアクションデザインスコアセットを収集します。
データセットは、LLMSが意図したメッセージを人間レベルに近いアクションに変換できることを検証します。
(3)18 LLMのベンチマークを行うために、アクションリファレンススコア(ARS)とビジョン言語モデル(VLMS)の2つの自動評価者を導入し、VLMが人間の好みに合わせているが、EHMIモダリティによって異なることを発見します。

要約(オリジナル)

The absence of explicit communication channels between automated vehicles (AVs) and other road users requires the use of external Human-Machine Interfaces (eHMIs) to convey messages effectively in uncertain scenarios. Currently, most eHMI studies employ predefined text messages and manually designed actions to perform these messages, which limits the real-world deployment of eHMIs, where adaptability in dynamic scenarios is essential. Given the generalizability and versatility of large language models (LLMs), they could potentially serve as automated action designers for the message-action design task. To validate this idea, we make three contributions: (1) We propose a pipeline that integrates LLMs and 3D renderers, using LLMs as action designers to generate executable actions for controlling eHMIs and rendering action clips. (2) We collect a user-rated Action-Design Scoring dataset comprising a total of 320 action sequences for eight intended messages and four representative eHMI modalities. The dataset validates that LLMs can translate intended messages into actions close to a human level, particularly for reasoning-enabled LLMs. (3) We introduce two automated raters, Action Reference Score (ARS) and Vision-Language Models (VLMs), to benchmark 18 LLMs, finding that the VLM aligns with human preferences yet varies across eHMI modalities.

arxiv情報

著者 Ding Xia,Xinyue Gui,Fan Gao,Dongyuan Li,Mark Colley,Takeo Igarashi
発行日 2025-05-27 04:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Automating eHMI Action Design with LLMs for Automated Vehicle Communication はコメントを受け付けていません

ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making

要約

任意のタスクを達成できる具体化されたエージェントを構築することは、具体化された人工的な一般情報(E-AGI)を達成するための中心的な目的です。
最近の作業はこのような一般的なロボットポリシーを進めていますが、それらのトレーニングと評価は、制限された指示とシナリオを含む特定のシーン内のタスクに限定されることがよくあります。
既存のベンチマークは、通常、いくつかのシーンで限られたタスクの手動注釈にも依存しています。
特定のシーン内の実行可能なタスクの全範囲を探索することは、評価のための広範なベンチマークとエージェント改善のための貴重なリソースの両方を提供するため、重要であると主張します。
この目的に向かって、特定のシーンに対して包括的で多様で実行可能なモバイル操作タスクを自動的に生成する新しいシステムであるManitaskgenを紹介します。
生成されたタスクには、プロセスベースの特定の命令(「オブジェクトをxからyに移動する」)と結果ベースの抽象的な指示(たとえば、「テーブルをクリアする」など)の両方を含みます。
シミュレートされたシーンと実世界の両方のシーンにマニタスクゲンを適用し、生成されたタスクの妥当性と多様性を示します。
次に、これらのタスクを活用してベンチマークを自動的に構築し、既存のビジョン言語モデル(VLM)に基づいて構築されたエージェントの具体化された意思決定機能を徹底的に評価します。
さらに、具体化された意思決定を強化するためにManitaskgenタスクを利用するシンプルでありながら効果的な方法を提案します。
全体として、この作業は、任意のシーンの普遍的なタスク生成フレームワークを提示し、具体化された意思決定エージェントのベンチマークと改善の両方を促進します。

要約(オリジナル)

Building embodied agents capable of accomplishing arbitrary tasks is a core objective towards achieving embodied artificial general intelligence (E-AGI). While recent work has advanced such general robot policies, their training and evaluation are often limited to tasks within specific scenes, involving restricted instructions and scenarios. Existing benchmarks also typically rely on manual annotation of limited tasks in a few scenes. We argue that exploring the full spectrum of feasible tasks within any given scene is crucial, as they provide both extensive benchmarks for evaluation and valuable resources for agent improvement. Towards this end, we introduce ManiTaskGen, a novel system that automatically generates comprehensive, diverse, feasible mobile manipulation tasks for any given scene. The generated tasks encompass both process-based, specific instructions (e.g., ‘move object from X to Y’) and outcome-based, abstract instructions (e.g., ‘clear the table’). We apply ManiTaskGen to both simulated and real-world scenes, demonstrating the validity and diversity of the generated tasks. We then leverage these tasks to automatically construct benchmarks, thoroughly evaluating the embodied decision-making capabilities of agents built upon existing vision-language models (VLMs). Furthermore, we propose a simple yet effective method that utilizes ManiTaskGen tasks to enhance embodied decision-making. Overall, this work presents a universal task generation framework for arbitrary scenes, facilitating both benchmarking and improvement of embodied decision-making agents.

arxiv情報

著者 Liu Dai,Haina Wang,Weikang Wan,Hao Su
発行日 2025-05-27 05:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ManiTaskGen: A Comprehensive Task Generator for Benchmarking and Improving Vision-Language Agents on Embodied Decision-Making はコメントを受け付けていません