On Path to Multimodal Historical Reasoning: HistBench and HistAgent

要約

大規模な言語モデル(LLMS)の最近の進歩は、ドメイン全体で顕著な進歩をもたらしましたが、人文科学、特に歴史におけるそれらの能力は未習性のままです。
歴史的推論は、マルチモーダルソース解釈、時間的推論、および言語分析を含むAIに独自の課題をもたらします。
汎用エージェントは多くの既存のベンチマークでうまく機能しますが、歴史的資料や質問に取り組むために必要なドメイン固有の専門知識がありません。
このギャップに対処するために、AIの歴史的推論の能力を評価するために設計され、40人以上の専門家貢献者によって作成された414の高品質の質問の新しいベンチマークであるHistbenchを紹介します。
このタスクは、主要な情報源に基づいた事実上の検索から、原稿や画像の解釈分析、考古学、言語学、または文化史を含む学際的な課題に至るまで、幅広い歴史的問題に及びます。
さらに、ベンチマークデータセットは29の古代および現代の言語にまたがり、幅広い歴史的期間と世界地域をカバーしています。
histbenchでLLMSおよび他のエージェントのパフォーマンスが低いことを発見した場合、歴史上、OCR、翻訳、アーカイブ検索、画像理解のための慎重に設計されたツールを装備した歴史固有のエージェントであるHistagentをさらに提示します。
Histbenchでは、GPT-4oに基づくHistagentは、27.54%パス@1および36.47%パス@2の精度を達成し、LLMをオンライン検索とGPT-4o(18.60%)、Deepseek-R1(14.49%)、Open empro Research-smolagents(20.29%Pass@2.12を含むジェネラリストエージェントを大幅に上回ります。
これらの結果は、既存のLLMとジェネラリストのエージェントの制限を強調し、歴史的推論に対するヒスタゲントの利点を示しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have led to remarkable progress across domains, yet their capabilities in the humanities, particularly history, remain underexplored. Historical reasoning poses unique challenges for AI, involving multimodal source interpretation, temporal inference, and cross-linguistic analysis. While general-purpose agents perform well on many existing benchmarks, they lack the domain-specific expertise required to engage with historical materials and questions. To address this gap, we introduce HistBench, a new benchmark of 414 high-quality questions designed to evaluate AI’s capacity for historical reasoning and authored by more than 40 expert contributors. The tasks span a wide range of historical problems-from factual retrieval based on primary sources to interpretive analysis of manuscripts and images, to interdisciplinary challenges involving archaeology, linguistics, or cultural history. Furthermore, the benchmark dataset spans 29 ancient and modern languages and covers a wide range of historical periods and world regions. Finding the poor performance of LLMs and other agents on HistBench, we further present HistAgent, a history-specific agent equipped with carefully designed tools for OCR, translation, archival search, and image understanding in History. On HistBench, HistAgent based on GPT-4o achieves an accuracy of 27.54% pass@1 and 36.47% pass@2, significantly outperforming LLMs with online search and generalist agents, including GPT-4o (18.60%), DeepSeek-R1(14.49%) and Open Deep Research-smolagents(20.29% pass@1 and 25.12% pass@2). These results highlight the limitations of existing LLMs and generalist agents and demonstrate the advantages of HistAgent for historical reasoning.

arxiv情報

著者 Jiahao Qiu,Fulian Xiao,Yimin Wang,Yuchen Mao,Yijia Chen,Xinzhe Juan,Siran Wang,Xuan Qi,Tongcheng Zhang,Zixin Yao,Jiacheng Guo,Yifu Lu,Charles Argon,Jundi Cui,Daixin Chen,Junran Zhou,Shuyao Zhou,Zhanpeng Zhou,Ling Yang,Shilong Liu,Hongru Wang,Kaixuan Huang,Xun Jiang,Yuming Cao,Yue Chen,Yunfei Chen,Zhengyi Chen,Ruowei Dai,Mengqiu Deng,Jiye Fu,Yunting Gu,Zijie Guan,Zirui Huang,Xiaoyan Ji,Yumeng Jiang,Delong Kong,Haolong Li,Jiaqi Li,Ruipeng Li,Tianze Li,Zhuoran Li,Haixia Lian,Mengyue Lin,Xudong Liu,Jiayi Lu,Jinghan Lu,Wanyu Luo,Ziyue Luo,Zihao Pu,Zhi Qiao,Ruihuan Ren,Liang Wan,Ruixiang Wang,Tianhui Wang,Yang Wang,Zeyu Wang,Zihua Wang,Yujia Wu,Zhaoyi Wu,Hao Xin,Weiao Xing,Ruojun Xiong,Weijie Xu,Yao Shu,Xiao Yao,Xiaorui Yang,Yuchen Yang,Nan Yi,Jiadong Yu,Yangyuxuan Yu,Huiting Zeng,Danni Zhang,Yunjie Zhang,Zhaoyu Zhang,Zhiheng Zhang,Xiaofeng Zheng,Peirong Zhou,Linyan Zhong,Xiaoyin Zong,Ying Zhao,Zhenxin Chen,Lin Ding,Xiaoyu Gao,Bingbing Gong,Yichao Li,Yang Liao,Guang Ma,Tianyuan Ma,Xinrui Sun,Tianyi Wang,Han Xia,Ruobing Xian,Gen Ye,Tengfei Yu,Wentao Zhang,Yuxi Wang,Xi Gao,Mengdi Wang
発行日 2025-05-26 17:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | On Path to Multimodal Historical Reasoning: HistBench and HistAgent はコメントを受け付けていません

KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing

要約

検索された生成の最近の進歩(RAG)は、複雑なマルチホップの質問を処理するための関連情報の反復的な取得を備えた大規模な言語モデル(LLM)を提供します。
これらの方法は通常、LLMの推論と検索を交互に交互に、外部情報をLLMのコンテキストに蓄積します。
ただし、増え続けるコンテキストは、重要な情報の間でのつながりを知覚するために、LLMの負担を本質的に課します。これは、この過負荷の問題をさらに悪化させます。
このホワイトペーパーでは、(1)コンテキストの過負荷と(2)より高品質のマルチステップ推論を緩和するためのエレガントなぼろきれフレームワークであるKnowTraceを紹介します。
検索されたコンテンツを単に積み重ねる代わりに、knowtraceは、入力質問に関連する特定の知識グラフを整理するために、望ましい知識トリプレットを自律的に追跡します。
このような構造化されたワークフローは、LLMに推論のためのわかりやすいコンテキストを強化するだけでなく、自然なLLM世代を自己ブートストラップのプロセス監督データとして特定するための知識バックトレースの反射メカニズムを自然に刺激します。
広範な実験では、Knowtraceは3つのマルチホップ質問に留まるベンチマークにわたって既存の方法を常に上回り、ブートストラップバージョンが利益をさらに増幅することが示されています。

要約(オリジナル)

Recent advances in retrieval-augmented generation (RAG) furnish large language models (LLMs) with iterative retrievals of relevant information to handle complex multi-hop questions. These methods typically alternate between LLM reasoning and retrieval to accumulate external information into the LLM’s context. However, the ever-growing context inherently imposes an increasing burden on the LLM to perceive connections among critical information pieces, with futile reasoning steps further exacerbating this overload issue. In this paper, we present KnowTrace, an elegant RAG framework to (1) mitigate the context overload and (2) bootstrap higher-quality multi-step reasoning. Instead of simply piling the retrieved contents, KnowTrace autonomously traces out desired knowledge triplets to organize a specific knowledge graph relevant to the input question. Such a structured workflow not only empowers the LLM with an intelligible context for inference, but also naturally inspires a reflective mechanism of knowledge backtracing to identify contributive LLM generations as process supervision data for self-bootstrapping. Extensive experiments show that KnowTrace consistently surpasses existing methods across three multi-hop question answering benchmarks, and the bootstrapped version further amplifies the gains.

arxiv情報

著者 Rui Li,Quanyu Dai,Zeyu Zhang,Xu Chen,Zhenhua Dong,Ji-Rong Wen
発行日 2025-05-26 17:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing はコメントを受け付けていません

Structured Initialization for Vision Transformers

要約

畳み込みニューラルネットワーク(CNNS)は本質的に強力な誘導バイアスをエンコードし、小規模データセットで効果的な一般化を可能にします。
この論文では、この帰納的バイアスを、建築介入ではなく、初期化だけで統合することを提案します。
ここでの動機は、データアセットが小さいときに強力なCNNのようなパフォーマンスを享受できるVITを持つことですが、データが拡大するにつれてVITのようなパフォーマンスに拡大することができます。
私たちのアプローチは、ランダムなインパルスフィルターがCNN内の学習フィルターに対して相応のパフォーマンスを達成できるという経験的な結果によって動機付けられています。
現在のVITの初期化戦略を改善します。これは、通常、前処理されたモデルからの注意力を使用したり、構造を強制せずに注意力の分布に焦点を当てるなどの経験的ヒューリスティックに依存しています。
経験的結果は、私たちの方法が、Food-101、CIFAR-10、CIFAR-100、STL-10、花、ペットなど、多数の中小規模のベンチマークにわたって標準的なVIT初期化を大幅に上回っていることを示しています。
さらに、初期化戦略は、パフォーマンスの一貫した改善を伴うSwin TransformerやMLP-Mixerなどのさまざまな変圧器ベースのアーキテクチャに簡単に統合できます。

要約(オリジナル)

Convolutional Neural Networks (CNNs) inherently encode strong inductive biases, enabling effective generalization on small-scale datasets. In this paper, we propose integrating this inductive bias into ViTs, not through an architectural intervention but solely through initialization. The motivation here is to have a ViT that can enjoy strong CNN-like performance when data assets are small, but can still scale to ViT-like performance as the data expands. Our approach is motivated by our empirical results that random impulse filters can achieve commensurate performance to learned filters within a CNN. We improve upon current ViT initialization strategies, which typically rely on empirical heuristics such as using attention weights from pretrained models or focusing on the distribution of attention weights without enforcing structures. Empirical results demonstrate that our method significantly outperforms standard ViT initialization across numerous small and medium-scale benchmarks, including Food-101, CIFAR-10, CIFAR-100, STL-10, Flowers, and Pets, while maintaining comparative performance on large-scale datasets such as ImageNet-1K. Moreover, our initialization strategy can be easily integrated into various transformer-based architectures such as Swin Transformer and MLP-Mixer with consistent improvements in performance.

arxiv情報

著者 Jianqiao Zheng,Xueqian Li,Hemanth Saratchandran,Simon Lucey
発行日 2025-05-26 13:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Structured Initialization for Vision Transformers はコメントを受け付けていません

Progressive Scaling Visual Object Tracking

要約

この作業では、視覚的なオブジェクト追跡のためのプログレッシブスケーリングトレーニング戦略を提案し、追跡パフォーマンスに対するトレーニングデータのボリューム、モデルサイズ、および入力解像度の影響を体系的に分析します。
私たちの経験的研究は、各要因をスケーリングすることで追跡精度の大幅な改善につながる一方で、ナイーブトレーニングは最適ではない最適化と限られた反復改良に苦しんでいることが明らかになりました。
この問題に対処するために、小規模な教師の転送とデュアルブランチのアライメントを統合してモデルのポテンシャルを最大化するプログレッシブスケーリングフレームワークであるDT-Trainingを紹介します。
結果のスケーリングされたトラッカーは、一貫して複数のベンチマークで最先端のメソッドを上回り、提案された方法の強力な一般化と転送可能性を示しています。
さらに、追加のタスクに対するアプローチのより広範な適用性を検証し、追跡を超えてその汎用性を強調しています。

要約(オリジナル)

In this work, we propose a progressive scaling training strategy for visual object tracking, systematically analyzing the influence of training data volume, model size, and input resolution on tracking performance. Our empirical study reveals that while scaling each factor leads to significant improvements in tracking accuracy, naive training suffers from suboptimal optimization and limited iterative refinement. To address this issue, we introduce DT-Training, a progressive scaling framework that integrates small teacher transfer and dual-branch alignment to maximize model potential. The resulting scaled tracker consistently outperforms state-of-the-art methods across multiple benchmarks, demonstrating strong generalization and transferability of the proposed method. Furthermore, we validate the broader applicability of our approach to additional tasks, underscoring its versatility beyond tracking.

arxiv情報

著者 Jack Hong,Shilin Yan,Zehao Xiao,Jiayin Cai,Xiaolong Jiang,Yao Hu,Henghui Ding
発行日 2025-05-26 13:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Progressive Scaling Visual Object Tracking はコメントを受け付けていません

Optimizing edge AI models on HPC systems with the edge in the loop

要約

エッジデバイスに展開された人工知能および機械学習モデル、たとえば、添加剤の製造(AM)の品質管理のために、サイズが小さいことがよくあります。
このようなモデルは通常、短い時間枠内で非常に正確な結果を提供する必要があります。
文献で一般的に採用されている方法は、より大きな訓練されたモデルから始まり、構造的な剪定、知識の蒸留、または量子化によって記憶と潜時フットプリントを減らすようにします。
ただし、最適化された構成を見つけるためにアーキテクチャスペースを体系的に調査しようとするアプローチである、ハードウェアを意識したニューラルアーキテクチャ検索(NAS)を活用することも可能です。
この研究では、ベルギーにあるエッジデバイスをドイツの強力な高性能コンピューティングシステムと結びつけるハードウェアを意識したNASワークフローを導入し、ターゲットハードウェアでリアルタイムのレイテンシ測定を実行しながら、可能なアーキテクチャ候補をできるだけ早く訓練します。
このアプローチは、Open Raise-LPBFデータセットに基づいてAMドメインのユースケースで検証され、人間が設計したベースラインと比較して、モデルの品質を〜1.35の係数で同時に増強すると同時に、推測速度が8.8倍高くなります。

要約(オリジナル)

Artificial intelligence and machine learning models deployed on edge devices, e.g., for quality control in Additive Manufacturing (AM), are frequently small in size. Such models usually have to deliver highly accurate results within a short time frame. Methods that are commonly employed in literature start out with larger trained models and try to reduce their memory and latency footprint by structural pruning, knowledge distillation, or quantization. It is, however, also possible to leverage hardware-aware Neural Architecture Search (NAS), an approach that seeks to systematically explore the architecture space to find optimized configurations. In this study, a hardware-aware NAS workflow is introduced that couples an edge device located in Belgium with a powerful High-Performance Computing system in Germany, to train possible architecture candidates as fast as possible while performing real-time latency measurements on the target hardware. The approach is verified on a use case in the AM domain, based on the open RAISE-LPBF dataset, achieving ~8.8 times faster inference speed while simultaneously enhancing model quality by a factor of ~1.35, compared to a human-designed baseline.

arxiv情報

著者 Marcel Aach,Cyril Blanc,Andreas Lintermann,Kurt De Grave
発行日 2025-05-26 13:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, D.1.3 | Optimizing edge AI models on HPC systems with the edge in the loop はコメントを受け付けていません

NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID

要約

マルチモーダルオブジェクトの再識別(REID)は、複雑な現実世界のシナリオで正確な認識と検索を可能にするために、異種のスペクトルモダリティ全体でアイデンティティ機能を抽出することを目的としています。
ただし、ほとんどの既存の方法は、暗黙の特徴融合構造に依存しているため、さまざまな困難な条件の下できめ細かい認識戦略をモデル化することが困難です。
マルチモーダル大手言語モデル(MLLM)の強力なセマンティック理解機能の恩恵を受けると、オブジェクトの視覚的な外観は、説明的なテキストに効果的に翻訳できます。
この論文では、属性信頼性に基づいて信頼性の高いマルチモーダルキャプション生成方法を提案します。これにより、マルチモーダルセマンティック生成におけるMLLMの未知の認識率が大幅に低下し、生成されたテキストの品質が向上します。
さらに、次に、新しいReidフレームワークを提案します。次に、マルチモーダルオブジェクトの再識別のためのテキスト変調による専門家のマルチグレイン混合物を提案します。
具体的には、認識問題をセマンティックおよび構造の専門家ブランチに分離して、モダリティ固有の外観と内因性構造を個別にキャプチャします。
セマンティック認識のために、テキスト変調されたセマンティックサンプリングの専門家(TMSE)を提案します。これは、ランダムにサンプリングされた高品質のセマンティックテキストを活用して、マルチモーダル機能の専門家固有のサンプリングを調整し、モダリティ内の細かいセマンティックキューを採掘します。
次に、粗粒の構造の特徴を認識するために、モダリティ全体で全体的なオブジェクト構造をキャプチャすることに焦点を当て、ソフトルーティングメカニズムを介してモダリティ間構造の一貫性を維持するコンテキスト共有構造認識の専門家(CSSE)を提案します。
最後に、マルチモーダル機能集約(MMFA)を提案します。これは、セマンティックおよび構造の専門家の出力を最終的なアイデンティティ表現に簡単かつ効果的に統合するための統一された機能融合戦略を採用しています。

要約(オリジナル)

Multi-modal object re-identification (ReID) aims to extract identity features across heterogeneous spectral modalities to enable accurate recognition and retrieval in complex real-world scenarios. However, most existing methods rely on implicit feature fusion structures, making it difficult to model fine-grained recognition strategies under varying challenging conditions. Benefiting from the powerful semantic understanding capabilities of Multi-modal Large Language Models (MLLMs), the visual appearance of an object can be effectively translated into descriptive text. In this paper, we propose a reliable multi-modal caption generation method based on attribute confidence, which significantly reduces the unknown recognition rate of MLLMs in multi-modal semantic generation and improves the quality of generated text. Additionally, we propose a novel ReID framework NEXT, the Multi-grained Mixture of Experts via Text-Modulation for Multi-modal Object Re-Identification. Specifically, we decouple the recognition problem into semantic and structural expert branches to separately capture modality-specific appearance and intrinsic structure. For semantic recognition, we propose the Text-Modulated Semantic-sampling Experts (TMSE), which leverages randomly sampled high-quality semantic texts to modulate expert-specific sampling of multi-modal features and mining intra-modality fine-grained semantic cues. Then, to recognize coarse-grained structure features, we propose the Context-Shared Structure-aware Experts (CSSE) that focuses on capturing the holistic object structure across modalities and maintains inter-modality structural consistency through a soft routing mechanism. Finally, we propose the Multi-Modal Feature Aggregation (MMFA), which adopts a unified feature fusion strategy to simply and effectively integrate semantic and structural expert outputs into the final identity representations.

arxiv情報

著者 Shihao Li,Chenglong Li,Aihua Zheng,Andong Lu,Jin Tang,Jixin Ma
発行日 2025-05-26 13:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID はコメントを受け付けていません

VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

要約

最近の途方もない進歩にもかかわらず、生成ビデオモデルは、現実世界の動き、ダイナミクス、物理学を捉えるのに依然として苦労しています。
この制限は、従来のピクセル再構成目標から生じることを示します。これは、モーションコヒーレンスを犠牲にして外観の忠実度をモデル化するバイアスを偏らせます。
これに対処するために、モデルに共同外観モーション表現を学習するよう奨励することにより、ビデオジェネレーターの前に効果的な動きを植え付ける新しいフレームワークであるVideoJamを紹介します。
VideoJamは、2つの補完的なユニットで構成されています。
トレーニング中に、生成されたピクセルと、単一の学習表現からの対応する動きの両方を予測する目的を拡張します。
推論中に、動的ガイダンス信号としてモデル自身の進化するモーション予測を活用することにより、生成をコヒーレント運動に向けて導くメカニズムを導入します。
特に、当社のフレームワークは、最小限の適応で任意のビデオモデルに適用でき、トレーニングデータやモデルのスケーリングを変更する必要はありません。
VideoJamは、動きの一貫性の最先端のパフォーマンスを達成し、非常に競争力のある独自のモデルを上回り、世代の視覚的品質を認識していることも高めます。
これらの調査結果は、外観と動きは補完的であり、効果的に統合されると、ビデオ生成の視覚的品質と一貫性の両方を強化することを強調しています。
プロジェクトのウェブサイト:https://hila-chefer.github.io/videojam-paper.github.io/

要約(オリジナル)

Despite tremendous recent progress, generative video models still struggle to capture real-world motion, dynamics, and physics. We show that this limitation arises from the conventional pixel reconstruction objective, which biases models toward appearance fidelity at the expense of motion coherence. To address this, we introduce VideoJAM, a novel framework that instills an effective motion prior to video generators, by encouraging the model to learn a joint appearance-motion representation. VideoJAM is composed of two complementary units. During training, we extend the objective to predict both the generated pixels and their corresponding motion from a single learned representation. During inference, we introduce Inner-Guidance, a mechanism that steers the generation toward coherent motion by leveraging the model’s own evolving motion prediction as a dynamic guidance signal. Notably, our framework can be applied to any video model with minimal adaptations, requiring no modifications to the training data or scaling of the model. VideoJAM achieves state-of-the-art performance in motion coherence, surpassing highly competitive proprietary models while also enhancing the perceived visual quality of the generations. These findings emphasize that appearance and motion can be complementary and, when effectively integrated, enhance both the visual quality and the coherence of video generation. Project website: https://hila-chefer.github.io/videojam-paper.github.io/

arxiv情報

著者 Hila Chefer,Uriel Singer,Amit Zohar,Yuval Kirstain,Adam Polyak,Yaniv Taigman,Lior Wolf,Shelly Sheynin
発行日 2025-05-26 13:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models はコメントを受け付けていません

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

要約

マルチモーダルビデオの理解を評価する最初のベンチマークであるWorldSenseを紹介します。これは、視覚、オーディオ、およびテキスト入力を同時に網羅しています。
既存のベンチマークとは対照的に、WorldSenseにはいくつかの機能があります。(i)Omni-Modalityのコラボレーションでは、オーディオとビデオの強力な結合を特徴とする評価タスクを設計し、モデルがオムニモダリティの相乗的認識を効果的に利用する必要があります。
(ii)ビデオとタスクの多様性には、ワールドセンスには、1,662のオーディオビジュアル同期ビデオの多様なコレクションが含まれます。これは、8つのプライマリドメインと67の微粒サブカテゴリに体系的に分類され、広範なシナリオをカバーし、3,172のマルチチョイスQAペアを介して3,172のマルチチョイスQAペアを網羅しています。
(iii)高品質の注釈、すべてのQAペアは、品質を確保するために複数の修正を伴う80の専門家アノテーターによって手動でラベル付けされます。
ワールドセンスに基づいて、さまざまな最先端のモデルを広範囲に評価します。
実験結果は、既存のモデルが実際のシナリオを理解する上で重要な課題に直面していることを示しています(48.0%の最高の精度)。
現在のモデルの制限を分析することにより、現実世界の理解の開発を導くための貴重な洞察を提供することを目指しています。
WorldSenseが、Omni-Modalityから一貫したコンテキストを構築および理解する能力を評価するためのプラットフォームを提供できることを願っています。

要約(オリジナル)

We introduce WorldSense, the first benchmark to assess the multi-modal video understanding, that simultaneously encompasses visual, audio, and text inputs. In contrast to existing benchmarks, our WorldSense has several features: (i) collaboration of omni-modality, we design the evaluation tasks to feature a strong coupling of audio and video, requiring models to effectively utilize the synergistic perception of omni-modality; (ii) diversity of videos and tasks, WorldSense encompasses a diverse collection of 1,662 audio-visual synchronised videos, systematically categorized into 8 primary domains and 67 fine-grained subcategories to cover the broad scenarios, and 3,172 multi-choice QA pairs across 26 distinct tasks to enable the comprehensive evaluation; (iii) high-quality annotations, all the QA pairs are manually labeled by 80 expert annotators with multiple rounds of correction to ensure quality. Based on our WorldSense, we extensively evaluate various state-of-the-art models. The experimental results indicate that existing models face significant challenges in understanding real-world scenarios (48.0% best accuracy). By analyzing the limitations of current models, we aim to provide valuable insight to guide development of real-world understanding. We hope our WorldSense can provide a platform for evaluating the ability in constructing and understanding coherent contexts from omni-modality.

arxiv情報

著者 Jack Hong,Shilin Yan,Jiayin Cai,Xiaolong Jiang,Yao Hu,Weidi Xie
発行日 2025-05-26 13:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs はコメントを受け付けていません

Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models

要約

最近のビジョン言語モデル(VLM)は、印象的なマルチモーダルの理解と推論能力を実証していますが、しばしば些細な単純な視覚タスクに苦労しています。
この作業では、基本的な2Dユークリッドジオメトリのドメインに焦点を当て、原子視覚スキルと呼ばれる基本的で不可分な視覚的知覚スキルを体系的に分類します。
次に、Atomic Visual Skills Dataset(AVSD)を紹介して、Atomic Visual SkillsのVLMSを評価します。
AVSDを使用して、最先端のVLMをベンチマークし、成人にとって些細なことであるにもかかわらず、これらのタスクに苦しんでいることがわかります。
私たちの調査結果は、コンポジットの視覚的知覚タスクではなく、原子のVLMをトレーニングおよび評価するための専用のデータセットの必要性を強調しています。

要約(オリジナル)

Recent Vision-Language Models (VLMs) have demonstrated impressive multimodal comprehension and reasoning capabilities, yet they often struggle with trivially simple visual tasks. In this work, we focus on the domain of basic 2D Euclidean geometry and systematically categorize the fundamental, indivisible visual perception skills, which we refer to as atomic visual skills. We then introduce the Atomic Visual Skills Dataset (AVSD) for evaluating VLMs on the atomic visual skills. Using AVSD, we benchmark state-of-the-art VLMs and find that they struggle with these tasks, despite being trivial for adult humans. Our findings highlight the need for purpose-built datasets to train and evaluate VLMs on atomic, rather than composite, visual perception tasks.

arxiv情報

著者 Hyunsik Chae,Seungwoo Yoon,Jaden Park,Chloe Yewon Chun,Yongin Cho,Mu Cai,Yong Jae Lee,Ernest K. Ryu
発行日 2025-05-26 14:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models はコメントを受け付けていません

Human-Aligned Image Models Improve Visual Decoding from the Brain

要約

脳活動からの視覚画像を解読することは、脳コンピューターの相互作用を進め、人間の知覚の理解を高めるための重要な可能性を秘めています。
最近のアプローチでは、画像と脳の活動の表現スペースを調整して、視覚的なデコードを可能にします。
このホワイトペーパーでは、脳信号を画像にマッピングするために、人間に合った画像エンコーダーの使用を紹介します。
これらのモデルは、視覚脳データ記録実験で一般的に使用される迅速な視覚刺激の提示に関連する知覚属性をより効果的にキャプチャすると仮定します。
私たちの経験的結果は、この仮説をサポートしており、この単純な変更により、最先端の方法と比較して画像検索の精度が最大21%向上することを示しています。
包括的な実験では、多様なEEGアーキテクチャ、画像エンコーダー、アライメント方法、参加者、および脳イメージングモダリティ全体の一貫したパフォーマンスの改善が確認されています

要約(オリジナル)

Decoding visual images from brain activity has significant potential for advancing brain-computer interaction and enhancing the understanding of human perception. Recent approaches align the representation spaces of images and brain activity to enable visual decoding. In this paper, we introduce the use of human-aligned image encoders to map brain signals to images. We hypothesize that these models more effectively capture perceptual attributes associated with the rapid visual stimuli presentations commonly used in visual brain data recording experiments. Our empirical results support this hypothesis, demonstrating that this simple modification improves image retrieval accuracy by up to 21% compared to state-of-the-art methods. Comprehensive experiments confirm consistent performance improvements across diverse EEG architectures, image encoders, alignment methods, participants, and brain imaging modalities

arxiv情報

著者 Nona Rajabi,Antônio H. Ribeiro,Miguel Vasco,Farzaneh Taleb,Mårten Björkman,Danica Kragic
発行日 2025-05-26 14:11:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Human-Aligned Image Models Improve Visual Decoding from the Brain はコメントを受け付けていません