ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

要約

大規模な推論モデル(LRM)は顕著な推論能力を示しますが、主にパラメトリックな知識に依存して、事実上の正確性を制限します。
最近の作品は、強化学習(RL)ベースのLRMSを検索機能を備えていますが、推論の考えがあり、推論に堅牢性が欠けているため、質問応答(QA)タスクの有効性が低下します。
これに対処するために、過度の反復なしに多様なクエリを探索する事実強度の推論モデルであるRemagを提案します。
私たちのソリューションには、推論チェーンの長さに上限がある新しいデータ構築フレームワークが含まれています。
具体的には、最初にLRMを活用して意図的な思考を生成し、事前定義されたアクション空間(検索と仕上げ)からアクションを選択します。
検索アクションのために、RAGエンジンに対してクエリが実行されます。このエンジンでは、結果が推論の手順を導くための観察として返されます。
このプロセスは、仕上げアクションが選択されるまで反復します。
Learagの強力な推論能力の恩恵を受けて、私たちのアプローチは、マルチホップQAの既存のベースラインよりも優れています。
さらなる分析は、エラーを認識し、その推論軌跡を改善する強力な反射能力を強調しています。
私たちの研究はLRMSの事実を強化し、検索された生成(RAG)の堅牢な推論を効果的に統合します。

要約(オリジナル)

Large Reasoning Models (LRMs) exhibit remarkable reasoning abilities but rely primarily on parametric knowledge, limiting factual accuracy. While recent works equip reinforcement learning (RL)-based LRMs with retrieval capabilities, they suffer from overthinking and lack robustness in reasoning, reducing their effectiveness in question answering (QA) tasks. To address this, we propose ReaRAG, a factuality-enhanced reasoning model that explores diverse queries without excessive iterations. Our solution includes a novel data construction framework with an upper bound on the reasoning chain length. Specifically, we first leverage an LRM to generate deliberate thinking, then select an action from a predefined action space (Search and Finish). For Search action, a query is executed against the RAG engine, where the result is returned as observation to guide reasoning steps later. This process iterates until a Finish action is chosen. Benefiting from ReaRAG’s strong reasoning capabilities, our approach outperforms existing baselines on multi-hop QA. Further analysis highlights its strong reflective ability to recognize errors and refine its reasoning trajectory. Our study enhances LRMs’ factuality while effectively integrating robust reasoning for Retrieval-Augmented Generation (RAG).

arxiv情報

著者 Zhicheng Lee,Shulin Cao,Jinxin Liu,Jiajie Zhang,Weichuan Liu,Xiaoyin Che,Lei Hou,Juanzi Li
発行日 2025-03-27 17:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation はコメントを受け付けていません

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

要約

特に自動車システムのような安全性の高いドメインでは、ソフトウェアリリースの決定の信頼性と有効性を確保することが重要です。
しばしば表形式で提示されるリリース検証データの正確な分析は、このプロセスで極めて重要な役割を果たします。
ただし、広範なテストデータセットと検証メトリックの手動分析に依存する従来の方法は、遅延と高コストが発生しやすいです。
大規模な言語モデル(LLMS)は、分析的推論、コンテキストの理解、スコープ外のクエリの処理、および構造化されたテストデータの処理において、有望な代替案を提供します。
安全性が批判的なシナリオでの直接的な適用を妨げる制限。
このペーパーでは、自動車ドメインの表形式データを分析するためのLLMベースのツールであるGatelensを紹介します。
Gatelensは、自然言語のクエリをリレーショナル代数(RA)式に変換し、最適化されたPythonコードを生成します。
ベンチマークデータセットのベースラインシステムを上回り、より高いF1スコアを達成し、複雑であいまいなクエリをより堅牢で処理します。
アブレーション研究は、RAモジュールの重要な役割を確認し、省略するとパフォーマンスが急激に低下します。
産業評価により、ガテレンは分析時間を80%以上削減し、高精度と信頼性を維持していることが明らかになりました。
提示された結果で実証されているように、Gatelensは、少数のショットの例に依存することなく高性能を達成し、多様な企業の役割からのさまざまなクエリタイプにわたって強い一般化を紹介しました。
パートナーの自動車会社でガテレンを展開することからの洞察は、AIをリリース検証などの重要なワークフローに統合するための実用的なガイダンスを提供します。
結果は、テスト結果分析を自動化することにより、Gatelensがより速く、より情報を供給された、信頼できるリリースの決定を可能にし、したがって、自動車システムでソフトウェアのスケーラビリティと信頼性を進めることができることを示しています。

要約(オリジナル)

Ensuring the reliability and effectiveness of software release decisions is critical, particularly in safety-critical domains like automotive systems. Precise analysis of release validation data, often presented in tabular form, plays a pivotal role in this process. However, traditional methods that rely on manual analysis of extensive test datasets and validation metrics are prone to delays and high costs. Large Language Models (LLMs) offer a promising alternative but face challenges in analytical reasoning, contextual understanding, handling out-of-scope queries, and processing structured test data consistently; limitations that hinder their direct application in safety-critical scenarios. This paper introduces GateLens, an LLM-based tool for analyzing tabular data in the automotive domain. GateLens translates natural language queries into Relational Algebra (RA) expressions and then generates optimized Python code. It outperforms the baseline system on benchmarking datasets, achieving higher F1 scores and handling complex and ambiguous queries with greater robustness. Ablation studies confirm the critical role of the RA module, with performance dropping sharply when omitted. Industrial evaluations reveal that GateLens reduces analysis time by over 80% while maintaining high accuracy and reliability. As demonstrated by presented results, GateLens achieved high performance without relying on few-shot examples, showcasing strong generalization across various query types from diverse company roles. Insights from deploying GateLens with a partner automotive company offer practical guidance for integrating AI into critical workflows such as release validation. Results show that by automating test result analysis, GateLens enables faster, more informed, and dependable release decisions, and can thus advance software scalability and reliability in automotive systems.

arxiv情報

著者 Arsham Gholamzadeh Khoee,Shuai Wang,Yinan Yu,Robert Feldt,Dhasarathy Parthasarathy
発行日 2025-03-27 17:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA, cs.SE | GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics はコメントを受け付けていません

GenoTEX: A Benchmark for Automated Gene Expression Data Analysis in Alignment with Bioinformaticians

要約

機械学習における最近の進歩により、遺伝子発現データセットからの疾患関連遺伝子の同定が大幅に改善されました。
ただし、これらのプロセスは、多くの場合、広範な専門知識と手動の努力を必要とし、スケーラビリティを制限します。
大規模な言語モデル(LLM)ベースのエージェントは、問題解決能力の増加により、これらのタスクを自動化することに有望を示しています。
このような方法の評価と開発をサポートするために、遺伝子発現データの自動分析のためのベンチマークデータセットであるGenoTexを紹介します。
GenoTexは、計算ゲノミクス標準に従うパイプラインで、データセットの選択、前処理、統計分析を含む、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供します。
ベンチマークには、正確性と信頼性を確保するために、バイオインフォマティシャンからの専門家がキュレーションした注釈が含まれています。
これらのタスクのベースラインを提供するために、遺伝子発現データセットを協力して分析するために、柔軟な自己修正でマルチステッププログラミングワークフローを採​​用するLLMベースのエージェントのチームであるGenoagentを提示します。
私たちの実験は、ゲノムデータの分析におけるLLMベースの方法の可能性を示していますが、エラー分析は将来の改善のための課題と領域を強調しています。
GenoTexを、遺伝子発現データ分析のためのベンチマークと強化のための有望なリソースとして提案します。
ベンチマークはhttps://github.com/liu-hy/genotexで入手できます。

要約(オリジナル)

Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automated analysis of gene expression data. GenoTEX provides annotated code and results for solving a wide range of gene identification problems, encompassing dataset selection, preprocessing, and statistical analysis, in a pipeline that follows computational genomics standards. The benchmark includes expert-curated annotations from bioinformaticians to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgent, a team of LLM-based agents that adopt a multi-step programming workflow with flexible self-correction, to collaboratively analyze gene expression datasets. Our experiments demonstrate the potential of LLM-based methods in analyzing genomic data, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing automated methods for gene expression data analysis. The benchmark is available at https://github.com/Liu-Hy/GenoTex.

arxiv情報

著者 Haoyang Liu,Shuyu Chen,Ye Zhang,Haohan Wang
発行日 2025-03-27 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN | GenoTEX: A Benchmark for Automated Gene Expression Data Analysis in Alignment with Bioinformaticians はコメントを受け付けていません

Self-Contrastive Forward-Forward Algorithm

要約

自律的に動作するエージェントは、生涯学習能力の恩恵を受けます。
ただし、互換性のあるトレーニングアルゴリズムは、これらのシステムの分散化された性質に準拠する必要があり、パラメーターカウントと計算リソースの両方に制約を課します。
フォワードフォワード(FF)アルゴリズムはこれらの1つです。
FFは、レイヤーごとの目標を最適化するために、推論に使用されるフィードフォワード操作のみに依存しています。
この純粋に前進するアプローチは、従来のバックプロパゲーションに必要な転置操作の必要性を排除します。
その可能性にもかかわらず、FFは、監視されていない学習のための信頼性の低い否定的なデータ生成方法のために、ほとんどの標準ベンチマークタスクで最先端のパフォーマンスに到達することができませんでした。
この作業では、このパフォーマンスのギャップを埋めることを目的とした競争力のあるトレーニング方法である自己制御の前向き(SCFF)アルゴリズムを提案します。
SCFFは、視覚タスクの標準的な自己監視対照学習に触発され、さまざまなデータセットに適用される正とネガティブの入力を生成します。
この方法は、MNIST、CIFAR-10、STL-10、およびTiny Imagenetを含むいくつかのベンチマークデータセットで、既存の監視されていないローカル学習アルゴリズムと比較して優れた性能を示しています。
FFのアプリケーションを再発性ニューラルネットワークのトレーニングに拡張し、そのユーティリティをシーケンシャルデータタスクに拡大します。
これらの調査結果は、リソースに制約のあるエッジデバイスでの高精度のリアルタイム学習への道を開きます。

要約(オリジナル)

Agents that operate autonomously benefit from lifelong learning capabilities. However, compatible training algorithms must comply with the decentralized nature of these systems, which imposes constraints on both the parameter counts and the computational resources. The Forward-Forward (FF) algorithm is one of these. FF relies only on feedforward operations, the same used for inference, for optimizing layer-wise objectives. This purely forward approach eliminates the need for transpose operations required in traditional backpropagation. Despite its potential, FF has failed to reach state-of-the-art performance on most standard benchmark tasks, in part due to unreliable negative data generation methods for unsupervised learning. In this work, we propose the Self-Contrastive Forward-Forward (SCFF) algorithm, a competitive training method aimed at closing this performance gap. Inspired by standard self-supervised contrastive learning for vision tasks, SCFF generates positive and negative inputs applicable across various datasets. The method demonstrates superior performance compared to existing unsupervised local learning algorithms on several benchmark datasets, including MNIST, CIFAR-10, STL-10, and Tiny ImageNet. We extend FF’s application to training recurrent neural networks, expanding its utility to sequential data tasks. These findings pave the way for high-accuracy, real-time learning on resource-constrained edge devices.

arxiv情報

著者 Xing Chen,Dongshu Liu,Jeremie Laydevant,Julie Grollier
発行日 2025-03-27 15:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.ET, cs.LG, cs.NE | Self-Contrastive Forward-Forward Algorithm はコメントを受け付けていません

On the Viability of Semi-Supervised Segmentation Methods for Statistical Shape Modeling

要約

統計形状モデル(SSM)は、形態ベースの診断や外科​​的計画を含むさまざまな臨床および生物医学的アプリケーションの中核にある集団レベルの解剖学的変動を特定することに優れています。
ただし、SSMの有効性は、専門家主導の手動セグメンテーションの必要性によって制約されていることがよくあります。これは、時間と高価のプロセスであり、それによって幅広いアプリケーションとユーティリティを制限します。
最近の深い学習アプローチにより、セグメント化されていない画像からの統計形状モデル(SSM)の直接推定が可能になります。
これらのモデルは、展開中にセグメンテーションなしでSSMを予測できますが、特にリソース制限設定で、トレーニングに必要な手動注釈を取得するという課題には対処しません。
解剖学のセグメンテーションのための半監視モデルは、注釈の負担を軽減する可能性があります。
しかし、利用可能なアプローチが豊富にあるにもかかわらず、SSMを構築するという下流タスクに対する有効性についてエンドユーザーに知らせるための確立されたガイドラインはありません。
この研究では、SSMを構築するための手動セグメンテーションの実行可能な代替手段として、半監視方法の可能性を体系的に評価します。
SSMのタスクに予測されたセグメンテーションを利用して、低注釈設定の下で解剖学的なセグメンテーションのためにさまざまな半監視方法を採用することにより、新しいパフォーマンスベンチマークを確立します。
我々の結果は、一部の方法は騒々しいセグメンテーションを生成することを示していますが、これはSSMタスクに非常に不利なものであり、他の方法では、必要な手動注釈が60〜80%減少して、母集団コホートのバリエーションの正しいモードをキャプチャできることを示しています。

要約(オリジナル)

Statistical Shape Models (SSMs) excel at identifying population level anatomical variations, which is at the core of various clinical and biomedical applications, including morphology-based diagnostics and surgical planning. However, the effectiveness of SSM is often constrained by the necessity for expert-driven manual segmentation, a process that is both time-intensive and expensive, thereby restricting their broader application and utility. Recent deep learning approaches enable the direct estimation of Statistical Shape Models (SSMs) from unsegmented images. While these models can predict SSMs without segmentation during deployment, they do not address the challenge of acquiring the manual annotations needed for training, particularly in resource-limited settings. Semi-supervised models for anatomy segmentation can mitigate the annotation burden. Yet, despite the abundance of available approaches, there are no established guidelines to inform end-users on their effectiveness for the downstream task of constructing SSMs. In this study, we systematically evaluate the potential of semi-supervised methods as viable alternatives to manual segmentations for building SSMs. We establish a new performance benchmark by employing various semi-supervised methods for anatomy segmentation under low annotation settings, utilizing the predicted segmentations for the task of SSM. Our results indicate that some methods produce noisy segmentation, which is very unfavorable for SSM tasks, while others can capture the correct modes of variations in the population cohort with 60-80% reduction in required manual annotation

arxiv情報

著者 Asma Khan,Tushar Kataria,Janmesh Ukey,Shireen Y. Elhabian
発行日 2025-03-27 15:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | On the Viability of Semi-Supervised Segmentation Methods for Statistical Shape Modeling はコメントを受け付けていません

Vision language models are blind: Failing to translate detailed visual features into words

要約

視覚能力(VLM)を備えた大規模な言語モデル、たとえばGPT-4OやGemini 1.5 Proは、多くのビジョン理解ベンチマークで高いスコアを獲得していますが、人間にとって簡単な低レベルのビジョンタスクに苦しんでいます。
具体的には、ブラインドテストでは、(a)2つの円が重複するかどうかを識別するなど、7つの非常に簡単なタスクのスイート。
(b)2行の交差する回数。
(c)単語でどの文字が一周されているか。
(d)オリンピックのようなロゴのサークルの数、4つの最先端のVLMは平均で58.07%の正確です。
Claude 3.5 Sonnetは、100%の人間の予想精度とはほど遠い、77.84%の精度で最高のパフォーマンスを発揮します。
さまざまな画像解像度とライン幅にわたって、ゆっくりと考えているモデルを含むVLMは、幾何学的なプリミティブが重複したり近い場合に正確な空間情報を必要とするタスクと一貫して闘っています。
しかし、VLMは、個別の形状と文字にはるかに多くのスペースが追加されると、100%近くの精度で機能します。
線形調査実験は、ビジョンエンコーダーがブラインドテストを解決するのに十分な視覚情報が含まれており、言語モデルがこの情報を正解にデコードできないことを示しています。
コードとデータは、https://vlmsareblind.github.ioにあります

要約(オリジナル)

While large language models with vision capabilities (VLMs), e.g., GPT-4o and Gemini 1.5 Pro, score high on many vision-understanding benchmarks, they are still struggling with low-level vision tasks that are easy to humans. Specifically, on BlindTest, our suite of 7 very simple tasks, including identifying (a) whether two circles overlap; (b) how many times two lines intersect; (c) which letter is being circled in a word; and (d) the number of circles in an Olympic-like logo, four state-of-the-art VLMs are only 58.07% accurate on average. Claude 3.5 Sonnet performs the best at 77.84% accuracy, far from the human expected accuracy of 100%. Across different image resolutions and line widths, VLMs including slow-thinking models consistently struggle with those tasks that require precise spatial information when geometric primitives overlap or are close. Yet, VLMs perform at near-100% accuracy when much more space is added to separate shapes and letters. Linear probing experiments show that vision encoders contain sufficient visual information to solve BlindTest and that language models fail to decode this information into correct answers. Code and data are at: https://vlmsareblind.github.io

arxiv情報

著者 Pooyan Rahmanzadehgervi,Logan Bolton,Mohammad Reza Taesiri,Anh Totti Nguyen
発行日 2025-03-27 16:16:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision language models are blind: Failing to translate detailed visual features into words はコメントを受け付けていません

OmniBench: Towards The Future of Universal Omni-Language Models

要約

マルチモーダル大手言語モデル(MLLMS)の最近の進歩は、複数のモダリティの統合に焦点を当てていますが、異なる入力間で同時に処理および理由を処理する能力は未定です。
Omnibenchを紹介します。これは、視覚、音響、およびテキストの入力を同時に認識、解釈、および推論するモデルの能力を評価するために設計された新しいベンチマークです。
Omni-Language Models(OLMS)のようなトライモーダル処理が可能な言語モデルを定義します。
Omnibenchは、すべてのモダリティにわたって統合された理解を必要とする高品質の人間の注釈を備えています。
私たちの評価は、次のことを明らかにしています。i)オープンソースOLMSは、トライモーダルの文脈における指導のフォローと推論に大きな制限を示しています。
ii)ほとんどのベースラインモデルは、画像/オーディオ入力に代わるテキストの代替品があっても、パフォーマンスが低い(約50%の精度)。
これらの制限に対処するために、OLMSのトレーニング用の96Kサンプル命令チューニングデータセットであるOmniinstructを開発します。
OLMのパフォーマンスを向上させるために、より堅牢なトライモーダル統合技術とトレーニング戦略を開発することを提唱しています。
コードとデータは、レポ(https://github.com/multimodal-art-projection/omnibench)にあります。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have focused on integrating multiple modalities, yet their ability to simultaneously process and reason across different inputs remains underexplored. We introduce OmniBench, a novel benchmark designed to evaluate models’ ability to recognize, interpret, and reason across visual, acoustic, and textual inputs simultaneously. We define language models capable of such tri-modal processing as omni-language models (OLMs). OmniBench features high-quality human annotations that require integrated understanding across all modalities. Our evaluation reveals that: i) open-source OLMs show significant limitations in instruction-following and reasoning in tri-modal contexts; and ii) most baseline models perform poorly (around 50% accuracy) even with textual alternatives to image/audio inputs. To address these limitations, we develop OmniInstruct, an 96K-sample instruction tuning dataset for training OLMs. We advocate for developing more robust tri-modal integration techniques and training strategies to enhance OLM performance. Codes and data could be found at our repo (https://github.com/multimodal-art-projection/OmniBench).

arxiv情報

著者 Yizhi Li,Ge Zhang,Yinghao Ma,Ruibin Yuan,Kang Zhu,Hangyu Guo,Yiming Liang,Jiaheng Liu,Zekun Wang,Jian Yang,Siwei Wu,Xingwei Qu,Jinjie Shi,Xinyue Zhang,Zhenzhu Yang,Xiangzhou Wang,Zhaoxiang Zhang,Zachary Liu,Emmanouil Benetos,Wenhao Huang,Chenghua Lin
発行日 2025-03-27 16:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | OmniBench: Towards The Future of Universal Omni-Language Models はコメントを受け付けていません

InteractionMap: Improving Online Vectorized HDMap Construction with Interaction

要約

ベクトル化された高解像度(HD)マップは、自律運転システムに不可欠です。
最近、最先端のマップベクトル化メソッドは、主にHDマップをエンドツーエンドの方法で生成するDETRのようなフレームワークに基づいています。
この論文では、インタラクションマップを提案します。これは、時間と空間の両方でローカル間情報の相互作用を完全に活用することにより、以前のマップベクトル化方法を改善します。
第一に、マップ要素には強い形状の前提条件が含まれているため、ポイントレベルからインスタンスレベルまでの明示的な位置関係により、デトルのような検出器の強化を探ります。
第二に、キーフレームベースの階層的時間的融合モジュールを提案します。これは、ローカルからグローバルに時間情報を相互作用します。
最後に、個別の分類分岐と回帰分岐は、出力分布の不整合の問題につながります。
最適化における新しい幾何学的認識分類損失と、ラベル割り当ての幾何学的なマッチングコストを導入することにより、セマンティック情報と幾何学的情報と相互作用します。
InteractionMapは、NuscenesとArgoverse2の両方のベンチマークで最先端のパフォーマンスを実現します。

要約(オリジナル)

Vectorized high-definition (HD) maps are essential for an autonomous driving system. Recently, state-of-the-art map vectorization methods are mainly based on DETR-like framework to generate HD maps in an end-to-end manner. In this paper, we propose InteractionMap, which improves previous map vectorization methods by fully leveraging local-to-global information interaction in both time and space. Firstly, we explore enhancing DETR-like detectors by explicit position relation prior from point-level to instance-level, since map elements contain strong shape priors. Secondly, we propose a key-frame-based hierarchical temporal fusion module, which interacts temporal information from local to global. Lastly, the separate classification branch and regression branch lead to the problem of misalignment in the output distribution. We interact semantic information with geometric information by introducing a novel geometric-aware classification loss in optimization and a geometric-aware matching cost in label assignment. InteractionMap achieves state-of-the-art performance on both nuScenes and Argoverse2 benchmarks.

arxiv情報

著者 Kuang Wu,Chuan Yang,Zhanbin Li
発行日 2025-03-27 16:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InteractionMap: Improving Online Vectorized HDMap Construction with Interaction はコメントを受け付けていません

Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI

要約

私たちの世界モデルのコアコンポーネントの1つは、「直感的な物理学」です。オブジェクト、空間、因果関係の理解です。
この機能により、イベントを予測し、アクションを計画し、環境をナビゲートすることができます。これらはすべて、オブジェクトの複合感覚に依存しています。
その重要性にもかかわらず、複数の理論的フレームワークが洞察を提供しますが、オブジェクトフッドの単一の統一された説明はありません。
このペーパーの最初の部分では、オブジェクトフッド研究、ゲシュタルト心理学、エネルギー認識、発達心理学における主要な理論的枠組みの包括的な概要を紹介し、各フレームワークがオブジェクト理解に起因するコア能力を特定し、生物学的なエージェントの世界モデルで果たす機能の役割を果たします。
世界モデリングにおけるオブジェクトフッドの基本的な役割を考えると、AIではオブジェクトフッドを理解することも不可欠です。
論文の第2部では、現在のAIパラダイムが認知科学のパラダイムと比較してどのようにアプローチし、オブジェクト性能力をテストするかを評価します。
AIパラダイムは、オブジェクトの概念化方法、オブジェクトフードの研究に使用される方法、利用されたデータ、および評価手法の組み合わせとして定義します。
ベンチマークは、AIシステムモデルの孤立した側面の孤立した側面を検出できるが、ベンチマークがこれらの機能全体にわたって機能的な統合がなく、オブジェクトフッドの課題を完全に解決しないときにベンチマークが検出できないことを発見しました。
最後に、このペーパーで概説されているオブジェクトフッドの統合されたビジョンと一致する新しい評価アプローチを探ります。
これらの方法は、現実世界のコンテキストで本物のオブジェクトを理解して、孤立したオブジェクト機能から汎用AIに向けて前進するための有望な候補です。

要約(オリジナル)

One of the core components of our world models is ‘intuitive physics’ – an understanding of objects, space, and causality. This capability enables us to predict events, plan action and navigate environments, all of which rely on a composite sense of objecthood. Despite its importance, there is no single, unified account of objecthood, though multiple theoretical frameworks provide insights. In the first part of this paper, we present a comprehensive overview of the main theoretical frameworks in objecthood research – Gestalt psychology, enactive cognition, and developmental psychology – and identify the core capabilities each framework attributes to object understanding, as well as what functional roles they play in shaping world models in biological agents. Given the foundational role of objecthood in world modelling, understanding objecthood is also essential in AI. In the second part of the paper, we evaluate how current AI paradigms approach and test objecthood capabilities compared to those in cognitive science. We define an AI paradigm as a combination of how objecthood is conceptualised, the methods used for studying objecthood, the data utilised, and the evaluation techniques. We find that, whilst benchmarks can detect that AI systems model isolated aspects of objecthood, the benchmarks cannot detect when AI systems lack functional integration across these capabilities, not solving the objecthood challenge fully. Finally, we explore novel evaluation approaches that align with the integrated vision of objecthood outlined in this paper. These methods are promising candidates for advancing from isolated object capabilities toward general-purpose AI with genuine object understanding in real-world contexts.

arxiv情報

著者 Danaja Rutar,Alva Markelius,Konstantinos Voudouris,José Hernández-Orallo,Lucy Cheke
発行日 2025-03-27 16:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI はコメントを受け付けていません

Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation

要約

最近、大規模なテキストからイメージ(T2I)拡散モデルが画像間翻訳(I2I)の強力なツールとして浮上しており、ユーザーが提供するテキストプロンプトを介してオープンドメインの画像翻訳を可能にします。
このペーパーでは、周波数誘導ベースのフレームワークである周波数拡散ベースのフレームワークである周波数誘導拡散モデル(FCDiffusion)を提案します。
私たちのフレームワークの中心にあるのは、DCTドメインのソース画像の潜在的な特徴をフィルタリングする離散コサイン変換に基づく機能空間周波数ドメインフィルタリングモジュールであり、異なるDCTスペクトルバンドを持つフィルタリングされた画像機能を、事前に訓練された潜在的拡散モデルへの異なる制御信号として生成します。
異なるDCTスペクトルバンドの制御信号は、ソース画像とT2I生成画像を異なる相関(例えば、スタイル、構造、レイアウト、輪郭など)で橋渡しし、したがって、スタイルガイド付きコンテンツの作成、イメージセマンティックマニピュレーション、イメージシーンの翻訳、イメージスタイルの翻訳など、さまざまなI2I相関を強調する汎用性の高いI2Iアプリケーションを可能にすることが明らかになります。
関連するアプローチとは異なるFCDiffusionは、推論時に異なる周波数制御分岐を切り替えるだけで、多様な画像翻訳タスクに適した統一されたテキスト誘導I2Iフレームワークを確立します。
テキスト誘導I2Iのための当社の方法の有効性と優位性は、定性的および定量的に広範な実験で実証されています。
当社のプロジェクトは、https://xianggao1102.github.io/fcdiffusion/で公開されています。

要約(オリジナル)

Recently, large-scale text-to-image (T2I) diffusion models have emerged as a powerful tool for image-to-image translation (I2I), allowing open-domain image translation via user-provided text prompts. This paper proposes frequency-controlled diffusion model (FCDiffusion), an end-to-end diffusion-based framework that contributes a novel solution to text-guided I2I from a frequency-domain perspective. At the heart of our framework is a feature-space frequency-domain filtering module based on Discrete Cosine Transform, which filters the latent features of the source image in the DCT domain, yielding filtered image features bearing different DCT spectral bands as different control signals to the pre-trained Latent Diffusion Model. We reveal that control signals of different DCT spectral bands bridge the source image and the T2I generated image in different correlations (e.g., style, structure, layout, contour, etc.), and thus enable versatile I2I applications emphasizing different I2I correlations, including style-guided content creation, image semantic manipulation, image scene translation, and image style translation. Different from related approaches, FCDiffusion establishes a unified text-guided I2I framework suitable for diverse image translation tasks simply by switching among different frequency control branches at inference time. The effectiveness and superiority of our method for text-guided I2I are demonstrated with extensive experiments both qualitatively and quantitatively. Our project is publicly available at: https://xianggao1102.github.io/FCDiffusion/.

arxiv情報

著者 Xiang Gao,Zhengbo Xu,Junhan Zhao,Jiaying Liu
発行日 2025-03-27 16:36:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation はコメントを受け付けていません