Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)出力の事実性を高めることが示されていますが、LLMは依然として幻覚に苦しみ、誤った情報または無関係な情報を生成します。
一般的な検出戦略では、LLMに再びその応答が検索された証拠に基づいているかどうかを評価することが含まれますが、このアプローチには費用がかかります。
あるいは、効率的な接地検証のための軽量の自然言語推論(NLI)モデルを推論時に使用できます。
既存の事前に訓練されたNLIモデルは潜在的なソリューションを提供しますが、現実的なRAG入力のより大きなモデルと比較して、そのパフォーマンスはサブラー質のままです。
RAG入力は、NLIモデルのトレーニングに使用されるほとんどのデータセットよりも複雑であり、基礎となる知識ベースに特有の特性を持ち、特定のターゲットドメインへのNLIモデルの適応が必要です。
さらに、ターゲットドメインにラベル付きインスタンスがないため、たとえば、微調整を通じて、監視されたドメインの適応を実現します。
これらの課題に対処するために、自動生成ドメイン適応(AUTO-GDA)を導入します。
私たちのフレームワークは、合成データ生成を通じて監視されていないドメインの適応を可能にします。
手作りのフィルタリング戦略と増強戦略に依存する以前の方法とは異なり、Auto-GDAは、効率の低い教師モデルからの弱いラベルと個別の最適化からの弱いラベルを使用して、最も有望な増強サンプルを選択して、生成されたサンプルの品質を継続的に改善するための反復プロセスを採用しています。
実験結果は、私たちのアプローチの有効性を実証し、Auto-GDAを使用した合成データに微調整されたモデルで、多くの場合、教師モデルのパフォーマンスを上回り、計算コストの10%でLLMSのパフォーマンスレベルに到達します。

要約(オリジナル)

While retrieval-augmented generation (RAG) has been shown to enhance factuality of large language model (LLM) outputs, LLMs still suffer from hallucination, generating incorrect or irrelevant information. A common detection strategy involves prompting the LLM again to assess whether its response is grounded in the retrieved evidence, but this approach is costly. Alternatively, lightweight natural language inference (NLI) models for efficient grounding verification can be used at inference time. While existing pre-trained NLI models offer potential solutions, their performance remains subpar compared to larger models on realistic RAG inputs. RAG inputs are more complex than most datasets used for training NLI models and have characteristics specific to the underlying knowledge base, requiring adaptation of the NLI models to a specific target domain. Additionally, the lack of labeled instances in the target domain makes supervised domain adaptation, e.g., through fine-tuning, infeasible. To address these challenges, we introduce Automatic Generative Domain Adaptation (Auto-GDA). Our framework enables unsupervised domain adaptation through synthetic data generation. Unlike previous methods that rely on handcrafted filtering and augmentation strategies, Auto-GDA employs an iterative process to continuously improve the quality of generated samples using weak labels from less efficient teacher models and discrete optimization to select the most promising augmented samples. Experimental results demonstrate the effectiveness of our approach, with models fine-tuned on synthetic data using Auto-GDA often surpassing the performance of the teacher model and reaching the performance level of LLMs at 10% of their computational cost.

arxiv情報

著者 Tobias Leemann,Periklis Petridis,Giuseppe Vietri,Dionysis Manousakas,Aaron Roth,Sergul Aydore
発行日 2025-03-14 17:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation はコメントを受け付けていません

Neutralizing Bias in LLM Reasoning using Entailment Graphs

要約

LLMはしばしば、より複雑な形式の推論の基礎として広く見なされている自然言語推論(NLI)が可能であると主張されています。
しかし、最近の作品は、LLMがショートカットを構築するために命題記憶に過度に依存していることを証明されたバイアスのために、LLMSがNLIの幻覚に依然として悩まされていることを示しています。
問題を解決するために、監視されていないフレームワークを設計して、反事実的推論データを構築し、LLMSを微調整して証明のバイアスを減らします。
バイアスの削減を測定するために、NLIデータセットのバイアス副産物のバリエーションを構築し、仮説を変えないようにしながら、敷地内で施設でランダムに置き換えられます。
広範な評価は、私たちのフレームワークが証明バイアスから幻覚を大幅に減らすことができることを示しています。
次に、元のNLIデータセットとそのバイアス中立バージョンでのフレームワークで微調整されたLLMSをさらに評価します。ここでは、元のエンティティがランダムにサンプリングされたエンティティに置き換えられます。
広範な結果は、私たちのフレームワークが、オリジナルとバイアスに和ら化されたNLIデータセットの両方で一貫して推論パフォーマンスを改善することを示しています。

要約(オリジナル)

LLMs are often claimed to be capable of Natural Language Inference (NLI), which is widely regarded as a cornerstone of more complex forms of reasoning. However, recent works show that LLMs still suffer from hallucinations in NLI due to attestation bias, where LLMs overly rely on propositional memory to build shortcuts. To solve the issue, we design an unsupervised framework to construct counterfactual reasoning data and fine-tune LLMs to reduce attestation bias. To measure bias reduction, we build bias-adversarial variants of NLI datasets with randomly replaced predicates in premises while keeping hypotheses unchanged. Extensive evaluations show that our framework can significantly reduce hallucinations from attestation bias. Then, we further evaluate LLMs fine-tuned with our framework on original NLI datasets and their bias-neutralized versions, where original entities are replaced with randomly sampled ones. Extensive results show that our framework consistently improves inferential performance on both original and bias-neutralized NLI datasets.

arxiv情報

著者 Liang Cheng,Tianyi Li,Zhaowei Wang,Tianyang Liu,Mark Steedman
発行日 2025-03-14 17:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Neutralizing Bias in LLM Reasoning using Entailment Graphs はコメントを受け付けていません

A Test of Time: Predicting the Sustainable Success of Online Collaboration in Wikipedia

要約

インターネットは、グローバルなコラボレーションの可能性を大幅に拡大し、何百万人ものユーザーがウィキペディアのような集合プロジェクトに貢献できるようになりました。
以前の作業ではオンラインコラボレーションの成功を評価していますが、ほとんどのアプローチは時間と依存しており、その寿命を考慮せずに成功を評価しています。
オンラインコラボレーションにおける高品質の基準の長期的な保存を保証する要因に関する研究はほとんどありません。
この研究では、このギャップに対処します。
私たちは、長期にわたって品質を維持するための共同作業の能力を測定する「持続可能な成功」という新しいメトリック、「持続可能な成功」を提案します。
Wikipediaをケーススタディとして使用して、各記事の持続可能な成功ラベルや編集履歴、ユーザーエクスペリエンス、チーム構成などの300を超える説明機能を含む40kを超えるウィキペディアの記事からデータをまとめるSustainpedia Datasetを紹介します。
このデータセットを使用して、機械学習モデルを開発して、ウィキペディア記事の持続可能な成功を予測します。
当社の最高のパフォーマンスモデルは、平均して0.88の高いAU-ROCスコアを達成しています。
私たちの分析は、重要な洞察を明らかにしています。
たとえば、記事が高品質であると認識されるのに時間がかかるほど、時間の経過とともにそのステータスを維持する可能性が高くなる可能性が高いことがわかります(つまり、持続可能です)。
さらに、ユーザーエクスペリエンスは、持続可能性の最も重要な予測因子として浮上しました。
私たちの分析は、ウィキペディアを超えたより広範な集合的な行動(例:オンラインアクティビズム、クラウドソーシングされたオープンソースソフトウェア)に関する洞察を提供します。
この研究に使用されるすべてのデータとコードを、さらなる研究のために公開されています。

要約(オリジナル)

The Internet has significantly expanded the potential for global collaboration, allowing millions of users to contribute to collective projects like Wikipedia. While prior work has assessed the success of online collaborations, most approaches are time-agnostic, evaluating success without considering its longevity. Research on the factors that ensure the long-term preservation of high-quality standards in online collaboration is scarce. In this study, we address this gap. We propose a novel metric, `Sustainable Success,’ which measures the ability of collaborative efforts to maintain their quality over time. Using Wikipedia as a case study, we introduce the SustainPedia dataset, which compiles data from over 40K Wikipedia articles, including each article’s sustainable success label and more than 300 explanatory features such as edit history, user experience, and team composition. Using this dataset, we develop machine learning models to predict the sustainable success of Wikipedia articles. Our best-performing model achieves a high AU-ROC score of 0.88 on average. Our analysis reveals important insights. For example, we find that the longer an article takes to be recognized as high-quality, the more likely it is to maintain that status over time (i.e., be sustainable). Additionally, user experience emerged as the most critical predictor of sustainability. Our analysis provides insights into broader collective actions beyond Wikipedia (e.g., online activism, crowdsourced open-source software), where the same social dynamics that drive success on Wikipedia might play a role. We make all data and code used for this study publicly available for further research.

arxiv情報

著者 Abraham Israeli,David Jurgens,Daniel Romero
発行日 2025-03-14 17:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.SI | A Test of Time: Predicting the Sustainable Success of Online Collaboration in Wikipedia はコメントを受け付けていません

The time scale of redundancy between prosody and linguistic context

要約

話された言語では、スピーカーは単語を使用して情報を送信するだけでなく、韻律を含む非言語的信号の豊富な配列を介して、音声の聴覚的特徴を介して送信します。
しかし、以前の研究では、韻律の特徴が過去と将来の両方の単語で著しい冗長性を示すことが示されています。
ここでは、この関係の時間尺度を調べます。過去(または未来)の単語は韻律の予測に貢献していますか?
このスケールは、過去と将来の言葉で異なることがわかります。
過去の単語によるProsodyの冗長性は約3〜8語に及びますが、将来の単語での冗長性はわずか1〜2語に制限されています。
これらの調査結果は、植物型の関係が、次の単語予測などのローカルワードの依存性または短期間のプロセスを反映している一方で、韻律範囲の関係はより長い時間スケールで展開することを示しています。
後者は、リアルタイムのコミュニケーションにおける認知リソースが限られているため、リスナーがプロセスに挑戦する可能性のある以前の情報を強調するのに役立つことを示唆しています。
私たちの結果は、効率的なコミュニケーションを形成する際の韻律の役割を強調しています。

要約(オリジナル)

In spoken language, speakers transmit information not only using words, but also via a rich array of non-verbal signals, which include prosody — the auditory features of speech. However, previous studies have shown that prosodic features exhibit significant redundancy with both past and future words. Here, we examine the time scale of this relationship: How many words in the past (or future) contribute to predicting prosody? We find that this scale differs for past and future words. Prosody’s redundancy with past words extends across approximately 3-8 words, whereas redundancy with future words is limited to just 1-2 words. These findings indicate that the prosody-future relationship reflects local word dependencies or short-scale processes such as next word prediction, while the prosody-past relationship unfolds over a longer time scale. The latter suggests that prosody serves to emphasize earlier information that may be challenging for listeners to process given limited cognitive resources in real-time communication. Our results highlight the role of prosody in shaping efficient communication.

arxiv情報

著者 Tamar I. Regev,Chiebuka Ohams,Shaylee Xie,Lukas Wolf,Evelina Fedorenko,Alex Warstadt,Ethan Wilcox,Tiago Pimentel
発行日 2025-03-14 17:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, math.IT | The time scale of redundancy between prosody and linguistic context はコメントを受け付けていません

Cardiomyopathy Diagnosis Model from Endomyocardial Biopsy Specimens: Appropriate Feature Space and Class Boundary in Small Sample Size Data

要約

心不全の患者の数が増えると、機械学習(ML)は、病理学者の不足によって駆動される心筋症の診断に注目を集めています。
ただし、内筋筋膜生検標本は多くの場合、サンプルサイズが小さいことが多く、特徴抽出や寸法削減などの手法が必要です。
この研究の目的は、テクスチャ機能が心筋症の病理学的診断における特徴抽出に効果的であるかどうかを判断することです。
さらに、一般化パフォーマンスの改善に貢献するモデル設計は、いくつかのMLモデルに特徴選択(FS)と寸法圧縮(DC)を適用することにより調べられます。
得られた結果は、クラス間分布の違いを視覚化し、テクスチャ機能に基づいて統計的仮説検定を実施することにより検証されました。
さらに、FSとDCの組み合わせ(適用)および意思決定境界を備えたさまざまなモデル設計にわたる予測パフォーマンスを使用して評価されました。
得られた結果は、テクスチャの特徴が心筋症の病理学的診断に効果的である可能性があることを確認しました。
さらに、サンプルサイズの機能の比率が高い場合、FSとDCを含むマルチステッププロセスが一般化パフォーマンスを改善し、線形カーネルサポートベクターマシンが最良の結果を達成しました。
このプロセスは、決定境界が線形、湾曲、垂直、または軸に平行であるかどうかにかかわらず、複雑さを減らすモデルに潜在的に効果的であることが実証されました。
これらの発見は、医療行為における迅速な採用のための効果的な心筋症診断モデルの開発を促進することが期待されています。

要約(オリジナル)

As the number of patients with heart failure increases, machine learning (ML) has garnered attention in cardiomyopathy diagnosis, driven by the shortage of pathologists. However, endomyocardial biopsy specimens are often small sample size and require techniques such as feature extraction and dimensionality reduction. This study aims to determine whether texture features are effective for feature extraction in the pathological diagnosis of cardiomyopathy. Furthermore, model designs that contribute toward improving generalization performance are examined by applying feature selection (FS) and dimensional compression (DC) to several ML models. The obtained results were verified by visualizing the inter-class distribution differences and conducting statistical hypothesis testing based on texture features. Additionally, they were evaluated using predictive performance across different model designs with varying combinations of FS and DC (applied or not) and decision boundaries. The obtained results confirmed that texture features may be effective for the pathological diagnosis of cardiomyopathy. Moreover, when the ratio of features to the sample size is high, a multi-step process involving FS and DC improved the generalization performance, with the linear kernel support vector machine achieving the best results. This process was demonstrated to be potentially effective for models with reduced complexity, regardless of whether the decision boundaries were linear, curved, perpendicular, or parallel to the axes. These findings are expected to facilitate the development of an effective cardiomyopathy diagnostic model for its rapid adoption in medical practice.

arxiv情報

著者 Masaya Mori,Yuto Omae,Yutaka Koyama,Kazuyuki Hara,Jun Toyotani,Yasuo Okumura,Hiroyuki Hao
発行日 2025-03-14 11:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Cardiomyopathy Diagnosis Model from Endomyocardial Biopsy Specimens: Appropriate Feature Space and Class Boundary in Small Sample Size Data はコメントを受け付けていません

Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model

要約

不確実性の定量化は、効率的な探索や安定したオフライン強化学習から、医療診断における外れ値検出に至るまで、多数のアプリケーションが多数のアプリケーションを備えています。
しかし、最新のニューラルネットワークの規模は、完全なベイジアン推論などの多くの理論的によく動機付けられたアプローチの使用を複雑にします。
ディープアンサンブルのようなおおよその方法は、信頼できる不確実性の推定値を提供できますが、それでも計算上高価なままです。
この作業では、コンテキストの類似性蒸留を提案します。これは、そもそもそのようなアンサンブルを学習または評価することなく、単一のモデルを使用して、深い神経ネットワークのアンサンブルの分散を明示的に推定する新しいアプローチです。
私たちの方法は、無限のアンサンブルの予測分散の効率的な近似を導き出すために、神経接線カーネルによって支配された、広いニューラルネットワークの予測可能な学習ダイナミクスに基づいています。
具体的には、回帰ターゲットとしてのカーネルの類似性を伴う監視された回帰問題としてのアンサンブル分散の計算を再解釈します。
結果のモデルは、単一のフォワードパスで推論時間に予測分散を推定することができ、無効なターゲットドメインデータまたはデータの増強を使用して、その不確実性の推定値を改善することができます。
さまざまな分散除外検出ベンチマークとまばらな補強学習環境で、私たちの方法を経験的に検証します。
シングルモデルの方法は、アンサンブルベースのベースラインよりも競争力があり、時には優れたパフォーマンスを発揮し、効率的な調査の信頼できるシグナルとして機能することがわかります。
これらの結果は、補強学習と一般的な深い学習における不確実性の定量化の原則的でスケーラブルな代替として、文脈的類似性の蒸留を位置づけていると考えています。

要約(オリジナル)

Uncertainty quantification is a critical aspect of reinforcement learning and deep learning, with numerous applications ranging from efficient exploration and stable offline reinforcement learning to outlier detection in medical diagnostics. The scale of modern neural networks, however, complicates the use of many theoretically well-motivated approaches such as full Bayesian inference. Approximate methods like deep ensembles can provide reliable uncertainty estimates but still remain computationally expensive. In this work, we propose contextual similarity distillation, a novel approach that explicitly estimates the variance of an ensemble of deep neural networks with a single model, without ever learning or evaluating such an ensemble in the first place. Our method builds on the predictable learning dynamics of wide neural networks, governed by the neural tangent kernel, to derive an efficient approximation of the predictive variance of an infinite ensemble. Specifically, we reinterpret the computation of ensemble variance as a supervised regression problem with kernel similarities as regression targets. The resulting model can estimate predictive variance at inference time with a single forward pass, and can make use of unlabeled target-domain data or data augmentations to refine its uncertainty estimates. We empirically validate our method across a variety of out-of-distribution detection benchmarks and sparse-reward reinforcement learning environments. We find that our single-model method performs competitively and sometimes superior to ensemble-based baselines and serves as a reliable signal for efficient exploration. These results, we believe, position contextual similarity distillation as a principled and scalable alternative for uncertainty quantification in reinforcement learning and general deep learning.

arxiv情報

著者 Moritz A. Zanger,Pascal R. Van der Vaart,Wendelin Böhmer,Matthijs T. J. Spaan
発行日 2025-03-14 12:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model はコメントを受け付けていません

AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation

要約

Huaweiは、歴史的研究におけるAIアプリケーションの調査に常に取り組んできました。
抽象的な要約の専門的な形態としての伝記生成は、歴史的研究で重要な役割を果たしていますが、既存の大規模な言語モデル(LLM)が対処するのに苦労するユニークな課題に直面しています。
これらの課題には、歴史的執筆慣習への文体的な順守の維持、事実上の忠実度の確保、複数の文書にわたって断片化された情報の処理が含まれます。
Aistorianは、知識グラフ(KG)を搭載した検索された検索(RAG)および抗自発性マルチエージェントを備えた新しいエンドツーエンドエージェントシステムであるAistorianを紹介します。
具体的には、Aistorianは、正確で効率的な参照検索のためのコンテキスト学習ベースのチャンキング戦略とKGベースのインデックスを導入します。
一方、エイストリアンは、マルチエージェントを組織して、飛行中の幻覚検出とエラータイプアウェア修正を実施します。
さらに、LLMSに特定の言語スタイルを教えるために、データ増強強化された監視された微調整とスタイルの好みの最適化を組み合わせた2段階のトレーニングアプローチに基づいてLLMSを獲得します。
実際の歴史的なジンシデータセットでの広範な実験は、Aistorianが実際に3.8倍の改善を達成し、既存のベースラインと比較して幻覚率が47.6%減少することを示しています。
データとコードは、https://github.com/zju-daily/aistorianで入手できます。

要約(オリジナル)

Huawei has always been committed to exploring the AI application in historical research. Biography generation, as a specialized form of abstractive summarization, plays a crucial role in historical research but faces unique challenges that existing large language models (LLMs) struggle to address. These challenges include maintaining stylistic adherence to historical writing conventions, ensuring factual fidelity, and handling fragmented information across multiple documents. We present AIstorian, a novel end-to-end agentic system featured with a knowledge graph (KG)-powered retrieval-augmented generation (RAG) and anti-hallucination multi-agents. Specifically, AIstorian introduces an in-context learning based chunking strategy and a KG-based index for accurate and efficient reference retrieval. Meanwhile, AIstorian orchestrates multi-agents to conduct on-the-fly hallucination detection and error-type-aware correction. Additionally, to teach LLMs a certain language style, we finetune LLMs based on a two-step training approach combining data augmentation-enhanced supervised fine-tuning with stylistic preference optimization. Extensive experiments on a real-life historical Jinshi dataset demonstrate that AIstorian achieves a 3.8x improvement in factual accuracy and a 47.6% reduction in hallucination rate compared to existing baselines. The data and code are available at: https://github.com/ZJU-DAILY/AIstorian.

arxiv情報

著者 Fengyu Li,Yilin Li,Junhao Zhu,Lu Chen,Yanfei Zhang,Jia Zhou,Hui Zu,Jingwen Zhao,Yunjun Gao
発行日 2025-03-14 12:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation はコメントを受け付けていません

An experimental approach on Few Shot Class Incremental Learning

要約

少数のクラスインクリメンタル学習(FSCIL)は、機械学習のより広範な範囲内で最先端のパラダイムを表し、既存の知識を保護しながら、限られた例で新しいクラスのデータを同化する能力をモデルに強化するように設計されています。
このペーパーでは、選択した方法を評価および比較するために、大規模なデータセット、ドメインシフト、およびネットワークアーキテクチャにわたって広範な実験を含むさまざまなソリューションを提示します。
彼らの利点を強調し、視覚言語(V-L)モデル(CLIP)を別のV-Lモデル(CLOOB)に置き換えることにより、最も有望なアプローチを改善する目的で実験的アプローチを提示します。
このレポートの目的は、そのパフォーマンスを改善するFSCILの実験方法を提示することです。
また、FSCILドメインでの最近の進歩の概要とその後の分析を提供し、壊滅的な忘却を緩和し、モデルの適応性を改善するためのさまざまな戦略に焦点を当て、タスクやデータセットを進化させることを計画しています。

要約(オリジナル)

Few-Shot Class-Incremental Learning (FSCIL) represents a cutting-edge paradigm within the broader scope of machine learning, designed to empower models with the ability to assimilate new classes of data with limited examples while safeguarding existing knowledge. The paper will present different solutions which contain extensive experiments across large-scale datasets, domain shifts, and network architectures to evaluate and compare the selected methods. We highlight their advantages and then present an experimental approach with the purpose of improving the most promising one by replacing the visual-language (V-L) model (CLIP) with another V-L model (CLOOB) that seem to outperform it on zero-shot learning tasks. The aim of this report is to present an experimental method for FSCIL that would improve its performance. We also plan to offer an overview followed by an analysis of the recent advancements in FSCIL domain, focusing on various strategies to mitigate catastrophic forgetting and improve the adaptability of models to evolving tasks and datasets.

arxiv情報

著者 Marinela Adam
発行日 2025-03-14 12:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | An experimental approach on Few Shot Class Incremental Learning はコメントを受け付けていません

PARIC: Probabilistic Attention Regularization for Language Guided Image Classification from Pre-trained Vison Language Models

要約

言語誘導の注意フレームワークは、画像分類における解釈可能性とパフォーマンスの両方を大幅に向上させました。
ただし、参照注意マップを生成するための事前に訓練されたビジョン言語基礎モデルからの決定論的な埋め込みへの依存は、頻繁に本質的な多次元とクロスモーダルマッピングの不適切な特性を見落とします。
これらの制限に対処するために、言語仕様を介して視覚的な注意を導くための確率的フレームワークであるパリックを紹介します。
当社のアプローチにより、事前に訓練されたビジョン言語モデルが確率的参照注意マップを生成することができます。これは、決定論的なカウンターパートと比較して、不確実性の推定値を組み込んでいる間、テキストおよび視覚モダリティをより効果的に調整します。
ベンチマークテストの問題に関する実験は、パリックが予測の精度を高め、バイアスを緩和し、一貫した予測を保証し、さまざまなデータセット全体で堅牢性を向上させることを示しています。

要約(オリジナル)

Language-guided attention frameworks have significantly enhanced both interpretability and performance in image classification; however, the reliance on deterministic embeddings from pre-trained vision-language foundation models to generate reference attention maps frequently overlooks the intrinsic multivaluedness and ill-posed characteristics of cross-modal mappings. To address these limitations, we introduce PARIC, a probabilistic framework for guiding visual attention via language specifications. Our approach enables pre-trained vision-language models to generate probabilistic reference attention maps, which align textual and visual modalities more effectively while incorporating uncertainty estimates, as compared to their deterministic counterparts. Experiments on benchmark test problems demonstrate that PARIC enhances prediction accuracy, mitigates bias, ensures consistent predictions, and improves robustness across various datasets.

arxiv情報

著者 Mayank Nautiyal,Stela Arranz Gheorghe,Kristiana Stefa,Li Ju,Ida-Maria Sintorn,Prashant Singh
発行日 2025-03-14 12:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | PARIC: Probabilistic Attention Regularization for Language Guided Image Classification from Pre-trained Vison Language Models はコメントを受け付けていません

CoPAL: Corrective Planning of Robot Actions with Large Language Models

要約

人間が伝統的に実行するタスクを引き継ぐことができる完全に自律的なロボットシステムを追求することで、オープンワールド環境の複雑さはかなりの課題をもたらします。
この命令に対処すると、この研究は、ロボットのタスクとモーション計画に適用される大規模な言語モデル(LLM)の分野に貢献しています。
推論、計画、およびモーション生成を含む、複数の認知レベルの間のシームレスな相互作用を調整するシステムアーキテクチャを提案します。
その中心には、生成された計画の物理的、論理的、意味的エラーを処理する新しい再生戦略があります。
提案されたフィードバックアーキテクチャの有効性、特にシミュレーションと2つの複雑な実世界のシナリオのコンテキストでの経験的評価による実行可能性、正確性、および時間の複雑さへの影響を実証します。

要約(オリジナル)

In the pursuit of fully autonomous robotic systems capable of taking over tasks traditionally performed by humans, the complexity of open-world environments poses a considerable challenge. Addressing this imperative, this study contributes to the field of Large Language Models (LLMs) applied to task and motion planning for robots. We propose a system architecture that orchestrates a seamless interplay between multiple cognitive levels, encompassing reasoning, planning, and motion generation. At its core lies a novel replanning strategy that handles physically grounded, logical, and semantic errors in the generated plans. We demonstrate the efficacy of the proposed feedback architecture, particularly its impact on executability, correctness, and time complexity via empirical evaluation in the context of a simulation and two intricate real-world scenarios: blocks world, barman and pizza preparation.

arxiv情報

著者 Frank Joublin,Antonello Ceravola,Pavel Smirnov,Felix Ocker,Joerg Deigmoeller,Anna Belardinelli,Chao Wang,Stephan Hasler,Daniel Tanneberg,Michael Gienger
発行日 2025-03-14 13:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CoPAL: Corrective Planning of Robot Actions with Large Language Models はコメントを受け付けていません