PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time

要約

大規模な言語モデル(LLM)エンパワーされたエージェントは最近、幅広いドメインとタスクで印象的な能力を示す高度なパラダイムとして浮上しています。
その可能性にもかかわらず、現在のLLMエージェントは、多くの場合、すべてのサイズのアプローチを採用しており、ユーザーのさまざまなニーズや好みに対応する柔軟性がありません。
この制限により、汎用性の高いパーソナライズタスクに対処するために設計された最初のパーソナライズされたLLMエージェントフレームワークであるPersonaagentを開発するようになります。
具体的には、PersonAagentは2つの相補的コンポーネントを統合します。エピソードおよびセマンティックメモリメカニズムを含むパーソナライズされたメモリモジュールです。
エージェントがユーザーに合わせたツールアクションを実行できるようにするパーソナライズされたアクションモジュール。
コアでは、ペルソナ(各ユーザーのユニークなシステムプロンプトとして定義)は仲介者として機能します。パーソナライズされたメモリからコントロールエージェントアクションに洞察を活用し、これらのアクションの結果はメモリを改良します。
フレームワークに基づいて、最新のNインタラクションをシミュレートしてペルソナプロンプトを最適化するテスト時間ユーザープレーファレンスアライメント戦略を提案し、シミュレートされた応答とグラウンドトゥルース応答の間のテキストの損失フィードバックを通じてリアルタイムユーザー優先アライメントを確保します。
実験的評価は、PersonAagentがアクション空間を効果的にパーソナライズするだけでなく、テスト時間の実際のアプリケーション中にスケーリングすることにより、他のベースライン方法を大幅に上回ることを示しています。
これらの結果は、テーラードされた動的なユーザーエクスペリエンスを提供する際のアプローチの実現可能性と可能性を強調しています。

要約(オリジナル)

Large Language Model (LLM) empowered agents have recently emerged as advanced paradigms that exhibit impressive capabilities in a wide range of domains and tasks. Despite their potential, current LLM agents often adopt a one-size-fits-all approach, lacking the flexibility to respond to users’ varying needs and preferences. This limitation motivates us to develop PersonaAgent, the first personalized LLM agent framework designed to address versatile personalization tasks. Specifically, PersonaAgent integrates two complementary components – a personalized memory module that includes episodic and semantic memory mechanisms; a personalized action module that enables the agent to perform tool actions tailored to the user. At the core, the persona (defined as unique system prompt for each user) functions as an intermediary: it leverages insights from personalized memory to control agent actions, while the outcomes of these actions in turn refine the memory. Based on the framework, we propose a test-time user-preference alignment strategy that simulate the latest n interactions to optimize the persona prompt, ensuring real-time user preference alignment through textual loss feedback between simulated and ground-truth responses. Experimental evaluations demonstrate that PersonaAgent significantly outperforms other baseline methods by not only personalizing the action space effectively but also scaling during test-time real-world applications. These results underscore the feasibility and potential of our approach in delivering tailored, dynamic user experiences.

arxiv情報

著者 Weizhi Zhang,Xinyang Zhang,Chenwei Zhang,Liangwei Yang,Jingbo Shang,Zhepei Wei,Henry Peng Zou,Zijie Huang,Zhengyang Wang,Yifan Gao,Xiaoman Pan,Lian Xiong,Jingguo Liu,Philip S. Yu,Xian Li
発行日 2025-06-06 17:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Reflect-then-Plan: Offline Model-Based Planning through a Doubly Bayesian Lens

要約

オンラインの探索がコストまたは安全でない場合がありますが、データが限られているために高い認識論的不確実性に苦しんでいる場合、オフライン強化学習(RL)は重要です。
既存の方法は、固定された保守的な政策、適応性と一般化の制限に依存しています。
これに対処するために、斬新な二重ベイジアンオフラインモデルベース(MB)計画アプローチであるReflect-Then-Plan(RefPlan)を提案します。
Refplanは、ベイジアン後部推定として計画を再構築することにより、不確実性モデリングとMB計画を統合します。
展開時に、リアルタイムの観測を使用して環境ダイナミクスに対する信念を更新し、疎外を介してMB計画に不確実性を組み込みます。
標準ベンチマークの経験的結果は、Refplanが保守的なオフラインRLポリシーのパフォーマンスを大幅に改善することを示しています。
特に、RefPlanは、高い認識論的不確実性と限られたデータの下で堅牢なパフォーマンスを維持し、環境ダイナミクスの変化に対する回復力を示し、オフラインの学習ポリシーの柔軟性、一般化、および堅牢性を改善します。

要約(オリジナル)

Offline reinforcement learning (RL) is crucial when online exploration is costly or unsafe but often struggles with high epistemic uncertainty due to limited data. Existing methods rely on fixed conservative policies, restricting adaptivity and generalization. To address this, we propose Reflect-then-Plan (RefPlan), a novel doubly Bayesian offline model-based (MB) planning approach. RefPlan unifies uncertainty modeling and MB planning by recasting planning as Bayesian posterior estimation. At deployment, it updates a belief over environment dynamics using real-time observations, incorporating uncertainty into MB planning via marginalization. Empirical results on standard benchmarks show that RefPlan significantly improves the performance of conservative offline RL policies. In particular, RefPlan maintains robust performance under high epistemic uncertainty and limited data, while demonstrating resilience to changing environment dynamics, improving the flexibility, generalizability, and robustness of offline-learned policies.

arxiv情報

著者 Jihwan Jeong,Xiaoyu Wang,Jingmin Wang,Scott Sanner,Pascal Poupart
発行日 2025-06-06 17:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Cartridges: Lightweight and general-purpose long context representations via self-study

要約

大規模な言語モデルは、コーパス全体をコンテキストウィンドウに配置し、コンテキスト内学習(ICL)を活用することにより、大きなテキストコーパス(コードベース、法的文書、チャット履歴など)に基づいたクエリに答えるためによく使用されます。
現在のモデルは100K-1Mトークンのコンテキストをサポートしていますが、KVキャッシュのメモリ消費量が入力長のメモリ消費量が拡大するため、このセットアップはサービスを提供するのに費用がかかります。
別の方法を探ります。各コーパスでより小さなKVキャッシュをオフラインでトレーニングします。
推論時に、この訓練されたKVキャッシュをロードします。これはカートリッジと呼ばれ、応答をデコードします。
重大なことに、カートリッジをトレーニングするコストは、同じコーパスを参照するすべてのクエリで償却できます。
ただし、コーパスで次のトークン予測でカートリッジをトレーニングする素朴なアプローチは、ICLと競合していないことがわかります。
代わりに、コーパスに関する合成会話を生成し、コンテキスト指向の目的でカートリッジを訓練するトレーニングレシピである自己学習を提案します。
自習で訓練されたカートリッジは、ICLの機能を複製する一方で、サービスを大幅に安くしていることがわかります。
挑戦的なロングコンテキストベンチマークでは、38.6倍のメモリを使用し、26.4倍のスループットを有効にしながら、自習マッチのICLパフォーマンスで訓練されたカートリッジ。
自己学習は、モデルの有効なコンテキスト長(例:MTOBの128Kから484Kトークンなど)を拡張し、驚くべきことに、再訓練なしで推論時に構成できるカートリッジにつながります。

要約(オリジナル)

Large language models are often used to answer queries grounded in large text corpora (e.g. codebases, legal documents, or chat histories) by placing the entire corpus in the context window and leveraging in-context learning (ICL). Although current models support contexts of 100K-1M tokens, this setup is costly to serve because the memory consumption of the KV cache scales with input length. We explore an alternative: training a smaller KV cache offline on each corpus. At inference time, we load this trained KV cache, which we call a Cartridge, and decode a response. Critically, the cost of training a Cartridge can be amortized across all the queries referencing the same corpus. However, we find that the naive approach of training the Cartridge with next-token prediction on the corpus is not competitive with ICL. Instead, we propose self-study, a training recipe in which we generate synthetic conversations about the corpus and train the Cartridge with a context-distillation objective. We find that Cartridges trained with self-study replicate the functionality of ICL, while being significantly cheaper to serve. On challenging long-context benchmarks, Cartridges trained with self-study match ICL performance while using 38.6x less memory and enabling 26.4x higher throughput. Self-study also extends the model’s effective context length (e.g. from 128k to 484k tokens on MTOB) and surprisingly, leads to Cartridges that can be composed at inference time without retraining.

arxiv情報

著者 Sabri Eyuboglu,Ryan Ehrlich,Simran Arora,Neel Guha,Dylan Zinsley,Emily Liu,Will Tennien,Atri Rudra,James Zou,Azalia Mirhoseini,Christopher Re
発行日 2025-06-06 17:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Do Large Language Models Reason Causally Like Us? Even Better?

要約

因果推論は、知性のコアコンポーネントです。
大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に印象的な能力を示しており、彼らの応答が真の理解または統計的パターンを反映しているかどうかについて疑問を提起しています。
コライダーグラフに基づいたタスクを使用して、人間の因果推論と4つのLLMを比較し、他の変数からの証拠が与えられたクエリ変数が発生する可能性を評価しました。
LLMSの因果的推論は、しばしば無意味な(GPT-3.5)から人間のような人間のようなものに及びました(GPT-4O、Gemini-Pro、およびClaude)。
計算モデルのフィッティングは、GPT-4O、Gemini-Pro、およびClaudeの優れたパフォーマンスの理由の1つが、人間の因果的推論を悩ませる「連想的バイアス」を示さなかったことであることを示しました。
それにもかかわらず、これらのLLMでさえ、「説明」などのコライダーグラフに関連する微妙な推論パターンを完全にはキャプチャしませんでした。

要約(オリジナル)

Causal reasoning is a core component of intelligence. Large language models (LLMs) have shown impressive capabilities in generating human-like text, raising questions about whether their responses reflect true understanding or statistical patterns. We compared causal reasoning in humans and four LLMs using tasks based on collider graphs, rating the likelihood of a query variable occurring given evidence from other variables. LLMs’ causal inferences ranged from often nonsensical (GPT-3.5) to human-like to often more normatively aligned than those of humans (GPT-4o, Gemini-Pro, and Claude). Computational model fitting showed that one reason for GPT-4o, Gemini-Pro, and Claude’s superior performance is they didn’t exhibit the ‘associative bias’ that plagues human causal reasoning. Nevertheless, even these LLMs did not fully capture subtler reasoning patterns associated with collider graphs, such as ‘explaining away’.

arxiv情報

著者 Hanna M. Dettki,Brenden M. Lake,Charley M. Wu,Bob Rehder
発行日 2025-06-06 17:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Distillation Robustifies Unlearning

要約

現在のLLM学習方法は堅牢ではありません。それらは、微調整のいくつかのステップで簡単に戻すことができます。
これは、不要な情報に決してさらされなかったOracleモデルを模倣する理想的な非学習トレーニング方法にも当てはまります。これは、出力ベースのFinetuningが堅牢な解除を達成するには不十分であることを示唆しています。
同様に、ランダムに初期化された学生をトレーニングして、不明確なモデルを模倣して望ましい動作を模倣し、望ましくない機能を残していることがわかります。
言い換えれば、蒸留は学習を強化します。
この洞察に基づいて、私たちは、非学習されたモデルを部分的にノイズされたコピーに蒸留するスケーラブルな方法である、非ヌーシスティルオン出力(元に戻す)を提案します。
元に戻すと、コンピューティングコストと堅牢性の間に調整可能なトレードオフが導入され、合成言語と算術タスクに関する新しいパレートフロンティアが確立されます。
その最強の設定では、コンピューティングの60〜80%しか使用しない一方で、完全なデータフィルタリングを使用して、ゼロから再登録されたモデルの堅牢性と一致します。
また、よりリアルな大量破壊プロキシ(WMDP)ベンチマークを解き放つことを元に戻すことを示しています。
蒸留は実際には広く使用されているため、事前に学習していないステップを組み込むと、堅牢な機能除去への便利なパスが提供されます。

要約(オリジナル)

Current LLM unlearning methods are not robust: they can be reverted easily with a few steps of finetuning. This is true even for the idealized unlearning method of training to imitate an oracle model that was never exposed to unwanted information, suggesting that output-based finetuning is insufficient to achieve robust unlearning. In a similar vein, we find that training a randomly initialized student to imitate an unlearned model transfers desired behaviors while leaving undesired capabilities behind. In other words, distillation robustifies unlearning. Building on this insight, we propose Unlearn-Noise-Distill-on-Outputs (UNDO), a scalable method that distills an unlearned model into a partially noised copy of itself. UNDO introduces a tunable tradeoff between compute cost and robustness, establishing a new Pareto frontier on synthetic language and arithmetic tasks. At its strongest setting, UNDO matches the robustness of a model retrained from scratch with perfect data filtering while using only 60-80% of the compute and requiring only 0.01% of the pretraining data to be labeled. We also show that UNDO robustifies unlearning on the more realistic Weapons of Mass Destruction Proxy (WMDP) benchmark. Since distillation is widely used in practice, incorporating an unlearning step beforehand offers a convenient path to robust capability removal.

arxiv情報

著者 Bruce W. Lee,Addie Foote,Alex Infanger,Leni Shor,Harish Kamath,Jacob Goldman-Wetzler,Bryce Woodworth,Alex Cloud,Alexander Matt Turner
発行日 2025-06-06 17:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias

要約

重量マトリックスの固有種を介して深いニューラルネットワーク(DNNS)を診断することは、近年の活発な研究領域でした。
高レベルでは、DNNSの固有スペクトル分析には、重量マトリックスの経験的スペクトル密度(ESD)の重度の測定が含まれます。
モデルがどれだけうまく訓練されているかについての洞察を提供し、より良いレイヤーワイズトレーニングハイパーパラメーターの割り当てに関する決定を導くことができます。
このホワイトペーパーでは、このような固有スペクトル法に関連する課題に対処します。推定されたヘビーテールネスメトリックに対する重量マトリックスのアスペクト比の影響です。
さまざまなサイズ(およびアスペクト比)のマトリックスが、重張りのメトリックを推定する際に無視できないバイアスを導入し、モデルの診断と層ごとのハイパーパラメーターの割り当てにつながることを実証します。
この課題を克服するために、固定アスペクト比を持つサブマトリックをサブサンプリングすることにより重みマトリックスを正規化する方法である農場(固定アスペクト比マトリックスサブサンプリング)を提案します。
元のESDの重張りを測定する代わりに、これらのサブサンプリングされたサブミトリックの平均ESDを測定します。
固定アスペクト比を使用して、これらのサブマトリックの重張力を測定することで、アスペクト比バイアスを効果的に軽減できることを示します。
コンピュータービジョン(CV)モデルにおける画像分類、科学機械学習(SCIML)モデルトレーニング、大規模言語モデル(LLM)剪定など、重みの固有スペクトル分析を含む、さまざまな最適化技術とアプリケーションドメインにまたがるアプローチを検証します。
我々の結果は、その単純さにもかかわらず、農場は固有種分析の精度を均一に改善し、これらのアプリケーションドメインでより効果的な層ごとのハイパーパラメーターの割り当てを可能にすることを示しています。
LLM剪定実験の1つでは、農場は、最先端の方法と比較した場合、Llama-7Bモデルの困惑を17.3%減らします。

要約(オリジナル)

Diagnosing deep neural networks (DNNs) through the eigenspectrum of weight matrices has been an active area of research in recent years. At a high level, eigenspectrum analysis of DNNs involves measuring the heavytailness of the empirical spectral densities (ESD) of weight matrices. It provides insight into how well a model is trained and can guide decisions on assigning better layer-wise training hyperparameters. In this paper, we address a challenge associated with such eigenspectrum methods: the impact of the aspect ratio of weight matrices on estimated heavytailness metrics. We demonstrate that matrices of varying sizes (and aspect ratios) introduce a non-negligible bias in estimating heavytailness metrics, leading to inaccurate model diagnosis and layer-wise hyperparameter assignment. To overcome this challenge, we propose FARMS (Fixed-Aspect-Ratio Matrix Subsampling), a method that normalizes the weight matrices by subsampling submatrices with a fixed aspect ratio. Instead of measuring the heavytailness of the original ESD, we measure the average ESD of these subsampled submatrices. We show that measuring the heavytailness of these submatrices with the fixed aspect ratio can effectively mitigate the aspect ratio bias. We validate our approach across various optimization techniques and application domains that involve eigenspectrum analysis of weights, including image classification in computer vision (CV) models, scientific machine learning (SciML) model training, and large language model (LLM) pruning. Our results show that despite its simplicity, FARMS uniformly improves the accuracy of eigenspectrum analysis while enabling more effective layer-wise hyperparameter assignment in these application domains. In one of the LLM pruning experiments, FARMS reduces the perplexity of the LLaMA-7B model by 17.3% when compared with the state-of-the-art method.

arxiv情報

著者 Yuanzhe Hu,Kinshuk Goel,Vlad Killiakov,Yaoqing Yang
発行日 2025-06-06 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

diffDemorph: Extending Reference-Free Demorphing to Unseen Faces

要約

フェイスモーフは、2つのアイデンティティに対応する2つの顔の画像を組み合わせて、構成要素の両方のアイデンティティの両方を正常に一致させるコンポジットを作成することによって作成されます。
リファレンスフリー(RF)Demorphingは、追加の参照画像を必要とせずに、モーフ画像のみを使用してこのプロセスを逆転させます。
以前のRFデモーフィング方法は、使用されたモーフィング手法(ランドマークベース)やフェイスイメージスタイル(パスポート写真など)などのモーフのテストの分布に関する仮定に依存しているため、過度に制約されています。
このホワイトペーパーでは、視覚的忠実度が高い複合モーフ画像からコンポーネントイメージを効果的に解き放つDiffdemorphと呼ばれる新しい拡散ベースのアプローチを紹介します。
私たちの方法は、テストされたすべてのデータセットで一般的なトレーニングプロトコルで$ \ geq 59.46 \%$で現在の最新技術を破り、モーフテクニックとフェイススタイル全体で一般化する最初の方法です。
合成的に生成されたフェイス画像を使用して作成されたモーフに関する方法をトレーニングし、実際のモーフでテストし、それにより技術の実用性を高めます。
6つのデータセットと2つのフェイスマッチャーでの実験により、この方法の有効性と有効性が確立されます。

要約(オリジナル)

A face morph is created by combining two face images corresponding to two identities to produce a composite that successfully matches both the constituent identities. Reference-free (RF) demorphing reverses this process using only the morph image, without the need for additional reference images. Previous RF demorphing methods are overly constrained, as they rely on assumptions about the distributions of training and testing morphs such as the morphing technique used (e.g., landmark-based) and face image style (e.g., passport photos). In this paper, we introduce a novel diffusion-based approach, referred to as diffDeMorph, that effectively disentangles component images from a composite morph image with high visual fidelity. Our method is the first to generalize across morph techniques and face styles, beating the current state of the art by $\geq 59.46\%$ under a common training protocol across all datasets tested. We train our method on morphs created using synthetically generated face images and test on real morphs, thereby enhancing the practicality of the technique. Experiments on six datasets and two face matchers establish the utility and efficacy of our method.

arxiv情報

著者 Nitish Shukla,Arun Ross
発行日 2025-06-06 13:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Assessing Intersectional Bias in Representations of Pre-Trained Image Recognition Models

要約

ディープラーニングモデルは驚くべき成功を収めています。
それらをトレーニングすることは、エンコードされたバイアスを永続させるリスクをもたらす事前に訓練されたモデルの上に構築することにより、しばしば加速されます。
ここでは、年齢、人種、性別の機密変数の交差点を考慮しながら、顔の画像に一般的に使用されるイメージネット分類器の表現のバイアスを調査します。
バイアスを評価するために、線形分類子プローブを使用し、アクティブ化を地形マップとして視覚化します。
ImagENet分類器の表現は、特に年齢間の区別を可能にすることがわかります。
あまり顕著ではないため、モデルは特定の民族を関連付け、中年グループの性別を区別しているように見えます。

要約(オリジナル)

Deep Learning models have achieved remarkable success. Training them is often accelerated by building on top of pre-trained models which poses the risk of perpetuating encoded biases. Here, we investigate biases in the representations of commonly used ImageNet classifiers for facial images while considering intersections of sensitive variables age, race and gender. To assess the biases, we use linear classifier probes and visualize activations as topographic maps. We find that representations in ImageNet classifiers particularly allow differentiation between ages. Less strongly pronounced, the models appear to associate certain ethnicities and distinguish genders in middle-aged groups.

arxiv情報

著者 Valerie Krug,Sebastian Stober
発行日 2025-06-06 13:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.HC, cs.LG | コメントする

Full Conformal Adaptation of Medical Vision-Language Models

要約

大規模に事前に訓練されたビジョン言語モデル(VLMS)は、前例のない移転性機能を示しており、医療画像分析に徐々に統合されています。
その差別的可能性は広く調査されていますが、その信頼性の側面は見過ごされ続けています。
この作業では、ますます人気のある分割コンフォーマル予測(SCP)フレームワークの下での動作を調査します。これは、ラベル付きキャリブレーションセットを活用することにより、出力セットの特定のエラーレベルを理論的に保証します。
ただし、VLMSのゼロショットパフォーマンスは本質的に制限されており、一般的な実践には、SCPの厳格な交換可能性の仮定を吸収できない少数のショット転送学習パイプラインが含まれます。
この問題を緩和するために、完全なコンフォーマル適応は、いくつかのショット適応セットを使用して各テストデータポイントで乳で動作する、事前に訓練された基礎モデルを共同で適応およびコンフォーマル化するための新しい設定を提案します。
さらに、このフレームワークは、このような導入アプローチの計算コストを緩和するVLMS用の新しいトレーニングフリーリニアプローバーソルバーであるSS-Textで補完します。
3つの異なるモダリティ特異的医療VLMと9つの適応タスクを使用して、包括的な実験を提供します。
私たちのフレームワークには、SCPとまったく同じデータが必要であり、同じカバレッジ保証を維持しながら、設定効率の最大27%の一貫した相対改善を提供します。

要約(オリジナル)

Vision-language models (VLMs) pre-trained at large scale have shown unprecedented transferability capabilities and are being progressively integrated into medical image analysis. Although its discriminative potential has been widely explored, its reliability aspect remains overlooked. This work investigates their behavior under the increasingly popular split conformal prediction (SCP) framework, which theoretically guarantees a given error level on output sets by leveraging a labeled calibration set. However, the zero-shot performance of VLMs is inherently limited, and common practice involves few-shot transfer learning pipelines, which cannot absorb the rigid exchangeability assumptions of SCP. To alleviate this issue, we propose full conformal adaptation, a novel setting for jointly adapting and conformalizing pre-trained foundation models, which operates transductively over each test data point using a few-shot adaptation set. Moreover, we complement this framework with SS-Text, a novel training-free linear probe solver for VLMs that alleviates the computational cost of such a transductive approach. We provide comprehensive experiments using 3 different modality-specialized medical VLMs and 9 adaptation tasks. Our framework requires exactly the same data as SCP, and provides consistent relative improvements of up to 27% on set efficiency while maintaining the same coverage guarantees.

arxiv情報

著者 Julio Silva-Rodríguez,Leo Fillioux,Paul-Henry Cournède,Maria Vakalopoulou,Stergios Christodoulidis,Ismail Ben Ayed,Jose Dolz
発行日 2025-06-06 13:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

WisWheat: A Three-Tiered Vision-Language Dataset for Wheat Management

要約

小麦管理戦略は、収量を決定する上で重要な役割を果たします。
従来の管理上の決定は、多くの場合、労働集約型の専門家検査に依存しています。
最近、Vision-Language Models(VLM)は、スケーラブルでデータ駆動型の管理サポートを可能にする有望なソリューションとして浮上しています。
ただし、ドメイン固有の知識が不足しているため、VLMSを小麦管理タスクに直接適用すると、定量化と推論能力が低下し、最終的には曖昧または誤解を招く管理の推奨事項が生成されます。
これに応じて、小麦管理タスクのVLMパフォーマンスを強化する3層設計を備えた小麦固有のデータセットであるWishwheatを提案します。
(2)タスクを測定する定量的特性のための7,263 VQAスタイルの画像と回答のトリプレットを含む定量的データセット。
(3)さまざまな生物季節学的段階の生物的および非生物的ストレス診断と管理計画を標的とする4,888サンプルを備えた微調整データセット。
大規模な実験結果は、データセットの微調整オープンソースVLM(QWEN2.5 7Bなど)が大幅なパフォーマンスの改善につながることを示しています。
具体的には、小麦命令データセットで微調整されたQWEN2.5 VL 7Bは、小麦ストレスと成長段階の会話タスクでそれぞれ79.2%と84.6%の精度スコアを達成し、GPT-4Oなどの汎用商用モデルを11.9%および34.6%の汎用商用モデルでさえ上回ります。

要約(オリジナル)

Wheat management strategies play a critical role in determining yield. Traditional management decisions often rely on labour-intensive expert inspections, which are expensive, subjective and difficult to scale. Recently, Vision-Language Models (VLMs) have emerged as a promising solution to enable scalable, data-driven management support. However, due to a lack of domain-specific knowledge, directly applying VLMs to wheat management tasks results in poor quantification and reasoning capabilities, ultimately producing vague or even misleading management recommendations. In response, we propose WisWheat, a wheat-specific dataset with a three-layered design to enhance VLM performance on wheat management tasks: (1) a foundational pretraining dataset of 47,871 image-caption pairs for coarsely adapting VLMs to wheat morphology; (2) a quantitative dataset comprising 7,263 VQA-style image-question-answer triplets for quantitative trait measuring tasks; and (3) an Instruction Fine-tuning dataset with 4,888 samples targeting biotic and abiotic stress diagnosis and management plan for different phenological stages. Extensive experimental results demonstrate that fine-tuning open-source VLMs (e.g., Qwen2.5 7B) on our dataset leads to significant performance improvements. Specifically, the Qwen2.5 VL 7B fine-tuned on our wheat instruction dataset achieves accuracy scores of 79.2% and 84.6% on wheat stress and growth stage conversation tasks respectively, surpassing even general-purpose commercial models such as GPT-4o by a margin of 11.9% and 34.6%.

arxiv情報

著者 Bowen Yuan,Selena Song,Javier Fernandez,Yadan Luo,Mahsa Baktashmotlagh,Zijian Wang
発行日 2025-06-06 13:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする