Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion

要約

医療視覚的質問応答(MED-VQA)は、医療画像を使用して臨床的質問に答え、診断を支援します。
MEDVQAシステムの設計は、臨床診断の支援と診断精度の向上において非常に重要です。
この基盤の上に構築された階層医療VQAは、医学的質問を階層構造に組織し、微調整された区別を処理するためのレベル固有の予測を作成することにより、医療VQAを拡張します。
最近、多くの研究が階層的なMEDVQAタスクと確立されたデータセットを提案していますが、いくつかの問題はまだ残っています。(1)不完全な階層モデリングは、階層全体のセマンティック断片化を引き起こす質問レベル間の不完全な区別を引き起こします。
(2)医療シナリオにおける重要な局所セマンティック相関を曖昧にするトランスベースのクロスモーダル自己触媒融合方法における暗黙の学習への過度の依存。
これらの問題に対処するために、この研究では、2つのモジュールを含むHICA-VQAメソッドを提案しています。階層的な医学的質問のプロンプトと階層的な回答デコーダーです。
階層的なプロンプトモジュールは、画像機能を備えた階層テキストプロンプトをプリグリインして、質問の種類に従って特定の画像領域に焦点を合わせてモデルを導き、階層デコーダーは異なるレベルでの質問の個別の予測を実行して、粒状全体の精度を改善します。
このフレームワークには、画像がクエリとして機能し、テキストがキー価値のペアとして機能するクロスアテンション融合モジュールも組み込まれています。
Rad-Restructベンチマークでの実験は、HICA-VQAフレームワークが階層的な微調整された質問に答える際に既存の最先端の方法よりも優れていることを示しています。
この研究は、階層的な視覚的質問回答システムの効果的な経路を提供し、医療イメージの理解を進めます。

要約(オリジナル)

Medical Visual Question Answering (Med-VQA) answers clinical questions using medical images, aiding diagnosis. Designing the MedVQA system holds profound importance in assisting clinical diagnosis and enhancing diagnostic accuracy. Building upon this foundation, Hierarchical Medical VQA extends Medical VQA by organizing medical questions into a hierarchical structure and making level-specific predictions to handle fine-grained distinctions. Recently, many studies have proposed hierarchical MedVQA tasks and established datasets, However, several issues still remain: (1) imperfect hierarchical modeling leads to poor differentiation between question levels causing semantic fragmentation across hierarchies. (2) Excessive reliance on implicit learning in Transformer-based cross-modal self-attention fusion methods, which obscures crucial local semantic correlations in medical scenarios. To address these issues, this study proposes a HiCA-VQA method, including two modules: Hierarchical Prompting for fine-grained medical questions and Hierarchical Answer Decoders. The hierarchical prompting module pre-aligns hierarchical text prompts with image features to guide the model in focusing on specific image regions according to question types, while the hierarchical decoder performs separate predictions for questions at different levels to improve accuracy across granularities. The framework also incorporates a cross-attention fusion module where images serve as queries and text as key-value pairs. Experiments on the Rad-Restruct benchmark demonstrate that the HiCA-VQA framework better outperforms existing state-of-the-art methods in answering hierarchical fine-grained questions. This study provides an effective pathway for hierarchical visual question answering systems, advancing medical image understanding.

arxiv情報

著者 Junkai Zhang,Bin Li,Shoujun Zhou,Yue Du
発行日 2025-04-10 11:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion はコメントを受け付けていません

GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation

要約

3Dコンテンツの生成は大幅に進歩していますが、既存の方法は、入力形式、潜在的なスペース設計、および出力表現で依然として課題に直面しています。
このペーパーでは、これらの課題に対処する新しい3Dジェネレーションフレームワークを紹介し、インタラクティブなポイントクラウド構造の潜在スペースを備えたスケーラブルで高品質の3D世代を提供します。
私たちのフレームワークは、3D形状情報を保持するユニークな潜在スペースデザインを使用して、マルチビューがポーズRGB-D(EPTH)-N(ORMAL)レンダリングを入力として使用し、3D形状情報を保持し、改善された形状テキスト障害の改善のためのカスケードされた潜在フローベースのモデルを組み込んで、変動オートエンコーダー(VAE)を採用しています。
提案された方法であるGaussiananythingは、マルチモーダル条件付き3D生成をサポートし、ポイントクラウド、キャプション、および単一の画像入力を可能にします。
特に、新しく提案された潜在的な潜在スペースは、自然に幾何学的テクスチャーの解体を可能にするため、3Dを認識する編集を可能にします。
実験結果は、複数のデータセットに対するアプローチの有効性を示しており、テキストと画像の条件付き3D生成の両方で既存のネイティブ3Dメソッドを上回ります。

要約(オリジナル)

While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent flow-based model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing native 3D methods in both text- and image-conditioned 3D generation.

arxiv情報

著者 Yushi Lan,Shangchen Zhou,Zhaoyang Lyu,Fangzhou Hong,Shuai Yang,Bo Dai,Xingang Pan,Chen Change Loy
発行日 2025-04-10 12:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation はコメントを受け付けていません

Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams

要約

トピックモデリングは、教師のない学習の重要なコンポーネントであり、テキストデータのコーパス内のトピックを特定するために採用されています。
ソーシャルメディアの急速な成長は、増え続けるテキストデータを毎日生成し、オンライントピックモデリング方法を、これらのデータストリームを時間とともに継続的に管理するために不可欠です。
このペーパーでは、StreametMという名前のオンライントピックモデリングへの新しいアプローチを紹介します。
このアプローチは、不均衡な最適輸送を使用して連続した部分ドキュメントバッチで学習されたモデルをマージすることにより、データストリームを処理するための組み込みトピックモデル(ETM)に基づいています。
さらに、オンライン変更点検出アルゴリズムが採用され、時間の経過とともにトピックのシフトを特定し、テキストストリームのダイナミクスの大幅な変化の識別を可能にします。
シミュレートされた現実世界のデータでの数値実験は、StreametMよりも優れた競合他社を示しています。

要約(オリジナル)

Topic modeling is a key component in unsupervised learning, employed to identify topics within a corpus of textual data. The rapid growth of social media generates an ever-growing volume of textual data daily, making online topic modeling methods essential for managing these data streams that continuously arrive over time. This paper introduces a novel approach to online topic modeling named StreamETM. This approach builds on the Embedded Topic Model (ETM) to handle data streams by merging models learned on consecutive partial document batches using unbalanced optimal transport. Additionally, an online change point detection algorithm is employed to identify shifts in topics over time, enabling the identification of significant changes in the dynamics of text streams. Numerical experiments on simulated and real-world data show StreamETM outperforming competitors.

arxiv情報

著者 Federica Granese,Benjamin Navet,Serena Villata,Charles Bouveyron
発行日 2025-04-10 13:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams はコメントを受け付けていません

PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization

要約

大規模な言語モデル(LLMS)は、幅広いアプリケーション、たとえば医学的質問、数学科学、コード生成にわたって顕著なパフォーマンスを実証しています。
しかし、それらはまた、時代遅れの知識や幻覚に対する感受性など、固有の制限を示します。
検索された生成(RAG)は、これらの問題に対処するための有望なパラダイムとして浮上していますが、新しい脆弱性も導入しています。
最近の努力はRAGベースのLLMSのセキュリティに焦点を当てていますが、既存の攻撃方法は3つの重大な課題に直面しています。(1)限られた数の毒テキストのみを知識データベースに注入できる場合、それらの有効性は急激に低下します。
正式な最適化フレームワークと理論的保証は、それらの有効性と適用性を制限します。
これらの問題に対処するために、プロンプト内にバックドアトリガーを埋め込んでいる間に少数の毒テキストを知識データベースに導入する新しい最適化駆動型攻撃である調整されたプロンプトラグ攻撃(PR-attack)を提案します。
アクティブ化されると、トリガーにより、LLMはターゲットクエリに対する事前に設計された応答を生成し、他のコンテキストで通常の動作を維持します。
これにより、高い効果とステルスの両方が保証されます。
攻撃生成プロセスを、最適な毒テキストとトリガーを開発するために原則的な最適化フレームワークを活用するバイレベル最適化問題として策定します。
多様なLLMとデータセットを横切る広範な実験は、PR攻撃の有効性を示しており、既存の方法と比較して、限られた数の中毒テキストとステルスが大幅に改善されたとしても、攻撃の成功率が高くなります。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of applications, e.g., medical question-answering, mathematical sciences, and code generation. However, they also exhibit inherent limitations, such as outdated knowledge and susceptibility to hallucinations. Retrieval-Augmented Generation (RAG) has emerged as a promising paradigm to address these issues, but it also introduces new vulnerabilities. Recent efforts have focused on the security of RAG-based LLMs, yet existing attack methods face three critical challenges: (1) their effectiveness declines sharply when only a limited number of poisoned texts can be injected into the knowledge database, (2) they lack sufficient stealth, as the attacks are often detectable by anomaly detection systems, which compromises their effectiveness, and (3) they rely on heuristic approaches to generate poisoned texts, lacking formal optimization frameworks and theoretic guarantees, which limits their effectiveness and applicability. To address these issues, we propose coordinated Prompt-RAG attack (PR-attack), a novel optimization-driven attack that introduces a small number of poisoned texts into the knowledge database while embedding a backdoor trigger within the prompt. When activated, the trigger causes the LLM to generate pre-designed responses to targeted queries, while maintaining normal behavior in other contexts. This ensures both high effectiveness and stealth. We formulate the attack generation process as a bilevel optimization problem leveraging a principled optimization framework to develop optimal poisoned texts and triggers. Extensive experiments across diverse LLMs and datasets demonstrate the effectiveness of PR-Attack, achieving a high attack success rate even with a limited number of poisoned texts and significantly improved stealth compared to existing methods.

arxiv情報

著者 Yang Jiao,Xiaodong Wang,Kai Yang
発行日 2025-04-10 13:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization はコメントを受け付けていません

Counting Hours, Counting Losses: The Toll of Unpredictable Work Schedules on Financial Security

要約

経済的不安定性は、今日の社会で重要な問題になっています。
研究は通常、財政的側面に焦点を当てていますが、不安定な作業スケジュールの時間関連の側面を見落とす傾向があります。
一貫した労働スケジュールに依存できないことは、燃え尽き症候群、労働家族の紛争、および労働者の収入と資産に直接影響する金融ショックにつながります。
収益の予期せぬ変動は、財務計画に課題を引き起こし、貯蓄と支出に関する決定に影響を与え、最終的には個人の長期的な財政的安定性と幸福を損ないます。
この問題は、労働者がフードサービスや小売部門のセクター、パートタイム労働者、1時間ごとの労働者、低所得の個人など、十分な通知なしにスケジュールを頻繁に変更するセクターで特に顕著です。
これらのグループはすでにより財政的に脆弱であり、スケジュールの予測不可能な性質は彼らの経済的脆弱性を悪化させます。
私たちの目的は、個人の財務管理が将来を予測し計画する能力に依存する程度を調査することにより、収益の予期せぬ変動が財政的脆弱性を悪化させることを理解することです。
この質問に対処するために、財政的不確実性と金銭的破滅を避けるための不可欠な中で個人を最適化する方法をモデル化するシミュレーションフレームワークを開発します。
私たちはオンライン学習手法を採用しており、特に労働者の消費ポリシーを勤務スケジュールに関する進化する情報に基づいて適応させています。
このフレームワークを使用すると、スケジュールの変更を予測する労働者の能力が長期的な有用性をどのように強化するかを理論的および経験的に示します。
逆に、将来のイベントを予測できないと、労働者の不安定性が悪化する可能性があります。
さらに、私たちのフレームワークにより、スケジュールの不確実性の問題を軽減し、その有効性を評価するための介入を探求することができます。

要約(オリジナル)

Financial instability has become a significant issue in today’s society. While research typically focuses on financial aspects, there is a tendency to overlook time-related aspects of unstable work schedules. The inability to rely on consistent work schedules leads to burnout, work-family conflicts, and financial shocks that directly impact workers’ income and assets. Unforeseen fluctuations in earnings pose challenges in financial planning, affecting decisions on savings and spending and ultimately undermining individuals’ long-term financial stability and well-being. This issue is particularly evident in sectors where workers experience frequently changing schedules without sufficient notice, including those in the food service and retail sectors, part-time and hourly workers, and individuals with lower incomes. These groups are already more financially vulnerable, and the unpredictable nature of their schedules exacerbates their financial fragility. Our objective is to understand how unforeseen fluctuations in earnings exacerbate financial fragility by investigating the extent to which individuals’ financial management depends on their ability to anticipate and plan for the future. To address this question, we develop a simulation framework that models how individuals optimize utility amidst financial uncertainty and the imperative to avoid financial ruin. We employ online learning techniques, specifically adapting workers’ consumption policies based on evolving information about their work schedules. With this framework, we show both theoretically and empirically how a worker’s capacity to anticipate schedule changes enhances their long-term utility. Conversely, the inability to predict future events can worsen workers’ instability. Moreover, our framework enables us to explore interventions to mitigate the problem of schedule uncertainty and evaluate their effectiveness.

arxiv情報

著者 Pegah Nokhiz,Aravinda Kanchana Ruwanpathirana,Aditya Bhaskara,Suresh Venkatasubramanian
発行日 2025-04-10 13:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Counting Hours, Counting Losses: The Toll of Unpredictable Work Schedules on Financial Security はコメントを受け付けていません

Dreamweaver: Learning Compositional World Models from Pixels

要約

人間は、世界の認識をオブジェクトと、色、形状、運動パターンなどの属性に分解する生来の能力を持っています。
この認知プロセスにより、おなじみの概念を組み立てることにより、新しい未来を想像することができます。
ただし、人工知能システムでこの能力を複製することは、特に動画を構成概念にモデル化し、テキスト、マスク、境界ボックスなどの補助データに依存することなく、目に見えない再構築を生成する場合に挑戦的であることが証明されています。
この論文では、生ビデオから階層的および構成的表現を発見し、構成の将来のシミュレーションを生成するために設計された神経アーキテクチャであるDreamWeaverを提案します。
私たちのアプローチは、新しい再発ブロックスロットユニット(RBSU)を活用して、構成要素オブジェクトと属性にビデオを分解します。
さらに、DreamWeaverは、マルチフューチャーフレーム予測の目的を使用して、動的概念の解きだれの表現をより効果的にキャプチャし、静的概念をキャプチャします。
実験では、複数のデータセットにわたってDCIフレームワークの下で評価された場合、モデルが世界モデリングの最新のベースラインを上回ることを実証します。
さらに、モデルのモジュール化された概念表現が構成想像力をどのように可能にし、以前に見たオブジェクトから属性を組換えることにより、新しいビデオの生成を可能にする方法を示します。
cun-bjy.github.io/dreamweaver-website

要約(オリジナル)

Humans have an innate ability to decompose their perceptions of the world into objects and their attributes, such as colors, shapes, and movement patterns. This cognitive process enables us to imagine novel futures by recombining familiar concepts. However, replicating this ability in artificial intelligence systems has proven challenging, particularly when it comes to modeling videos into compositional concepts and generating unseen, recomposed futures without relying on auxiliary data, such as text, masks, or bounding boxes. In this paper, we propose Dreamweaver, a neural architecture designed to discover hierarchical and compositional representations from raw videos and generate compositional future simulations. Our approach leverages a novel Recurrent Block-Slot Unit (RBSU) to decompose videos into their constituent objects and attributes. In addition, Dreamweaver uses a multi-future-frame prediction objective to capture disentangled representations for dynamic concepts more effectively as well as static concepts. In experiments, we demonstrate our model outperforms current state-of-the-art baselines for world modeling when evaluated under the DCI framework across multiple datasets. Furthermore, we show how the modularized concept representations of our model enable compositional imagination, allowing the generation of novel videos by recombining attributes from previously seen objects. cun-bjy.github.io/dreamweaver-website

arxiv情報

著者 Junyeob Baek,Yi-Fu Wu,Gautam Singh,Sungjin Ahn
発行日 2025-04-10 13:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Dreamweaver: Learning Compositional World Models from Pixels はコメントを受け付けていません

Benchmarking Multi-Organ Segmentation Tools for Multi-Parametric T1-weighted Abdominal MRI

要約

マルチパラメトリックMRI研究における複数の臓器のセグメンテーションは、イメージングバイオマーカーと疾患の状態(肝硬変、糖尿病など)を相関させるなど、放射線学の多くの用途にとって重要です。
最近、MrSegmentator(MrSeg)、TotalSegmentator MRI(TS)、TotalVibeSegmentator(Vibe)などの3つの公開ツールが、MRIのマルチオルガンセグメンテーションのために提案されています。
ただし、特定のMRIシーケンスタイプでのこれらのツールのパフォーマンスはまだ定量化されていません。
この作業では、公共デュークの肝臓データセットから40巻のサブセットがキュレーションされました。
キュレーションされたデータセットには、それぞれコントラスト脂肪飽和T1、動脈T1W、静脈T1W、および遅延T1W相からそれぞれ10巻が含まれていました。
これらのボリュームでは、10の腹部構造が手動で注釈されました。
次に、3つのパブリックツールのパフォーマンスがこのキュレーションされたデータセットに基づいてベンチマークされました。
結果は、MRSEGが80.7 $ \ PM $ 18.6のDICEスコアと8.9 $ \ PM $ 10.4 mmのHausdorff距離(HD)エラーを取得したことを示しています。
TSやバイブとは対照的に、異なるシーケンスタイプで最高の($ p <.05 $)を実行しました。

要約(オリジナル)

The segmentation of multiple organs in multi-parametric MRI studies is critical for many applications in radiology, such as correlating imaging biomarkers with disease status (e.g., cirrhosis, diabetes). Recently, three publicly available tools, such as MRSegmentator (MRSeg), TotalSegmentator MRI (TS), and TotalVibeSegmentator (VIBE), have been proposed for multi-organ segmentation in MRI. However, the performance of these tools on specific MRI sequence types has not yet been quantified. In this work, a subset of 40 volumes from the public Duke Liver Dataset was curated. The curated dataset contained 10 volumes each from the pre-contrast fat saturated T1, arterial T1w, venous T1w, and delayed T1w phases, respectively. Ten abdominal structures were manually annotated in these volumes. Next, the performance of the three public tools was benchmarked on this curated dataset. The results indicated that MRSeg obtained a Dice score of 80.7 $\pm$ 18.6 and Hausdorff Distance (HD) error of 8.9 $\pm$ 10.4 mm. It fared the best ($p < .05$) across the different sequence types in contrast to TS and VIBE.

arxiv情報

著者 Nicole Tran,Anisa Prasad,Yan Zhuang,Tejas Sudharshan Mathai,Boah Kim,Sydney Lewis,Pritam Mukherjee,Jianfei Liu,Ronald M. Summers
発行日 2025-04-10 13:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Benchmarking Multi-Organ Segmentation Tools for Multi-Parametric T1-weighted Abdominal MRI はコメントを受け付けていません

SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding

要約

ビデオベースの大規模な言語モデル(ビデオ-LLM)は、マルチモーダルLLMの進歩によって推進されており、近年、実質的な進歩を目撃しています。
これらのモデルは、ビデオの全体的な説明を提供する習熟度を実証していますが、特に視覚的なダイナミクスやビデオの詳細に関する問い合わせなどの側面において、細かい理解に苦労しています。
これらの欠点に取り組むために、自己監視されたフラグメントタスクに微調整されたビデオllmsが、細かい粒度のあるビデオ理解能力を大幅に改善することがわかります。
したがって、2つの重要な貢献を提案します。(1)斬新な楽な微調整方法である自己監視フラグメント微調整(sf $^2 $ t)は、ビデオllmのより微調整された理解能力を解き放ちながら、トレーニングのためにビデオの豊富な固有の特性を採用しています。
さらに、研究者は労働集約的な注釈から解放され、自然言語の限界を賢く回避します。
(2)シーンレベルとフラグメントレベルの両方でビデオllmsのパフォーマンスを厳密に評価し、能力の包括的な評価を提供するための、新しいベンチマークデータセット、すなわちfinevidbench。
複数のモデルを評価し、Sf $^2 $ tの有効性を検証しました。
実験結果は、私たちのアプローチが時空間的な詳細をキャプチャして解釈する能力を向上させることを明らかにしています。

要約(オリジナル)

Video-based Large Language Models (Video-LLMs) have witnessed substantial advancements in recent years, propelled by the advancement in multi-modal LLMs. Although these models have demonstrated proficiency in providing the overall description of videos, they struggle with fine-grained understanding, particularly in aspects such as visual dynamics and video details inquiries. To tackle these shortcomings, we find that fine-tuning Video-LLMs on self-supervised fragment tasks, greatly improve their fine-grained video understanding abilities. Hence we propose two key contributions:(1) Self-Supervised Fragment Fine-Tuning (SF$^2$T), a novel effortless fine-tuning method, employs the rich inherent characteristics of videos for training, while unlocking more fine-grained understanding ability of Video-LLMs. Moreover, it relieves researchers from labor-intensive annotations and smartly circumvents the limitations of natural language, which often fails to capture the complex spatiotemporal variations in videos; (2) A novel benchmark dataset, namely FineVidBench, for rigorously assessing Video-LLMs’ performance at both the scene and fragment levels, offering a comprehensive evaluation of their capabilities. We assessed multiple models and validated the effectiveness of SF$^2$T on them. Experimental results reveal that our approach improves their ability to capture and interpret spatiotemporal details.

arxiv情報

著者 Yangliu Hu,Zikai Song,Na Feng,Yawei Luo,Junqing Yu,Yi-Ping Phoebe Chen,Wei Yang
発行日 2025-04-10 13:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV, I.4.8 | SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding はコメントを受け付けていません

Information Gain Is Not All You Need

要約

モバイルロボット工学の自律的な探査は、環境を徹底的に観察するためのカバレッジの2つの競合する目的によって推進されます。
そして、パスの長さ、可能な限り短いパスでそうするために。
未知を知らずに最良の行動を評価することは困難ですが、未知のものはモデル、地図、または常識を通してしばしば理解できます。
しかし、以前の研究では、そのような事前知識を通じて情報の推定値を改善することで貪欲な行動につながり、最終的にバックトラッキングを引き起こすことが示されています。
実際、情報の最大化は、事前の知識がなくても、この動作を示します。
タスクの完了時に得られた情報は一定であり、最大化することはできません。
したがって、最適化の目的として不適切な選択です。
代わりに、情報のゲインは、どの候補者状態が探査のために考慮されるべきかを決定するための決定基準です。
したがって、タスクは、最短合計パスで完了に達するようになります。
通常、最短のパスを決定することは通常手に負えないため、総パスの長さを最小化する候補者を特定するために、ヒューリスティックまたは推定に依存する必要があります。
これに対処するために、ロボットに近いが他の候補国から遠く離れた候補国を好むことにより、バックトラッキングを減らすヒューリスティックを提案します。
情報ゲインベースのアプローチとフロンティア探査に対して、提案されたヒューリスティックのシミュレーションのパフォーマンスを評価し、環境の事前知識の有無にかかわらず、この方法が総パス長を大幅に減少させることを示します。

要約(オリジナル)

Autonomous exploration in mobile robotics is driven by two competing objectives: coverage, to exhaustively observe the environment; and path length, to do so with the shortest path possible. Though it is difficult to evaluate the best course of action without knowing the unknown, the unknown can often be understood through models, maps, or common sense. However, previous work has shown that improving estimates of information gain through such prior knowledge leads to greedy behavior and ultimately causes backtracking, which degrades coverage performance. In fact, any information gain maximization will exhibit this behavior, even without prior knowledge. Information gained at task completion is constant, and cannot be maximized for. It is therefore an unsuitable choice as an optimization objective. Instead, information gain is a decision criterion for determining which candidate states should still be considered for exploration. The task therefore becomes to reach completion with the shortest total path. Since determining the shortest path is typically intractable, it is necessary to rely on a heuristic or estimate to identify candidate states that minimize the total path length. To address this, we propose a heuristic that reduces backtracking by preferring candidate states that are close to the robot, but far away from other candidate states. We evaluate the performance of the proposed heuristic in simulation against an information gain-based approach and frontier exploration, and show that our method significantly decreases total path length, both with and without prior knowledge of the environment.

arxiv情報

著者 Ludvig Ericson,José Pedro,Patric Jensfelt
発行日 2025-04-10 13:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Information Gain Is Not All You Need はコメントを受け付けていません

NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark

要約

このペーパーでは、ノルウェーの生成言語モデル(LMS)の大規模な標準化されたベンチマークのための新しい包括的な評価スイートであるNorevalを紹介します。
Norevalは、24の高品質のヒト作成されたデータセットで構成されており、そのうち5つはゼロから作成されています。
ノルウェーの既存のベンチマークとは対照的に、Norevalはノルウェーの言語の理解と生成を対象とした幅広いタスクカテゴリをカバーし、人間のベースラインを確立し、ノルウェー語の公式の書面基準の両方に焦点を当てています:Bokm {\ aa} lとnynorsk。
すべてのデータセットと100を超える人間が書いたプロンプトのコレクションは、LM評価ハーネスに統合され、柔軟で再現可能な評価を確保します。
Norevalのデザインについて説明し、さまざまなシナリオでノルウェー語の19のオープンソースの事前訓練と指導チューニングLMSのベンチマークの結果を提示します。
当社のベンチマーク、評価フレームワーク、および注釈資料は公開されています。

要約(オリジナル)

This paper introduces NorEval, a new and comprehensive evaluation suite for large-scale standardized benchmarking of Norwegian generative language models (LMs). NorEval consists of 24 high-quality human-created datasets — of which five are created from scratch. In contrast to existing benchmarks for Norwegian, NorEval covers a broad spectrum of task categories targeting Norwegian language understanding and generation, establishes human baselines, and focuses on both of the official written standards of the Norwegian language: Bokm{\aa}l and Nynorsk. All our datasets and a collection of over 100 human-written prompts are integrated into LM Evaluation Harness, ensuring flexible and reproducible evaluation. We describe the NorEval design and present the results of benchmarking 19 open-source pre-trained and instruction-tuned LMs for Norwegian in various scenarios. Our benchmark, evaluation framework, and annotation materials are publicly available.

arxiv情報

著者 Vladislav Mikhailov,Tita Enstad,David Samuel,Hans Christian Farsethås,Andrey Kutuzov,Erik Velldal,Lilja Øvrelid
発行日 2025-04-10 13:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark はコメントを受け付けていません