LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

要約

幻覚は、マルチモーダル大規模言語モデル (MLLM) が、もっともらしいが画像と一致しないテキスト応答を生成する傾向がある現象であり、さまざまな MLLM 関連アプリケーションにおける大きな障害の 1 つとなっています。
オブジェクトの存在についての差別的な質問を提起したり、MLLM から生成されたテキストをスコアリングする LLM エバリュエーターを導入したりすることによって、MLLM の幻覚レベルを測定するためにいくつかのベンチマークが作成されています。
ただし、識別データには現実世界のテキストと一致しない単純な質問が主に含まれているのに対し、生成データには計算量が多く、固有のランダム性により不安定な LLM 評価器が含まれています。
私たちは、6K の長さの複雑な幻覚テキストで構成される LLM フリーの幻覚ベンチマークである LongHalQA を提案します。
LongHalQA は、物体/画像の説明と平均 14/130 ワードと 189 ワードのマルチラウンド会話を含む、現実世界のシナリオとよく一致する GPT4V 生成の幻覚データを特徴としています。
幻覚弁別と幻覚補完という 2 つの新しいタスクが導入され、弁別評価と生成評価の両方が 1 つの多肢選択式質問フォームに統合され、LLM 評価者を必要とせずに、より信頼性が高く効率的な評価が可能になります。
さらに、長く複雑な質問と説明を含む将来の幻覚ベンチマークの構築を大幅に容易にする高度なパイプラインを提案します。
最近の複数の MLLM に対する広範な実験により、長く複雑なテキスト データによる幻覚を処理する際のさまざまな新たな課題が明らかになりました。
データセットと評価コードは https://github.com/hanqiu-hq/LongHalQA で入手できます。

要約(オリジナル)

Hallucination, a phenomenon where multimodal large language models~(MLLMs) tend to generate textual responses that are plausible but unaligned with the image, has become one major hurdle in various MLLM-related applications. Several benchmarks have been created to gauge the hallucination levels of MLLMs, by either raising discriminative questions about the existence of objects or introducing LLM evaluators to score the generated text from MLLMs. However, the discriminative data largely involve simple questions that are not aligned with real-world text, while the generative data involve LLM evaluators that are computationally intensive and unstable due to their inherent randomness. We propose LongHalQA, an LLM-free hallucination benchmark that comprises 6K long and complex hallucination text. LongHalQA is featured by GPT4V-generated hallucinatory data that are well aligned with real-world scenarios, including object/image descriptions and multi-round conversations with 14/130 words and 189 words, respectively, on average. It introduces two new tasks, hallucination discrimination and hallucination completion, unifying both discriminative and generative evaluations in a single multiple-choice-question form and leading to more reliable and efficient evaluations without the need for LLM evaluators. Further, we propose an advanced pipeline that greatly facilitates the construction of future hallucination benchmarks with long and complex questions and descriptions. Extensive experiments over multiple recent MLLMs reveal various new challenges when they are handling hallucinations with long and complex textual data. Dataset and evaluation code are available at https://github.com/hanqiu-hq/LongHalQA.

arxiv情報

著者 Han Qiu,Jiaxing Huang,Peng Gao,Qin Qi,Xiaoqin Zhang,Ling Shao,Shijian Lu
発行日 2024-10-15 16:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models はコメントを受け付けていません

POLO — Point-based, multi-class animal detection

要約

ドローン画像と物体検出技術に基づく自動化された野生動物調査は、保全生物学において強力で人気が高まっているツールです。
ほとんどの検出器は、注釈付きの境界ボックスを使用したトレーニング画像を必要としますが、作成には時間がかかり、コストがかかり、必ずしも明確であるとは限りません。
この実践に伴うアノテーションの負荷を軽減するために、ポイント ラベルのみでトレーニングできるマルチクラスのオブジェクト検出モデルである POLO を開発しました。
POLO は、予測プロセス、トレーニング損失、後処理の変更など、YOLOv8 アーキテクチャに対するシンプルかつ効果的な変更に基づいています。
1 つの画像に最大数千羽の鳥が含まれる水鳥のドローン録画で POLO をテストし、通常の YOLOv8 と比較します。
私たちの実験では、同じアノテーション コストで、POLO が航空画像内の動物の数を数える精度が向上していることがわかりました。

要約(オリジナル)

Automated wildlife surveys based on drone imagery and object detection technology are a powerful and increasingly popular tool in conservation biology. Most detectors require training images with annotated bounding boxes, which are tedious, expensive, and not always unambiguous to create. To reduce the annotation load associated with this practice, we develop POLO, a multi-class object detection model that can be trained entirely on point labels. POLO is based on simple, yet effective modifications to the YOLOv8 architecture, including alterations to the prediction process, training losses, and post-processing. We test POLO on drone recordings of waterfowl containing up to multiple thousands of individual birds in one image and compare it to a regular YOLOv8. Our experiments show that at the same annotation cost, POLO achieves improved accuracy in counting animals in aerial imagery.

arxiv情報

著者 Giacomo May,Emanuele Dalsasso,Benjamin Kellenberger,Devis Tuia
発行日 2024-10-15 16:17:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | POLO — Point-based, multi-class animal detection はコメントを受け付けていません

Latent Action Pretraining from Videos

要約

グランドトゥルースのロボットアクションラベルを使用せずに視覚言語アクション (VLA) モデルを事前トレーニングするための教師なし手法である、一般アクションモデルの潜在アクション事前トレーニング (LAPA) を紹介します。
既存の視覚言語アクション モデルでは、通常、事前トレーニング中に人間の遠隔操作者によって収集されるアクション ラベルが必要ですが、これにより、可能なデータ ソースと規模が大幅に制限されます。
この研究では、ロボットアクションラベルのないインターネット規模のビデオから学習する方法を提案します。
まず、VQ-VAE ベースの目標を活用してアクション量子化モデルをトレーニングして、画像フレーム間の離散的な潜在アクションを学習します。次に、潜在 VLA モデルを事前トレーニングして、観察とタスクの説明からこれらの潜在アクションを予測します。最後に、小規模ロボットの VLA を微調整します。
操作データを潜在的なロボットの動作にマッピングします。
実験結果は、私たちの方法が大規模なビデオからロボット操作ポリシーを訓練する既存の技術を大幅に上回ることを示しています。
さらに、言語条件付け、目に見えないオブジェクトへの一般化、目に見えない命令への意味論的な一般化を必要とする現実世界の操作タスクにおいて、ロボット アクション ラベルでトレーニングされた最先端の VLA モデルよりも優れたパフォーマンスを発揮します。
人間の操作ビデオのみを使用したトレーニングでも、ポジティブな伝達が示されており、ロボット工学基盤モデルに Web スケール データを活用する可能性が開かれています。

要約(オリジナル)

We introduce Latent Action Pretraining for general Action models (LAPA), an unsupervised method for pretraining Vision-Language-Action (VLA) models without ground-truth robot action labels. Existing Vision-Language-Action models require action labels typically collected by human teleoperators during pretraining, which significantly limits possible data sources and scale. In this work, we propose a method to learn from internet-scale videos that do not have robot action labels. We first train an action quantization model leveraging VQ-VAE-based objective to learn discrete latent actions between image frames, then pretrain a latent VLA model to predict these latent actions from observations and task descriptions, and finally finetune the VLA on small-scale robot manipulation data to map from latent to robot actions. Experimental results demonstrate that our method significantly outperforms existing techniques that train robot manipulation policies from large-scale videos. Furthermore, it outperforms the state-of-the-art VLA model trained with robotic action labels on real-world manipulation tasks that require language conditioning, generalization to unseen objects, and semantic generalization to unseen instructions. Training only on human manipulation videos also shows positive transfer, opening up the potential for leveraging web-scale data for robotics foundation model.

arxiv情報

著者 Seonghyeon Ye,Joel Jang,Byeongguk Jeon,Sejune Joo,Jianwei Yang,Baolin Peng,Ajay Mandlekar,Reuben Tan,Yu-Wei Chao,Bill Yuchen Lin,Lars Liden,Kimin Lee,Jianfeng Gao,Luke Zettlemoyer,Dieter Fox,Minjoon Seo
発行日 2024-10-15 16:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO | Latent Action Pretraining from Videos はコメントを受け付けていません

Augmentation-aware Self-supervised Learning with Conditioned Projector

要約

自己教師あり学習 (SSL) は、ラベルのないデータから学習するための強力な手法です。
適用されたデータ拡張に対して不変性を保つことを学習することで、SimCLR や MoCo などの手法は教師ありアプローチと同等の品質を達成できます。
ただし、この不変性は、色など、事前トレーニング中に使用される拡張によって影響を受ける特性に依存する下流のタスクを解決する場合に悪影響を与える可能性があります。
この論文では、自己監視型アーキテクチャの一般的なコンポーネントであるプロジェクター ネットワークを変更することで、表現空間におけるそのような特性に対する感度を高めることを提案します。
具体的には、画像に適用される拡張に関する情報をプロジェクターに追加します。
プロジェクターが SSL タスクを解決する際にこの補助条件付けを利用できるように、特徴抽出器は表現内の拡張情報を保存することを学習します。
私たちのアプローチは、Conditional Augmentation-aware Self-supervised Learning (CASSLE) という造語であり、目的関数に関係なく、典型的な共同埋め込み SSL 手法に直接適用できます。
さらに、ネットワーク アーキテクチャに大きな変更を加えたり、ダウンストリーム タスクに関する事前の知識を必要としません。
さまざまなデータ拡張に対する感度の分析に加えて、一連の実験を実施しました。その結果、CASSLE がさまざまな SSL 手法よりも向上し、複数の下流タスクで最先端のパフォーマンスに達することが示されました。

要約(オリジナル)

Self-supervised learning (SSL) is a powerful technique for learning from unlabeled data. By learning to remain invariant to applied data augmentations, methods such as SimCLR and MoCo can reach quality on par with supervised approaches. However, this invariance may be detrimental for solving downstream tasks that depend on traits affected by augmentations used during pretraining, such as color. In this paper, we propose to foster sensitivity to such characteristics in the representation space by modifying the projector network, a common component of self-supervised architectures. Specifically, we supplement the projector with information about augmentations applied to images. For the projector to take advantage of this auxiliary conditioning when solving the SSL task, the feature extractor learns to preserve the augmentation information in its representations. Our approach, coined Conditional Augmentation-aware Self-supervised Learning (CASSLE), is directly applicable to typical joint-embedding SSL methods regardless of their objective functions. Moreover, it does not require major changes in the network architecture or prior knowledge of downstream tasks. In addition to an analysis of sensitivity towards different data augmentations, we conduct a series of experiments, which show that CASSLE improves over various SSL methods, reaching state-of-the-art performance in multiple downstream tasks.

arxiv情報

著者 Marcin Przewięźlikowski,Mateusz Pyla,Bartosz Zieliński,Bartłomiej Twardowski,Jacek Tabor,Marek Śmieja
発行日 2024-10-15 16:31:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Augmentation-aware Self-supervised Learning with Conditioned Projector はコメントを受け付けていません

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約

計算病理学におけるマルチモーダル大規模言語モデル (MLLM) の進歩にも関わらず、パッチレベルの分析に重点が置かれているため依然として限界があり、スライド全体のレベルで重要なコンテキスト情報が欠落しています。
大規模な命令データセットの欠如とスライド画像全体 (WSI) のギガピクセル規模は、開発上重大な課題を引き起こします。
この論文では、ギガピクセルのスライド全体の画像を理解できる初の視覚言語アシスタントである SlideChat について紹介します。このアシスタントは、多様な病理シナリオにわたって優れたマルチモーダルな会話機能と複雑な指示に対応します。
その開発をサポートするために、4.2K の WSI キャプションと複数のカテゴリを持つ 176K の VQA ペアで構成される WSI 用の最大の命令追従データセットである Slidestruct を作成しました。
さらに、顕微鏡検査や診断などのさまざまな臨床設定で SlideChat の機能を評価するために、キャプションと VQA タスクを組み込んだマルチモーダル ベンチマークである SlideBench を提案します。
一般的な MLLM と特殊な MLLM の両方と比較して、SlideChat は 22 タスク中 18 タスクで最先端のパフォーマンスを達成する優れた機能を示します。
たとえば、SlideBench-VQA (TCGA) では全体の精度 81.17%、SlideBench-VQA (BCNB) では 54.15% を達成しました。
計算病理学の研究開発を促進するために、SlideChat、Slidestruct、SlideBench をオープンソース リソースとして完全にリリースします。

要約(オリジナル)

Despite the progress made by multimodal large language models (MLLMs) in computational pathology, they remain limited by a predominant focus on patch-level analysis, missing essential contextual information at the whole-slide level. The lack of large-scale instruction datasets and the gigapixel scale of whole slide images (WSIs) pose significant developmental challenges. In this paper, we present SlideChat, the first vision-language assistant capable of understanding gigapixel whole-slide images, exhibiting excellent multimodal conversational capability and response complex instruction across diverse pathology scenarios. To support its development, we created SlideInstruction, the largest instruction-following dataset for WSIs consisting of 4.2K WSI captions and 176K VQA pairs with multiple categories. Furthermore, we propose SlideBench, a multimodal benchmark that incorporates captioning and VQA tasks to assess SlideChat’s capabilities in varied clinical settings such as microscopy, diagnosis. Compared to both general and specialized MLLMs, SlideChat exhibits exceptional capabilities achieving state-of-the-art performance on 18 of 22 tasks. For example, it achieved an overall accuracy of 81.17% on SlideBench-VQA (TCGA), and 54.15% on SlideBench-VQA (BCNB). We will fully release SlideChat, SlideInstruction and SlideBench as open-source resources to facilitate research and development in computational pathology.

arxiv情報

著者 Ying Chen,Guoan Wang,Yuanfeng Ji,Yanjun Li,Jin Ye,Tianbin Li,Bin Zhang,Nana Pei,Rongshan Yu,Yu Qiao,Junjun He
発行日 2024-10-15 16:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion

要約

最新の通信システムではディープ ニューラル ネットワーク (DNN) ベースのデジタル プリディストーション (DPD) の採用が増えており、効率的なハードウェア実装が必要です。
この論文では、ゲート リカレント ユニット (GRU) ニューラル ネットワーク (NN) に基づく超高速、極小面積、電力効率の高い DPD アクセラレータである DPD-NeuralEngine について説明します。
共同設計されたソフトウェアとハ​​ードウェアのアプローチを活用することで、当社の 22 nm CMOS 実装は 2 GHz で動作し、最大 250 MSps の I/Q 信号を処理できます。
実験結果は、-45.3 dBc の隣接チャネル電力比 (ACPR) および -39.8 dB のエラー ベクトル振幅 (EVM) で測定された DPD 線形化パフォーマンスで、256.5 GOPS のスループットと 1.32 TOPS/W の電力効率を実証しました。
私たちの知る限り、この成果は初の AI ベースの DPD 特定用途向け集積回路 (ASIC) アクセラレータであり、6.6 TOPS/W/mm$^2$ の電力面積効率 (PAE) を達成しています。

要約(オリジナル)

The increasing adoption of Deep Neural Network (DNN)-based Digital Pre-distortion (DPD) in modern communication systems necessitates efficient hardware implementations. This paper presents DPD-NeuralEngine, an ultra-fast, tiny-area, and power-efficient DPD accelerator based on a Gated Recurrent Unit (GRU) neural network (NN). Leveraging a co-designed software and hardware approach, our 22 nm CMOS implementation operates at 2 GHz, capable of processing I/Q signals up to 250 MSps. Experimental results demonstrate a throughput of 256.5 GOPS and power efficiency of 1.32 TOPS/W with DPD linearization performance measured in Adjacent Channel Power Ratio (ACPR) of -45.3 dBc and Error Vector Magnitude (EVM) of -39.8 dB. To our knowledge, this work represents the first AI-based DPD application-specific integrated circuit (ASIC) accelerator, achieving a power-area efficiency (PAE) of 6.6 TOPS/W/mm$^2$.

arxiv情報

著者 Ang Li,Haolin Wu,Yizhuo Wu,Qinyu Chen,Leo C. N. de Vreede,Chang Gao
発行日 2024-10-15 16:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV | DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion はコメントを受け付けていません

U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation

要約

Medical Image Foundation Model は、さまざまなデータセットにわたるマスク予測のための強力なツールであることが証明されています。
しかし、予測の不確実性を正確に評価することは依然として大きな課題です。
これに対処するために、MedSAM モデルに不確実性を考慮した損失関数と Sharpness-Aware Minimization (SharpMin) オプティマイザーを統合した新しいモデル U-MedSAM を提案します。
不確実性を考慮した損失関数は、領域ベース、分布ベース、ピクセルベースの損失設計を自動的に組み合わせて、セグメンテーションの精度と堅牢性を強化します。
SharpMin は、損失状況の平坦な最小値を見つけて一般化を改善し、それによって過剰適合を減らします。
私たちの手法は CVPR24 MedSAM on Laptop チャレンジで評価され、U-MedSAM は有望なパフォーマンスを実証しました。

要約(オリジナル)

Medical Image Foundation Models have proven to be powerful tools for mask prediction across various datasets. However, accurately assessing the uncertainty of their predictions remains a significant challenge. To address this, we propose a new model, U-MedSAM, which integrates the MedSAM model with an uncertainty-aware loss function and the Sharpness-Aware Minimization (SharpMin) optimizer. The uncertainty-aware loss function automatically combines region-based, distribution-based, and pixel-based loss designs to enhance segmentation accuracy and robustness. SharpMin improves generalization by finding flat minima in the loss landscape, thereby reducing overfitting. Our method was evaluated in the CVPR24 MedSAM on Laptop challenge, where U-MedSAM demonstrated promising performance.

arxiv情報

著者 Xin Wang,Xiaoyu Liu,Peng Huang,Pu Huang,Shu Hu,Hongtu Zhu
発行日 2024-10-15 16:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation はコメントを受け付けていません

Fractal Calibration for long-tailed object detection

要約

現実世界のデータセットは不均衡な分布に従っており、これが希少カテゴリのオブジェクトの検出に重大な課題をもたらします。
最近の研究では、データセットのクラス頻度を利用する再重み付けおよび再サンプリング方法を開発することで、この問題に取り組んでいます。
ただし、これらの手法は頻度統計のみに焦点を当てており、画像空間内のクラスの分布を無視しているため、重要な情報が欠落しています。
それらとは対照的に、我々は、尾長物体検出のための新しいポストキャリブレーション方法である FRActal CALibration (FRACAL) を提案します。
FRACAL は、フラクタル次元を利用して画像空間内でクラスがどの程度均一に分布しているかを推定するロジット調整方法を考案します。
推論中に、フラクタル次元を使用して、頻度の高いカテゴリーと稀なカテゴリーの間、および等間隔のクラスとまばらな間隔のクラスの間の 2 つの軸でバランスがとれた等間隔のクラス予測の確率を逆にダウンウェイトします。
FRACAL は後処理手法であり、トレーニングを必要としません。また、1 段階のシグモイド検出器や 2 段階のインスタンス セグメンテーション モデルなど、多くの既製のモデルと組み合わせることができます。
FRACAL は、レア クラスのパフォーマンスを最大 8.6% 向上させ、LVIS データセットに対する以前のすべてのメソッドを上回り、同時に COCO、V3Det、OpenImages などの他のデータセットに対して優れた一般化を示します。
コードが公開されます。

要約(オリジナル)

Real-world datasets follow an imbalanced distribution, which poses significant challenges in rare-category object detection. Recent studies tackle this problem by developing re-weighting and re-sampling methods, that utilise the class frequencies of the dataset. However, these techniques focus solely on the frequency statistics and ignore the distribution of the classes in image space, missing important information. In contrast to them, we propose FRActal CALibration (FRACAL): a novel post-calibration method for long-tailed object detection. FRACAL devises a logit adjustment method that utilises the fractal dimension to estimate how uniformly classes are distributed in image space. During inference, it uses the fractal dimension to inversely downweight the probabilities of uniformly spaced class predictions achieving balance in two axes: between frequent and rare categories, and between uniformly spaced and sparsely spaced classes. FRACAL is a post-processing method and it does not require any training, also it can be combined with many off-the-shelf models such as one-stage sigmoid detectors and two-stage instance segmentation models. FRACAL boosts the rare class performance by up to 8.6% and surpasses all previous methods on LVIS dataset, while showing good generalisation to other datasets such as COCO, V3Det and OpenImages. The code will be released.

arxiv情報

著者 Konstantinos Panagiotis Alexandridis,Ismail Elezi,Jiankang Deng,Anh Nguyen,Shan Luo
発行日 2024-10-15 16:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fractal Calibration for long-tailed object detection はコメントを受け付けていません

MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation

要約

マルチモーダル大規模言語モデル (MLLM) は頻繁に幻覚現象を示しますが、根本的な理由はまだよくわかっていません。
この論文では、MLLM が最終出力でオブジェクトを誤って生成しても、実際には前の層の視覚オブジェクトを認識できることを実証分析により示します。
これは、言語モデルの強力な事前知識が視覚情報を抑制し、幻覚を引き起こすためであると推測しています。
これを動機として、我々は、適切な先行層を適応的に選択し、出力ロジットを調整するために知識を最終層に比例的に統合する、MLLM (DeCo) のための新しい動的補正復号法を提案します。
DeCo はモデルに依存せず、さまざまな古典的なデコード戦略にシームレスに組み込んで、さまざまな MLLM に適用できることに注意してください。
私たちは広く使用されているベンチマークで DeCo を評価し、ベースラインと比較して幻覚率を大幅に低下させることができることを実証し、幻覚を軽減する可能性を強調しています。
コードは https://github.com/zjunlp/DeCo で入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) frequently exhibit hallucination phenomena, but the underlying reasons remain poorly understood. In this paper, we present an empirical analysis and find that, although MLLMs incorrectly generate the objects in the final output, they are actually able to recognize visual objects in the preceding layers. We speculate that this may be due to the strong knowledge priors of the language model suppressing the visual information, leading to hallucinations. Motivated by this, we propose a novel dynamic correction decoding method for MLLMs (DeCo), which adaptively selects the appropriate preceding layers and proportionally integrates knowledge into the final layer to adjust the output logits. Note that DeCo is model agnostic and can be seamlessly incorporated with various classic decoding strategies and applied to different MLLMs. We evaluate DeCo on widely-used benchmarks, demonstrating that it can reduce hallucination rates by a large margin compared to baselines, highlighting its potential to mitigate hallucinations. Code is available at https://github.com/zjunlp/DeCo.

arxiv情報

著者 Chenxi Wang,Xiang Chen,Ningyu Zhang,Bozhong Tian,Haoming Xu,Shumin Deng,Huajun Chen
発行日 2024-10-15 16:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation はコメントを受け付けていません

Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty

要約

この論文では、定量化可能な不確実性を備えたオープン語彙マッピングを可能にする、新しい確率的マッピング アルゴリズムである Latent BKI を紹介します。
従来、セマンティック マッピング アルゴリズムは、セマンティック カテゴリの固定セットに焦点を当てており、複雑なロボット タスクへの適用性が制限されていました。
視覚言語 (VL) モデルは、潜在空間内の言語と視覚の特徴を共同でモデル化する手法として最近登場し、事前定義された固定セットの意味クラスを超えた意味認識を可能にします。
Latent BKI は、ベイジアン カーネル推論 (BKI) による近くの観測値の空間相関を利用して、定量化可能な不確実性を備えたボクセル マップに VL モデルからのニューラル エンベディングを繰り返し組み込みます。
Latent BKI は、一般的な MatterPort-3D およびセマンティック KITTI データ セット上の同様の明示的セマンティック マッピングおよび VL マッピング フレームワークに対して評価され、Latent BKI が連続マッピングの確率的利点とオープン辞書クエリの追加利点を維持していることが実証されています。
実際の実験では、困難な屋内環境への適用性を実証しています。

要約(オリジナル)

This paper introduces a novel probabilistic mapping algorithm, Latent BKI, which enables open-vocabulary mapping with quantifiable uncertainty. Traditionally, semantic mapping algorithms focus on a fixed set of semantic categories which limits their applicability for complex robotic tasks. Vision-Language (VL) models have recently emerged as a technique to jointly model language and visual features in a latent space, enabling semantic recognition beyond a predefined, fixed set of semantic classes. Latent BKI recurrently incorporates neural embeddings from VL models into a voxel map with quantifiable uncertainty, leveraging the spatial correlations of nearby observations through Bayesian Kernel Inference (BKI). Latent BKI is evaluated against similar explicit semantic mapping and VL mapping frameworks on the popular MatterPort-3D and Semantic KITTI data sets, demonstrating that Latent BKI maintains the probabilistic benefits of continuous mapping with the additional benefit of open-dictionary queries. Real-world experiments demonstrate applicability to challenging indoor environments.

arxiv情報

著者 Joey Wilson,Ruihan Xu,Yile Sun,Parker Ewen,Minghan Zhu,Kira Barton,Maani Ghaffari
発行日 2024-10-15 17:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Latent BKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty はコメントを受け付けていません