TinyEmo: Scaling down Emotional Reasoning via Metric Projection

要約

この論文では、感情的な推論と分類のための小規模なマルチモーダル言語モデルのファミリーである TinyEmo を紹介します。
私たちのアプローチの特徴: (1) 事前トレーニング段階と微調整段階の両方のための合成感情指示データセット、(2) より効率的なトレーニングと推論を可能にする言語モデルからの分類を委任するメトリック プロジェクター、(3) マルチ
感情的推論のためのモーダル大規模言語モデル (MM-LLM)、および (4) バイアス検出のための半自動フレームワーク。
TinyEmo は、同等のモデルよりも大幅に少ないパラメータを使用しながら、感情分類と感情推論を実行できます。
この効率性により、より多様な感情データセットを自由に組み込むことが可能になり、最小モデル (7 億パラメータ) が 70 億を超えるパラメータを持つ汎用 MM-LLM に基づく大規模な最先端モデルを上回る、分類タスクで優れたパフォーマンスを実現します。
さらに、メトリック プロジェクターを使用すると、追加のトレーニングなしで大規模モデルの解釈可能性と間接的なバイアス検出が可能になり、AI システムを理解して改善するためのアプローチが提供されます。
https://github.com/ggcr/TinyEmo でコード、モデル、データセットをリリースします。

要約(オリジナル)

This paper introduces TinyEmo, a family of small multi-modal language models for emotional reasoning and classification. Our approach features: (1) a synthetic emotional instruct dataset for both pre-training and fine-tuning stages, (2) a Metric Projector that delegates classification from the language model allowing for more efficient training and inference, (3) a multi-modal large language model (MM-LLM) for emotional reasoning, and (4) a semi-automated framework for bias detection. TinyEmo is able to perform emotion classification and emotional reasoning, all while using substantially fewer parameters than comparable models. This efficiency allows us to freely incorporate more diverse emotional datasets, enabling strong performance on classification tasks, with our smallest model (700M parameters) outperforming larger state-of-the-art models based on general-purpose MM-LLMs with over 7B parameters. Additionally, the Metric Projector allows for interpretability and indirect bias detection in large models without additional training, offering an approach to understand and improve AI systems. We release code, models, and dataset at https://github.com/ggcr/TinyEmo

arxiv情報

著者 Cristian Gutierrez
発行日 2024-10-09 17:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Pixtral 12B

要約

120 億パラメータのマルチモーダル言語モデルである Pixtral-12B を紹介します。
Pixtral-12B は、自然画像とドキュメントの両方を理解できるようにトレーニングされており、さまざまなマルチモーダル ベンチマークで優れたパフォーマンスを達成し、多くの大型モデルを上回っています。
多くのオープンソース モデルとは異なり、Pixtral はそのサイズに比べて最先端のテキスト モデルでもあり、マルチモーダル タスクで優れた性能を発揮するために自然言語のパフォーマンスに妥協しません。
Pixtral は、ゼロからトレーニングされた新しいビジョン エンコーダーを使用しており、自然な解像度とアスペクト比で画像を取り込むことができます。
これにより、ユーザーは画像の処理に使用するトークンの数を柔軟に設定できるようになります。
Pixtral は、128K トークンの長いコンテキスト ウィンドウ内で任意の数の画像を処理することもできます。
Pixtral 12B は、同様のサイズの他のオープン モデル (Llama-3.2 11B & Qwen-2-VL 7B) よりも大幅に優れています。
また、7 分の 1 の小型ながら、Llama-3.2 90B のようなはるかに大型のオープン モデルよりも優れたパフォーマンスを発揮します。
さらに、実用的なシナリオでビジョン言語モデルを評価するためのオープンソース ベンチマーク MM-MT-Bench に貢献し、マルチモーダル LLM の標準化された評価プロトコルの詳細な分析とコードを提供します。
Pixtral-12B は、Apache 2.0 ライセンスに基づいてリリースされています。

要約(オリジナル)

We introduce Pixtral-12B, a 12–billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

arxiv情報

著者 Pravesh Agrawal,Szymon Antoniak,Emma Bou Hanna,Devendra Chaplot,Jessica Chudnovsky,Saurabh Garg,Theophile Gervet,Soham Ghosh,Amélie Héliou,Paul Jacob,Albert Q. Jiang,Timothée Lacroix,Guillaume Lample,Diego Las Casas,Thibaut Lavril,Teven Le Scao,Andy Lo,William Marshall,Louis Martin,Arthur Mensch,Pavankumar Muddireddy,Valera Nemychnikova,Marie Pellat,Patrick Von Platen,Nikhil Raghuraman,Baptiste Rozière,Alexandre Sablayrolles,Lucile Saulnier,Romain Sauvestre,Wendy Shang,Roman Soletskyi,Lawrence Stewart,Pierre Stock,Joachim Studnia,Sandeep Subramanian,Sagar Vaze,Thomas Wang
発行日 2024-10-09 17:16:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

JPEG Inspired Deep Learning

要約

従来、JPEG 圧縮などの非可逆画像圧縮はディープ ニューラル ネットワーク (DNN) のパフォーマンスに悪影響を与えると考えられてきましたが、最近の研究では、巧妙に作成された JPEG 圧縮によって実際にディープ ラーニングのパフォーマンスが向上することが示されています。
(DL)。
これに触発されて、私たちは、基礎となる DNN アーキテクチャの前にトレーニング可能な JPEG 圧縮層を付加する新しい DL フレームワークである JPEG-DL を提案します。
JPEG 圧縮の量子化操作をトレーニング可能にするために、新しい微分可能なソフト量子化器が JPEG 層で採用され、量子化操作と基礎となる DNN が共同でトレーニングされます。
広範な実験により、標準 DL と比較して、JPEG-DL はさまざまなデータセットおよびモデル アーキテクチャにわたって精度が大幅に向上し、同時に敵対的攻撃に対する堅牢性が向上することが示されています。
特に、一部のきめの細かい画像分類データセットでは、JPEG-DL は予測精度を 20.9% も向上させることができます。
私たちのコードは https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git で入手できます。

要約(オリジナル)

Although it is traditionally believed that lossy image compression, such as JPEG compression, has a negative impact on the performance of deep neural networks (DNNs), it is shown by recent works that well-crafted JPEG compression can actually improve the performance of deep learning (DL). Inspired by this, we propose JPEG-DL, a novel DL framework that prepends any underlying DNN architecture with a trainable JPEG compression layer. To make the quantization operation in JPEG compression trainable, a new differentiable soft quantizer is employed at the JPEG layer, and then the quantization operation and underlying DNN are jointly trained. Extensive experiments show that in comparison with the standard DL, JPEG-DL delivers significant accuracy improvements across various datasets and model architectures while enhancing robustness against adversarial attacks. Particularly, on some fine-grained image classification datasets, JPEG-DL can increase prediction accuracy by as much as 20.9%. Our code is available on https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git.

arxiv情報

著者 Ahmed H. Salamah,Kaixiang Zheng,Yiwen Liu,En-Hui Yang
発行日 2024-10-09 17:23:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments

要約

この研究では、商業果樹園における緑色の果物の検出のために、YOLOv8、YOLOv9、YOLOv10、YOLO11 のすべての構成 (合計 22) で You Only Look Once (YOLO) オブジェクト検出アルゴリズムを広範囲に評価しました。
この研究では、Scifresh、Scilate、Honeycrisp、Cosmic Crisp の 4 つのリンゴ品種について、iPhone とマシン ビジョン センサーを使用した圃場での子実数の計数も検証されました。
評価された 22 の構成の中で、YOLO11s と YOLOv9 ジェランベースは、それぞれ 0.933 と 0.935 の mAP@50 スコアで他の構成を上回りました。
リコールに関しては、YOLOv9 ジェランベースが 0.899 で YOLOv9 構成の中で最も高い値を達成し、YOLO11m は 0.897 で YOLO11 バリアントを上回りました。
YOLO11n は最速のモデルとして登場し、わずか 2.4 ミリ秒の最速推論速度を達成し、主要な構成である YOLOv10n、YOLOv9 gelan-s、YOLOv8n の速度 (それぞれ 5.5、11.5、および 4.1 ミリ秒) を大幅に上回りました。
この比較評価は、YOLO11、YOLOv9、および YOLOv10 の強みを強調し、商業果樹園における子実の検出と可能な自動化に最適なモデルを選択するための重要な洞察を研究者に提供します。
関連するデータセットでのリアルタイム自動化関連の作業には、検出速度と画像処理速度が高い YOLO11n を使用することをお勧めします。
キーワード: YOLO11、YOLO11 オブジェクト検出、YOLOv10、YOLOv9、YOLOv8、You Only Look Once、小果実検出、緑の果物検出、青リンゴ検出、農業オートメーション、人工知能、深層学習、機械学習、ゼロショット検出

要約(オリジナル)

This study extensively evaluated You Only Look Once (YOLO) object detection algorithms across all configurations (total 22) of YOLOv8, YOLOv9, YOLOv10, and YOLO11 for green fruit detection in commercial orchards. The research also validated in-field fruitlet counting using an iPhone and machine vision sensors across four apple varieties: Scifresh, Scilate, Honeycrisp and Cosmic Crisp. Among the 22 configurations evaluated, YOLO11s and YOLOv9 gelan-base outperformed others with mAP@50 scores of 0.933 and 0.935 respectively. In terms of recall, YOLOv9 gelan-base achieved the highest value among YOLOv9 configurations at 0.899, while YOLO11m led YOLO11 variants with 0.897. YOLO11n emerged as the fastest model, achieving fastest inference speed of only 2.4 ms, significantly outpacing the leading configurations of YOLOv10n, YOLOv9 gelan-s, and YOLOv8n, with speeds of 5.5, 11.5, and 4.1 ms, respectively. This comparative evaluation highlights the strengths of YOLO11, YOLOv9, and YOLOv10, offering researchers essential insights to choose the best-suited model for fruitlet detection and possible automation in commercial orchards. For real-time automation related work in relevant datasets, we recommend using YOLO11n due to its high detection and image processing speed. Keywords: YOLO11, YOLO11 Object Detection, YOLOv10, YOLOv9, YOLOv8, You Only Look Once, Fruitlet Detection, Greenfruit Detection, Green Apple Detection, Agricultural Automation, Artificial Intelligence, Deep Learning, Machine Learning, Zero-shot Detection

arxiv情報

著者 Ranjan Sapkota,Zhichao Meng,Martin Churuvija,Xiaoqiang Du,Zenghong Ma,Manoj Karkee
発行日 2024-10-09 17:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

要約

視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基づいて目的の場所に移動できるエージェントの開発は、幅広い関心を集めています。
ほとんどの研究は地上のエージェントに焦点を当てていますが、UAV ベースの VLN はまだ比較的研究されていません。
UAV ビジョン言語ナビゲーションにおける最近の取り組みでは、主に地上ベースの VLN 設定が採用されており、事前に定義された個別のアクション スペースに依存し、エージェントの移動ダイナミクスに固有の差異や、地上環境と航空環境の間のナビゲーション タスクの複雑さは無視されています。
これらの格差と課題に対処するために、私たちはプラットフォーム、ベンチマーク、方法論の 3 つの観点からソリューションを提案します。
VLN タスクで現実的な UAV 軌道シミュレーションを可能にするために、多様な環境、現実的な飛行制御、広範なアルゴリズム サポートを特徴とする OpenUAV プラットフォームを提案します。
さらに、このプラットフォーム上で約 12,000 の軌道から構成されるターゲット指向の VLN データセットを構築し、現実的な UAV VLN タスク用に特別に設計された最初のデータセットとして機能します。
複雑な航空環境によってもたらされる課題に取り組むために、私たちは、UAV-Need-Help と呼ばれるアシスタントガイド付きの UAV オブジェクト検索ベンチマークを提案します。これは、UAV が現実的な VLN タスクをより適切に達成できるように、さまざまなレベルのガイダンス情報を提供します。
また、マルチビュー画像、タスクの説明、およびアシスタントの指示が与えられると、MLLM のマルチモーダル理解機能を活用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を実行する UAV ナビゲーション LLM も提案します。
私たちの方法の評価結果はベースラインモデルを大幅に上回っていますが、私たちの結果と人間のオペレーターによって達成された結果との間には依然としてかなりのギャップがあり、UAV-Need-Helpタスクによってもたらされる課題を浮き彫りにしています。

要約(オリジナル)

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Ziqin Wang,Hohin Kwan,Jinyu Chen,Wenjun Wu,Hongsheng Li,Yue Liao,Si Liu
発行日 2024-10-09 17:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning

要約

言語は人間の動作の領域において重要な役割を果たします。
既存の方法は、モーション生成のために CLIP テキスト埋め込みに大きく依存していましたが、静止画像とテキストのペアに対する CLIP の事前トレーニングのため、言語とモーションを効果的に調整するには不十分でした。
この研究では、言語視覚からより適切な言語運動潜在空間に移行する、新しい言語運動事前訓練モデルである LaMP を紹介します。
モーション情報を提供するテキスト埋め込みを生成することで主要な制限に対処し、生成されたモーション シーケンスの関連性とセマンティクスを大幅に強化します。
LaMP を使用して、言語と動作の表現を調整して学習することで、テキストからモーションの生成、モーション テキストの取得、およびモーション キャプションの 3 つの主要なタスクを推進します。
生成には、CLIP の代わりに LaMP を利用してテキスト条件を提供し、自己回帰マスク予測は、トランスフォーマーでのランク崩壊なしでマスク モデリングを実現するように設計されています。
取得の場合、LaMP のモーション トランスフォーマーからのモーション フィーチャはクエリ トークンと対話してテキスト トランスフォーマーからテキスト フィーチャを取得し、その逆も同様です。
キャプションについては、言語情報を提供するモーション機能を備えた大規模な言語モデルを微調整して、強力なモーション キャプション モデルを開発します。
さらに、生成されたモーションとテキストの説明の整合性を評価するために、LaMP-BertScore メトリクスを導入します。
複数のデータセットに関する広範な実験結果は、3 つのタスクすべてにおいて以前の方法に比べて大幅な改善を示しています。
私たちのメソッドのコードは公開されます。

要約(オリジナル)

Language plays a vital role in the realm of human motion. Existing methods have largely depended on CLIP text embeddings for motion generation, yet they fall short in effectively aligning language and motion due to CLIP’s pretraining on static image-text pairs. This work introduces LaMP, a novel Language-Motion Pretraining model, which transitions from a language-vision to a more suitable language-motion latent space. It addresses key limitations by generating motion-informative text embeddings, significantly enhancing the relevance and semantics of generated motion sequences. With LaMP, we advance three key tasks: text-to-motion generation, motion-text retrieval, and motion captioning through aligned language-motion representation learning. For generation, we utilize LaMP to provide the text condition instead of CLIP, and an autoregressive masked prediction is designed to achieve mask modeling without rank collapse in transformers. For retrieval, motion features from LaMP’s motion transformer interact with query tokens to retrieve text features from the text transformer, and vice versa. For captioning, we finetune a large language model with the language-informative motion features to develop a strong motion captioning model. In addition, we introduce the LaMP-BertScore metric to assess the alignment of generated motions with textual descriptions. Extensive experimental results on multiple datasets demonstrate substantial improvements over previous methods across all three tasks. The code of our method will be made public.

arxiv情報

著者 Zhe Li,Weihao Yuan,Yisheng He,Lingteng Qiu,Shenhao Zhu,Xiaodong Gu,Weichao Shen,Yuan Dong,Zilong Dong,Laurence T. Yang
発行日 2024-10-09 17:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Topologically Faithful Multi-class Segmentation in Medical Images

要約

医用画像セグメンテーションにおけるトポロジカルな精度は、ネットワーク解析や血管内のフロー モデリング、細胞計数などの下流アプリケーションにとって非常に重要な特性です。
最近、方法論の大幅な進歩により、代数トポロジーからバイナリ セグメンテーションまで、十分に根拠のある概念がもたらされました。
ただし、これらのアプローチは、トポロジ エラーがよく発生するマルチクラス セグメンテーション シナリオでは十分に検討されていません。
我々は、永続性バーコードの誘導マッチングに基づく最近の Betti マッチング概念を拡張した、位相的に忠実なマルチクラス セグメンテーションのための一般的な損失関数を提案します。
N クラス セグメンテーション問題を N 個の単一クラス セグメンテーション タスクに投影すると、1 パラメーターの永続的相同性を使用できるようになり、ニューラル ネットワークのトレーニングが計算的に実行可能になります。
私たちは、非常に多様なトポロジ特性を持つ 4 つの医療データセットからなる包括的なセットで方法を検証します。
当社の損失定式化は、心臓、細胞、動脈静脈、ウィリス輪のセグメンテーションにおけるトポロジカルな正確性を大幅に強化します。

要約(オリジナル)

Topological accuracy in medical image segmentation is a highly important property for downstream applications such as network analysis and flow modeling in vessels or cell counting. Recently, significant methodological advancements have brought well-founded concepts from algebraic topology to binary segmentation. However, these approaches have been underexplored in multi-class segmentation scenarios, where topological errors are common. We propose a general loss function for topologically faithful multi-class segmentation extending the recent Betti matching concept, which is based on induced matchings of persistence barcodes. We project the N-class segmentation problem to N single-class segmentation tasks, which allows us to use 1-parameter persistent homology, making training of neural networks computationally feasible. We validate our method on a comprehensive set of four medical datasets with highly variant topological characteristics. Our loss formulation significantly enhances topological correctness in cardiac, cell, artery-vein, and Circle of Willis segmentation.

arxiv情報

著者 Alexander H. Berger,Nico Stucki,Laurin Lux,Vincent Buergin,Suprosanna Shit,Anna Banaszak,Daniel Rueckert,Ulrich Bauer,Johannes C. Paetzold
発行日 2024-10-09 17:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Continual Learning: Less Forgetting, More OOD Generalization via Adaptive Contrastive Replay

要約

機械学習モデルは、新しいクラスを学習するときに、以前に学習した知識を壊滅的に忘れてしまうという問題に悩まされることがよくあります。
この問題を軽減するために、さまざまな方法が提案されています。
ただし、以前のクラスのサンプルを保持するリハーサルベースの学習は、通常、優れたパフォーマンスを達成しますが、特定のインスタンスを記憶する傾向があり、配布外 (OOD) 一般化に苦労します。
これは、多くの場合、高い忘却率と貧弱な一般化につながります。
驚くべきことに、これらのメソッドの OOD 一般化機能はほとんど調査されていません。
このホワイトペーパーでは、この問題に焦点を当て、それに対処するための対照学習とデータ中心の原則にヒントを得た、シンプルかつ効果的な戦略を提案します。
Adaptive Contrastive Replay (ACR) を導入します。これは、二重最適化を採用してエンコーダーと分類器の両方を同時にトレーニングする方法です。
ACR は、クラスとタスクのバランスの取れた表現を保証しながら、誤って分類されたサンプルをリプレイ バッファーに適応的に設定します。
このように決定境界を改良することにより、ACR は安定性と可塑性のバランスを実現します。
私たちの方法は、OOD 一般化の点で以前のアプローチを大幅に上回り、Split CIFAR-100 で 13.41\%、Split Mini-ImageNet で 9.91\%、Split Tiny-ImageNet で 5.98\% の改善を達成しました。

要約(オリジナル)

Machine learning models often suffer from catastrophic forgetting of previously learned knowledge when learning new classes. Various methods have been proposed to mitigate this issue. However, rehearsal-based learning, which retains samples from previous classes, typically achieves good performance but tends to memorize specific instances, struggling with Out-of-Distribution (OOD) generalization. This often leads to high forgetting rates and poor generalization. Surprisingly, the OOD generalization capabilities of these methods have been largely unexplored. In this paper, we highlight this issue and propose a simple yet effective strategy inspired by contrastive learning and data-centric principles to address it. We introduce Adaptive Contrastive Replay (ACR), a method that employs dual optimization to simultaneously train both the encoder and the classifier. ACR adaptively populates the replay buffer with misclassified samples while ensuring a balanced representation of classes and tasks. By refining the decision boundary in this way, ACR achieves a balance between stability and plasticity. Our method significantly outperforms previous approaches in terms of OOD generalization, achieving an improvement of 13.41\% on Split CIFAR-100, 9.91\% on Split Mini-ImageNet, and 5.98\% on Split Tiny-ImageNet.

arxiv情報

著者 Hossein Rezaei,Mohammad Sabokrou
発行日 2024-10-09 17:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

VHELM: A Holistic Evaluation of Vision Language Models

要約

視覚言語モデル (VLM) を評価するための現在のベンチマークは、多くの場合、その認識能力や問題解決能力に重点を置き、公平性、多言語性、有害性などの他の重要な側面を無視しています。
さらに、評価手順や評価範囲が異なるため、モデルの比較が困難になります。
これらの問題に対処するために、HELM フレームワークを VLM に拡張して、ビジョン言語モデルの全体的評価 (VHELM) を提示します。
VHELM は、視覚認識、知識、推論、偏見、公平性、多言語性、堅牢性、毒性、安全性の 9 つの側面のうち 1 つ以上をカバーするためにさまざまなデータセットを集約します。
そうすることで、これらの重要な要素全体にわたる VLM の機能について、包括的かつ多次元のビューを作成します。
さらに、モデル間の公平な比較を可能にするために、標準的な推論パラメータ、プロンプトの方法、および評価指標を標準化します。
私たちのフレームワークは軽量かつ自動になるように設計されているため、評価の実行が安価かつ迅速になります。
最初の実行では、21 の既存のデータセットで 22 の VLM を評価し、モデルの全体的なスナップショットを提供します。
効率重視のモデル (Claude 3 Haiku や Gemini 1.5 Flash など) は、バイアス ベンチマークではフル モデル (Claude 3 Opus や Gemini 1.5 Pro) よりも大幅にパフォーマンスが低いものの、そうではないという事実など、新たな重要な発見を発見しました。
他の側面から評価すると。
透明性を確保するために、生のモデル生成と完全な結果を Web サイト (https://crfm.stanford.edu/helm/vhelm/v2.0.1) で公開します。
VHELM は生きたベンチマークとなることを目的としており、今後も新しいデータセットとモデルを追加し続けたいと考えています。

要約(オリジナル)

Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

arxiv情報

著者 Tony Lee,Haoqin Tu,Chi Heem Wong,Wenhao Zheng,Yiyang Zhou,Yifan Mai,Josselin Somerville Roberts,Michihiro Yasunaga,Huaxiu Yao,Cihang Xie,Percy Liang
発行日 2024-10-09 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Personalized Visual Instruction Tuning

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩は、顕著な進歩を示しています。
ただし、これらのモデルには、「顔の盲目」と呼ばれる顕著な制限があります。
具体的には、一般的な会話には参加できますが、特定の個人を対象としたパーソナライズされた会話を行うことができません。
この欠陥により、モバイル デバイス上のカスタマイズされた視覚アシスタントや、家族のメンバーを認識する必要がある家庭用ロボットなど、個人化された環境での MLLM の適用が妨げられます。
このペーパーでは、MLLM が画像内のターゲット個人を識別し、パーソナライズされた一貫した対話を行えるように設計された新しいデータ キュレーションおよびトレーニング フレームワークである Personalized Visual structs Tuning (PVIT) について紹介します。
私たちのアプローチには、パーソナライズされた会話を含むトレーニング データを自律的に生成する洗練されたパイプラインの開発が含まれます。
このパイプラインは、さまざまなビジュアル エキスパート、画像生成モデル、および (マルチモーダル) 大規模言語モデルの機能を活用します。
MLLM のパーソナライズされた可能性を評価するために、さまざまな難易度のさまざまな質問タイプを網羅する P-Bench と呼ばれるベンチマークを提示します。
この実験では、厳選されたデータセットを使用して微調整した後、パーソナライズされたパフォーマンスが大幅に向上することが実証されています。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as ‘face blindness’. Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

arxiv情報

著者 Renjie Pi,Jianshu Zhang,Tianyang Han,Jipeng Zhang,Rui Pan,Tong Zhang
発行日 2024-10-09 17:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする