Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models

要約

最近、マルチモーダル大規模言語モデル (MLLM) は、その卓越したクロスモーダル インタラクションと理解能力により、数多くのゼロショット タスクで目覚ましいパフォーマンスを達成しています。
しかし、MLLM は人間が感知できない敵対的な例に対して依然として脆弱であることがわかっています。
現実世界のシナリオにおけるセキュリティ脆弱性の調査では、モデル間で影響を与える可能性がある転送可能性が、敵対的な例によってもたらされる最大の脅威と考えられます。
しかし、現時点では、MLLM 間の敵対的移転可能性の脅威に関する体系的な研究はありません。
したがって、このペーパーは、さまざまな MLLM によって生成された敵対的な例の移転可能性の包括的な評価を提供する最初のステップとして提供されます。
さらに、転送可能性のパフォーマンスに影響を与える 2 つの重要な要素を活用します。1) 敵対的生成プロセスに関与する情報の多様性の強さ。
2) 視覚と言語のモダリティ情報を横断して編集する。
MLLM 間の敵対的転送可能性のパフォーマンスをさらに調査するために、Typography Augment Transferability Method (TATM) と呼ばれる強化方法を提案します。
広範な実験検証を通じて、当社の TATM は、「有害な単語の挿入」と「重要な情報の保護」の実世界のアプリケーションで優れたパフォーマンスを実証しています。

要約(オリジナル)

Recently, Multimodal Large Language Models (MLLMs) achieve remarkable performance in numerous zero-shot tasks due to their outstanding cross-modal interaction and comprehension abilities. However, MLLMs are found to still be vulnerable to human-imperceptible adversarial examples. In the exploration of security vulnerabilities in real-world scenarios, transferability, which can achieve cross-model impact, is considered the greatest threat posed by adversarial examples. However, there is currently no systematic research on the threat of cross-MLLMs adversarial transferability. Therefore, this paper as the first step to provide a comprehensive evaluation of the transferability of adversarial examples generated by various MLLMs. Furthermore, leveraging two key factors that influence transferability performance: 1) The strength of information diversity involved in the adversarial generation process; 2) Editing across vision-language modality information. We propose a boosting method called Typography Augment Transferability Method (TATM) to investigate the adversarial transferability performance across MLLMs further. Through extensive experimental validation, our TATM demonstrates exceptional performance in real-world applications of ‘Harmful Word Insertion’ and ‘Important Information Protection’.

arxiv情報

著者 Hao Cheng,Erjia Xiao,Jiayan Yang,Jiahang Cao,Qiang Zhang,Le Yang,Jize Zhang,Kaidi Xu,Jindong Gu,Renjing Xu
発行日 2024-10-22 17:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models はコメントを受け付けていません

Automated Spinal MRI Labelling from Reports Using a Large Language Model

要約

私たちは、大規模な言語モデルを使用して放射線医学レポートからのラベルの抽出を自動化する一般的なパイプラインを提案し、脊椎 MRI レポートで検証します。
当社の標識法の有効性は、脊椎がん、狭窄、脊椎すべり症、馬尾圧迫、ヘルニアという 5 つの異なる条件で測定されます。
オープンソース モデルを使用する私たちの手法は、保持されている一連のレポートに関して GPT-4 と同等かそれを上回っています。
さらに、抽出されたラベルを使用して画像モデルをトレーニングし、付随する MR スキャンで特定された状態を分類できることを示します。
自動ラベルを使用してトレーニングされたすべての分類器は、臨床医が手動で注釈を付けたスキャンを使用してトレーニングされたモデルと同等のパフォーマンスを達成します。
コードは https://github.com/robinyjpark/AutoLabelClassifier にあります。

要約(オリジナル)

We propose a general pipeline to automate the extraction of labels from radiology reports using large language models, which we validate on spinal MRI reports. The efficacy of our labelling method is measured on five distinct conditions: spinal cancer, stenosis, spondylolisthesis, cauda equina compression and herniation. Using open-source models, our method equals or surpasses GPT-4 on a held-out set of reports. Furthermore, we show that the extracted labels can be used to train imaging models to classify the identified conditions in the accompanying MR scans. All classifiers trained using automated labels achieve comparable performance to models trained using scans manually annotated by clinicians. Code can be found at https://github.com/robinyjpark/AutoLabelClassifier.

arxiv情報

著者 Robin Y. Park,Rhydian Windsor,Amir Jamaludin,Andrew Zisserman
発行日 2024-10-22 17:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, eess.IV | Automated Spinal MRI Labelling from Reports Using a Large Language Model はコメントを受け付けていません

Frontiers in Intelligent Colonoscopy

要約

結腸内視鏡検査は現在、結腸直腸がんの最も感度の高いスクリーニング法の 1 つです。
この研究では、インテリジェントな結腸内視鏡検査技術の最前線と、マルチモーダルな医療応用に対するその将来的な影響を調査します。
この目標を達成するには、分類、検出、セグメンテーション、視覚言語理解など、結腸内視鏡シーン認識のための 4 つのタスクを通じて、現在のデータ中心およびモデル中心の状況を評価することから始めます。
この評価により、領域固有の課題を特定できるようになり、結腸内視鏡検査における複合的な研究にはさらなる探求の余地が残されていることが明らかになりました。
来るべきマルチモーダル時代を受け入れるために、私たちは 3 つの基本的な取り組みを確立します。それは、大規模なマルチモーダル命令チューニング データセット ColonINST、結腸内視鏡検査によって設計されたマルチモーダル言語モデル ColonGPT、およびマルチモーダル ベンチマークです。
この急速に進化する分野の継続的な監視を容易にするために、最新の更新情報を公開する公開 Web サイト (https://github.com/ai4colonoscopy/IntelliScope) を提供しています。

要約(オリジナル)

Colonoscopy is currently one of the most sensitive screening methods for colorectal cancer. This study investigates the frontiers of intelligent colonoscopy techniques and their prospective implications for multimodal medical applications. With this goal, we begin by assessing the current data-centric and model-centric landscapes through four tasks for colonoscopic scene perception, including classification, detection, segmentation, and vision-language understanding. This assessment enables us to identify domain-specific challenges and reveals that multimodal research in colonoscopy remains open for further exploration. To embrace the coming multimodal era, we establish three foundational initiatives: a large-scale multimodal instruction tuning dataset ColonINST, a colonoscopy-designed multimodal language model ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this rapidly evolving field, we provide a public website for the latest updates: https://github.com/ai4colonoscopy/IntelliScope.

arxiv情報

著者 Ge-Peng Ji,Jingyi Liu,Peng Xu,Nick Barnes,Fahad Shahbaz Khan,Salman Khan,Deng-Ping Fan
発行日 2024-10-22 17:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Frontiers in Intelligent Colonoscopy はコメントを受け付けていません

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

要約

我々は、ラージ ビュー合成モデル (LVSM) を提案します。これは、スパース ビュー入力からのスケーラブルかつ一般化可能な新しいビュー合成のための新しいトランスフォーマー ベースのアプローチです。
2 つのアーキテクチャを導入します。(1) エンコーダ/デコーダ LVSM は、入力画像トークンを固定数の 1D 潜在トークンにエンコードし、完全に学習されたシーン表現として機能し、それらからノベルビュー画像をデコードします。
(2) デコーダ専用の LVSM は、入力画像をノベルビュー出力に直接マッピングし、中間シーン表現を完全に排除します。
どちらのモデルも、3D 表現 (NeRF、3DGS など) からネットワーク設計 (エピポーラ投影、プレーン スイープなど) まで、以前の方法で使用されていた 3D 誘導バイアスをバイパスし、完全なデータ駆動型アプローチで新しいビュー合成に取り組みます。
エンコーダ-デコーダ モデルは独立した潜在表現により高速な推論を提供しますが、デコーダ専用 LVSM は優れた品質、スケーラビリティ、およびゼロショット汎化を実現し、以前の最先端の方法を 1.5 ~ 3.5 dB PSNR 上回ります。
複数のデータセットにわたる包括的な評価により、両方の LVSM バリアントが最先端の新規ビュー合成品質を達成していることが実証されています。
特に、私たちのモデルは、計算リソースが削減された場合でも (1 ~ 2 GPU)、以前のすべての方法を上回っています。
詳細については、当社の Web サイトをご覧ください: https://haian-jin.github.io/projects/LVSM/ 。

要約(オリジナル)

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods — from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) — addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

arxiv情報

著者 Haian Jin,Hanwen Jiang,Hao Tan,Kai Zhang,Sai Bi,Tianyuan Zhang,Fujun Luan,Noah Snavely,Zexiang Xu
発行日 2024-10-22 17:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias はコメントを受け付けていません

Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

要約

対比損失は表現学習の強力なアプローチであり、バッチ サイズが大きくなると、より多くの負のサンプルが提供され、類似データと類似データをより適切に区別できるため、パフォーマンスが向上します。
ただし、バッチ サイズのスケーリングは、主に類似性行列の完全なインスタンス化による GPU メモリ消費の二次的な増加によって制限されます。
これに対処するために、類似性行列の完全な具体化を回避し、コントラスト損失計算を任意の小さなブロックに分割するタイルベースの計算戦略を提案します。
さらに、分散システムの階層構造を活用するマルチレベル タイル戦略を導入し、GPU レベルでリングベースの通信を採用して同期を最適化し、CUDA コア レベルで融合カーネルを使用して I/O オーバーヘッドを削減します。
実験結果は、提案された方法がバッチサイズを前例のないレベルに拡張することを示しています。
たとえば、精度を犠牲にすることなく、8 個または 32 個の A800 80GB を使用して、バッチ サイズ 4M または 12M の CLIP-ViT-L/14 モデルの対比トレーニングが可能になります。
SOTA のメモリ効率の高いソリューションと比較して、同等の速度を維持しながらメモリを 2 桁削減できます。
コードは公開されます。

要約(オリジナル)

Contrastive loss is a powerful approach for representation learning, where larger batch sizes enhance performance by providing more negative samples to better distinguish between similar and dissimilar data. However, scaling batch sizes is constrained by the quadratic growth in GPU memory consumption, primarily due to the full instantiation of the similarity matrix. To address this, we propose a tile-based computation strategy that partitions the contrastive loss calculation into arbitrary small blocks, avoiding full materialization of the similarity matrix. Furthermore, we introduce a multi-level tiling strategy to leverage the hierarchical structure of distributed systems, employing ring-based communication at the GPU level to optimize synchronization and fused kernels at the CUDA core level to reduce I/O overhead. Experimental results show that the proposed method scales batch sizes to unprecedented levels. For instance, it enables contrastive training of a CLIP-ViT-L/14 model with a batch size of 4M or 12M using 8 or 32 A800 80GB without sacrificing any accuracy. Compared to SOTA memory-efficient solutions, it achieves a two-order-of-magnitude reduction in memory while maintaining comparable speed. The code will be made publicly available.

arxiv情報

著者 Zesen Cheng,Hang Zhang,Kehan Li,Sicong Leng,Zhiqiang Hu,Fei Wu,Deli Zhao,Xin Li,Lidong Bing
発行日 2024-10-22 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss はコメントを受け付けていません

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

要約

Large Vision-Language Model (LVLM) では、画像は豊富な情報を運ぶ入力として機能します。
「百聞は一見に如かず」という慣用句が示すように、現在の LVLM で 1 つの画像を表現するには、数百、場合によっては数千のトークンが必要になる場合があります。
その結果、計算コストが大幅に増加し、入力画像の解像度が増加するにつれて二次関数的に増加し、トレーニングと推論の両方の効率に重大な影響を与えます。
これまでのアプローチでは、LVLM の初期層の前または内部でイメージ トークンの数を削減しようとしました。
ただし、これらの戦略では必然的に重要な画像情報が失われ、最終的にはモデルのパフォーマンスが低下します。
この課題に対処するために、私たちは実証研究を実施し、浅いレイヤーの LVLM にはすべてのビジュアル トークンが必要であり、モデルの深いレイヤーではトークンの冗長性が徐々に増加することを明らかにしました。
この目的を達成するために、無視できるパフォーマンス損失でトレーニングと推論の両方の効率を高める LVLM の視覚的な冗長性削減戦略である PyramidDrop を提案します。
具体的には、LVLM をいくつかのステージに分割し、各ステージの最後に事前定義された比率でイメージ トークンの一部をドロップし、モデル レイヤー全体にピラミッド状のビジュアル トークンを作成します。
削除は、時間のオーバーヘッドが無視できる軽量の類似度計算に基づいています。
広範な実験により、PyramidDrop が同等のパフォーマンスで LLaVA-NeXT の 40% のトレーニング時間と 55% の推論 FLOP 加速を達成できることが実証されました。
さらに、PyramidDrop は、トレーニングなしで推論を高速化するためのプラグアンドプレイ戦略としても機能し、対応するものよりも優れたパフォーマンスと低い推論コストを実現できます。
PyramidDrop によって導入された洞察とアプローチが、LVLM におけるイメージ トークンの役割をさらに調査する将来の研究に影響を与えることを願っています。

要約(オリジナル)

In large vision-language models (LVLMs), images serve as inputs that carry a wealth of information. As the idiom ‘A picture is worth a thousand words’ implies, representing a single image in current LVLMs can require hundreds or even thousands of tokens. This results in significant computational costs, which grow quadratically as input image resolution increases, thereby severely impacting the efficiency of both training and inference. Previous approaches have attempted to reduce the number of image tokens either before or within the early layers of LVLMs. However, these strategies inevitably result in the loss of crucial image information, ultimately diminishing model performance. To address this challenge, we conduct an empirical study revealing that all visual tokens are necessary for LVLMs in the shallow layers, and token redundancy progressively increases in the deeper layers of the model. To this end, we propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost their efficiency in both training and inference with neglectable performance loss. Specifically, we partition the LVLM into several stages and drop part of the image tokens at the end of each stage with a pre-defined ratio, creating pyramid-like visual tokens across model layers. The dropping is based on a lightweight similarity calculation with a negligible time overhead. Extensive experiments demonstrate that PyramidDrop can achieve a 40% training time and 55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance. Besides, the PyramidDrop could also serve as a plug-and-play strategy for inference acceleration without training, with better performance and lower inference cost than counterparts. We hope that the insights and approach introduced by PyramidDrop will inspire future research to further investigate the role of image tokens in LVLMs.

arxiv情報

著者 Long Xing,Qidong Huang,Xiaoyi Dong,Jiajie Lu,Pan Zhang,Yuhang Zang,Yuhang Cao,Conghui He,Jiaqi Wang,Feng Wu,Dahua Lin
発行日 2024-10-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction はコメントを受け付けていません

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

要約

英語以外の言語での大規模マルチモーダル モデル (LMM) に関する研究を加速することは、より広範な人々の間でユーザー エクスペリエンスを向上させるために非常に重要です。
本稿では、日本の文化的背景に基づいて専門家レベルのタスクで LMM を評価するために設計された初の大規模な日本ベンチマークである JMMMU (Japanese MMMU) を紹介します。
包括的な文化を意識した評価を促進するために、JMMMU は 2 つの相補的なサブセットを備えています: (i) 文化に依存しない (CA) サブセット。文化に依存しない科目 (数学など) が選択され、日本語に翻訳され、1 対 1 の比較が可能になります。
英国の対応するMMMUと。
(ii) 日本の文化的背景を反映して新たに作成された主題で構成される文化固有 (CS) サブセット。
CA サブセットを使用すると、日本語で評価すると多くの LMM でパフォーマンスの低下が観察されますが、これは純粋に言語の違いに起因します。
CS サブセットを使用して、彼らの日本文化理解が不十分であることを明らかにします。
さらに、両方のサブセットを組み合わせることで、一部の LMM は CA サブセットではうまく機能するが、CS サブセットではうまく機能しないことがわかり、文化的理解の深さに欠ける浅い日本語理解が明らかになりました。
私たちは、この研究が日本語での LMM パフォーマンスの向上に役立つだけでなく、多言語 LMM 開発のための高水準で文化的に多様なベンチマークを作成するためのガイドラインとしても役立つことを願っています。
プロジェクトページはhttps://mmmu-japanese-benchmark.github.io/JMMMU/です。

要約(オリジナル)

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

arxiv情報

著者 Shota Onohara,Atsuyuki Miyai,Yuki Imajuku,Kazuki Egashira,Jeonghun Baek,Xiang Yue,Graham Neubig,Kiyoharu Aizawa
発行日 2024-10-22 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation はコメントを受け付けていません

SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

要約

我々は、3D ガウス スプラッティング (3DGS) と物理ベース レンダリング (PBR) および変形フィールドを組み合わせて動的な鏡面反射シーンを再構築する新しいアプローチである SpectroMotion を紹介します。
3DGS を拡張して動的シーンをモデル化するこれまでの方法では、鏡面を正確に表現するのが困難でした。
私たちの方法は、変形中の正確な表面法線計算のための残差補正技術を導入することによってこの制限に対処し、時間変化する照明条件に適応する変形可能な環境マップによって補完されます。
シーンのジオメトリと鏡面カラー予測の両方を大幅に強化する、粗いトレーニング戦略から細かいトレーニング戦略を実装します。
私たちのモデルは、動的鏡面オブジェクトを含むシーンのビュー合成に関して従来の方法よりも優れていること、また、このモデルが、フォトリアリスティックな現実世界の動的鏡面シーンを合成できる唯一の既存の 3DGS 方法であり、複雑なレンダリングにおいて最先端の方法よりも優れていることを実証します。
ダイナミックでスペキュラーなシーン。

要約(オリジナル)

We present SpectroMotion, a novel approach that combines 3D Gaussian Splatting (3DGS) with physically-based rendering (PBR) and deformation fields to reconstruct dynamic specular scenes. Previous methods extending 3DGS to model dynamic scenes have struggled to accurately represent specular surfaces. Our method addresses this limitation by introducing a residual correction technique for accurate surface normal computation during deformation, complemented by a deformable environment map that adapts to time-varying lighting conditions. We implement a coarse-to-fine training strategy that significantly enhances both scene geometry and specular color prediction. We demonstrate that our model outperforms prior methods for view synthesis of scenes containing dynamic specular objects and that it is the only existing 3DGS method capable of synthesizing photorealistic real-world dynamic specular scenes, outperforming state-of-the-art methods in rendering complex, dynamic, and specular scenes.

arxiv情報

著者 Cheng-De Fan,Chen-Wei Chang,Yi-Ruei Liu,Jie-Ying Lee,Jiun-Long Huang,Yu-Chee Tseng,Yu-Lun Liu
発行日 2024-10-22 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes はコメントを受け付けていません

Altogether: Image Captioning via Re-aligning Alt-text

要約

このペーパーでは、画像キャプションの品質を向上させるための合成データの作成に焦点を当てます。
既存の作品には通常 2 つの欠点があります。
第一に、既存の代替テキストのメタデータを無視して、画像にキャプションを最初から付けます。第二に、キャプション作成者のトレーニング データ (GPT など) が不明な場合、透明性が欠如します。
この論文では、画像に関連付けられた既存の代替テキストを編集して再配置するという重要なアイデアに基づいた原則的なアプローチを研究します。
トレーニング データを生成するには、人間によるアノテーションを実行します。アノテーターは既存の代替テキストから開始し、それを複数回に分けて画像コンテンツに再配置し、その結果、豊富な視覚的コンセプトを備えたキャプションを構築します。
これは、画像とアノテーターの知識のみに基づいて人間によるアノテーションを 1 回限りの記述タスクとして実行する従来の研究とは異なります。
このデータに基づいてキャプショナをトレーニングし、代替テキストを大規模に再配置するプロセスを一般化します。
私たちの結果は、Altogether アプローチがより豊富な画像キャプションをもたらし、テキストから画像への生成やゼロショット画像分類タスクも改善することを示しています。

要約(オリジナル)

This paper focuses on creating synthetic data to improve the quality of image captions. Existing works typically have two shortcomings. First, they caption images from scratch, ignoring existing alt-text metadata, and second, lack transparency if the captioners’ training data (e.g. GPT) is unknown. In this paper, we study a principled approach Altogether based on the key idea to edit and re-align existing alt-texts associated with the images. To generate training data, we perform human annotation where annotators start with the existing alt-text and re-align it to the image content in multiple rounds, consequently constructing captions with rich visual concepts. This differs from prior work that carries out human annotation as a one-time description task solely based on images and annotator knowledge. We train a captioner on this data that generalizes the process of re-aligning alt-texts at scale. Our results show our Altogether approach leads to richer image captions that also improve text-to-image generation and zero-shot image classification tasks.

arxiv情報

著者 Hu Xu,Po-Yao Huang,Xiaoqing Ellen Tan,Ching-Feng Yeh,Jacob Kahn,Christine Jou,Gargi Ghosh,Omer Levy,Luke Zettlemoyer,Wen-tau Yih,Shang-Wen Li,Saining Xie,Christoph Feichtenhofer
発行日 2024-10-22 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Altogether: Image Captioning via Re-aligning Alt-text はコメントを受け付けていません

ExDBN: Exact learning of Dynamic Bayesian Networks

要約

データからの因果学習は近年大きな注目を集めています。
因果関係を捉える方法の 1 つは、ベイジアン ネットワークを利用することです。
そこでは、確率変数が頂点によって表され、各エッジに関連付けられた重みがそれらの間の因果関係の強さを表す、重み付き有向非巡回グラフが復元されます。
この概念は、構造方程式モデルによって捕捉できる過去のデータへの依存性を導入することで動的効果を捕捉するように拡張されており、このモデルはスコアベースの学習アプローチを定式化するために今回の貢献で利用されています。
混合整数二次プログラムが定式化され、アルゴリズムによる解決策が提案されます。この解決策では、いわゆるブランチ アンド カット (「遅延制約」) 方法を利用することで、指数関数的に多くの非循環性制約の事前生成が回避されます。
新しいアプローチと最先端のアプローチを比較すると、提案されたアプローチが最大 25 の時系列の中小規模の合成インスタンスに適用された場合に優れた結果が得られることがわかります。
最後に、この方法が直接適用されるバイオサイエンスと金融における 2 つの興味深いアプリケーションは、小規模なインスタンスを処理できる高精度でグローバルに収束するソルバーを開発する機会をさらに強調します。

要約(オリジナル)

Causal learning from data has received much attention in recent years. One way of capturing causal relationships is by utilizing Bayesian networks. There, one recovers a weighted directed acyclic graph, in which random variables are represented by vertices, and the weights associated with each edge represent the strengths of the causal relationships between them. This concept is extended to capture dynamic effects by introducing a dependency on past data, which may be captured by the structural equation model, which is utilized in the present contribution to formulate a score-based learning approach. A mixed-integer quadratic program is formulated and an algorithmic solution proposed, in which the pre-generation of exponentially many acyclicity constraints is avoided by utilizing the so-called branch-and-cut (‘lazy constraint’) method. Comparing the novel approach to the state of the art, we show that the proposed approach turns out to produce excellent results when applied to small and medium-sized synthetic instances of up to 25 time-series. Lastly, two interesting applications in bio-science and finance, to which the method is directly applied, further stress the opportunities in developing highly accurate, globally convergent solvers that can handle modest instances.

arxiv情報

著者 Pavel Rytir,Ales Wodecki,Georgios Korpas,Jakub Marecek
発行日 2024-10-22 12:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | ExDBN: Exact learning of Dynamic Bayesian Networks はコメントを受け付けていません