Deeply Supervised Flow-Based Generative Models

要約

フローベースの生成モデルは、単純な原理、つまり線形補間の学習速度表現を学習することにより、複数の視覚生成タスクにわたって印象的なパスをチャート化しました。
ただし、最終レイヤー出力からのみトレーニング速度が豊富な層間表現を十分に活用しており、潜在的に妨げられるモデルの収束が十分であることが観察されます。
この制限に対処するために、インターレイヤー通信を通じて速度表現を強化する新しいフレームワークであるDeepFlowを紹介します。
DeepFlowパーティション変圧器層は、ディープスーカーを備えたバランスの取れた分岐になり、隣接する枝の間に加速度(VERA)ブロックを備えた軽量速度精製機を挿入します。
内部速度アラインメントを介した改善された深い監督を搭載したDeepFlowは、ImagENetで同等のパフォーマンスで8倍速く収束し、分類剤フリーガイダンスなしの以前のフローベースのモデルと比較してトレーニング時間を半分にしながら、FIDをさらに2.6減らします。
DeepFlowは、MSCOCOおよびゼロショットGenevalの評価によって証明されるように、テキストのベースラインを画像生成タスクよりも優れています。

要約(オリジナル)

Flow based generative models have charted an impressive path across multiple visual generation tasks by adhering to a simple principle: learning velocity representations of a linear interpolant. However, we observe that training velocity solely from the final layer output underutilizes the rich inter layer representations, potentially impeding model convergence. To address this limitation, we introduce DeepFlow, a novel framework that enhances velocity representation through inter layer communication. DeepFlow partitions transformer layers into balanced branches with deep supervision and inserts a lightweight Velocity Refiner with Acceleration (VeRA) block between adjacent branches, which aligns the intermediate velocity features within transformer blocks. Powered by the improved deep supervision via the internal velocity alignment, DeepFlow converges 8 times faster on ImageNet with equivalent performance and further reduces FID by 2.6 while halving training time compared to previous flow based models without a classifier free guidance. DeepFlow also outperforms baselines in text to image generation tasks, as evidenced by evaluations on MSCOCO and zero shot GenEval.

arxiv情報

著者 Inkyu Shin,Chenglin Yang,Liang-Chieh Chen
発行日 2025-03-18 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Deeply Supervised Flow-Based Generative Models はコメントを受け付けていません

Tracking Meets Large Multimodal Models for Driving Scenario Understanding

要約

大規模なマルチモーダルモデル(LMM)は最近、自律運転研究で顕著になり、さまざまな新興ベンチマークにわたって有望な能力を紹介しています。
このドメイン向けに特別に設計されたLMMは、効果的な認識、計画、および予測スキルを実証しています。
ただし、これらの方法の多くは、主に画像データに依存して、3D空間的要素と時間的要素を十分に活用していません。
その結果、動的運転環境での有効性は限られています。
画像で効果的にキャプチャされていない3D空間的および時間的詳細を回復するための追加の入力として追跡情報を統合することを提案します。
この追跡情報をLMMSに埋め込むための新しいアプローチを紹介して、運転シナリオの時空の理解を高めることができます。
トラックエンコーダーを介して3D追跡データを組み込むことにより、長いビデオシーケンスまたは広範な3D入力の処理に関連する計算オーバーヘッドを回避しながら、重要な空間的および時間的キューで視覚クエリを強化します。
さらに、トラッキングエンコーダを取得するための自己監督のアプローチを採用して、LMMSに追加のコンテキスト情報を提供し、自律運転のための知覚、計画、予測タスクのパフォーマンスを大幅に改善します。
実験結果は、精度が9.5%増加し、ChatGPTスコアで7.04ポイント増加し、Drivelm-Nuscenesベンチマークのベースラインモデル全体で9.4%増加し、Drivelm-Carlaでの最終スコアの改善が3.7%増加し、アプローチの有効性を示しています。
私たちのコードは、https://github.com/mbzuai-oryx/trackingmeetslmmで入手できます

要約(オリジナル)

Large Multimodal Models (LMMs) have recently gained prominence in autonomous driving research, showcasing promising capabilities across various emerging benchmarks. LMMs specifically designed for this domain have demonstrated effective perception, planning, and prediction skills. However, many of these methods underutilize 3D spatial and temporal elements, relying mainly on image data. As a result, their effectiveness in dynamic driving environments is limited. We propose to integrate tracking information as an additional input to recover 3D spatial and temporal details that are not effectively captured in the images. We introduce a novel approach for embedding this tracking information into LMMs to enhance their spatiotemporal understanding of driving scenarios. By incorporating 3D tracking data through a track encoder, we enrich visual queries with crucial spatial and temporal cues while avoiding the computational overhead associated with processing lengthy video sequences or extensive 3D inputs. Moreover, we employ a self-supervised approach to pretrain the tracking encoder to provide LMMs with additional contextual information, significantly improving their performance in perception, planning, and prediction tasks for autonomous driving. Experimental results demonstrate the effectiveness of our approach, with a gain of 9.5% in accuracy, an increase of 7.04 points in the ChatGPT score, and 9.4% increase in the overall score over baseline models on DriveLM-nuScenes benchmark, along with a 3.7% final score improvement on DriveLM-CARLA. Our code is available at https://github.com/mbzuai-oryx/TrackingMeetsLMM

arxiv情報

著者 Ayesha Ishaq,Jean Lahoud,Fahad Shahbaz Khan,Salman Khan,Hisham Cholakkal,Rao Muhammad Anwer
発行日 2025-03-18 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Tracking Meets Large Multimodal Models for Driving Scenario Understanding はコメントを受け付けていません

Utilization of Neighbor Information for Image Classification with Different Levels of Supervision

要約

一般化されたカテゴリ発見(GCD)と画像クラスタリングの両方でうまく機能する柔軟な方法で、半監視と監視なしの画像認識の間のギャップを埋めることを提案します。
これらのタスク間の動機付けの重複にもかかわらず、メソッド自体は単一のタスクに制限されています。GCDメソッドはデータのラベル部分に依存しており、深い画像クラスタリングメソッドにはラベルを効率的に活用する方法が組み込まれていません。
2つのレジームを、監視なし(クラスタリング)および半教師(GCD)設定の両方で分類のために近隣情報(UNIC)を利用する革新的なアプローチと結び付けます。
最先端のクラスタリング方法は、すでに最近の隣人に大きく依存しています。
最初は正確な正と負の隣人を識別するサンプリングとクリーニング戦略で、2つの部分で結果を大幅に改善し、次に両方のタイプの隣人をサンプリングすることで計算されたクラスタリング損失でバックボーンを微調整することにより改善します。
次に、ラベル付きの画像をグラウンドトゥルースネイバーとして利用することにより、このパイプラインをGCDに適応させます。
私たちの方法は、クラスタリング( +3%Imagenet-100、Imagenet200)とGCD( +0.8%Imagenet-100、 +5%CUB、 +2%scars、 +4%航空機)の両方で最先端の結果をもたらします。

要約(オリジナル)

We propose to bridge the gap between semi-supervised and unsupervised image recognition with a flexible method that performs well for both generalized category discovery (GCD) and image clustering. Despite the overlap in motivation between these tasks, the methods themselves are restricted to a single task — GCD methods are reliant on the labeled portion of the data, and deep image clustering methods have no built-in way to leverage the labels efficiently. We connect the two regimes with an innovative approach that Utilizes Neighbor Information for Classification (UNIC) both in the unsupervised (clustering) and semisupervised (GCD) setting. State-of-the-art clustering methods already rely heavily on nearest neighbors. We improve on their results substantially in two parts, first with a sampling and cleaning strategy where we identify accurate positive and negative neighbors, and secondly by finetuning the backbone with clustering losses computed by sampling both types of neighbors. We then adapt this pipeline to GCD by utilizing the labelled images as ground truth neighbors. Our method yields state-of-the-art results for both clustering (+3% ImageNet-100, Imagenet200) and GCD (+0.8% ImageNet-100, +5% CUB, +2% SCars, +4% Aircraft).

arxiv情報

著者 Gihan Jayatilaka,Abhinav Shrivastava,Matthew Gwilliam
発行日 2025-03-18 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Utilization of Neighbor Information for Image Classification with Different Levels of Supervision はコメントを受け付けていません

Advances in 4D Generation: A Survey

要約

生成的人工知能は、近年、複数のドメインにわたって顕著な進歩を目撃しています。
2Dおよび3Dコンテンツ生成の成功に基づいて、一時的な次元を生成タスクに組み込んだ4D Generationは、急成長しているが急速に進化する研究分野として浮上しています。
このペーパーでは、この新しい分野の包括的な調査を提示し、その理論的基礎、主要な方法論、および実用的なアプリケーションを体系的に調査し、4D世代の現在の状態と将来の可能性についての全体的な理解を読者に提供することを目的としています。
まず、構造化された形式と非構造化された形式の両方を含む4Dデータ表現のコア概念を導入し、生成タスクへの影響を紹介します。
この基盤の上に構築された私たちは、時空間モデリング、神経表現、生成フレームワークの進歩を含む、4D世代を駆動する有効化技術を掘り下げます。
さらに、4D出力を生成し、これらのアプローチを分類し、研究の軌跡を要約するための多様な制御メカニズムと表現戦略を採用した最近の研究をさらにレビューします。
さらに、ダイナミックオブジェクトモデリング、シーン生成、デジタルヒト合成、4Dコンテンツ編集、自律運転にまたがる4D生成技術の幅広いアプリケーションを探ります。
最後に、データの可用性、計算効率、空間的一貫性など、4D世代に固有の重要な課題を分析し、将来の研究のための有望な方向性を提案します。
私たちのコードは、\ href {https://github.com/miaoqiaowei/awesome-4d} {https://github.com/miaoqiaowei/awesome-4dで公開されています。

要約(オリジナル)

Generative artificial intelligence has witnessed remarkable advancements across multiple domains in recent years. Building on the successes of 2D and 3D content generation, 4D generation, which incorporates the temporal dimension into generative tasks, has emerged as a burgeoning yet rapidly evolving research area. This paper presents a comprehensive survey of this emerging field, systematically examining its theoretical foundations, key methodologies, and practical applications, with the aim of providing readers with a holistic understanding of the current state and future potential of 4D generation. We begin by introducing the core concepts of 4D data representations, encompassing both structured and unstructured formats, and their implications for generative tasks. Building upon this foundation, we delve into the enabling technologies that drive 4D generation, including advancements in spatiotemporal modeling, neural representations, and generative frameworks. We further review recent studies that employ diverse control mechanisms and representation strategies for generating 4D outputs, categorizing these approaches and summarizing their research trajectories. In addition, we explore the wide-ranging applications of 4D generation techniques, spanning dynamic object modeling, scene generation, digital human synthesis, 4D content editing, and autonomous driving. Finally, we analyze the key challenges inherent to 4D generation, such as data availability, computational efficiency, and spatiotemporal consistency, and propose promising directions for future research. Our code is publicly available at: \href{https://github.com/MiaoQiaowei/Awesome-4D}{https://github.com/MiaoQiaowei/Awesome-4D}.

arxiv情報

著者 Qiaowei Miao,Kehan Li,Jinsheng Quan,Zhiyuan Min,Shaojie Ma,Yichao Xu,Yi Yang,Yawei Luo
発行日 2025-03-18 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Advances in 4D Generation: A Survey はコメントを受け付けていません

The Power of Context: How Multimodality Improves Image Super-Resolution

要約

シングルイメージの超解像度(SISR)は、細かい詳細を回復し、低解像度の入力から知覚品質を維持することの固有の難しさのために、依然として挑戦的です。
既存の方法は、多くの場合、限られた画像事前に依存しており、最適ではない結果につながります。
深さ、セグメンテーション、エッジ、テキストプロンプトなど、複数のモダリティで利用可能な豊富なコンテキスト情報を活用して、拡散モデルフレームワーク内でSISRの強力な生成事前を学習する新しいアプローチを提案します。
マルチモーダル情報を効果的に融合する柔軟なネットワークアーキテクチャを導入し、拡散プロセスに大幅な変更を必要とせずに、任意の数の入力モダリティに対応します。
重要なことに、他のモダリティからの空間情報を使用して地域のテキストベースの条件付けを導くことにより、テキストプロンプトによって導入されることが多い幻覚を軽減します。
各モダリティのガイダンス強度は独立して制御することもでき、深さを介してボケを増やしたり、セグメンテーションを介してオブジェクトの隆起を調整するなど、さまざまな方向にステアリング出力が可能になります。
広範な実験は、私たちのモデルが最先端の生成的SISR法を上回り、優れた視覚的品質と忠実度を達成することを示しています。
https://mmsr.kfmei.com/のプロジェクトページを参照してください。

要約(オリジナル)

Single-image super-resolution (SISR) remains challenging due to the inherent difficulty of recovering fine-grained details and preserving perceptual quality from low-resolution inputs. Existing methods often rely on limited image priors, leading to suboptimal results. We propose a novel approach that leverages the rich contextual information available in multiple modalities — including depth, segmentation, edges, and text prompts — to learn a powerful generative prior for SISR within a diffusion model framework. We introduce a flexible network architecture that effectively fuses multimodal information, accommodating an arbitrary number of input modalities without requiring significant modifications to the diffusion process. Crucially, we mitigate hallucinations, often introduced by text prompts, by using spatial information from other modalities to guide regional text-based conditioning. Each modality’s guidance strength can also be controlled independently, allowing steering outputs toward different directions, such as increasing bokeh through depth or adjusting object prominence via segmentation. Extensive experiments demonstrate that our model surpasses state-of-the-art generative SISR methods, achieving superior visual quality and fidelity. See project page at https://mmsr.kfmei.com/.

arxiv情報

著者 Kangfu Mei,Hossein Talebi,Mojtaba Ardakani,Vishal M. Patel,Peyman Milanfar,Mauricio Delbracio
発行日 2025-03-18 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | The Power of Context: How Multimodality Improves Image Super-Resolution はコメントを受け付けていません

Aligning Multimodal LLM with Human Preference: A Survey

要約

大規模な言語モデル(LLMS)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトでさまざまな一般的なタスクを処理できます。
LLMSに基づいて構築されたマルチモーダル大手言語モデル(MLLMS)は、視覚、聴覚、およびテキストのデータを含む複雑なタスクに取り組むことで印象的な可能性を実証しています。
ただし、真実性、安全性、O1のような推論、および人間の好みとの整合に関連する重要な問題は不十分なままです。
このギャップは、さまざまなアプリケーションシナリオと最適化の目標をターゲットにしているさまざまなアライメントアルゴリズムの出現に拍車をかけました。
最近の研究では、アラインメントアルゴリズムが前述の課題を解決するための強力なアプローチであることが示されています。
この論文では、MLLMのアライメントアルゴリズムの包括的かつ体系的なレビューを提供することを目指しています。
具体的には、4つの重要な側面について説明します。(1)一般的な画像理解、マルチイメージ、ビデオ、オーディオ、拡張マルチモーダルアプリケーションなど、アラインメントアルゴリズムでカバーされているアプリケーションシナリオ。
(2)データソース、モデル応答、優先注釈など、アライメントデータセットの構築におけるコア要因。
(3)アライメントアルゴリズムの評価に使用されるベンチマーク。
(4)アライメントアルゴリズムの開発に関する潜在的な将来の方向性に関する議論。
この作業は、研究者が現場で現在の進歩を組織し、より良いアライメント方法を刺激するのを支援しようとしています。
このペーパーのプロジェクトページは、https://github.com/bradyfu/awesome-multimodal-language-models/tree/alignmentで入手できます。

要約(オリジナル)

Large language models (LLMs) can handle a wide variety of general tasks with simple prompts, without the need for task-specific training. Multimodal Large Language Models (MLLMs), built upon LLMs, have demonstrated impressive potential in tackling complex tasks involving visual, auditory, and textual data. However, critical issues related to truthfulness, safety, o1-like reasoning, and alignment with human preference remain insufficiently addressed. This gap has spurred the emergence of various alignment algorithms, each targeting different application scenarios and optimization goals. Recent studies have shown that alignment algorithms are a powerful approach to resolving the aforementioned challenges. In this paper, we aim to provide a comprehensive and systematic review of alignment algorithms for MLLMs. Specifically, we explore four key aspects: (1) the application scenarios covered by alignment algorithms, including general image understanding, multi-image, video, and audio, and extended multimodal applications; (2) the core factors in constructing alignment datasets, including data sources, model responses, and preference annotations; (3) the benchmarks used to evaluate alignment algorithms; and (4) a discussion of potential future directions for the development of alignment algorithms. This work seeks to help researchers organize current advancements in the field and inspire better alignment methods. The project page of this paper is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.

arxiv情報

著者 Tao Yu,Yi-Fan Zhang,Chaoyou Fu,Junkang Wu,Jinda Lu,Kun Wang,Xingyu Lu,Yunhang Shen,Guibin Zhang,Dingjie Song,Yibo Yan,Tianlong Xu,Qingsong Wen,Zhang Zhang,Yan Huang,Liang Wang,Tieniu Tan
発行日 2025-03-18 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Aligning Multimodal LLM with Human Preference: A Survey はコメントを受け付けていません

MusicInfuser: Making Video Diffusion Listen and Dance

要約

MusicInfuserを紹介します。これは、指定された音楽トラックに同期される高品質のダンスビデオを生成するためのアプローチです。
新しいマルチモーダルオーディオビデオモデルの設計とトレーニングを試みるのではなく、既存のビデオ拡散モデルを、軽量の音楽ビデオクロスアテンションと低ランクアダプターを導入することにより、音楽の入力に合わせてどのように調整できるかを示します。
モーションキャプチャデータを必要とする以前の作業とは異なり、私たちのアプローチはダンスビデオでのみ微調整されています。
MusicInfuserは、基礎となるモデルの柔軟性と生成能力を維持しながら、高品質の音楽主導のビデオ生成を実現します。
Video LLMを使用して評価フレームワークを紹介して、ダンス生成品質の複数の次元を評価します。
プロジェクトページとコードは、https://susunghong.github.io/musicinfuserで入手できます。

要約(オリジナル)

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.

arxiv情報

著者 Susung Hong,Ira Kemelmacher-Shlizerman,Brian Curless,Steven M. Seitz
発行日 2025-03-18 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MusicInfuser: Making Video Diffusion Listen and Dance はコメントを受け付けていません

TablePilot: Recommending Human-Preferred Tabular Data Analysis with Large Language Models

要約

多くのシナリオでは表形式のデータ分析が重要ですが、新しいテーブルの最も関連性の高いデータ分析クエリと結果を効率的に識別することは重要な課題です。
表形式データの複雑さ、多様な分析操作、および高品質の分析の需要により、プロセスは退屈になります。
これらの課題に対処するために、表形式のデータ分析ワークフローの新しいテーブルに合わせたクエリコードと表現のトリプレットを推奨することを目指しています。
このホワイトペーパーでは、テーブルパイロットを提示します。これは、ユーザープロファイルや以前の相互作用に依存することなく、大規模な言語モデルを活用して包括的かつ優れた分析結果を自律的に生成するための大規模な言語モデルを活用する先駆的な表パイロットを紹介します。
このフレームワークには、分析の準備と分析の最適化に重要な設計が組み込まれ、精度が向上します。
さらに、推奨の品質をさらに向上させ、人間の好みに合わせてより適切に整合するための新しい方法であるRec-Alignを提案します。
包括的な表形式データ分析の推奨用に特別に設計されたデータセットであるDARTの実験は、フレームワークの有効性を示しています。
GPT-4Oに基づいて、調整されたテーブルパイロットは77.0%のトップ5の推奨リコールを実現します。
人間の評価は、表形式データ分析ワークフローを最適化する際のその有効性をさらに強調しています。

要約(オリジナル)

Tabular data analysis is crucial in many scenarios, yet efficiently identifying the most relevant data analysis queries and results for a new table remains a significant challenge. The complexity of tabular data, diverse analytical operations, and the demand for high-quality analysis make the process tedious. To address these challenges, we aim to recommend query-code-result triplets tailored for new tables in tabular data analysis workflows. In this paper, we present TablePilot, a pioneering tabular data analysis framework leveraging large language models to autonomously generate comprehensive and superior analytical results without relying on user profiles or prior interactions. The framework incorporates key designs in analysis preparation and analysis optimization to enhance accuracy. Additionally, we propose Rec-Align, a novel method to further improve recommendation quality and better align with human preferences. Experiments on DART, a dataset specifically designed for comprehensive tabular data analysis recommendation, demonstrate the effectiveness of our framework. Based on GPT-4o, the tuned TablePilot achieves 77.0% top-5 recommendation recall. Human evaluations further highlight its effectiveness in optimizing tabular data analysis workflows.

arxiv情報

著者 Deyin Yi,Yihao Liu,Lang Cao,Mengyu Zhou,Haoyu Dong,Shi Han,Dongmei Zhang
発行日 2025-03-18 14:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TablePilot: Recommending Human-Preferred Tabular Data Analysis with Large Language Models はコメントを受け付けていません

LLM-Match: An Open-Sourced Patient Matching Model Based on Large Language Models and Retrieval-Augmented Generation

要約

患者のマッチングとは、医療記録を試験の適格性基準と正確に特定して一致させることにより、患者を適切な臨床試験にリンクするプロセスです。
LLM-Matchを提案します。LLM-Matchは、微調整されたオープンソースの大型言語モデルを活用する患者マッチングの新しいフレームワークです。
私たちのアプローチは、4つの重要なコンポーネントで構成されています。
第一に、検索された生成(RAG)モジュールは、電子健康記録の広大なプール(EHRS)から関連する患者のコンテキストを抽出します。
第二に、プロンプト生成モジュールは、試行資格基準(包含および除外基準の両方)、患者のコンテキスト、およびシステム命令を統合することにより、入力プロンプトを構築します。
第三に、分類ヘッドを備えた微調整モジュールは、構造化されたプロンプトとグラウンドトゥルースラベルを使用してモデルパラメーターを最適化します。
第4に、評価モジュールは、テストデータセットでの微調整されたモデルのパフォーマンスを評価します。
N2C2、SIGIR、TREC 2021、およびTREC 2022の4つのオープンデータセットでLLM-Matchを評価し、オープンソースモデルを使用して、TrialGPT、Zero-Shot、およびGPT-4ベースの閉じたモデルと比較しました。
LLMマッチはすべてのベースラインを上回りました。

要約(オリジナル)

Patient matching is the process of linking patients to appropriate clinical trials by accurately identifying and matching their medical records with trial eligibility criteria. We propose LLM-Match, a novel framework for patient matching leveraging fine-tuned open-source large language models. Our approach consists of four key components. First, a retrieval-augmented generation (RAG) module extracts relevant patient context from a vast pool of electronic health records (EHRs). Second, a prompt generation module constructs input prompts by integrating trial eligibility criteria (both inclusion and exclusion criteria), patient context, and system instructions. Third, a fine-tuning module with a classification head optimizes the model parameters using structured prompts and ground-truth labels. Fourth, an evaluation module assesses the fine-tuned model’s performance on the testing datasets. We evaluated LLM-Match on four open datasets – n2c2, SIGIR, TREC 2021, and TREC 2022 – using open-source models, comparing it against TrialGPT, Zero-Shot, and GPT-4-based closed models. LLM-Match outperformed all baselines.

arxiv情報

著者 Xiaodi Li,Shaika Chowdhury,Chung Il Wi,Maria Vassilaki,Ken Liu,Terence T Sio,Owen Garrick,Young J Juhn,James R Cerhan,Cui Tao,Nansu Zong
発行日 2025-03-18 14:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLM-Match: An Open-Sourced Patient Matching Model Based on Large Language Models and Retrieval-Augmented Generation はコメントを受け付けていません

DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective

要約

大規模な言語モデル(LLM)は、主に適切に設計されたプロンプトによって駆動される多様なタスク全体で顕著な成功を収めています。
ただし、そのようなプロンプトを作成して選択するには、多くの場合、かなりの人間の努力が必要であり、そのスケーラビリティを大幅に制限します。
これを緩和するために、最近の研究では、有望なソリューションとして自動化された迅速な最適化が調査されています。
これらの努力にもかかわらず、既存の方法は依然として堅牢性、効率性、および一般化における重要な課題に直面しています。
これらの課題に体系的に対処するために、最初に経験的分析を実施して、現在の反射ベースの迅速な最適化パラダイムの制限を特定します。
これらの洞察に基づいて、私たちは、これらの概念をテキストベースのグラデーション最適化にシームレスに統合し、迅速な最適化のための従来の深い学習パラダイムに触発された7つの革新的なアプローチを提案します。
これらの進歩を通じて、私たちは前述の課題に徐々に取り組み、広範な実験を通じて方法を検証します。
私たちの研究は、将来の研究のための貴重なガイダンスを提供するだけでなく、迅速な最適化における課題と潜在的なソリューションの包括的な理解を提供することを願っています。
私たちのコードは、https://github.com/sfasfaffa/dlpoで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success across diverse tasks, largely driven by well-designed prompts. However, crafting and selecting such prompts often requires considerable human effort, significantly limiting its scalability. To mitigate this, recent studies have explored automated prompt optimization as a promising solution. Despite these efforts, existing methods still face critical challenges in robustness, efficiency, and generalization. To systematically address these challenges, we first conduct an empirical analysis to identify the limitations of current reflection-based prompt optimization paradigm. Building on these insights, we propose 7 innovative approaches inspired by traditional deep learning paradigms for prompt optimization (DLPO), seamlessly integrating these concepts into text-based gradient optimization. Through these advancements, we progressively tackle the aforementioned challenges and validate our methods through extensive experimentation. We hope our study not only provides valuable guidance for future research but also offers a comprehensive understanding of the challenges and potential solutions in prompt optimization. Our code is available at https://github.com/sfasfaffa/DLPO.

arxiv情報

著者 Dengyun Peng,Yuhang Zhou,Qiguang Chen,Jinhao Liu,Jingjing Chen,Libo Qin
発行日 2025-03-18 04:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DLPO: Towards a Robust, Efficient, and Generalizable Prompt Optimization Framework from a Deep-Learning Perspective はコメントを受け付けていません