MIEB: Massive Image Embedding Benchmark

要約

画像表現は、多くの場合、見返りのあるタスク固有のプロトコルによって評価され、モデル能力の断片化された理解につながります。
たとえば、クラスタリング画像に熟練した画像の埋め込みモデルが、テキストを与えられた関連画像を取得するのに等しく優れているかどうかは不明です。
大規模な画像埋め込みベンチマーク(MIEB)を導入して、これまでで最も広いスペクトルにわたって画像と画像テキストの埋め込みモデルのパフォーマンスを評価します。
Miebは、130の個別のタスクにわたって38の言語にまたがっています。これは、8つの高レベルのカテゴリにグループ化されています。
ベンチマーク全体で50のモデルをベンチマークし、すべてのタスクカテゴリに単一の方法が支配的ではないことがわかりました。
テキストの正確な視覚表現や、交絡因子の存在下でのインターリーブエンコーディングやマッチング画像やテキストのまだ限られた機能などの高度なビジョンモデルに隠された機能を明らかにします。
また、MIEBでのVisionエンコーダーのパフォーマンスが、マルチモーダルの大手言語モデルで使用すると、パフォーマンスと非常に相関していることも示しています。
コード、データセット、およびリーダーボードは、https://github.com/embeddings-benchmark/mtebで公開されています。

要約(オリジナル)

Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

arxiv情報

著者 Chenghao Xiao,Isaac Chung,Imene Kerboua,Jamie Stirling,Xin Zhang,Márton Kardos,Roman Solomatin,Noura Al Moubayed,Kenneth Enevoldsen,Niklas Muennighoff
発行日 2025-04-14 17:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MIEB: Massive Image Embedding Benchmark はコメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

要約

Native Multimodal Pre-Trainingパラダイムを備えたInterNVLシリーズの大幅な進歩であるInternVL3を紹介します。
視覚入力をサポートするマルチモーダル大手言語モデル(MLLM)にテキストのみの大型言語モデル(LLM)を適応させるのではなく、InterNVL3は、単一の貿易前の段階で多様なマルチモーダルデータと純粋なテキストコーパスの両方からマルチモーダルおよび言語的機能を共同で取得します。
この統一されたトレーニングパラダイムは、MLLMの従来の事後トレーニングパイプラインで一般的に遭遇する複雑さとアラインメントの課題に効果的に対処します。
パフォーマンスとスケーラビリティをさらに向上させるために、INTERNVL3には、可変視覚位置エンコーディング(V2PE)が組み込まれて、拡張されたマルチモーダルコンテキストをサポートし、監視付き微調整(SFT)や混合好みの最適化(MPO)などの高度なトレーニングテクニックを採用し、最適化されたトレーニングインフラストラクチャとともにテストタイムのスケーリング戦略を採用します。
広範な経験的評価は、InternVL3が幅広いマルチモーダルタスクで優れたパフォーマンスを提供することを示しています。
特に、InternVL3-78BはMMMUベンチマークで72.2のスコアを達成し、オープンソースMLLMの間で新しい最先端を設定します。
その機能は、ChatGPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなど、主要な独自モデルと非常に競争力があり、強力な純粋な能力を維持しています。
オープンサイエンスの原則を追求するために、トレーニングデータとモデルの重量の両方を公開して、次世代のMLLMのさらなる研究開発を促進します。

要約(オリジナル)

We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.

arxiv情報

著者 Jinguo Zhu,Weiyun Wang,Zhe Chen,Zhaoyang Liu,Shenglong Ye,Lixin Gu,Yuchen Duan,Hao Tian,Weijie Su,Jie Shao,Zhangwei Gao,Erfei Cui,Yue Cao,Yangzhou Liu,Weiye Xu,Hao Li,Jiahao Wang,Han Lv,Dengnian Chen,Songze Li,Yinan He,Tan Jiang,Jiapeng Luo,Yi Wang,Conghui He,Botian Shi,Xingcheng Zhang,Wenqi Shao,Junjun He,Yingtong Xiong,Wenwen Qu,Peng Sun,Penglong Jiao,Lijun Wu,Kaipeng Zhang,Huipeng Deng,Jiaye Ge,Kai Chen,Limin Wang,Min Dou,Lewei Lu,Xizhou Zhu,Tong Lu,Dahua Lin,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2025-04-14 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models はコメントを受け付けていません

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

要約

この論文では、基本的な質問に取り組んでいます。「潜在的な拡散モデルと、変分自動エンコーダー(VAE)トークン剤とともにエンドツーエンドの方法でトレーニングできますか?」
伝統的な深い学習の知恵は、可能な限りエンドツーエンドのトレーニングが望ましいことが多いことを決定します。
ただし、潜在的な拡散トランスの場合、標準拡散損失を使用したVAEと拡散モデルの両方のエンドツーエンドトレーニングが効果的であり、最終的なパフォーマンスに分解を引き起こすことさえあることが観察されています。
拡散損失は効果がないが、エンドツーエンドのトレーニングは、表現調整(REPA)損失を通じてロック解除できることを示しています。
その単純さにもかかわらず、提案されたトレーニングレシピ(Repa-E)は驚くべきパフォーマンスを示しています。
それぞれレパとバニラのトレーニングレシピよりも17倍以上の45倍以上の拡散モデルトレーニングをスピードアップします。
興味深いことに、RepA-Eを使用したエンドツーエンドのチューニングもVAE自体を改善することがわかります。
潜在スペース構造の改善と下流の生成パフォーマンスにつながります。
最終的なパフォーマンスに関しては、私たちのアプローチは新しい最先端を設定します。
Imagenet 256 x 256で分類器のないガイダンスを伴う場合となしで1.26および1.83のFIDを達成します。コードはhttps://end2end-diffusion.github.ioで入手できます。

要約(オリジナル)

In this paper we tackle a fundamental question: ‘Can we train latent diffusion models together with the variational auto-encoder (VAE) tokenizer in an end-to-end manner?’ Traditional deep-learning wisdom dictates that end-to-end training is often preferable when possible. However, for latent diffusion transformers, it is observed that end-to-end training both VAE and diffusion-model using standard diffusion-loss is ineffective, even causing a degradation in final performance. We show that while diffusion loss is ineffective, end-to-end training can be unlocked through the representation-alignment (REPA) loss — allowing both VAE and diffusion model to be jointly tuned during the training process. Despite its simplicity, the proposed training recipe (REPA-E) shows remarkable performance; speeding up diffusion model training by over 17x and 45x over REPA and vanilla training recipes, respectively. Interestingly, we observe that end-to-end tuning with REPA-E also improves the VAE itself; leading to improved latent space structure and downstream generation performance. In terms of final performance, our approach sets a new state-of-the-art; achieving FID of 1.26 and 1.83 with and without classifier-free guidance on ImageNet 256 x 256. Code is available at https://end2end-diffusion.github.io.

arxiv情報

著者 Xingjian Leng,Jaskirat Singh,Yunzhong Hou,Zhenchang Xing,Saining Xie,Liang Zheng
発行日 2025-04-14 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers はコメントを受け付けていません

Decoupled Diffusion Sparks Adaptive Scene Generation

要約

制御可能なシーンの生成は、自律運転のために多様なデータ収集のコストを大幅に削減できます。
以前の作業は、シーケンス全体を一度に除去するか、次のフレームを繰り返し予測することにより、トラフィックレイアウトの生成を予測の進行として定式化します。
ただし、完全なシーケンス除去はオンライン反応を妨げますが、後者の近視の次のフレーム予測には正確な目標ステートガイダンスがありません。
さらに、学習されたモデルは、オープンデータセットからの安全で順調な駆動行動の多数のために、複雑または挑戦的なシナリオを生成するのに苦労しています。
これらを克服するために、独立したノイズ状態を持つ細かいトークンの順序と挑戦的なシナリオの両方をシミュレートすることにより、反応性と目標条件付けを改善する分離されたシーン生成フレームワークであるNexusを紹介します。
分離されたパイプラインの中核は、部分的なノイズマスキングトレーニング戦略の統合と、除去プロセス全体でタイムリーな環境の更新を保証するノイズ認識スケジュールです。
挑戦的なシナリオ生成を補完するために、複雑なコーナーケースで構成されるデータセットを収集します。
カットイン、突然のブレーキ、衝突などのリスクの高い相互作用を含む、540時間のシミュレートされたデータをカバーしています。
Nexusは、反応性と目標指向を維持しながら、優れた生成リアリズムを達成し、変位エラーが40%減少します。
さらに、Nexusがデータの増強を通じて閉ループ計画を20%改善し、安全性の高いデータ生成における能力を紹介することを実証します。

要約(オリジナル)

Controllable scene generation could reduce the cost of diverse data collection substantially for autonomous driving. Prior works formulate the traffic layout generation as predictive progress, either by denoising entire sequences at once or by iteratively predicting the next frame. However, full sequence denoising hinders online reaction, while the latter’s short-sighted next-frame prediction lacks precise goal-state guidance. Further, the learned model struggles to generate complex or challenging scenarios due to a large number of safe and ordinal driving behaviors from open datasets. To overcome these, we introduce Nexus, a decoupled scene generation framework that improves reactivity and goal conditioning by simulating both ordinal and challenging scenarios from fine-grained tokens with independent noise states. At the core of the decoupled pipeline is the integration of a partial noise-masking training strategy and a noise-aware schedule that ensures timely environmental updates throughout the denoising process. To complement challenging scenario generation, we collect a dataset consisting of complex corner cases. It covers 540 hours of simulated data, including high-risk interactions such as cut-in, sudden braking, and collision. Nexus achieves superior generation realism while preserving reactivity and goal orientation, with a 40% reduction in displacement error. We further demonstrate that Nexus improves closed-loop planning by 20% through data augmentation and showcase its capability in safety-critical data generation.

arxiv情報

著者 Yunsong Zhou,Naisheng Ye,William Ljungbergh,Tianyu Li,Jiazhi Yang,Zetong Yang,Hongzi Zhu,Christoffer Petersson,Hongyang Li
発行日 2025-04-14 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Decoupled Diffusion Sparks Adaptive Scene Generation はコメントを受け付けていません

DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting

要約

Monocular Videosから信頼できるアニメーション可能な人間のアバターを作成することは、さまざまなアプリケーションを備えた研究トピックの高まりです。
バーチャルリアリティ、スポーツ、ビデオゲーム。
以前の作品は、神経フィールドと物理ベースのレンダリング(PBR)を利用して、人間のアバターのジオメトリと解き角の外観特性を推定します。
ただし、これらの方法の欠点の1つは、高価なモンテカルロレイトレースによるレンダリング速度が遅いことです。
この問題に取り組むために、私たちは知識を暗黙の神経分野(教師)から蒸留することを提案しました。
光線追跡を避けるために、PBRの外観にスプリットサム近似を使用します。
また、シャドウ計算のための新しい部分的な周囲閉塞プローブを提案します。
シャドウ予測は、これらのプローブをピクセルごとに1回だけクエリすることで達成されます。これにより、アバターのリアルタイムの学習への道が開かれます。
これらの手法を組み合わせた手法は、高品質の再生結果を実現し、現実的な影の効果をもたらします。
私たちの実験は、提案されている学生モデルが教師モデルで同等またはさらに良い再生結果を達成し、推論時間で370倍高速であり、67 fpsのレンダリング速度を達成することを示しています。

要約(オリジナル)

Creating relightable and animatable human avatars from monocular videos is a rising research topic with a range of applications, e.g. virtual reality, sports, and video games. Previous works utilize neural fields together with physically based rendering (PBR), to estimate geometry and disentangle appearance properties of human avatars. However, one drawback of these methods is the slow rendering speed due to the expensive Monte Carlo ray tracing. To tackle this problem, we proposed to distill the knowledge from implicit neural fields (teacher) to explicit 2D Gaussian splatting (student) representation to take advantage of the fast rasterization property of Gaussian splatting. To avoid ray-tracing, we employ the split-sum approximation for PBR appearance. We also propose novel part-wise ambient occlusion probes for shadow computation. Shadow prediction is achieved by querying these probes only once per pixel, which paves the way for real-time relighting of avatars. These techniques combined give high-quality relighting results with realistic shadow effects. Our experiments demonstrate that the proposed student model achieves comparable or even better relighting results with our teacher model while being 370 times faster at inference time, achieving a 67 FPS rendering speed.

arxiv情報

著者 Zeren Jiang,Shaofei Wang,Siyu Tang
発行日 2025-04-14 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting はコメントを受け付けていません

FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation

要約

最近のオープンボキャブラリーセマンティックセグメンテーション(OVSS)モデルは、クリップモデルをセグメンテーションに拡張しながら、複数のテンプレート(の写真、<クラス>のスケッチなど)の使用を維持し、クラスの平均テキスト埋め込みを構築し、分類子として作用します。
この論文では、この現状に挑戦し、OVSのテンプレートの影響を調査します。
経験的には、各クラスについて、従来の平均分類器を大幅に上回る単一テンプレート分類器が存在することを観察します。
それらをクラスの専門家と呼びます。
非標識画像へのアクセスが含まれており、トレーニングが関係しないことを考えると、単一テンプレート分類子のクラスワイズ予測エントロピーを活用して、これらの専門家を推定し、クラスワスの専門家として最も低いエントロピーを生成する専門家を選択します。
特定のクラスに特化したすべての専門家は、新たに提案された融合方法で協力して、より正確なOVSS予測を生成します。
私たちのプラグアンドプレイ方法であるコーティングされたフロスは、既存のOVSSメソッドを直交し、補完するものであり、ラベルや追加のトレーニングなしでOVSを体系的に改善する「無料のランチ」を提供します。
広範な実験は、FlossがさまざまなOVSSベンチマークで常に最先端の方法を高めることを示しています。
さらに、選択したエキスパートテンプレートは、あるデータセットから同じセマンティックカテゴリを共有する他のデータセットまでよく一般化できますが、分布シフトを示しています。
さらに、低データレジームの下で満足のいく改善を取得します。ここでは、いくつかのラベルのない画像のみが利用可能です。
私たちのコードは、https://github.com/yasserben/flossで入手できます。

要約(オリジナル)

Recent Open-Vocabulary Semantic Segmentation (OVSS) models extend the CLIP model to segmentation while maintaining the use of multiple templates (e.g., a photo of , a sketch of a , etc.) for constructing class-wise averaged text embeddings, acting as a classifier. In this paper, we challenge this status quo and investigate the impact of templates for OVSS. Empirically, we observe that for each class, there exist single-template classifiers significantly outperforming the conventional averaged classifier. We refer to them as class-experts. Given access to unlabeled images and without any training involved, we estimate these experts by leveraging the class-wise prediction entropy of single-template classifiers, selecting as class-wise experts those which yield the lowest entropy. All experts, each specializing in a specific class, collaborate in a newly proposed fusion method to generate more accurate OVSS predictions. Our plug-and-play method, coined FLOSS, is orthogonal and complementary to existing OVSS methods, offering a ”free lunch” to systematically improve OVSS without labels and additional training. Extensive experiments demonstrate that FLOSS consistently boosts state-of-the-art methods on various OVSS benchmarks. Moreover, the selected expert templates can generalize well from one dataset to others sharing the same semantic categories, yet exhibiting distribution shifts. Additionally, we obtain satisfactory improvements under a low-data regime, where only a few unlabeled images are available. Our code is available at https://github.com/yasserben/FLOSS .

arxiv情報

著者 Yasser Benigmim,Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Raoul de Charette
発行日 2025-04-14 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation はコメントを受け付けていません

RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments

要約

制約された環境での航空操作者のモーション計画は、通常、既知の環​​境に限定されているか、マルチローターの環境に簡素化されており、適応性が低く、過度に保守的な軌跡につながります。
このホワイトペーパーでは、RINGO:ガイドの軌跡を備えたリアルタイムナビゲーションは、空中マニピュレーターが不明な環境をリアルタイムでナビゲートできるようにする新しい計画フレームワークです。
提案された方法は、マルチローターとエンドエフェクターの両方の位置を同時に考慮します。
事前に取得されたマルチローター軌道は、ガイドの参照として機能し、エンドエフェクターが滑らかで衝突のない、ワークスペースに適合性のある軌跡を生成できるようにします。
Bスプライン曲線の凸式船体特性を活用して、軌道が到達可能なワークスペース内に残っていることを理論的に保証します。
私たちの知る限り、これは未知の環境での空中マニピュレーターのリアルタイムナビゲーションを可能にする最初の作業です。
シミュレーションと実験結果は、提案された方法の有効性を示しています。
提案された方法は、マルチローターのみを考慮するアプローチよりも保守的な軌跡が少なくなります。

要約(オリジナル)

Motion planning for aerial manipulators in constrained environments has typically been limited to known environments or simplified to that of multi-rotors, which leads to poor adaptability and overly conservative trajectories. This paper presents RINGO: Real-time Navigation with a Guiding Trajectory, a novel planning framework that enables aerial manipulators to navigate unknown environments in real time. The proposed method simultaneously considers the positions of both the multi-rotor and the end-effector. A pre-obtained multi-rotor trajectory serves as a guiding reference, allowing the end-effector to generate a smooth, collision-free, and workspace-compatible trajectory. Leveraging the convex hull property of B-spline curves, we theoretically guarantee that the trajectory remains within the reachable workspace. To the best of our knowledge, this is the first work that enables real-time navigation of aerial manipulators in unknown environments. The simulation and experimental results show the effectiveness of the proposed method. The proposed method generates less conservative trajectories than approaches that consider only the multi-rotor.

arxiv情報

著者 Zhaopeng Zhang,Shizhen Wu,Chenfeng Guo,Yongchun Fang,Jianda Han,Xiao Liang
発行日 2025-04-14 16:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約

マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化のパターンを発見することを目的として、さまざまな時期に数千万の画像がキャプチャされた大きなデータベースを分析します。
具体的には、一定の期間にわたって都市全体で頻繁に共発生する変化(「傾向」)を獲得することを目指しています。
以前の視覚分析とは異なり、分析は、事前に決められたターゲット被験者やトレーニングラベルなしで、オープンエンドのクエリ(たとえば、「都市の頻繁な種類の変更は何ですか?」)に答えます。
これらのプロパティは、以前の学習ベースまたは監視なしの視覚分析ツールを不適切にキャストします。
MLLMSを、オープンエンドのセマンティック理解機能のための新しいツールとして識別します。
しかし、私たちのデータセットは、MLLMがコンテキストとして摂取するには4桁大きすぎます。
そこで、大規模な視覚分析の問題をより扱いやすいサブ問題に分解するボトムアップ手順を導入します。
各サブ問題に対してMLLMベースのソリューションを慎重に設計します。
私たちのシステムでの実験とアブレーション研究中、私たちはそれがベースラインを大幅に上回ることがわかり、大都市で撮影された画像から興味深いトレンドを発見することができます(例:「屋外ダイニングの追加」、「青」など)。
https://boyangdeng.com/visual-chroniclesでより多くの結果とインタラクティブなデモをご覧ください。

要約(オリジナル)

We present a system using Multimodal LLMs (MLLMs) to analyze a large database with tens of millions of images captured at different times, with the aim of discovering patterns in temporal changes. Specifically, we aim to capture frequent co-occurring changes (‘trends’) across a city over a certain period. Unlike previous visual analyses, our analysis answers open-ended queries (e.g., ‘what are the frequent types of changes in the city?’) without any predetermined target subjects or training labels. These properties cast prior learning-based or unsupervised visual analysis tools unsuitable. We identify MLLMs as a novel tool for their open-ended semantic understanding capabilities. Yet, our datasets are four orders of magnitude too large for an MLLM to ingest as context. So we introduce a bottom-up procedure that decomposes the massive visual analysis problem into more tractable sub-problems. We carefully design MLLM-based solutions to each sub-problem. During experiments and ablation studies with our system, we find it significantly outperforms baselines and is able to discover interesting trends from images captured in large cities (e.g., ‘addition of outdoor dining,’, ‘overpass was painted blue,’ etc.). See more results and interactive demos at https://boyangdeng.com/visual-chronicles.

arxiv情報

著者 Boyang Deng,Songyou Peng,Kyle Genova,Gordon Wetzstein,Noah Snavely,Leonidas Guibas,Thomas Funkhouser
発行日 2025-04-14 17:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません

SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow

要約

以降、SWEエージェントであるAuto-Recresusision LLMベースのソフトウェアエンジニアリング(SWE)エージェントは、GITHUB発行解決を含む実際のコーディングの課題について大きな進歩を遂げました(SWE-Benchの60%以上)。
SWEエージェントは、推論、環境の相互作用、自己反省の組み合わせを使用して、問題を解決して「軌跡」を生成します。
SWEエージェントの軌跡の分析は、LLMシーケンスの長さ(場合によっては128Kを超えることもある)だけでなく、LLMとエージェントが管理する環境との間の比較的長期にわたる相互作用を伴うためだけでなく、困難です。
エージェントエラーの場合、その範囲を解読し、見つけ、理解するのは難しい場合があります。
同様に、複数の実行または実験にわたって改善または回帰を追跡することは困難です。
これらのSWEエージェントが最先端に到達することには多くの研究が行われていますが、エージェントの出力を分析および視覚化するのに役立つツールの作成には、はるかに少ない焦点が置かれています。
Seaview:Software Engineering Agent Visual Interface for Enhanced Workflowと呼ばれる新しいツールを提案します。これは、Swe-Agentの研究者が実験を視覚化および検査するのを支援するビジョンを備えています。
Seaviewの新しいメカニズムは、さまざまなハイパーパラメーターまたはLLMと実験的実行を比較し、LLMまたは環境関連の問題を迅速に理解するのに役立ちます。
ユーザー調査に基づいて、経験豊富な研究者は、Seaviewが提供する情報を収集するために10〜30分を費やしますが、経験がほとんどない研究者は実験を診断するために30分から1時間を費やすことができます。

要約(オリジナル)

Auto-regressive LLM-based software engineering (SWE) agents, henceforth SWE agents, have made tremendous progress (>60% on SWE-Bench Verified) on real-world coding challenges including GitHub issue resolution. SWE agents use a combination of reasoning, environment interaction and self-reflection to resolve issues thereby generating ‘trajectories’. Analysis of SWE agent trajectories is difficult, not only as they exceed LLM sequence length (sometimes, greater than 128k) but also because it involves a relatively prolonged interaction between an LLM and the environment managed by the agent. In case of an agent error, it can be hard to decipher, locate and understand its scope. Similarly, it can be hard to track improvements or regression over multiple runs or experiments. While a lot of research has gone into making these SWE agents reach state-of-the-art, much less focus has been put into creating tools to help analyze and visualize agent output. We propose a novel tool called SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow, with a vision to assist SWE-agent researchers to visualize and inspect their experiments. SeaView’s novel mechanisms help compare experimental runs with varying hyper-parameters or LLMs, and quickly get an understanding of LLM or environment related problems. Based on our user study, experienced researchers spend between 10 and 30 minutes to gather the information provided by SeaView, while researchers with little experience can spend between 30 minutes to 1 hour to diagnose their experiment.

arxiv情報

著者 Timothy Bula,Saurabh Pujar,Luca Buratti,Mihaela Bornea,Avirup Sil
発行日 2025-04-14 16:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow はコメントを受け付けていません

Analyzing 16,193 LLM Papers for Fun and Profits

要約

大規模な言語モデル(LLM)は、コンピューターサイエンスの研究の景観を再構築しており、多様な会議や分野で研究優先順位の大幅な変化を促進しています。
この研究は、過去6年間(2019-2024)における77の最高層コンピューターサイエンス会議でのLLM関連論文の出版傾向の包括的な分析を提供します。
この分析には、4つの異なる観点からアプローチします。(1)LLM研究が主要な会議内でトピックシフトをどのように促進しているかを調査します。
(2)トピックモデリングアプローチを採用して、LLM関連のトピック成長のさまざまな分野を特定し、さまざまな会議で懸念のトピックを明らかにします。
(3)学術および産業機関の明確な貢献パターンを探求します。
(4)LLM開発軌跡に対する国家起源の影響を研究します。
これらの多様な分析角からの調査結果を統合すると、LLM研究エコシステムのダイナミクスと進化を明らかにする10の重要な洞察を導き出します。

要約(オリジナル)

Large Language Models (LLMs) are reshaping the landscape of computer science research, driving significant shifts in research priorities across diverse conferences and fields. This study provides a comprehensive analysis of the publication trend of LLM-related papers in 77 top-tier computer science conferences over the past six years (2019-2024). We approach this analysis from four distinct perspectives: (1) We investigate how LLM research is driving topic shifts within major conferences. (2) We adopt a topic modeling approach to identify various areas of LLM-related topic growth and reveal the topics of concern at different conferences. (3) We explore distinct contribution patterns of academic and industrial institutions. (4) We study the influence of national origins on LLM development trajectories. Synthesizing the findings from these diverse analytical angles, we derive ten key insights that illuminate the dynamics and evolution of the LLM research ecosystem.

arxiv情報

著者 Zhiqiu Xia,Lang Zhu,Bingzhe Li,Feng Chen,Qiannan Li,Hang Liu
発行日 2025-04-14 13:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL | Analyzing 16,193 LLM Papers for Fun and Profits はコメントを受け付けていません