Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

要約

ビジョン言語モデル(VLMS)の迅速な発展には、厳密で信頼できる評価が必要です。
ただし、現在の視覚的な質問応答(VQA)ベンチマークは、多くの場合、自然言語応答の変動性のために正確な評価を困難にしていることがよくあります。
これに対処するために、これらのオープンエンドの質問を自動的に複数選択形式に変換するエージェントフレームワークであるAutoconverterを紹介し、客観的な評価を可能にしながら、費用のかかる複数選択の質問作成プロセスを減らします。
私たちの実験は、自動コンファーターが正確で挑戦的な複数選択の質問を生成できることを示しており、VLMは人間が作成した質問と比較して、これらの質問について一貫して同様または低い精度を示しています。
AutoConverterを使用して、20の既存のVQAデータセットを合計9,018の質問に変換することによって作成されたベンチマークであるVMCBenchを構築します。
VMCBenchで33の最先端のVLMを包括的に評価し、スケーラブルで一貫性のある、再現可能なVLM評価の新しい標準を設定します。

要約(オリジナル)

The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly multiple-choice question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.

arxiv情報

著者 Yuhui Zhang,Yuchang Su,Yiming Liu,Xiaohan Wang,James Burgess,Elaine Sui,Chenyu Wang,Josiah Aklilu,Alejandro Lozano,Anjiang Wei,Ludwig Schmidt,Serena Yeung-Levy
発行日 2025-04-09 17:25:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation はコメントを受け付けていません

Beyond the Hype: A dispassionate look at vision-language models in medical scenario

要約

大規模な視覚言語モデル(LVLMS)の最近の進歩は、多様なタスク全体で顕著な能力を実証しており、AIコミュニティで大きな注目を集めています。
ただし、医学などの特殊なドメインにおけるパフォーマンスと信頼性は不十分なままです。
特に、ほとんどの評価は、LVLMSの詳細な特性を無視しながら、マルチモダリティデータの単純な視覚的質問(VQA)に基づいてVLMSの評価で過度に集中しています。
この研究では、既存のLVLMを包括的に評価するために、新しい放射線学的な視覚的理解と質問に答えるベンチマークであるRadvuqaを紹介します。
Radvuqaは、主に5つの次元にわたってLVLMを検証します。1)解剖学的理解、生物学的構造を視覚的に識別するモデルの能力を評価します。
2)マルチモーダルの理解。これには、希望する結果を生み出すための言語的および視覚的指示を解釈する能力が含まれます。
3)定量的および空間的推論は、モデルの空間的認識と視覚的および言語情報を組み合わせる際の習熟度を評価します。
4)生理学的知識、臓器とシステムの機能とメカニズムを理解するモデルの能力を測定する。
5)堅牢性。これは、非整合および合成データに対するモデルの能力を評価します。
結果は、一般化されたLVLMSと医療固有のLVLMの両方が、マルチモーダルの理解と定量的推論能力を備えた重大な欠陥があることを示しています。
私たちの調査結果は、既存のLVLMと臨床医の間の大きなギャップを明らかにし、より堅牢でインテリジェントなLVLMの緊急の必要性を強調しています。
このコードは、https://github.com/nandayang/radvuqaで入手できます

要約(オリジナル)

Recent advancements in Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities across diverse tasks, garnering significant attention in AI communities. However, their performance and reliability in specialized domains such as medicine remain insufficiently assessed. In particular, most assessments over-concentrate on evaluating VLMs based on simple Visual Question Answering (VQA) on multi-modality data, while ignoring the in-depth characteristics of LVLMs. In this study, we introduce RadVUQA, a novel Radiological Visual Understanding and Question Answering benchmark, to comprehensively evaluate existing LVLMs. RadVUQA mainly validates LVLMs across five dimensions: 1) Anatomical understanding, assessing the models’ ability to visually identify biological structures; 2) Multimodal comprehension, which involves the capability of interpreting linguistic and visual instructions to produce desired outcomes; 3) Quantitative and spatial reasoning, evaluating the models’ spatial awareness and proficiency in combining quantitative analysis with visual and linguistic information; 4) Physiological knowledge, measuring the models’ capability to comprehend functions and mechanisms of organs and systems; and 5) Robustness, which assesses the models’ capabilities against unharmonized and synthetic data. The results indicate that both generalized LVLMs and medical-specific LVLMs have critical deficiencies with weak multimodal comprehension and quantitative reasoning capabilities. Our findings reveal the large gap between existing LVLMs and clinicians, highlighting the urgent need for more robust and intelligent LVLMs. The code is available at https://github.com/Nandayang/RadVUQA

arxiv情報

著者 Yang Nan,Huichi Zhou,Xiaodan Xing,Guang Yang
発行日 2025-04-09 17:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Beyond the Hype: A dispassionate look at vision-language models in medical scenario はコメントを受け付けていません

Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation

要約

ビジョン言語モデル(VLMS)の評価は、主に英語のベンチマークに依存しており、多言語と多文化の両方のカバレッジの両方に大きなギャップを残しています。
多言語のベンチマークはサイズと言語の両方で拡張されていますが、多くは英語のデータセットの翻訳に依存しており、文化的なニュアンスをキャプチャできません。
この作業では、視覚言語モデルの多言語評価のために、これまでで最も包括的な試験ベンチマークとして万華鏡を提案します。
KaleIdoscopeは、多様な言語と視覚入力を超えてVLMを評価するために設計された大規模で言語内のマルチモーダルベンチマークです。
万華鏡は18の言語と14の異なる被験者をカバーし、合計20,911の複数選択の質問に相当します。
世界中の多様な研究者グループとのオープンサイエンスコラボレーションを通じて構築された万華鏡は、言語的および文化的信頼性を保証します。
トップパフォーマンスの多言語ビジョン言語モデルを評価し、低リソース言語や複雑なマルチモーダルシナリオではパフォーマンスが低いことがわかります。
私たちの結果は、文化的に包括的なマルチモーダル評価フレームワークの進歩の必要性を強調しています。

要約(オリジナル)

The evaluation of vision-language models (VLMs) has mainly relied on English-language benchmarks, leaving significant gaps in both multilingual and multicultural coverage. While multilingual benchmarks have expanded, both in size and languages, many rely on translations of English datasets, failing to capture cultural nuances. In this work, we propose Kaleidoscope, as the most comprehensive exam benchmark to date for the multilingual evaluation of vision-language models. Kaleidoscope is a large-scale, in-language multimodal benchmark designed to evaluate VLMs across diverse languages and visual inputs. Kaleidoscope covers 18 languages and 14 different subjects, amounting to a total of 20,911 multiple-choice questions. Built through an open science collaboration with a diverse group of researchers worldwide, Kaleidoscope ensures linguistic and cultural authenticity. We evaluate top-performing multilingual vision-language models and find that they perform poorly on low-resource languages and in complex multimodal scenarios. Our results highlight the need for progress on culturally inclusive multimodal evaluation frameworks.

arxiv情報

著者 Israfel Salazar,Manuel Fernández Burda,Shayekh Bin Islam,Arshia Soltani Moakhar,Shivalika Singh,Fabian Farestam,Angelika Romanou,Danylo Boiko,Dipika Khullar,Mike Zhang,Dominik Krzemiński,Jekaterina Novikova,Luísa Shimabucoro,Joseph Marvin Imperial,Rishabh Maheshwary,Sharad Duwal,Alfonso Amayuelas,Swati Rajwal,Jebish Purbey,Ahmed Ruby,Nicholas Popovič,Marek Suppa,Azmine Toushik Wasi,Ram Mohan Rao Kadiyala,Olga Tsymboi,Maksim Kostritsya,Bardia Soltani Moakhar,Gabriel da Costa Merlin,Otávio Ferracioli Coletti,Maral Jabbari Shiviari,MohammadAmin farahani fard,Silvia Fernandez,María Grandury,Dmitry Abulkhanov,Drishti Sharma,Andre Guarnier De Mitri,Leticia Bossatto Marchezi,Johan Obando-Ceron,Nazar Kohut,Beyza Ermis,Desmond Elliott,Enzo Ferrante,Sara Hooker,Marzieh Fadaee
発行日 2025-04-09 17:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation はコメントを受け付けていません

LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions

要約

オブジェクトの形状と変形可能なオブジェクト内の内部構造の位置を正確に決定することは、ロボット生検などの正確なターゲティングを必要とする医療タスクにとって重要です。
変形可能なオブジェクトの正確な低遅延理解の方法であるLudoを紹介します。
Ludoは、占有ネットワークを使用して30ミリ秒未満の単一ビューポイントクラウド観測から、内部構造を含む変形状態のオブジェクトを再構築します。
Ludoは、その予測の不確実性の推定値を提供します。
さらに、入力観測の主要な機能を強調することにより、説明可能性を提供します。
不確実性と説明可能性の両方は、外科的介入などの安全性の高いアプリケーションにとって重要です。
変形可能なオブジェクトにおける関心のある内部領域(ROI)の自律的なターゲティングに対するLudoの能力を示します。
%さらに、LUDOは、その予測の不確実性の推定値と説明可能性を提供します。どちらも、外科的介入などの安全性が重要なアプリケーションで重要です。
現実世界のロボット実験でLUDOを評価し、変形可能なオブジェクト内でさまざまなROIに穴を開けるために98.9%の成功率を達成します。
Ludoは、変形可能な登録方法を必要とせずに、変形可能なオブジェクトと相互作用する可能性を実証しています。

要約(オリジナル)

Accurately determining the shape of objects and the location of their internal structures within deformable objects is crucial for medical tasks that require precise targeting, such as robotic biopsies. We introduce LUDO, a method for accurate low-latency understanding of deformable objects. LUDO reconstructs objects in their deformed state, including their internal structures, from a single-view point cloud observation in under 30 ms using occupancy networks. LUDO provides uncertainty estimates for its predictions. Additionally, it provides explainability by highlighting key features in its input observations. Both uncertainty and explainability are important for safety-critical applications such as surgical interventions. We demonstrate LUDO’s abilities for autonomous targeting of internal regions of interest (ROIs) in deformable objects. %Additionally, LUDO provides uncertainty estimates and explainability for its predictions, both of which are important in safety-critical applications such as surgical interventions. We evaluate LUDO in real-world robotic experiments, achieving a success rate of 98.9% for puncturing various ROIs inside deformable objects. LUDO demonstrates the potential to interact with deformable objects without the need for deformable registration methods.

arxiv情報

著者 Pit Henrich,Franziska Mathis-Ullrich,Paul Maria Scheikl
発行日 2025-04-09 17:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions はコメントを受け付けていません

Detecting AI-generated Artwork

要約

人工知能(AI)によって生成されたアートワークの効率と品質は、人間の芸術家に新しい懸念と課題を生み出しています。
特に、生成AIの最近の改善により、人々が人間で生成された芸術とAI生成芸術を区別することが困難になりました。
この研究では、AI生成されたアートワークを人間生成アートワークと区別する際のさまざまなタイプの機械学習(ML)およびディープラーニング(DL)モデルの潜在的な有用性を検討します。
私たちは、バロック、キュービズム、表現主義の3つの挑戦的な芸術スタイルに焦点を当てています。
テストする学習モデルは、ロジスティック回帰(LR)、サポートベクターマシン(SVM)、多層パーセプロン(MLP)、および畳み込みニューラルネットワーク(CNN)です。
私たちの最良の実験結果は、6つのクラスで0.8208のマルチクラス精度と、人間が生成された芸術と際立ったAIを区別するというバイナリ分類問題について、0.9758の印象的な精度をもたらします。

要約(オリジナル)

The high efficiency and quality of artwork generated by Artificial Intelligence (AI) has created new concerns and challenges for human artists. In particular, recent improvements in generative AI have made it difficult for people to distinguish between human-generated and AI-generated art. In this research, we consider the potential utility of various types of Machine Learning (ML) and Deep Learning (DL) models in distinguishing AI-generated artwork from human-generated artwork. We focus on three challenging artistic styles, namely, baroque, cubism, and expressionism. The learning models we test are Logistic Regression (LR), Support Vector Machine (SVM), Multilayer Perceptron (MLP), and Convolutional Neural Network (CNN). Our best experimental results yield a multiclass accuracy of 0.8208 over six classes, and an impressive accuracy of 0.9758 for the binary classification problem of distinguishing AI-generated from human-generated art.

arxiv情報

著者 Meien Li,Mark Stamp
発行日 2025-04-09 17:50:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Detecting AI-generated Artwork はコメントを受け付けていません

SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills

要約

複雑な環境で生き残り、繁栄するために、人間は環境探査、経験の階層的な抽象化、再利用可能なスキルへの階層的な抽象化、および増え続けるスキルレパートリーの共同構築を通じて、洗練された自己改善メカニズムを進化させました。
最近の進歩にもかかわらず、自律的なWebエージェントは依然として重要な自己改善能力を欠いており、手続き上の知識の抽象化、精製スキル、スキル構成に苦しんでいます。
この作業では、APIとして再利用可能なスキルを自律的に合成することによりエージェントが自己改善できるようにするスキル中心のフレームワークであるSkillWeaverを紹介します。
新しいウェブサイトを考慮して、エージェントはスキルを自律的に発見し、練習のためにそれらを実行し、練習体験を堅牢なAPIに蒸留します。
反復探査により、軽量のプラグアンドプレイAPIのライブラリが継続的に拡張され、エージェントの機能が大幅に向上します。
WebArenaおよび実際のWebサイトでの実験は、SkillWeaverの有効性を示しており、それぞれ31.8%と39.8%の相対的な成功率の改善を達成しています。
さらに、強力なエージェントによって合成されたAPIは、転送可能なスキルを通じてより弱いエージェントを大幅に強化し、WebArenaで最大54.3%の改善をもたらします。
これらの結果は、さまざまなウェブエージェント間でシームレスに共有できるAPIへの多様なWebサイトの相互作用を磨くことの有効性を示しています。

要約(オリジナル)

To survive and thrive in complex environments, humans have evolved sophisticated self-improvement mechanisms through environment exploration, hierarchical abstraction of experiences into reuseable skills, and collaborative construction of an ever-growing skill repertoire. Despite recent advancements, autonomous web agents still lack crucial self-improvement capabilities, struggling with procedural knowledge abstraction, refining skills, and skill composition. In this work, we introduce SkillWeaver, a skill-centric framework enabling agents to self-improve by autonomously synthesizing reusable skills as APIs. Given a new website, the agent autonomously discovers skills, executes them for practice, and distills practice experiences into robust APIs. Iterative exploration continually expands a library of lightweight, plug-and-play APIs, significantly enhancing the agent’s capabilities. Experiments on WebArena and real-world websites demonstrate the efficacy of SkillWeaver, achieving relative success rate improvements of 31.8% and 39.8%, respectively. Additionally, APIs synthesized by strong agents substantially enhance weaker agents through transferable skills, yielding improvements of up to 54.3% on WebArena. These results demonstrate the effectiveness of honing diverse website interactions into APIs, which can be seamlessly shared among various web agents.

arxiv情報

著者 Boyuan Zheng,Michael Y. Fatemi,Xiaolong Jin,Zora Zhiruo Wang,Apurva Gandhi,Yueqi Song,Yu Gu,Jayanth Srinivasa,Gaowen Liu,Graham Neubig,Yu Su
発行日 2025-04-09 17:51:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills はコメントを受け付けていません

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

要約

カメラの軌跡の設計は、ビデオ制作において重要な役割を果たし、監督の意図を伝え、視覚的なストーリーテリングを強化するための基本的なツールとして機能します。
映画撮影では、写真撮影の監督は、表現力豊かで意図的なフレーミングを実現するために、カメラの動きを細心の注意を払って作り上げます。
ただし、カメラの軌道生成の既存の方法は限られたままです。従来のアプローチは、幾何学的最適化または手作りの手続き型システムに依存していますが、最近の学習ベースの方法は、しばしば構造的バイアスを継承したり、テキストの整合を欠いたりして、創造的な統合を制約します。
この作業では、芸術的で表現力豊かなカメラの軌跡を生成するために、写真のディレクターの専門知識に触発された自動回帰モデルを紹介します。
最初に、フリーモービングカメラの軌跡、深さマップ、特定の動きの詳細なキャプション、シーンとの相互作用、および監督の意図を備えた29Kの実世界のショットを含む大規模なマルチモーダルデータセットであるDataDopを紹介します。
包括的で多様なデータベースのおかげで、テキストガイダンスとRGBD入力に基づいた高品質のコンテキスト対応カメラの移動生成のために、自動エレンジャリング、デコーダーのみの変圧器をさらに訓練します。
広範な実験では、既存の方法と比較して、ゲンドップはより良い制御可能性、より細かい粒子の調整、およびより高い運動安定性を提供することが示されています。
私たちのアプローチは、学習ベースの映画撮影の新しい基準を確立し、カメラ制御と映画制作の将来の進歩への道を開いていると考えています。
当社のプロジェクトWebサイト:https://kszpxxzmc.github.io/gendop/。

要約(オリジナル)

Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.

arxiv情報

著者 Mengchen Zhang,Tong Wu,Jing Tan,Ziwei Liu,Gordon Wetzstein,Dahua Lin
発行日 2025-04-09 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography はコメントを受け付けていません

OmniCaptioner: One Captioner to Rule Them All

要約

Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわたって微細なテキストの説明を生成するための多目的な視覚的なキャプションフレームワークです。
特定の画像タイプ(自然画像や幾何学的なビジュアルなど)に限定された以前の方法とは異なり、私たちのフレームワークは、自然な画像、視覚的なテキスト(ポスター、UIS、教科書など)、および構造化されたビジュアル(ドキュメント、表、チャートなど)のキャプションのための統一されたソリューションを提供します。
低レベルのピクセル情報を意味的に豊富なテキスト表現に変換することにより、私たちのフレームワークは視覚的モダリティとテキストモダリティのギャップを埋めます。
私たちの結果は、次の3つの重要な利点を強調しています。(i)LLMSによる視覚的推論の強化。視覚モダリティの長いコンテキストキャプションは、マルチモーダルシナリオで効果的にLLMS、特にDeepSeek-R1シリーズを強化する。
(ii)画像生成の改善。詳細なキャプションがテキストから画像の生成や画像変換などのタスクを改善する。
(iii)効率的な監視された微調整(SFT)。これにより、データが少ないほど速い収束が可能になります。
私たちは、Omnicaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新しい視点を提供できると考えています。

要約(オリジナル)

We propose OmniCaptioner, a versatile visual captioning framework for generating fine-grained textual descriptions across a wide variety of visual domains. Unlike prior methods limited to specific image types (e.g., natural images or geometric visuals), our framework provides a unified solution for captioning natural images, visual text (e.g., posters, UIs, textbooks), and structured visuals (e.g., documents, tables, charts). By converting low-level pixel information into semantically rich textual representations, our framework bridges the gap between visual and textual modalities. Our results highlight three key advantages: (i) Enhanced Visual Reasoning with LLMs, where long-context captions of visual modalities empower LLMs, particularly the DeepSeek-R1 series, to reason effectively in multimodal scenarios; (ii) Improved Image Generation, where detailed captions improve tasks like text-to-image generation and image transformation; and (iii) Efficient Supervised Fine-Tuning (SFT), which enables faster convergence with less data. We believe the versatility and adaptability of OmniCaptioner can offer a new perspective for bridging the gap between language and visual modalities.

arxiv情報

著者 Yiting Lu,Jiakang Yuan,Zhen Li,Shitian Zhao,Qi Qin,Xinyue Li,Le Zhuo,Licheng Wen,Dongyang Liu,Yuewen Cao,Xiangchao Yan,Xin Li,Botian Shi,Tao Chen,Zhibo Chen,Lei Bai,Bo Zhang,Peng Gao
発行日 2025-04-09 17:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | OmniCaptioner: One Captioner to Rule Them All はコメントを受け付けていません

Are We Done with Object-Centric Learning?

要約

オブジェクト中心の学習(OCL)は、シーン内の他のオブジェクトまたは背景キューから分離されたオブジェクトのみをコードする表現を学習しようとしています。
このアプローチは、分散分布(OOD)一般化、サンプル効率の高い組成、構造化環境のモデリングなど、さまざまな目的を支えています。
ほとんどの研究は、監視されていないオブジェクトの発見を使用して評価された表現空間の個別のスロットにオブジェクトを分離する監視されていないメカニズムの開発に焦点を当てています。
ただし、最近のサンプル効率の高いセグメンテーションモデルを使用すると、ピクセル空間内のオブジェクトを分離して独立してエンコードできます。
これにより、OODオブジェクトのディスカバリーベンチマークで驚くべきゼロショットパフォーマンスが実現され、ファンデーションモデルにスケーラブルであり、すぐに使用できるスロットを扱うことができます。
したがって、オブジェクト中心の表現を取得するためのOCLメソッドの目標は、主に達成されています。
この進歩にもかかわらず、重要な疑問が残ります。シーン内でオブジェクトを分離する能力は、OOD一般化などのより広範なOCLの目標にどのように貢献しますか?
これに対処し、OCLのレンズを介したスプリアスな背景キューによって引き起こされるOOD一般化課題を調査します。
$ \ textbf {applied masks(occam)} $を使用した$ \ textbf {オブジェクト中心の分類と呼ばれる新しいトレーニングのないプローブを提案し、個々のオブジェクトのセグメンテーションベースのエンコーディングがスロットベースのOCLメソッドを大幅に上回ることを示しています。
ただし、実際のアプリケーションの課題は残っています。
OCLコミュニティがスケーラブルなオブジェクト中心の表現を使用するためのツールボックスを提供し、実用的なアプリケーションと、人間の認知におけるオブジェクトの知覚を理解するなどの基本的な質問に焦点を当てます。
私たちのコードは$ \ href {https://github.com/alexanderrubinstein/occam} {here} $を利用できます。

要約(オリジナル)

Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called $\textbf{Object-Centric Classification with Applied Masks (OCCAM)}$, demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available $\href{https://github.com/AlexanderRubinstein/OCCAM}{here}$.

arxiv情報

著者 Alexander Rubinstein,Ameya Prabhu,Matthias Bethge,Seong Joon Oh
発行日 2025-04-09 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Are We Done with Object-Centric Learning? はコメントを受け付けていません

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution

要約

汎用性の高いビデオ深度推定モデルは、(1)フレーム間で正確で一貫性があり、(2)高解像度の深度マップを生成し、(3)リアルタイムストリーミングをサポートする必要があります。
FlashDepthを提案します。これは、3つの要件すべてを満たす方法で、24 fpsで2044×1148ストリーミングビデオで深さ推定を実行します。
前提条件のシングルイメージ深度モデルを慎重に修正することで、これらの機能が比較的少ないデータとトレーニングで有効になっていることを示しています。
最先端の深度モデルに対して複数の目に見えないデータセットを越えてアプローチを評価し、競争の精度を維持しながら、境界のシャープネスと速度の点で大幅なマージンでそれらを上回ることがわかります。
私たちのモデルが、ビデオ編集などの高解像度の深さを必要とするさまざまなアプリケーションや、ロボット工学などのオンラインの意思決定を可能にすることを願っています。

要約(オリジナル)

A versatile video depth estimation model should (1) be accurate and consistent across frames, (2) produce high-resolution depth maps, and (3) support real-time streaming. We propose FlashDepth, a method that satisfies all three requirements, performing depth estimation on a 2044×1148 streaming video at 24 FPS. We show that, with careful modifications to pretrained single-image depth models, these capabilities are enabled with relatively little data and training. We evaluate our approach across multiple unseen datasets against state-of-the-art depth models, and find that ours outperforms them in terms of boundary sharpness and speed by a significant margin, while maintaining competitive accuracy. We hope our model will enable various applications that require high-resolution depth, such as video editing, and online decision-making, such as robotics.

arxiv情報

著者 Gene Chou,Wenqi Xian,Guandao Yang,Mohamed Abdelfattah,Bharath Hariharan,Noah Snavely,Ning Yu,Paul Debevec
発行日 2025-04-09 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution はコメントを受け付けていません