Instance Segmentation of Scene Sketches Using Natural Image Priors

要約

スケッチセグメンテーションには、同じオブジェクトまたはインスタンスに属するスケッチ内でピクセルをグループ化することが含まれます。
特定のコンポーネントの移動、スケーリング、削除など、タスクを編集するための貴重なツールとして機能します。
画像セグメンテーションモデルは近年顕著な能力を示していますが、スケッチは、スタイルのまばらな性質と広いバリエーションのために、これらのモデルの独特の課題を提示しています。
たとえば、ラスターシーンスケッチのセグメンテーションの方法であるSketchSegを紹介します。
私たちのアプローチは、深度キューを使用してクラスに依存しない微調整および精製セグメンテーションマスクを採用することにより、最先端の画像セグメンテーションとオブジェクト検出モデルをスケッチドメインに適応させます。
さらに、この方法では、スケッチをソート付きレイヤーに整理します。ここでは、閉塞されたインスタンスが塗装されているため、高度なスケッチ編集アプリケーションを可能にします。
このドメインの既存のデータセットにはスケッチスタイルのバリエーションがないため、多様なブラシストロークとさまざまなレベルの詳細を備えたスケッチを特徴とする合成シーンスケッチセグメンテーションデータセットを作成します。
このデータセットを使用してアプローチの堅牢性を示し、それをリリースして、フィールドでのさらなる研究を促進します。
プロジェクトWebページ:https://sketchseg.github.io/sketch-seg/

要約(オリジナル)

Sketch segmentation involves grouping pixels within a sketch that belong to the same object or instance. It serves as a valuable tool for sketch editing tasks, such as moving, scaling, or removing specific components. While image segmentation models have demonstrated remarkable capabilities in recent years, sketches present unique challenges for these models due to their sparse nature and wide variation in styles. We introduce SketchSeg, a method for instance segmentation of raster scene sketches. Our approach adapts state-of-the-art image segmentation and object detection models to the sketch domain by employing class-agnostic fine-tuning and refining segmentation masks using depth cues. Furthermore, our method organizes sketches into sorted layers, where occluded instances are inpainted, enabling advanced sketch editing applications. As existing datasets in this domain lack variation in sketch styles, we construct a synthetic scene sketch segmentation dataset featuring sketches with diverse brush strokes and varying levels of detail. We use this dataset to demonstrate the robustness of our approach and will release it to promote further research in the field. Project webpage: https://sketchseg.github.io/sketch-seg/

arxiv情報

著者 Mia Tang,Yael Vinker,Chuan Yan,Lvmin Zhang,Maneesh Agrawala
発行日 2025-02-13 18:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Instance Segmentation of Scene Sketches Using Natural Image Priors はコメントを受け付けていません

Designing a Conditional Prior Distribution for Flow-Based Generative Models

要約

フローベースの生成モデルは最近、テキストからイメージの生成などの条件付き生成タスクに対して印象的なパフォーマンスを示しています。
ただし、現在の方法は、一般的な単峰性ノイズ分布をターゲットデータ分布の特定のモードに変換します。
そのため、初期ソース分布のすべてのポイントは、ターゲット分布のすべてのポイントにマッピングでき、その結果、平均パスが長くなります。
この目的のために、この作業では、条件付きフローベースのモデルの活用されていない特性を活用します。これは、非自明の事前分布を設計する能力です。
テキストプロンプトなどの入力条件が与えられた場合、最初にデータ空間にあるポイントにマッピングされ、同じ条件モード(クラスなど)のすべてのデータポイントまでの平均距離が最小の「平均」データポイントを表します。

次に、このポイントを中心としたパラメトリック分布からサンプルを条件付きターゲット分布にマッピングするために、フローマッチング定式化を利用します。
実験的に、私たちの方法は、ベースラインと比較して、トレーニング時間と生成効率(FID、KID、クリップアライメントスコア)を大幅に改善し、サンプリングステップを使用して高品質のサンプルを生成します。

要約(オリジナル)

Flow-based generative models have recently shown impressive performance for conditional generation tasks, such as text-to-image generation. However, current methods transform a general unimodal noise distribution to a specific mode of the target data distribution. As such, every point in the initial source distribution can be mapped to every point in the target distribution, resulting in long average paths. To this end, in this work, we tap into a non-utilized property of conditional flow-based models: the ability to design a non-trivial prior distribution. Given an input condition, such as a text prompt, we first map it to a point lying in data space, representing an “average’ data point with the minimal average distance to all data points of the same conditional mode (e.g., class). We then utilize the flow matching formulation to map samples from a parametric distribution centered around this point to the conditional target distribution. Experimentally, our method significantly improves training times and generation efficiency (FID, KID and CLIP alignment scores) compared to baselines, producing high quality samples using fewer sampling steps.

arxiv情報

著者 Noam Issachar,Mohammad Salama,Raanan Fattal,Sagie Benaim
発行日 2025-02-13 18:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Designing a Conditional Prior Distribution for Flow-Based Generative Models はコメントを受け付けていません

Latent Radiance Fields with 3D-aware 2D Representations

要約

潜在的な3D再構成は、2D機能を3Dスペースに蒸留することにより、3Dセマンティック理解と3D生成に力を与えることに大きな期待を示しています。
ただし、既存のアプローチは、2Dフィーチャスペースと3D表現の間のドメインギャップと格闘しており、その結果、レンダリングパフォーマンスが低下します。
この課題に対処するために、3D認識を2D潜在スペースに統合する新しいフレームワークを提案します。
フレームワークは、3つの段階で構成されています。(1)2D潜在表現の3D一貫性を高める対応認識自動エンコード法、(2)これらの3D認識2D表現を3D空間に持ち上げる潜在放射輝度フィールド(LRF)、および(
3)レンダリングされた2D表現からの画像デコードを改善するVAE-Radianceフィールド(VAE-RF)アライメント戦略。
広範な実験は、私たちの方法が、多様な屋内および屋外シーン全体の合成性能とクロスダタセットの一般化可能性の観点から、最新の潜在的な3D再構成アプローチを上回ることを示しています。
私たちの知る限り、これは2D潜在表現から構築された放射界表現が光線現実的な3D再構成パフォーマンスをもたらす可能性があることを示す最初の作品です。

要約(オリジナル)

Latent 3D reconstruction has shown great promise in empowering 3D semantic understanding and 3D generation by distilling 2D features into the 3D space. However, existing approaches struggle with the domain gap between 2D feature space and 3D representations, resulting in degraded rendering performance. To address this challenge, we propose a novel framework that integrates 3D awareness into the 2D latent space. The framework consists of three stages: (1) a correspondence-aware autoencoding method that enhances the 3D consistency of 2D latent representations, (2) a latent radiance field (LRF) that lifts these 3D-aware 2D representations into 3D space, and (3) a VAE-Radiance Field (VAE-RF) alignment strategy that improves image decoding from the rendered 2D representations. Extensive experiments demonstrate that our method outperforms the state-of-the-art latent 3D reconstruction approaches in terms of synthesis performance and cross-dataset generalizability across diverse indoor and outdoor scenes. To our knowledge, this is the first work showing the radiance field representations constructed from 2D latent representations can yield photorealistic 3D reconstruction performance.

arxiv情報

著者 Chaoyi Zhou,Xi Liu,Feng Luo,Siyu Huang
発行日 2025-02-13 18:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Latent Radiance Fields with 3D-aware 2D Representations はコメントを受け付けていません

Opening Articulated Objects in the Real World

要約

以前に見えなかった環境で、以前に見えなかったオブジェクトで有能に動作できるモバイル操作システムを構築するには何が必要ですか?
この作業は、モバイル操作テストベッドとして明確なオブジェクトを開くことを使用して、この質問に答えます。
具体的には、私たちの焦点は、特権情報なしでこのタスクのエンドツーエンドのパフォーマンスにあります。つまり、ロボットは、新しいターゲットの明確なオブジェクトが表示されている場所から始まり、オブジェクトにアプローチして正常に開く必要があります。
最初にこのタスクのシステムを開発し、次に13の実際のテストサイトで100以上のエンドツーエンドシステムテストを実施します。
私たちの大規模な研究は、多くの驚くべき発見を明らかにしています。a)モジュラーシステムは、エンドツーエンドの学習システムが1000以上のデモンストレーション、b)知覚、および知覚でトレーニングされている場合でも、このタスクのエンドツーエンドの学習システムを上回っています。
正確なエンドエフェクター制御ではなく、タスクの成功への主要なボトルネックであり、c)ロボット中心の視点に直面したときに分離闘争で開発された最先端のアーティキュレーションパラメーター推定モデルです。
全体として、我々の調査結果は、パイプラインの成分の開発の限界を単独で強調し、システムレベルの研究の必要性を強調し、一般化可能なモバイル操作システムを構築するための実用的なロードマップを提供します。
ビデオ、コード、モデルはプロジェクトWebサイト:https://arjung128.github.io/opening-articulated-objects/で入手できます。

要約(オリジナル)

What does it take to build mobile manipulation systems that can competently operate on previously unseen objects in previously unseen environments? This work answers this question using opening of articulated objects as a mobile manipulation testbed. Specifically, our focus is on the end-to-end performance on this task without any privileged information, i.e. the robot starts at a location with the novel target articulated object in view, and has to approach the object and successfully open it. We first develop a system for this task, and then conduct 100+ end-to-end system tests across 13 real world test sites. Our large-scale study reveals a number of surprising findings: a) modular systems outperform end-to-end learned systems for this task, even when the end-to-end learned systems are trained on 1000+ demonstrations, b) perception, and not precise end-effector control, is the primary bottleneck to task success, and c) state-of-the-art articulation parameter estimation models developed in isolation struggle when faced with robot-centric viewpoints. Overall, our findings highlight the limitations of developing components of the pipeline in isolation and underscore the need for system-level research, providing a pragmatic roadmap for building generalizable mobile manipulation systems. Videos, code, and models are available on the project website: https://arjung128.github.io/opening-articulated-objects/

arxiv情報

著者 Arjun Gupta,Michelle Zhang,Rishik Sathua,Saurabh Gupta
発行日 2025-02-13 18:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Opening Articulated Objects in the Real World はコメントを受け付けていません

RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets

要約

新しい自己回帰変圧器ベースのモデルであるRiganythingを提示します。これにより、3Dアセットがジョイント、スケルトントポロジーを確率的に生成し、テンプレートのない方法でスキニングウェイトを割り当てることにより、リグが可能になります。
事前に定義されたスケルトンテンプレートに依存し、ヒューマノイドなどの特定のカテゴリに限定されているほとんどの既存の自動リギングメソッドとは異なり、リガニーは自己回帰の方法でリギングの問題にアプローチし、グローバルな入力形状と以前の予測に基づいて次のジョイントを繰り返し予測します。
通常、自己回帰モデルはシーケンシャルデータを生成するために使用されますが、Riganythingはアプリケーションを拡張して、本質的にツリー構造であるスケルトンを効果的に学習および表現します。
これを達成するために、幅広い最初の検索(BFS)順序でジョイントを整理し、スケルトンを3Dロケーションのシーケンスと親インデックスとして定義できるようにします。
さらに、我々のモデルは、拡散モデリングを活用し、階層内のジョイントの正確で一貫した配置を確保することにより、位置予測の精度を改善します。
This formulation allows the autoregressive model to efficiently capture both spatial and hierarchical relationships within the skeleton.
Riganeththingは、RignetとObjaverseの両方のデータセットでエンドツーエンドの訓練を受けているため、ヒューマノイド、四足動物、海洋生物、昆虫など、多様なオブジェクトタイプ全体で最先端のパフォーマンスを示しています。
generalizability, and efficiency.
詳細については、https://www.liuisabella.com/riganythingをご覧ください。

要約(オリジナル)

We present RigAnything, a novel autoregressive transformer-based model, which makes 3D assets rig-ready by probabilistically generating joints, skeleton topologies, and assigning skinning weights in a template-free manner. Unlike most existing auto-rigging methods, which rely on predefined skeleton template and are limited to specific categories like humanoid, RigAnything approaches the rigging problem in an autoregressive manner, iteratively predicting the next joint based on the global input shape and the previous prediction. While autoregressive models are typically used to generate sequential data, RigAnything extends their application to effectively learn and represent skeletons, which are inherently tree structures. To achieve this, we organize the joints in a breadth-first search (BFS) order, enabling the skeleton to be defined as a sequence of 3D locations and the parent index. Furthermore, our model improves the accuracy of position prediction by leveraging diffusion modeling, ensuring precise and consistent placement of joints within the hierarchy. This formulation allows the autoregressive model to efficiently capture both spatial and hierarchical relationships within the skeleton. Trained end-to-end on both RigNet and Objaverse datasets, RigAnything demonstrates state-of-the-art performance across diverse object types, including humanoids, quadrupeds, marine creatures, insects, and many more, surpassing prior methods in quality, robustness, generalizability, and efficiency. Please check our website for more details: https://www.liuisabella.com/RigAnything.

arxiv情報

著者 Isabella Liu,Zhan Xu,Wang Yifan,Hao Tan,Zexiang Xu,Xiaolong Wang,Hao Su,Zifan Shi
発行日 2025-02-13 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets はコメントを受け付けていません

DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References

要約

人間の参照からの器用な操作のための一般化可能なニューラル追跡コントローラーを開発するという課題に対処します。
このコントローラーは、車のロボットハンドを管理して、運動学的人間とオブジェクトの相互作用によって定義されるさまざまな目的のために、多様なオブジェクトを操作することを目的としています。
このようなコントローラーの開発は、器用な操作の複雑な接触ダイナミクスと、適応性、一般化可能性、堅牢性の必要性によって複雑になります。
現在の補強学習と軌跡の最適化方法は、タスク固有の報酬または正確なシステムモデルに依存しているため、しばしば不足しています。
ニューラルコントローラーを訓練するために、人間の参照とロボットアクションのペアを含む大規模な成功したロボット追跡デモンストレーションをキュレートするアプローチを紹介します。
データフライホイールを利用して、コントローラーのパフォーマンスと、成功した追跡デモンストレーションの数と品質を繰り返し向上させます。
利用可能な追跡デモンストレーションを活用し、動的環境でのコントローラーのパフォーマンスを高めるために、強化学習と模倣学習を慎重に統合します。
同時に、高品質の追跡デモンストレーションを取得するために、ホモトピー最適化方法で学習された追跡コントローラーを活用することにより、トラコリジェクトごとの追跡を個別に最適化します。
ホモトピーの最適化、考え方を模倣し、挑戦的な軌跡追跡の問題を解決してデモンストレーションの多様性を高めるのに役立ちます。
一般化可能なニューラルコントローラーをトレーニングし、シミュレーションと現実世界の両方で評価することで、成功を紹介します。
私たちの方法は、主要なベースラインと比較して、成功率の10%以上の改善を達成しています。
アニメーション化された結果を備えたプロジェクトWebサイトは、https://meowuu7.github.io/dextrack/で入手できます。

要約(オリジナル)

We address the challenge of developing a generalizable neural tracking controller for dexterous manipulation from human references. This controller aims to manage a dexterous robot hand to manipulate diverse objects for various purposes defined by kinematic human-object interactions. Developing such a controller is complicated by the intricate contact dynamics of dexterous manipulation and the need for adaptivity, generalizability, and robustness. Current reinforcement learning and trajectory optimization methods often fall short due to their dependence on task-specific rewards or precise system models. We introduce an approach that curates large-scale successful robot tracking demonstrations, comprising pairs of human references and robot actions, to train a neural controller. Utilizing a data flywheel, we iteratively enhance the controller’s performance, as well as the number and quality of successful tracking demonstrations. We exploit available tracking demonstrations and carefully integrate reinforcement learning and imitation learning to boost the controller’s performance in dynamic environments. At the same time, to obtain high-quality tracking demonstrations, we individually optimize per-trajectory tracking by leveraging the learned tracking controller in a homotopy optimization method. The homotopy optimization, mimicking chain-of-thought, aids in solving challenging trajectory tracking problems to increase demonstration diversity. We showcase our success by training a generalizable neural controller and evaluating it in both simulation and real world. Our method achieves over a 10% improvement in success rates compared to leading baselines. The project website with animated results is available at https://meowuu7.github.io/DexTrack/.

arxiv情報

著者 Xueyi Liu,Jianibieke Adalibieke,Qianwei Han,Yuzhe Qin,Li Yi
発行日 2025-02-13 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References はコメントを受け付けていません

Variational Rectified Flow Matching

要約

マルチモーダル速度ベクトルフィールドをモデル化することにより、古典的な修正フローマッチングを強化するフレームワークである、変動整流フローマッチングを研究します。
推論時に、速度ベクトルフィールドに沿った積分を介して通常の微分方程式を解くことにより、ソース分布からターゲット分布への「移動」サンプルを一致させる古典的な修正フローを一致させます。
トレーニング時に、速度ベクトルフィールドは、ソースから引き出された1つとターゲット分布からランダムに引き出されたサンプル間を直線的に補間することにより学習されます。
これにより、同じ場所で異なる方向を指す「「グラウンドトゥルース」」速度ベクトルフィールドにつながります。つまり、速度ベクトルフィールドはマルチモーダル/曖昧です。
ただし、トレーニングでは標準の平均2乗エラー損失を使用するため、学習速度ベクトルフィールドは平均「グラウンドトゥルース」方向であり、マルチモーダルではありません。
対照的に、マルチモーダルのフロー方向からの分散整流フローマッチングの学習とサンプル。
合成データ、MNIST、CIFAR-10、およびImagenetに、変動的な整流フローマッチングが魅力的な結果につながることを示しています。

要約(オリジナル)

We study Variational Rectified Flow Matching, a framework that enhances classic rectified flow matching by modeling multi-modal velocity vector-fields. At inference time, classic rectified flow matching ‘moves’ samples from a source distribution to the target distribution by solving an ordinary differential equation via integration along a velocity vector-field. At training time, the velocity vector-field is learnt by linearly interpolating between coupled samples one drawn from the source and one drawn from the target distribution randomly. This leads to ”ground-truth” velocity vector-fields that point in different directions at the same location, i.e., the velocity vector-fields are multi-modal/ambiguous. However, since training uses a standard mean-squared-error loss, the learnt velocity vector-field averages ”ground-truth” directions and isn’t multi-modal. In contrast, variational rectified flow matching learns and samples from multi-modal flow directions. We show on synthetic data, MNIST, CIFAR-10, and ImageNet that variational rectified flow matching leads to compelling results.

arxiv情報

著者 Pengsheng Guo,Alexander G. Schwing
発行日 2025-02-13 18:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Variational Rectified Flow Matching はコメントを受け付けていません

LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh

要約

スパース入力からのアニメーション可能なヒトアバターの一般化可能なレンダリングは、シーン固有の最適化を回避し、迅速な再構築を可能にするために、大規模なデータのトレーニングから抽出されたデータプライアーと誘導バイアスに依存しています。
これは、2つの主な課題を提起します。まず、シーン固有の最適化における反復勾配ベースの調整とは異なり、一般化可能な方法は、推論時に単一のパスで人間の形状の表現を再構築する必要があります。
第二に、レンダリングは、計算上効率的でありながら高解像度であることが好ましいです。
両方の課題に対処するために、最近提案されたデュアル形状表現を強化します。これは、メッシュとガウスのポイントの利点を2つの方法で組み合わせます。
再構築を改善するために、反復フィードバック更新フレームワークを提案します。これにより、再構築中の標準的な人間の形状の表現が連続して改善されます。
計算上効率的でありながら高解像度のレンダリングを実現するために、結合されたマルチ解像度のガウスオンメッシュ表現を研究します。
挑戦的なThuman2.0、Xhuman、Aist ++データに関する提案されたアプローチを評価します。
私たちのアプローチは、スパース入力からのアニメーション可能な表現を1秒未満で再構築し、95.1fpsでビューを1024ドル\ Times 1024 $でレンダリングし、24.65/110.82/51.27のPSNR/LPIPS*/FIDを達成します。
– レンダリング品質のアート。

要約(オリジナル)

Generalizable rendering of an animatable human avatar from sparse inputs relies on data priors and inductive biases extracted from training on large data to avoid scene-specific optimization and to enable fast reconstruction. This raises two main challenges: First, unlike iterative gradient-based adjustment in scene-specific optimization, generalizable methods must reconstruct the human shape representation in a single pass at inference time. Second, rendering is preferably computationally efficient yet of high resolution. To address both challenges we augment the recently proposed dual shape representation, which combines the benefits of a mesh and Gaussian points, in two ways. To improve reconstruction, we propose an iterative feedback update framework, which successively improves the canonical human shape representation during reconstruction. To achieve computationally efficient yet high-resolution rendering, we study a coupled-multi-resolution Gaussians-on-Mesh representation. We evaluate the proposed approach on the challenging THuman2.0, XHuman and AIST++ data. Our approach reconstructs an animatable representation from sparse inputs in less than 1s, renders views with 95.1FPS at $1024 \times 1024$, and achieves PSNR/LPIPS*/FID of 24.65/110.82/51.27 on THuman2.0, outperforming the state-of-the-art in rendering quality.

arxiv情報

著者 Jing Wen,Alexander G. Schwing,Shenlong Wang
発行日 2025-02-13 18:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh はコメントを受け付けていません

Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights

要約

公開されているモデルの数が増えているため、ユーザーが必要とするほとんどのタスクには、おそらく前提条件のオンラインモデルがあります。
ただし、現在のモデル検索方法は初歩的であり、本質的にドキュメントのテキストベースの検索であるため、ユーザーは関連するモデルを見つけることができません。
このペーパーでは、モデルメタデータやトレーニングデータへのアクセスなしで、「犬」などのターゲット概念を認識できる分類モデルを取得する方法であるProbelogを紹介します。
以前の調査方法とは異なる方法で、Probelogは、固定入力セット(プローブ)でその応答を観察することにより、各モデルの各出力寸法(ロジット)の記述子を計算します。
私たちの方法は、ロジットベースの検索(「このようなロジットを見つける」)とゼロショットのテキストベースの検索(「犬に対応するすべてのロジットを見つける」)の両方をサポートします。
プロービングベースの表現には、モデルを介した複数の費用のかかるフィードフォワードパスが必要なため、共同フィルタリングに基づいてメソッドを開発し、リポジトリをエンコードするコストを3倍に削減します。
Probelogは、現実世界と細粒の検索タスクの両方で高い検索精度を達成し、フルサイズのリポジトリにスケーラブルであることを実証します。

要約(オリジナル)

With the increasing numbers of publicly available models, there are probably pretrained, online models for most tasks users require. However, current model search methods are rudimentary, essentially a text-based search in the documentation, thus users cannot find the relevant models. This paper presents ProbeLog, a method for retrieving classification models that can recognize a target concept, such as ‘Dog’, without access to model metadata or training data. Differently from previous probing methods, ProbeLog computes a descriptor for each output dimension (logit) of each model, by observing its responses on a fixed set of inputs (probes). Our method supports both logit-based retrieval (‘find more logits like this’) and zero-shot, text-based retrieval (‘find all logits corresponding to dogs’). As probing-based representations require multiple costly feedforward passes through the model, we develop a method, based on collaborative filtering, that reduces the cost of encoding repositories by 3x. We demonstrate that ProbeLog achieves high retrieval accuracy, both in real-world and fine-grained search tasks and is scalable to full-size repositories.

arxiv情報

著者 Jonathan Kahana,Or Nathan,Eliahu Horwitz,Yedid Hoshen
発行日 2025-02-13 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights はコメントを受け付けていません

Exploring the Potential of Encoder-free Architectures in 3D LMMs

要約

エンコーダーフリーのアーキテクチャは、2Dビジュアルドメインで事前に検討されていますが、3D理解シナリオに効果的に適用できるかどうかは未解決の問題のままです。
この論文では、エンコーダーベースの3D大規模マルチモーダルモデル(LMM)の課題を克服するためのエンコーダーフリーアーキテクチャの可能性に関する最初の包括的な調査を提示します。
これらの課題には、さまざまなポイントクラウド解像度に適応できないことや、大規模な言語モデル(LLMS)のセマンティックニーズを満たしていないエンコーダーからのポイント機能が含まれます。
3D LMMSの重要な側面を特定して、エンコーダーを削除し、LLMが3Dエンコーダーの役割を引き受けることができるようにします。
– 容疑者の損失。
そして、ハイブリッドセマンティック損失を提示して、高レベルのセマンティクスを抽出します。
2)命令調整段階で階層幾何学集約戦略を紹介します。
これには、誘導バイアスがLLM初期層に組み込まれ、ポイントクラウドのローカルな詳細に焦点を当てます。
最後に、最初のエンコーダーフリー3D LMM、enelを提示します。
7Bモデルは、現在の最先端のモデルであるShapellM-13Bに匹敵し、それぞれ分類、キャプション、およびVQAタスクで55.0%、50.92%、42.7%を達成しています。
我々の結果は、エンコーダーフリーのアーキテクチャが、3D理解の分野でエンコーダーベースのアーキテクチャを置き換えることに非常に有望であることを示しています。
このコードはhttps://github.com/ivan-tang-3d/enelでリリースされます

要約(オリジナル)

Encoder-free architectures have been preliminarily explored in the 2D visual domain, yet it remains an open question whether they can be effectively applied to 3D understanding scenarios. In this paper, we present the first comprehensive investigation into the potential of encoder-free architectures to overcome the challenges of encoder-based 3D Large Multimodal Models (LMMs). These challenges include the failure to adapt to varying point cloud resolutions and the point features from the encoder not meeting the semantic needs of Large Language Models (LLMs). We identify key aspects for 3D LMMs to remove the encoder and enable the LLM to assume the role of the 3D encoder: 1) We propose the LLM-embedded Semantic Encoding strategy in the pre-training stage, exploring the effects of various point cloud self-supervised losses. And we present the Hybrid Semantic Loss to extract high-level semantics. 2) We introduce the Hierarchical Geometry Aggregation strategy in the instruction tuning stage. This incorporates inductive bias into the LLM early layers to focus on the local details of the point clouds. To the end, we present the first Encoder-free 3D LMM, ENEL. Our 7B model rivals the current state-of-the-art model, ShapeLLM-13B, achieving 55.0%, 50.92%, and 42.7% on the classification, captioning, and VQA tasks, respectively. Our results demonstrate that the encoder-free architecture is highly promising for replacing encoder-based architectures in the field of 3D understanding. The code is released at https://github.com/Ivan-Tang-3D/ENEL

arxiv情報

著者 Yiwen Tang,Zoey Guo,Zhuhao Wang,Ray Zhang,Qizhi Chen,Junli Liu,Delin Qu,Zhigang Wang,Dong Wang,Xuelong Li,Bin Zhao
発行日 2025-02-13 18:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Exploring the Potential of Encoder-free Architectures in 3D LMMs はコメントを受け付けていません