Extreme Rotation Estimation in the Wild

要約

極端な設定でキャプチャされたインターネット画像のペア間の相対的な3D方向を推定するための手法とベンチマークデータセットを提示します。そこでは、画像が限られているか、重複していないビューのフィールドがあります。
極端な回転の推定をターゲットにした以前の作業は、抑制された3D環境を想定し、パノラマビューから領域をトリミングすることで視点画像をエミュレートします。
しかし、野生でキャプチャされた実際の画像は非常に多様であり、外観とカメラの内因性の両方に変動を示しています。
この作業では、極端な現実世界の設定で相対的な回転を推定するための変圧器ベースの方法を提案し、シーンレベルのインターネット写真コレクションから組み立てられたExtremelandMarkpairsデータセットを貢献します。
私たちの評価は、私たちのアプローチが、多種多様な極端な視聴インターネット画像ペアで相対的な回転を推定し、専用の回転推定技術や現代の3D再建方法を含むさまざまなベースラインを上回ることに成功したことを示しています。

要約(オリジナル)

We present a technique and benchmark dataset for estimating the relative 3D orientation between a pair of Internet images captured in an extreme setting, where the images have limited or non-overlapping field of views. Prior work targeting extreme rotation estimation assume constrained 3D environments and emulate perspective images by cropping regions from panoramic views. However, real images captured in the wild are highly diverse, exhibiting variation in both appearance and camera intrinsics. In this work, we propose a Transformer-based method for estimating relative rotations in extreme real-world settings, and contribute the ExtremeLandmarkPairs dataset, assembled from scene-level Internet photo collections. Our evaluation demonstrates that our approach succeeds in estimating the relative rotations in a wide variety of extreme-view Internet image pairs, outperforming various baselines, including dedicated rotation estimation techniques and contemporary 3D reconstruction methods.

arxiv情報

著者 Hana Bezalel,Dotan Ankri,Ruojin Cai,Hadar Averbuch-Elor
発行日 2025-02-25 18:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Extreme Rotation Estimation in the Wild はコメントを受け付けていません

MedKAN: An Advanced Kolmogorov-Arnold Network for Medical Image Classification

要約

画像分類のための深い学習の最近の進歩は、主に畳み込みニューラルネットワーク(CNNS)またはトランスベースのアーキテクチャに依存しています。
ただし、これらのモデルは、特に複雑なテクスチャの詳細とコンテキスト機能をキャプチャする際に、医療イメージングにおける顕著な課題に直面しています。
Kolmogorov-Arnold Networks(KANS)は、非線形変換モデリングを強化する新しいクラスのアーキテクチャを表し、複雑な機能を改善した表現を提供します。
この作業では、Kanとその畳み込み拡張に基づいて構築された医療画像分類フレームワークであるMedkanを提示します。
Medkanには、2つのコアモジュールが搭載されています。細粒の特徴抽出用のローカル情報Kan(lik)モジュールと、グローバルコンテキスト統合用のグローバル情報Kan(GIK)モジュールです。
これらのモジュールを組み合わせることにより、Medkanは堅牢な機能モデリングと融合を実現します。
多様な計算ニーズに対応するために、Medkan-S、Medkan-B、およびMedkan-Lの3つのスケーラブルなバリアントを紹介します。
9つの公共医療画像データセットの実験結果は、MedkanがCNNおよび変圧器ベースのモデルと比較して優れた性能を達成し、医療画像分析におけるその有効性と一般化可能性を強調することを示しています。

要約(オリジナル)

Recent advancements in deep learning for image classification predominantly rely on convolutional neural networks (CNNs) or Transformer-based architectures. However, these models face notable challenges in medical imaging, particularly in capturing intricate texture details and contextual features. Kolmogorov-Arnold Networks (KANs) represent a novel class of architectures that enhance nonlinear transformation modeling, offering improved representation of complex features. In this work, we present MedKAN, a medical image classification framework built upon KAN and its convolutional extensions. MedKAN features two core modules: the Local Information KAN (LIK) module for fine-grained feature extraction and the Global Information KAN (GIK) module for global context integration. By combining these modules, MedKAN achieves robust feature modeling and fusion. To address diverse computational needs, we introduce three scalable variants–MedKAN-S, MedKAN-B, and MedKAN-L. Experimental results on nine public medical imaging datasets demonstrate that MedKAN achieves superior performance compared to CNN- and Transformer-based models, highlighting its effectiveness and generalizability in medical image analysis.

arxiv情報

著者 Zhuoqin Yang,Jiansong Zhang,Xiaoling Luo,Zheng Lu,Linlin Shen
発行日 2025-02-25 18:12:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MedKAN: An Advanced Kolmogorov-Arnold Network for Medical Image Classification はコメントを受け付けていません

GHOST 2.0: generative high-fidelity one shot transfer of heads

要約

フェイススワッピングのタスクは最近、研究コミュニティで注目を集めていますが、ヘッドスワッピングの関連する問題はほとんど未踏のままです。
肌の色の伝達に加えて、ヘッドスワップは、合成中に頭全体の構造情報を保存する必要性や、スワップされた頭と背景の間の塗装ギャップなど、追加の課題をもたらします。
この論文では、これらの懸念に2つの問題固有のモジュールで構成されるGhost 2.0に対処します。
まず、ヘッド再現の拡張アライナーモデルを導入します。これは、複数のスケールでアイデンティティ情報を保存し、極端なポーズバリエーションから堅牢なものです。
第二に、肌の色を転送し、不一致の領域を入力することにより、再現されたヘッドをターゲットの背景にシームレスに統合するブレンダーモジュールを使用します。
両方のモジュールは、対応するタスクのベースラインよりも優れているため、ヘッドスワッピングで最先端の結果を達成できます。
また、ソースやターゲットのヘアスタイルの大きな違いなど、複雑なケースにも取り組みます。

要約(オリジナル)

While the task of face swapping has recently gained attention in the research community, a related problem of head swapping remains largely unexplored. In addition to skin color transfer, head swap poses extra challenges, such as the need to preserve structural information of the whole head during synthesis and inpaint gaps between swapped head and background. In this paper, we address these concerns with GHOST 2.0, which consists of two problem-specific modules. First, we introduce enhanced Aligner model for head reenactment, which preserves identity information at multiple scales and is robust to extreme pose variations. Secondly, we use a Blender module that seamlessly integrates the reenacted head into the target background by transferring skin color and inpainting mismatched regions. Both modules outperform the baselines on the corresponding tasks, allowing to achieve state of the art results in head swapping. We also tackle complex cases, such as large difference in hair styles of source and target.

arxiv情報

著者 Alexander Groshev,Anastasiia Iashchenko,Pavel Paramonov,Denis Dimitrov,Andrey Kuznetsov
発行日 2025-02-25 18:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GHOST 2.0: generative high-fidelity one shot transfer of heads はコメントを受け付けていません

Imaging foundation model for universal enhancement of non-ideal measurement CT

要約

非理想的な測定コンピューター断層撮影(NICT)は、CTアプリケーションを拡張するために準最適なイメージングプロトコルを採用しています。
しかし、結果として生じるトレードオフは画質を低下させ、臨床的許容性を制限します。
Deep Learning MethodはNICT画像を強化するために使用されていますが、大規模なトレーニングデータセットへの依存と、多様な設定にわたる限られた一般化可能性は実用的な使用を妨げています。
Universal Nict Enhancementの最初のイメージングファンデーションモデルであるマルチスケール統合トランスアンプ(TAMP)を提案します。
1080万人の物理学駆動型のシミュレートされたNICT画像で事前に訓練されたTAMPは、さまざまなNICTの設定、欠陥度、およびボディ領域で効果的に一般化します。
さらに、パラメーター効率の高い微調整戦略により、TAMPは少数のスライスのみを使用して特定の臨床シナリオに適応することができます。
放射線科医や現実世界の検証を含む広範な実験は、TAMPが画像の品質と臨床的受容性を一貫して改善し、CTイメージングを進め、臨床診療におけるNICTアプリケーションを拡大する重要な可能性を強調していることを示しています。

要約(オリジナル)

Non-ideal measurement computed tomography (NICT) employs suboptimal imaging protocols to expand CT applications. However, the resulting trade-offs degrade image quality, limiting clinical acceptability. Although deep learning methods have been used to enhance NICT images, their reliance on large training datasets and limited generalizability across diverse settings hinder practical use. We propose the multi-scale integrated Transformer AMPlifier (TAMP), the first imaging foundation model for universal NICT enhancement. Pre-trained on 10.8 million physics-driven simulated NICT images, TAMP generalizes effectively across various NICT settings, defect degrees, and body regions. Moreover, a parameter-efficient fine-tuning strategy enables TAMP to adapt to specific clinical scenarios using only few slices. Extensive experiments, including radiologists and real-world validations, demonstrate that TAMP consistently improves image quality and clinical acceptability, underscoring its significant potential to advance CT imaging and broaden NICT applications in clinical practice.

arxiv情報

著者 Yuxin Liu,Rongjun Ge,Yuting He,Zhan Wu,Shangwen Yang,Yuan Gao,Chenyu You,Ge Wang,Yang Chen,Shuo Li
発行日 2025-02-25 18:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Imaging foundation model for universal enhancement of non-ideal measurement CT はコメントを受け付けていません

K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs

要約

最近の研究では、さまざまなロラを組み合わせて、学習スタイルとコンテンツを共同で生成しました。
ただし、既存の方法は、元の主題とスタイルの両方を同時に効果的に維持できないか、追加のトレーニングが必要です。
この論文では、LORAの固有の特性は、学習した主題とスタイルを融合する際に拡散モデルを効果的に導くことができると主張します。
この洞察に基づいて、私たちはK-Loraを提案します。これは、シンプルでありながら効果的なトレーニングのないLora Fusionアプローチです。
各注意層で、K-LORAは各ロラのトップK要素を融合し、最適な融合のために選択するロラを決定します。
この選択メカニズムにより、主題とスタイルの両方の最も代表的な特徴が融合プロセス中に保持され、貢献のバランスをとることが保証されます。
実験結果は、提案された方法が元のLORAによって学習した主題とスタイルの情報を効果的に統合し、定性的および定量的結果の両方で最先端のトレーニングベースのアプローチを上回ることを示しています。

要約(オリジナル)

Recent studies have explored combining different LoRAs to jointly generate learned style and content. However, existing methods either fail to effectively preserve both the original subject and style simultaneously or require additional training. In this paper, we argue that the intrinsic properties of LoRA can effectively guide diffusion models in merging learned subject and style. Building on this insight, we propose K-LoRA, a simple yet effective training-free LoRA fusion approach. In each attention layer, K-LoRA compares the Top-K elements in each LoRA to be fused, determining which LoRA to select for optimal fusion. This selection mechanism ensures that the most representative features of both subject and style are retained during the fusion process, effectively balancing their contributions. Experimental results demonstrate that the proposed method effectively integrates the subject and style information learned by the original LoRAs, outperforming state-of-the-art training-based approaches in both qualitative and quantitative results.

arxiv情報

著者 Ziheng Ouyang,Zhen Li,Qibin Hou
発行日 2025-02-25 18:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs はコメントを受け付けていません

A Concise Lyapunov Analysis of Nesterov’s Accelerated Gradient Method

要約

Nesterovの加速勾配法の収束分析は、過去数十年にわたって大きな注目を集めています。
広範な作業により、その理論的特性が調査され、加速の背後にある直観が解明されましたが、収束率の単純で直接的な証拠はまだ不足しています。
一般的な凸関数と強力な凸関数の両方について、ネステロフの加速勾配法の収束率の簡潔なリアプノフ分析を提供します。

要約(オリジナル)

Convergence analysis of Nesterov’s accelerated gradient method has attracted significant attention over the past decades. While extensive work has explored its theoretical properties and elucidated the intuition behind its acceleration, a simple and direct proof of its convergence rates is still lacking. We provide a concise Lyapunov analysis of the convergence rates of Nesterov’s accelerated gradient method for both general convex and strongly convex functions.

arxiv情報

著者 Jun Liu
発行日 2025-02-25 18:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | A Concise Lyapunov Analysis of Nesterov’s Accelerated Gradient Method はコメントを受け付けていません

From System 1 to System 2: A Survey of Reasoning Large Language Models

要約

人間レベルの知性を達成するには、高速で直感的なシステム1からより遅く、より意図的なシステム2の推論への移行を改善する必要があります。
システム1は迅速でヒューリスティックな決定に優れていますが、システム2は、より正確な判断とバイアスの減少のために論理的推論に依存しています。
基本的な大規模な言語モデル(LLM)は、迅速な意思決定に優れていますが、真のシステム2思考の特徴的な段階的な分析をまだ完全に受け入れていないため、複雑な推論の深さがありません。
最近、OpenaiのO1/O3やDeepseekのR1などのLLMSは、数学やコーディングなどの分野での専門家レベルのパフォーマンスを実証し、システム2の意図的な推論を密接に模倣し、人間のような認知能力を示しています。
この調査は、基礎LMSの進捗状況とSystem 2 Technologiesの早期開発の簡単な概要から始まり、LLMSの推論の方法を組み合わせた方法を探ります。
次に、推論LLMSを構築し、機能の分析方法、高度な推論を可能にするコア方法、およびさまざまな推論LLMの進化について説明します。
さらに、Reasoning Benchmarksの概要を提供し、代表的なReasoning LLMSのパフォーマンスの詳細な比較を提供します。
最後に、LLMSを推論するための有望な方向性を探り、リアルタイム\ href {https://github.com/zzli2022/awesome-slow-rason-system} {githubリポジトリ} {githubリポジトリ}を追跡します。
この調査が、この急速に進化する分野での革新を促し、進歩を促進するための貴重なリソースとして役立つことを願っています。

要約(オリジナル)

Achieving human-level intelligence requires refining the transition from the fast, intuitive System 1 to the slower, more deliberate System 2 reasoning. While System 1 excels in quick, heuristic decisions, System 2 relies on logical reasoning for more accurate judgments and reduced biases. Foundational Large Language Models (LLMs) excel at fast decision-making but lack the depth for complex reasoning, as they have not yet fully embraced the step-by-step analysis characteristic of true System 2 thinking. Recently, reasoning LLMs like OpenAI’s o1/o3 and DeepSeek’s R1 have demonstrated expert-level performance in fields such as mathematics and coding, closely mimicking the deliberate reasoning of System 2 and showcasing human-like cognitive abilities. This survey begins with a brief overview of the progress in foundational LLMs and the early development of System 2 technologies, exploring how their combination has paved the way for reasoning LLMs. Next, we discuss how to construct reasoning LLMs, analyzing their features, the core methods enabling advanced reasoning, and the evolution of various reasoning LLMs. Additionally, we provide an overview of reasoning benchmarks, offering an in-depth comparison of the performance of representative reasoning LLMs. Finally, we explore promising directions for advancing reasoning LLMs and maintain a real-time \href{https://github.com/zzli2022/Awesome-Slow-Reason-System}{GitHub Repository} to track the latest developments. We hope this survey will serve as a valuable resource to inspire innovation and drive progress in this rapidly evolving field.

arxiv情報

著者 Zhong-Zhi Li,Duzhen Zhang,Ming-Liang Zhang,Jiaxin Zhang,Zengyan Liu,Yuxuan Yao,Haotian Xu,Junhao Zheng,Pei-Jie Wang,Xiuyi Chen,Yingying Zhang,Fei Yin,Jiahua Dong,Zhijiang Guo,Le Song,Cheng-Lin Liu
発行日 2025-02-25 17:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | From System 1 to System 2: A Survey of Reasoning Large Language Models はコメントを受け付けていません

Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving

要約

車両からすべての技術(V2X)は、知覚範囲を拡張し、閉塞を通して見るための理想的なパラダイムになりました。
退場する努力は、単一フレームの協同組合の認識に焦点を当てていますが、計画タスクが依然として未定であっても予測タスクを容易にするために、V2Xを使用してフレーム間の時間的キューをキャプチャする方法です。
このホワイトペーパーでは、Co-MTPを紹介します。これは、自律運転の多重融合を備えた一般的な協同軌道予測フレームワークであり、V2Xシステムを活用して、歴史と将来のドメインの両方のエージェント間の相互作用を完全にキャプチャして計画に利益をもたらします。
歴史の領域では、V2Xは単一車両知覚における不完全な履歴軌道を補完することができ、複数のエージェントから歴史の特徴の融合を学び、歴史の相互作用を捉えるために、不均一なグラフ変圧器を設計します。
さらに、予測の目標は、将来の計画をサポートすることです。
したがって、将来のドメインでは、V2Xは周囲のオブジェクトの予測結果を提供でき、さらにグラフ変圧器を拡張して、エゴ計画と他の車両の意図間の将来の相互作用をキャプチャし、特定の計画の下で最終的な将来のシナリオ状態を取得します
アクション。
現実世界のデータセットV2X-SEQのCO-MTPフレームワークを評価し、結果はCO-MTPが最先端のパフォーマンスを達成し、歴史と将来の融合の両方が予測に大きな利益をもたらすことを示しています。

要約(オリジナル)

Vehicle-to-everything technologies (V2X) have become an ideal paradigm to extend the perception range and see through the occlusion. Exiting efforts focus on single-frame cooperative perception, however, how to capture the temporal cue between frames with V2X to facilitate the prediction task even the planning task is still underexplored. In this paper, we introduce the Co-MTP, a general cooperative trajectory prediction framework with multi-temporal fusion for autonomous driving, which leverages the V2X system to fully capture the interaction among agents in both history and future domains to benefit the planning. In the history domain, V2X can complement the incomplete history trajectory in single-vehicle perception, and we design a heterogeneous graph transformer to learn the fusion of the history feature from multiple agents and capture the history interaction. Moreover, the goal of prediction is to support future planning. Thus, in the future domain, V2X can provide the prediction results of surrounding objects, and we further extend the graph transformer to capture the future interaction among the ego planning and the other vehicles’ intentions and obtain the final future scenario state under a certain planning action. We evaluate the Co-MTP framework on the real-world dataset V2X-Seq, and the results show that Co-MTP achieves state-of-the-art performance and that both history and future fusion can greatly benefit prediction.

arxiv情報

著者 Xinyu Zhang,Zewei Zhou,Zhaoyi Wang,Yangjie Ji,Yanjun Huang,Hong Chen
発行日 2025-02-25 14:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, cs.RO, I.2.6 | Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving はコメントを受け付けていません

Evolution 6.0: Evolving Robotic Capabilities Through Generative Design

要約

生成AIによって駆動されるロボット工学の進化を表す新しい概念であるEvolution 6.0を提案します。
ロボットに人間が要求するタスクを達成するために必要なツールがない場合、必要な機器を自律的に設計し、それらを使用して目標を達成する方法を学びます。
Evolution 6.0は、Vision-Language Models(VLMS)、Vision-Language Action(VLA)モデル、およびツール設計とタスク実行のためのテキストから3Dの生成モデルを搭載した自律的なロボットシステムです。
このシステムは、視覚データとテキストデータからタスク固有のツールを製造するツール生成モジュールと、自然言語の指示をロボットアクションに変換するアクション生成モジュールの2つの重要なモジュールで構成されています。
環境理解用のQWENVLM、タスク実行のためのOpenVLA、3Dツール生成のLlama-Meshを統合します。
評価の結果は、10秒の推論時間と、物理的および視覚的一般化で83.5%、動きの一般化で70%、意味一般化で37%を達成するためのツール生成の90%の成功率を示しています。
将来の改善により、二マニュアル操作、タスク機能の拡大、環境解釈の強化に焦点を当て、実際の適応性を向上させます。

要約(オリジナル)

We propose a new concept, Evolution 6.0, which represents the evolution of robotics driven by Generative AI. When a robot lacks the necessary tools to accomplish a task requested by a human, it autonomously designs the required instruments and learns how to use them to achieve the goal. Evolution 6.0 is an autonomous robotic system powered by Vision-Language Models (VLMs), Vision-Language Action (VLA) models, and Text-to-3D generative models for tool design and task execution. The system comprises two key modules: the Tool Generation Module, which fabricates task-specific tools from visual and textual data, and the Action Generation Module, which converts natural language instructions into robotic actions. It integrates QwenVLM for environmental understanding, OpenVLA for task execution, and Llama-Mesh for 3D tool generation. Evaluation results demonstrate a 90% success rate for tool generation with a 10-second inference time, and action generation achieving 83.5% in physical and visual generalization, 70% in motion generalization, and 37% in semantic generalization. Future improvements will focus on bimanual manipulation, expanded task capabilities, and enhanced environmental interpretation to improve real-world adaptability.

arxiv情報

著者 Muhammad Haris Khan,Artyom Myshlyaev,Artem Lykov,Miguel Altamirano Cabrera,Dzmitry Tsetserukou
発行日 2025-02-25 13:37:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | Evolution 6.0: Evolving Robotic Capabilities Through Generative Design はコメントを受け付けていません

MegaLoc: One Retrieval to Place Them All

要約

特定のクエリと同じ場所から画像を取得することは、視覚的な場所認識、ランドマーク検索、視覚的ローカリゼーション、3D再建、スラムなど、複数のコンピュータービジョンタスクの重要なコンポーネントです。
ただし、既存のソリューションは、これらのタスクのいずれかに特に機能するように構築されており、要件がわずかに変更されたり、配布不足データを満たしているときに失敗することが知られています。
このペーパーでは、さまざまな既存の方法、トレーニング技術、およびデータセットを組み合わせて、複数のタスクで実行されるMegalocと呼ばれる検索モデルをトレーニングします。
Megaloc(1)は、多数の視覚的な場所認識データセットで最先端を達成し、(2)一般的なランドマーク検索データセットの印象的な結果を達成し、(3)Lamarでの視覚的ローカリゼーションのための新しい最新技術を設定することがわかります。
データセット。検索方法を既存のローカリゼーションパイプラインにのみ変更しました。
Megalocのコードは、https://github.com/gmberton/megalocで入手できます

要約(オリジナル)

Retrieving images from the same location as a given query is an important component of multiple computer vision tasks, like Visual Place Recognition, Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However, existing solutions are built to specifically work for one of these tasks, and are known to fail when the requirements slightly change or when they meet out-of-distribution data. In this paper we combine a variety of existing methods, training techniques, and datasets to train a retrieval model, called MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1) achieves state of the art on a large number of Visual Place Recognition datasets, (2) impressive results on common Landmark Retrieval datasets, and (3) sets a new state of the art for Visual Localization on the LaMAR datasets, where we only changed the retrieval method to the existing localization pipeline. The code for MegaLoc is available at https://github.com/gmberton/MegaLoc

arxiv情報

著者 Gabriele Berton,Carlo Masone
発行日 2025-02-25 13:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MegaLoc: One Retrieval to Place Them All はコメントを受け付けていません