Representation and Interpretation in Artificial and Natural Computing

要約

人工コンピューティング機械は、人間によって主観的に解釈される客観的なプロセスを通じて表現を変換するため、機械とインタープリターは異なるエンティティですが、推定自然コンピューティングでは、両方のプロセスが同じエージェントによって実行されます。
表現を変換する方法またはプロセスは、ここで呼ばれます\ emph {コンピューティングのモード}。
デジタルコンピューターで使用されるモードはアルゴリズムのものですが、量子コンピューターや非共同コンピューティングの多様な形式など、他にもあります。
コンピューティング。
チューリングとは異なるコンピューティングの概念に基づくモードは、チューリングマシンが行っているものを超えて偉業を実行する可能性がありますが、モードは同じ種類ではなく、比較できませんでした。
コンピューティングのモードがアルゴリズムのモードよりも強力であるためには、効果的なアルゴリズムを欠く関数を計算する必要があり、教会の論文は保持されません。
ここでは、このような効果の仮説モードを使用した計算悪魔を含む思考実験が提示されています。
自然なコンピューティングがある場合、特性が現象学的経験に因果関係にある可能性のある自然コンピューティングのモードがあります。
それが意識の困難な問題を解決することでそれが来ることを発見するでしょう。
しかし、そのようなモードが存在しないことが判明した場合、自然なコンピューティングのようなものはなく、心は計算プロセスではありません。

要約(オリジナル)

Artificial computing machinery transforms representations through an objective process, to be interpreted subjectively by humans, so the machine and the interpreter are different entities, but in the putative natural computing both processes are performed by the same agent. The method or process that transforms a representation is called here \emph{the mode of computing}. The mode used by digital computers is the algorithmic one, but there are others, such as quantum computers and diverse forms of non-conventional computing, and there is an open-ended set of representational formats and modes that could be used in artificial and natural computing. A mode based on a notion of computing different from Turing’s may perform feats beyond what the Turing Machine does but the modes would not be of the same kind and could not be compared. For a mode of computing to be more powerful than the algorithmic one, it ought to compute functions lacking an effective algorithm, and Church Thesis would not hold. Here, a thought experiment including a computational demon using a hypothetical mode for such an effect is presented. If there is natural computing, there is a mode of natural computing whose properties may be causal to the phenomenological experience. Discovering it would come with solving the hard problem of consciousness; but if it turns out that such a mode does not exist, there is no such thing as natural computing, and the mind is not a computational process.

arxiv情報

著者 Luis A. Pineda
発行日 2025-02-14 18:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, F.0 | Representation and Interpretation in Artificial and Natural Computing はコメントを受け付けていません

Navigating Label Ambiguity for Facial Expression Recognition in the Wild

要約

表情認識(FER)は、表情の主観的な性質とノイズの多いサンプルによって引き起こされるあいまいさのラベルのため、依然として挑戦的な作業です。
さらに、現実世界のデータセットで一般的なクラスの不均衡は、さらに複雑になります。
多くの研究では印象的な改善が示されていますが、通常、これらの問題の1つのみに対処し、最適ではない結果につながります。
両方の課題に同時に取り組むために、実際の条件下で堅牢であるナビゲーションラベルAmviguity(NLA)と呼ばれる新しいフレームワークを提案します。
NLAの背後にある動機は、各反復で曖昧なサンプルを動的に推定および強調することで、モデルのバイアスを多数派クラスに削減することにより、ノイズとクラスの不均衡を軽減するのに役立つことです。
これを達成するために、NLAは2つの主要なコンポーネントで構成されています:ノイズ認識適応重み(NAW)と一貫性の正則化。
具体的には、NAWは、グラウンドトゥルースの中間予測スコアと最も近いネガティブの相関に基づいて、曖昧なサンプルに対してより大きな重要性を騒々しいサンプルに対してより大きな重要性を割り当て、ノイズの多いサンプルに対してより低いサンプルに割り当てます。
さらに、一貫した潜在分布を確保するために、正規化用語を組み込みます。
その結果、NLAにより、モデルは、主に少数派クラスに属するより挑戦的な曖昧なサンプルに徐々に焦点を当てることができます。
広範な実験は、NLAが全体的な精度と平均精度の両方で既存の方法よりも優れていることを示しており、ノイズとクラスの不均衡に対する堅牢性を確認しています。
私たちの知る限り、これは両方の問題に同時に対処する最初のフレームワークです。

要約(オリジナル)

Facial expression recognition (FER) remains a challenging task due to label ambiguity caused by the subjective nature of facial expressions and noisy samples. Additionally, class imbalance, which is common in real-world datasets, further complicates FER. Although many studies have shown impressive improvements, they typically address only one of these issues, leading to suboptimal results. To tackle both challenges simultaneously, we propose a novel framework called Navigating Label Ambiguity (NLA), which is robust under real-world conditions. The motivation behind NLA is that dynamically estimating and emphasizing ambiguous samples at each iteration helps mitigate noise and class imbalance by reducing the model’s bias toward majority classes. To achieve this, NLA consists of two main components: Noise-aware Adaptive Weighting (NAW) and consistency regularization. Specifically, NAW adaptively assigns higher importance to ambiguous samples and lower importance to noisy ones, based on the correlation between the intermediate prediction scores for the ground truth and the nearest negative. Moreover, we incorporate a regularization term to ensure consistent latent distributions. Consequently, NLA enables the model to progressively focus on more challenging ambiguous samples, which primarily belong to the minority class, in the later stages of training. Extensive experiments demonstrate that NLA outperforms existing methods in both overall and mean accuracy, confirming its robustness against noise and class imbalance. To the best of our knowledge, this is the first framework to address both problems simultaneously.

arxiv情報

著者 JunGyu Lee,Yeji Choi,Haksub Kim,Ig-Jae Kim,Gi Pyo Nam
発行日 2025-02-14 08:24:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Navigating Label Ambiguity for Facial Expression Recognition in the Wild はコメントを受け付けていません

Benchmarking Predictive Coding Networks — Made Simple

要約

この作業では、機械学習における予測コーディングネットワーク(PCN)の効率とスケーラビリティの問題に取り組みます。
そのために、パフォーマンスとシンプルさに焦点を当てたPCXと呼ばれるライブラリを提案し、それを使用して、コミュニティが実験に使用するための標準ベンチマークの大規模なセットを実装します。
フィールドのほとんどの作品が独自のタスクとアーキテクチャを提案しているため、互いに比較しないでください。小規模なタスク、シンプルで高速なオープンソースライブラリ、および包括的なベンチマークのセットに焦点を当て、これらすべての懸念に対処します。
次に、PCN用の既存のアルゴリズムの両方を使用して、バイオプリュージブルディープラーニングコミュニティで人気のある他の方法の適応を使用して、このようなベンチマークで広範なテストを実行します。
これにより、(i)より複雑なデータセットで、文献で一般的に使用されているよりもはるかに大きいテストアーキテクチャが可能になりました。
(ii)〜提供されたすべてのタスクとデータセットで、新しい最先端の結果に到達します。
(iii)〜PCNの現在の制限が何であるかを明確に強調し、重要な将来の研究の方向性を述べることができます。
フィールドの主要なオープンな問題の1つであるスケーラビリティに向けてコミュニティの努力を促進することを期待して、コード、テスト、ベンチマークをリリースします。
ライブラリへのリンク:https://github.com/liukidar/pcx

要約(オリジナル)

In this work, we tackle the problems of efficiency and scalability for predictive coding networks (PCNs) in machine learning. To do so, we propose a library, called PCX, that focuses on performance and simplicity, and use it to implement a large set of standard benchmarks for the community to use for their experiments. As most works in the field propose their own tasks and architectures, do not compare one against each other, and focus on small-scale tasks, a simple and fast open-source library and a comprehensive set of benchmarks would address all these concerns. Then, we perform extensive tests on such benchmarks using both existing algorithms for PCNs, as well as adaptations of other methods popular in the bio-plausible deep learning community. All this has allowed us to (i) test architectures much larger than commonly used in the literature, on more complex datasets; (ii)~reach new state-of-the-art results in all of the tasks and datasets provided; (iii)~clearly highlight what the current limitations of PCNs are, allowing us to state important future research directions. With the hope of galvanizing community efforts towards one of the main open problems in the field, scalability, we release code, tests, and benchmarks. Link to the library: https://github.com/liukidar/pcx

arxiv情報

著者 Luca Pinchetti,Chang Qi,Oleh Lokshyn,Gaspard Olivers,Cornelius Emde,Mufeng Tang,Amine M’Charrak,Simon Frieder,Bayar Menzat,Rafal Bogacz,Thomas Lukasiewicz,Tommaso Salvatori
発行日 2025-02-14 08:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.6 | Benchmarking Predictive Coding Networks — Made Simple はコメントを受け付けていません

Supervised contrastive learning for cell stage classification of animal embryos

要約

ビデオ顕微鏡検査は、機械学習と組み合わせた場合、in vitro産生(IVP)胚の早期発達を研究するための有望なアプローチを提供します。
ただし、発達イベント、より具体的には細胞分裂に手動で注釈を付けることは、生物学者にとって時間がかかり、実用的なアプリケーションのために拡大することはできません。
深い学習アプローチを使用して、2Dタイムラプス顕微鏡ビデオの胚の細胞段階を自動的に分類することを目指しています。
私たちは主に牛の繁殖の適用に関心があるため、ビデオ顕微鏡を使用したウシ胚発生の分析に焦点を当てており、ウシ胚細胞段階(ECS)データセットを作成しました。
課題は3つあります。(1)細胞段階の識別を困難にする低品質の画像とウシの暗い細胞、(2)発達段階の境界でのクラスのあいまいさ、および(3)不均衡なデータ分布。
これらの課題に対処するために、Clembryoを紹介します。Clembryoは、トレーニングのための焦点損失と組み合わせた監視された対照学習と、エンコーダーとしての軽量3DニューラルネットワークCSN-50を組み合わせた新しい方法を紹介します。
また、私たちの方法がよく一般化されることも示します。
Clembryoは、ウシECSデータセットと公開されているNYUマウス胚データセットの両方で最先端の方法を上回ります。

要約(オリジナル)

Video microscopy, when combined with machine learning, offers a promising approach for studying the early development of in vitro produced (IVP) embryos. However, manually annotating developmental events, and more specifically cell divisions, is time-consuming for a biologist and cannot scale up for practical applications. We aim to automatically classify the cell stages of embryos from 2D time-lapse microscopy videos with a deep learning approach. We focus on the analysis of bovine embryonic development using video microscopy, as we are primarily interested in the application of cattle breeding, and we have created a Bovine Embryos Cell Stages (ECS) dataset. The challenges are three-fold: (1) low-quality images and bovine dark cells that make the identification of cell stages difficult, (2) class ambiguity at the boundaries of developmental stages, and (3) imbalanced data distribution. To address these challenges, we introduce CLEmbryo, a novel method that leverages supervised contrastive learning combined with focal loss for training, and the lightweight 3D neural network CSN-50 as an encoder. We also show that our method generalizes well. CLEmbryo outperforms state-of-the-art methods on both our Bovine ECS dataset and the publicly available NYU Mouse Embryos dataset.

arxiv情報

著者 Yasmine Hachani,Patrick Bouthemy,Elisa Fromont,Sylvie Ruffini,Ludivine Laffont,Alline de Paula Reis
発行日 2025-02-14 09:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.QM | Supervised contrastive learning for cell stage classification of animal embryos はコメントを受け付けていません

ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation

要約

言語条件の操作は、言語の高レベルの抽象化のために、重要であるが挑戦的なロボットタスクです。
これに対処するために、研究者は自然言語から派生した目標表現の改善を求めました。
この論文では、言語ベースの将来のイメージ生成と細かい粒度のアクション予測との効果的なブリッジとして、シーン内の3D粒子のモーショントレンドを表す3Dフローを強調します。
この目的のために、3D粒子のダイナミクス、視力観測、操作作用を因果変圧器でモデル化する統一されたフレームワークであるManitrendを開発します。
このフレームワーク内で、3Dフロー予測の機能は、将来の画像生成とアクション予測の追加条件として機能し、ピクセルごとの時空モデリングの複雑さを軽減し、シームレスなアクションガイダンスを提供します。
さらに、3Dフローは、交差体存在のデモンストレーションで大規模な事前販売中に、欠落または不均一なアクションラベルを置き換えることができます。
2つの包括的なベンチマークでの実験は、この方法が高効率で最先端のパフォーマンスを達成することを示しています。
当社のコードとモデルのチェックポイントは、受け入れられると利用可能になります。

要約(オリジナル)

Language-conditioned manipulation is a vital but challenging robotic task due to the high-level abstraction of language. To address this, researchers have sought improved goal representations derived from natural language. In this paper, we highlight 3D flow – representing the motion trend of 3D particles within a scene – as an effective bridge between language-based future image generation and fine-grained action prediction. To this end, we develop ManiTrend, a unified framework that models the dynamics of 3D particles, vision observations and manipulation actions with a causal transformer. Within this framework, features for 3D flow prediction serve as additional conditions for future image generation and action prediction, alleviating the complexity of pixel-wise spatiotemporal modeling and providing seamless action guidance. Furthermore, 3D flow can substitute missing or heterogeneous action labels during large-scale pretraining on cross-embodiment demonstrations. Experiments on two comprehensive benchmarks demonstrate that our method achieves state-of-the-art performance with high efficiency. Our code and model checkpoints will be available upon acceptance.

arxiv情報

著者 Yuxin He,Qiang Nie
発行日 2025-02-14 09:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ManiTrend: Bridging Future Generation and Action Prediction with 3D Flow for Robotic Manipulation はコメントを受け付けていません

ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments

要約

環境と対話できるリアルな仮想エージェントを作成することは、コンピューターグラフィックスの長年の目標です。
このペーパーでは、視覚情報の収集と環境の手がかりに対する動的な反応のための信頼できるエージェント行動の重要な側面である自然な頭の回転を生成するという課題に対処します。
以前の方法は大きな進歩を遂げていますが、多くはデータ駆動型または顕著性ベースのアプローチに依存しており、多くの場合、多様な設定でパフォーマンスが低下し、リスク評価、情報探索、文脈上の優先順位付けなどのより深い認知要因をキャプチャできません。
したがって、生成された動作は剛性のあるように見えるか、重要なシーン要素を見落とし、それによりリアリズムの感覚が低下します。
この論文では、\ textbf {virac}、a \ textbf {vi} sion- \ textbf {r} easoning \ textbf {a} gent head movement \ textbf {c} ontrolフレームワークを提案します。
ビジョン言語モデル(VLMS)や大規模モデル(LLM)を含む大規模モデルの推論機能。
Viracは、あらゆる認知メカニズムを明示的にモデル化するのではなく、これらのモデルによって内在化された広範なトレーニングから内在化されたバイアスとパターンを活用して、手で調整されたヒューリスティックなしで人間のような知覚プロセスをエミュレートします。
複数のシナリオでの実験結果は、Viracが最近の最先端の技術よりも自然でコンテキストを意識した頭回転を生成することを明らかにしています。
定量的評価では、実際の人間のヘッドモーブメントデータとの密接な整合性が示されていますが、ユーザー調査では、リアリズムと認知的妥当性が改善されたことが確認されています。

要約(オリジナル)

Creating lifelike virtual agents capable of interacting with their environments is a longstanding goal in computer graphics. This paper addresses the challenge of generating natural head rotations, a critical aspect of believable agent behavior for visual information gathering and dynamic responses to environmental cues. Although earlier methods have made significant strides, many rely on data-driven or saliency-based approaches, which often underperform in diverse settings and fail to capture deeper cognitive factors such as risk assessment, information seeking, and contextual prioritization. Consequently, generated behaviors can appear rigid or overlook critical scene elements, thereby diminishing the sense of realism. In this paper, we propose \textbf{ViRAC}, a \textbf{Vi}sion-\textbf{R}easoning \textbf{A}gent Head Movement \textbf{C}ontrol framework, which exploits the common-sense knowledge and reasoning capabilities of large-scale models, including Vision-Language Models (VLMs) and Large-Language Models (LLMs). Rather than explicitly modeling every cognitive mechanism, ViRAC leverages the biases and patterns internalized by these models from extensive training, thus emulating human-like perceptual processes without hand-tuned heuristics. Experimental results in multiple scenarios reveal that ViRAC produces more natural and context-aware head rotations than recent state-of-the-art techniques. Quantitative evaluations show a closer alignment with real human head-movement data, while user studies confirm improved realism and cognitive plausibility.

arxiv情報

著者 Juyeong Hwang,Seong-Eun Hong,Hyeongyeop Kang
発行日 2025-02-14 09:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments はコメントを受け付けていません

Verbalized Machine Learning: Revisiting Machine Learning with Language Models

要約

大規模な言語モデル(LLMS)によって行われた進捗状況に動機付けられ、言葉による機械学習(VML)のフレームワークを紹介します。
通常、連続パラメーター空間で最適化された従来の機械学習(ML)モデルとは対照的に、VMLはパラメーター空間を人間の解釈可能な自然言語に制限します。
このような制約は、関数近似の新しい視点につながります。ここでは、テキストプロンプトを持つLLMは、テキストプロンプトによってパラメーター化された関数として表示できます。
この視点に導かれて、回帰や分類などの古典的なMLの問題を再検討し、これらの問題はLLMパラメーター化された学習者とオプティマイザーによって解決できることを発見しました。
VMLの主な利点には、(1)誘導バイアスの簡単なエンコードが含まれます。問題と仮説クラスに関する事前知識は、自然言語でエンコードし、LLMパラメーター化された学習者に供給できます。
(2)自動モデルクラスの選択:オプティマイザーは、データと言葉による事前知識に基づいてモデルクラスを自動的に選択でき、トレーニング中にモデルクラスを更新できます。
(3)解釈可能な学習者の更新:LLMパラメーター化されたオプティマイザーは、更新が実行される理由について説明を提供できます。
VMLの有効性を経験的に検証し、VMLがより強力な解釈可能性への足がかりの石として機能することを願っています。

要約(オリジナル)

Motivated by the progress made by large language models (LLMs), we introduce the framework of verbalized machine learning (VML). In contrast to conventional machine learning (ML) models that are typically optimized over a continuous parameter space, VML constrains the parameter space to be human-interpretable natural language. Such a constraint leads to a new perspective of function approximation, where an LLM with a text prompt can be viewed as a function parameterized by the text prompt. Guided by this perspective, we revisit classical ML problems, such as regression and classification, and find that these problems can be solved by an LLM-parameterized learner and optimizer. The major advantages of VML include (1) easy encoding of inductive bias: prior knowledge about the problem and hypothesis class can be encoded in natural language and fed into the LLM-parameterized learner; (2) automatic model class selection: the optimizer can automatically select a model class based on data and verbalized prior knowledge, and it can update the model class during training; and (3) interpretable learner updates: the LLM-parameterized optimizer can provide explanations for why an update is performed. We empirically verify the effectiveness of VML, and hope that VML can serve as a stepping stone to stronger interpretability.

arxiv情報

著者 Tim Z. Xiao,Robert Bamler,Bernhard Schölkopf,Weiyang Liu
発行日 2025-02-14 09:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Verbalized Machine Learning: Revisiting Machine Learning with Language Models はコメントを受け付けていません

Towards Polyp Counting In Full-Procedure Colonoscopy Videos

要約

自動大腸内視鏡検査報告は、大腸内視鏡検査手順の品質管理を強化し、費用対効果を改善するための大きな可能性を秘めています。
主要な課題は、フルプロセッド大腸内視鏡ビデオ全体のポリープのトラックレットの自動識別、追跡、および再アソシエーション(Reid)にあります。
これは、正確なポリープカウントに不可欠であり、腺腫検出率(ADR)や大腸内視鏡(PPC)(PPC)などの主要な品質メトリックの自動計算を可能にします。
しかし、Polyp Reidは、Polypの外観の変動、視野から頻繁に消失すること、および閉塞のために挑戦的です。
この作業では、フルプロークアービデオを提供する最初のオープンアクセスデータセットである実質コロンデータセットを活用して、フルプロセスビデオでポリープを自動的にカウントし、オープンアクセスを確立するタスク、データスプリット、およびメトリックを定義します。
フレームワーク。
以前に提案されたのは、シングルフレームとマルチビューの両方のポリープトラックレットの表現を学習するためのSIMCLRベースの方法を提案し、それらをPolypカウントタスクに適応させました。
次に、これらの学習表現に基づいてReidをさらに改善し、最終的にポリープカウントを強化するために、アフィニティ伝播ベースのクラスタリング方法を提案します。
私たちのアプローチは、最先端のパフォーマンスを達成し、ポリープの断片化率は6.30で、実際のデータセットで5%未満の偽陽性率(FPR)があります。
https://github.com/lparolari/towards-polyp-countingでコードをリリースします。

要約(オリジナル)

Automated colonoscopy reporting holds great potential for enhancing quality control and improving cost-effectiveness of colonoscopy procedures. A major challenge lies in the automated identification, tracking, and re-association (ReID) of polyps tracklets across full-procedure colonoscopy videos. This is essential for precise polyp counting and enables automated computation of key quality metrics, such as Adenoma Detection Rate (ADR) and Polyps Per Colonoscopy (PPC). However, polyp ReID is challenging due to variations in polyp appearance, frequent disappearance from the field of view, and occlusions. In this work, we leverage the REAL-Colon dataset, the first open-access dataset providing full-procedure videos, to define tasks, data splits and metrics for the problem of automatically count polyps in full-procedure videos, establishing an open-access framework. We re-implement previously proposed SimCLR-based methods for learning representations of polyp tracklets, both single-frame and multi-view, and adapt them to the polyp counting task. We then propose an Affinity Propagation-based clustering method to further improve ReID based on these learned representations, ultimately enhancing polyp counting. Our approach achieves state-of-the-art performance, with a polyp fragmentation rate of 6.30 and a false positive rate (FPR) below 5% on the REAL-Colon dataset. We release code at https://github.com/lparolari/towards-polyp-counting.

arxiv情報

著者 Luca Parolari,Andrea Cherubini,Lamberto Ballan,Carlo Biffi
発行日 2025-02-14 10:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Polyp Counting In Full-Procedure Colonoscopy Videos はコメントを受け付けていません

Why does my medical AI look at pictures of birds? Exploring the efficacy of transfer learning across domain boundaries

要約

Imagenetが前orainingの万能薬として扱われることは、オープンな秘密です。
特に医療機械学習では、ゼロからトレーニングされていないモデルは、多くの場合、Imagenet-Preatreaded Modelsに基づいて微調整されます。
下流タスクのドメインからのデータを事前に削除することを、代わりにほとんど常に優先する必要があると仮定します。
1,200万を超えるコンピューター断層撮影(CT)画像スライスを含むデータセットであるRadnet-12Mを活用して、医学的および自然な画像に対する自己監視前の事前採取の有効性を調査します。
私たちの実験は、ドメイン内およびクロスドメインの移転シナリオ、さまざまなデータスケール、微調整と線形評価、および特徴空間分析をカバーしています。
ドメイン内移動は、クロスドメインの移動と比較して比較され、同等または改善されたパフォーマンス(実験に応じて、ラドネット前削除を使用して0.44%-2.07%のパフォーマンスの増加)を達成し、ドメイン境界関連の一般化ギャップと存在を実証することがわかります。
ドメイン固有の学習機能。

要約(オリジナル)

It is an open secret that ImageNet is treated as the panacea of pretraining. Particularly in medical machine learning, models not trained from scratch are often finetuned based on ImageNet-pretrained models. We posit that pretraining on data from the domain of the downstream task should almost always be preferred instead. We leverage RadNet-12M, a dataset containing more than 12 million computed tomography (CT) image slices, to explore the efficacy of self-supervised pretraining on medical and natural images. Our experiments cover intra- and cross-domain transfer scenarios, varying data scales, finetuning vs. linear evaluation, and feature space analysis. We observe that intra-domain transfer compares favorably to cross-domain transfer, achieving comparable or improved performance (0.44% – 2.07% performance increase using RadNet pretraining, depending on the experiment) and demonstrate the existence of a domain boundary-related generalization gap and domain-specific learned features.

arxiv情報

著者 Frederic Jonske,Moon Kim,Enrico Nasca,Janis Evers,Johannes Haubold,René Hosch,Felix Nensa,Michael Kamp,Constantin Seibold,Jan Egger,Jens Kleesiek
発行日 2025-02-14 10:12:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Why does my medical AI look at pictures of birds? Exploring the efficacy of transfer learning across domain boundaries はコメントを受け付けていません

RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control

要約

カメラトリュームガイド付きの画像からビデオへの最近の進歩により、テキストベースのアプローチと比較して、より高い精度と複雑なカメラ制御のサポートが高くなります。
ただし、ユーザーは深さやシーンスケールの知識なしに任意の現実世界画像を操作する際に正確なカメラパラメーターを提供するのに苦労することが多いため、重要なユーザビリティの課題を導入します。
これらの現実世界のアプリケーションの問題に対処するために、単眼のメートリック深度推定を統合して3Dシーンの再構築を前処理ステップで確立する新しい拡散ベースのビデオ生成フレームワークであるRealCam-I2Vを提案します。
トレーニング中、再構築された3Dシーンは、相対値から絶対値へのスケーリングカメラパラメーターを可能にし、多様な現実世界の画像間の互換性とスケールの一貫性を確保します。
推論では、RealCam-I2Vは、3Dシーン内でドラッグすることでユーザーがカメラの軌跡を正確に描画できる直感的なインターフェイスを提供します。
正確なカメラの制御とシーンの一貫性をさらに強化するために、シーンが制約されたノイズシェーピングを提案します。これにより、高レベルのノイズが形成され、フレームワークがより低いノイズ段階で動的でコヒーレントなビデオ生成を維持できます。
RealCam-I2Vは、RealEState10Kおよびドメイン外の画像で制御可能性とビデオ品質の大幅な改善を達成します。
さらに、カメラ制御のループビデオ生成や生成フレームの補間などのアプリケーションを有効にします。
絶対規模の注釈、コード、およびすべてのチェックポイントをリリースします。
https://zgctroy.github.io/realcam-i2vの動的結果をご覧ください。

要約(オリジナル)

Recent advancements in camera-trajectory-guided image-to-video generation offer higher precision and better support for complex camera control compared to text-based approaches. However, they also introduce significant usability challenges, as users often struggle to provide precise camera parameters when working with arbitrary real-world images without knowledge of their depth nor scene scale. To address these real-world application issues, we propose RealCam-I2V, a novel diffusion-based video generation framework that integrates monocular metric depth estimation to establish 3D scene reconstruction in a preprocessing step. During training, the reconstructed 3D scene enables scaling camera parameters from relative to absolute values, ensuring compatibility and scale consistency across diverse real-world images. In inference, RealCam-I2V offers an intuitive interface where users can precisely draw camera trajectories by dragging within the 3D scene. To further enhance precise camera control and scene consistency, we propose scene-constrained noise shaping, which shapes high-level noise and also allows the framework to maintain dynamic, coherent video generation in lower noise stages. RealCam-I2V achieves significant improvements in controllability and video quality on the RealEstate10K and out-of-domain images. We further enables applications like camera-controlled looping video generation and generative frame interpolation. We will release our absolute-scale annotation, codes, and all checkpoints. Please see dynamic results in https://zgctroy.github.io/RealCam-I2V.

arxiv情報

著者 Teng Li,Guangcong Zheng,Rui Jiang,Shuigenzhan,Tao Wu,Yehao Lu,Yining Lin,Xi Li
発行日 2025-02-14 10:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control はコメントを受け付けていません