Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

要約

大規模なデータセットと事前に訓練された拡散モデルによって駆動される画像の学習モデルの最近の進歩により、一貫した照明の賦課が可能になりました。
ただし、主に過剰なトレーニングコストと多様で高品質のビデオ再生データセットの不足のために、ビデオの再生はまだ遅れています。
フレームごとに画像の再照明モデルを簡単にアプリケーションすると、いくつかの問題が発生します。照明ソースの矛盾と再生外観の矛盾があり、生成されたビデオにちらつきができます。
この作業では、一時的にスムーズなビデオの学習を実現するためのトレーニングなしのアプローチであるLight-A-Videoを提案します。
イメージの再視力モデルから適応したLight-A-Videoは、照明の一貫性を高めるために2つの重要な手法を導入します。
まず、一貫した光の注意(CLA)モジュールを設計します。これにより、自己攻撃層内のクロスフレーム相互作用が強化され、バックグラウンド照明ソースの生成を安定させます。
第二に、光輸送の独立性の物理的原理を活用すると、ソースビデオの外観と再生外観の間に線形ブレンドを適用し、プログレッシブ光融合(PLF)戦略を使用して、照明でのスムーズな時間的遷移を確保します。
実験では、ライトA-A-Videoは、画質を維持しながら、再生ビデオの時間的一貫性を改善し、フレーム間のコヒーレントな照明遷移を確保することを示しています。
プロジェクトページ:https://bujiazi.github.io/light-a-video.github.io/。

要約(オリジナル)

Recent advancements in image relighting models, driven by large-scale datasets and pre-trained diffusion models, have enabled the imposition of consistent lighting. However, video relighting still lags, primarily due to the excessive training costs and the scarcity of diverse, high-quality video relighting datasets. A simple application of image relighting models on a frame-by-frame basis leads to several issues: lighting source inconsistency and relighted appearance inconsistency, resulting in flickers in the generated videos. In this work, we propose Light-A-Video, a training-free approach to achieve temporally smooth video relighting. Adapted from image relighting models, Light-A-Video introduces two key techniques to enhance lighting consistency. First, we design a Consistent Light Attention (CLA) module, which enhances cross-frame interactions within the self-attention layers to stabilize the generation of the background lighting source. Second, leveraging the physical principle of light transport independence, we apply linear blending between the source video’s appearance and the relighted appearance, using a Progressive Light Fusion (PLF) strategy to ensure smooth temporal transitions in illumination. Experiments show that Light-A-Video improves the temporal consistency of relighted video while maintaining the image quality, ensuring coherent lighting transitions across frames. Project page: https://bujiazi.github.io/light-a-video.github.io/.

arxiv情報

著者 Yujie Zhou,Jiazi Bu,Pengyang Ling,Pan Zhang,Tong Wu,Qidong Huang,Jinsong Li,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Anyi Rao,Jiaqi Wang,Li Niu
発行日 2025-02-12 17:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Light-A-Video: Training-free Video Relighting via Progressive Light Fusion はコメントを受け付けていません

Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems

要約

Equivariant Imaging(EI)の正則化は、地上の真実データを必要とせずに、深いイメージングネットワークの監視されていないトレーニングのための事実上の技術となっています。
EIベースの監視されていないトレーニングパラダイムが現在、高次元アプリケーションの非効率性につながる重要な計算冗長性を持っていることを観察して、加速のためにランダム化されたスケッチテクニックを活用するスケッチされたEI正規化を提案します。
次に、スケッチされたEI正規化を拡張して、加速された深い内部学習フレームワークを開発しました。
さらに、ネットワーク適応タスクの場合、正規化レイヤーのみを最適化することにより、EI-DIPとSK-EI-DIPの両方を加速するためのパラメーター効率の高いアプローチを提案します。
X線CTおよびマルチコイルMRI画像再構成タスクに関する我々の数値研究は、私たちのアプローチがテスト時にシングルインプット設定とネットワーク適応で標準のEIベースのカウンターパートにわたって重要な計算加速を達成できることを示しています。

要約(オリジナル)

Equivariant Imaging (EI) regularization has become the de-facto technique for unsupervised training of deep imaging networks, without any need of ground-truth data. Observing that the EI-based unsupervised training paradigm currently has significant computational redundancy leading to inefficiency in high-dimensional applications, we propose a sketched EI regularization which leverages the randomized sketching techniques for acceleration. We then extend our sketched EI regularization to develop an accelerated deep internal learning framework, Sketched Equivariant Deep Image Prior (Sk-EI-DIP), which can be efficiently applied for single-image and task-adapted reconstruction. Additionally, for network adaptation tasks, we propose a parameter-efficient approach for accelerating both EI-DIP and Sk-EI-DIP via optimizing only the normalization layers. Our numerical study on X-ray CT and multi-coil MRI image reconstruction tasks demonstrate that our approach can achieve significant computational acceleration over standard EI-based counterpart in single-input setting and network adaptation at test time.

arxiv情報

著者 Guixian Xu,Jinglai Li,Junqi Tang
発行日 2025-02-12 17:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, math.OC | Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems はコメントを受け付けていません

Deep Spatiotemporal Clutter Filtering of Transthoracic Echocardiographic Images: Leveraging Contextual Attention and Residual Learning

要約

この研究では、経胸壁心エコー(TTE)画像シーケンスから残響乱雑さをフィルタリングするための深い畳み込み自動エンコーダーネットワークを提示します。
このタイプの混乱の時空の性質を考えると、フィルタリングネットワークは3D畳み込み層を採用して、心臓循環全体でそれを抑制します。
ネットワークの設計には、フィルターの有効性に寄与する2つの重要な機能が組み込まれています。1)散らかった領域に焦点を合わせ、コンテキスト情報を活用するための注意メカニズム、および2)細かい画像構造を保存するための残留学習。
ネットワークをトレーニングするために、さまざまなアーティファクトパターンをシミュレートし、6つの超音波ベンダーから超現実的な合成TTEシーケンスに重ねて、フィルタリングネットワークの入力を生成しました。
アーティファクトフリーのシーケンスは、地上の真実として機能しました。
フィルタリングネットワークのパフォーマンスは、目に見えない合成およびin vivoの人為的なシーケンスを使用して評価されました。
in vivoデータセットの結果により、合成データとシミュレートされたアーティファクトのみで訓練されているにもかかわらず、ネットワークの強力な一般化機能が確認されました。
ダウンストリーム処理のためのフィルタリングされたシーケンスの適合性は、セグメントひずみ曲線を計算することによって評価されました。
散らかったセグメントと乱雑なセグメントから計算されたひずみプロファイル間の矛盾の大幅な減少が、提案されたネットワークで乱雑なシーケンスをフィルタリングした後に観察されました。
訓練されたネットワークは、1秒のほんの一部でTTEシーケンスを処理し、リアルタイムのクラッターフィルタリングを可能にし、TTEシーケンスに由来する臨床的に関連するインデックスの精度を潜在的に改善します。
提案された方法のソースコードとフィルタリング結果のビデオファイルの例は、\ href {https://github.com/mahditabassian/deepturtutter-filtering/tree/main} {https://github.comで利用できます。
/mahditabassian/deeptrutter-filtering/tree/main}。

要約(オリジナル)

This study presents a deep convolutional autoencoder network for filtering reverberation clutter from transthoracic echocardiographic (TTE) image sequences. Given the spatiotemporal nature of this type of clutter, the filtering network employs 3D convolutional layers to suppress it throughout the cardiac cycle. The design of the network incorporates two key features that contribute to the effectiveness of the filter: 1) an attention mechanism for focusing on cluttered regions and leveraging contextual information, and 2) residual learning for preserving fine image structures. To train the network, a diverse set of artifact patterns was simulated and superimposed onto ultra-realistic synthetic TTE sequences from six ultrasound vendors, generating input for the filtering network. The artifact-free sequences served as ground-truth. Performance of the filtering network was evaluated using unseen synthetic and in vivo artifactual sequences. Results from the in vivo dataset confirmed the network’s strong generalization capabilities, despite being trained solely on synthetic data and simulated artifacts. The suitability of the filtered sequences for downstream processing was assessed by computing segmental strain curves. A significant reduction in the discrepancy between strain profiles computed from cluttered and clutter-free segments was observed after filtering the cluttered sequences with the proposed network. The trained network processes a TTE sequence in a fraction of a second, enabling real-time clutter filtering and potentially improving the precision of clinically relevant indices derived from TTE sequences. The source code of the proposed method and example video files of the filtering results are available at: \href{https://github.com/MahdiTabassian/Deep-Clutter-Filtering/tree/main}{https://github.com/MahdiTabassian/Deep-Clutter-Filtering/tree/main}.

arxiv情報

著者 Mahdi Tabassian,Somayeh Akbari,Sandro Queirós,Jan D’hooge
発行日 2025-02-12 18:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep Spatiotemporal Clutter Filtering of Transthoracic Echocardiographic Images: Leveraging Contextual Attention and Residual Learning はコメントを受け付けていません

Randomness of Low-Layer Parameters Determines Confusing Samples in Terms of Interaction Representations of a DNN

要約

この論文では、ディープニューラルネットワーク(DNN)によってエンコードされた相互作用の複雑さは、その一般化力を説明できることがわかります。
また、非一般化できない相互作用で表されるDNNの混乱したサンプルは、その低層パラメーターによって決定されることも発見します。
それに比べて、高層パラメーターやネットワークアーキテクチャなどの他の要因は、混乱するサンプルの組成にはあまり影響を与えません。
異なる低層パラメーターを持つ2つのDNNは、通常、類似のパフォーマンスを持っているにもかかわらず、完全に異なる混乱サンプルセットを持っています。
この発見は、宝くじのチケット仮説の理解を広げ、異なるDNNの特徴的な表現力をよく説明しています。

要約(オリジナル)

In this paper, we find that the complexity of interactions encoded by a deep neural network (DNN) can explain its generalization power. We also discover that the confusing samples of a DNN, which are represented by non-generalizable interactions, are determined by its low-layer parameters. In comparison, other factors, such as high-layer parameters and network architecture, have much less impact on the composition of confusing samples. Two DNNs with different low-layer parameters usually have fully different sets of confusing samples, even though they have similar performance. This finding extends the understanding of the lottery ticket hypothesis, and well explains distinctive representation power of different DNNs.

arxiv情報

著者 Junpeng Zhang,Lei Cheng,Qing Li,Liang Lin,Quanshi Zhang
発行日 2025-02-12 18:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Randomness of Low-Layer Parameters Determines Confusing Samples in Terms of Interaction Representations of a DNN はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約

特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダリティを理解できるオムニモーダルモデルの開発への関心が高まっています。
いくつかのオープンソースの代替品が出現していますが、パフォーマンスには特殊なシングルモダリティモデルの背後には顕著な遅れがあります。
このペーパーでは、専門化されたカウンターパートと比較して、画像、ビデオ、オーディオの理解を超えて競争力のあるパフォーマンスを達成するオムニモーダル言語モデルであるOlaを紹介します。
Olaのコア設計は、言語モデルのサポートモダリティを徐々に拡張するプログレッシブモダリティアライメント戦略にあります。
トレーニングパイプラインは、画像とテキストという最も明確なモダリティから始まり、言語とオーディオの知識を接続する音声データ、およびすべてのモダリティを接続するビデオデータを使用して、モデルのスキルセットを徐々に拡張します。
プログレッシブ学習パイプラインにより、クロスモーダルアライメントデータの比較的小さなサイズを維持することもでき、既存のビジョン言語モデルからのオムニモーダルの開発が簡単でコストがかかりません。
さらに、GPT-4Oなどの高度なインタラクティブエクスペリエンスのロックを解除するために、ストリーミング音声生成のための文ごとのデコードソリューションをさらに設計します。
広範な実験は、Olaがすべてのモダリティで既存のオープンオムニモーダルLLMを上回り、同様のサイズの最先端の専門モデルと比較して非常に競争力のあるパフォーマンスを達成することを示しています。
私たちは、この新興分野での将来の研究を促進するために、オラを完全にオープンなオムニモーダル理解ソリューションにすることを目指しています。
モデルの重み、コード、およびデータは、https://github.com/ola-omni/olaでオープンソーリングされています。

要約(オリジナル)

Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.

arxiv情報

著者 Zuyan Liu,Yuhao Dong,Jiahui Wang,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao
発行日 2025-02-12 18:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

Rapid Whole Brain Mesoscale In-vivo MR Imaging using Multi-scale Implicit Neural Representation

要約

目的:スキャン時間を削減しながら高信号対雑音比(SNR)を維持しながら、マルチビューの厚いスライスの獲得のための暗黙の神経表現(INR)を使用して、新しい画像再構成技術を開発および検証する。
方法:回転ビュースーパー解像度(Rover)-MRIを提案します。これは、マルチビューの厚いスライスからMRIデータを再構築するように設計された監視されていないニューラルネットワークベースのアルゴリズムであり、細かい解剖学的詳細を維持しながらスキャン時間を効果的に削減します。
私たちの方法を、二本の補間と現在の最先端の正規化された最小二乗スーパー解像度再構成(LS-SRR)技術の両方と比較します。
検証は、グラウンドトゥルースエクスビボモンキー脳データを使用して実行され、いくつかの生体内のヒトデータセットにわたって優れた再構成品質を示します。
特に、7T MRIスキャナーでわずか17分間のスキャン時間で達成された、前例のない180 {\ mu} m等方性空間分解能を使用して、人間の脳全体の脳脳全体の脳全体の再構築を実現します。
結果:Rover-MRIは、再構築品質の点でLS-SRR法をアウトパフォームし、22.4%低い相対誤差(RE)と7.5%低い全幅半分(FWHM)が、スキャン時間のほぼ半分で細かい構造の詳細をより良い保存を示しています。
結論:Rover-MRIは、メソスケールのMRイメージングに効率的で堅牢なアプローチを提供し、迅速で高解像度の全脳スキャンを可能にします。
その汎用性は、解剖学的詳細と時間効率の良いイメージングを必要とする研究アプリケーションに大きな期待を抱いています。

要約(オリジナル)

Purpose: To develop and validate a novel image reconstruction technique using implicit neural representations (INR) for multi-view thick-slice acquisitions while reducing the scan time but maintaining high signal-to-noise ratio (SNR). Methods: We propose Rotating-view super-resolution (ROVER)-MRI, an unsupervised neural network-based algorithm designed to reconstruct MRI data from multi-view thick slices, effectively reducing scan time by 2-fold while maintaining fine anatomical details. We compare our method to both bicubic interpolation and the current state-of-the-art regularized least-squares super-resolution reconstruction (LS-SRR) technique. Validation is performed using ground-truth ex-vivo monkey brain data, and we demonstrate superior reconstruction quality across several in-vivo human datasets. Notably, we achieve the reconstruction of a whole human brain in-vivo T2-weighted image with an unprecedented 180{\mu}m isotropic spatial resolution, accomplished in just 17 minutes of scan time on a 7T MRI scanner. Results: ROVER-MRI outperformed LS-SRR method in terms of reconstruction quality with 22.4% lower relative error (RE) and 7.5% lower full-width half maximum (FWHM) indicating better preservation of fine structural details in nearly half the scan time. Conclusion: ROVER-MRI offers an efficient and robust approach for mesoscale MR imaging, enabling rapid, high-resolution whole-brain scans. Its versatility holds great promise for research applications requiring anatomical details and time-efficient imaging.

arxiv情報

著者 Jun Lyu,Lipeng Ning,William Consagra,Qiang Liu,Richard J. Rushmore,Berkin Bilgic,Yogesh Rathi
発行日 2025-02-12 18:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Rapid Whole Brain Mesoscale In-vivo MR Imaging using Multi-scale Implicit Neural Representation はコメントを受け付けていません

PulseCheck457: A Diagnostic Benchmark for Comprehensive Spatial Reasoning of Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は、視覚的なシーンの解釈と推論において顕著な能力を実証していますが、複雑で正確な3次元空間推論の能力は不確実なままです。
既存のベンチマークは主に2D空間的理解に焦点を当てており、さまざまな複雑さにわたって6D空間的推論を包括的に評価するためのフレームワークを欠いています。
この制限に対処するために、空間推論のために4つの重要な機能を備えたスケーラブルで偏りのない合成データセットであるPulsecheck457を提示します:マルチオブジェクト認識、2Dロケーション、3Dロケーション、3D方向。
カスケード評価構造を開発し、基本的な単一オブジェクト認識から新しい提案された複雑な6D空間推論タスクに至るまで、5つの難易度レベルにわたって7つの質問タイプを構築します。
Pulsecheck457でさまざまな大きなマルチモーダルモデル(LMMS)を評価し、特に3D推論と6D空間タスクで、タスクの複雑さが増加するにつれてパフォーマンスの一般的な低下を観察しました。
これらの課題を定量化するために、相対パフォーマンスの低下率(RPDR)を導入し、3D推論能力の重要な弱点を強調します。
データセットの偏りのない属性設計を活用すると、実際の画像設定で同様のパターンが観察される異なる属性にわたって予測バイアスも明らかにします。

要約(オリジナル)

Although large multimodal models (LMMs) have demonstrated remarkable capabilities in visual scene interpretation and reasoning, their capacity for complex and precise 3-dimensional spatial reasoning remains uncertain. Existing benchmarks focus predominantly on 2D spatial understanding and lack a framework to comprehensively evaluate 6D spatial reasoning across varying complexities. To address this limitation, we present PulseCheck457, a scalable and unbiased synthetic dataset designed with 4 key capability for spatial reasoning: multi-object recognition, 2D location, 3D location, and 3D orientation. We develop a cascading evaluation structure, constructing 7 question types across 5 difficulty levels that range from basic single object recognition to our new proposed complex 6D spatial reasoning tasks. We evaluated various large multimodal models (LMMs) on PulseCheck457, observing a general decline in performance as task complexity increases, particularly in 3D reasoning and 6D spatial tasks. To quantify these challenges, we introduce the Relative Performance Dropping Rate (RPDR), highlighting key weaknesses in 3D reasoning capabilities. Leveraging the unbiased attribute design of our dataset, we also uncover prediction biases across different attributes, with similar patterns observed in real-world image settings.

arxiv情報

著者 Xingrui Wang,Wufei Ma,Tiezheng Zhang,Celso M de Melo,Jieneng Chen,Alan Yuille
発行日 2025-02-12 18:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PulseCheck457: A Diagnostic Benchmark for Comprehensive Spatial Reasoning of Large Multimodal Models はコメントを受け付けていません

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

要約

この作業では、3Dが認識し、制御可能なテキストからビデオへの生成のための新しいフレームワークであるCinemasterを紹介します。
私たちの目標は、プロの映画監督として同等の制御可能性を持つユーザーに力を与えることです。シーン内のオブジェクトの正確な配置、3Dスペースでのオブジェクトとカメラの両方の柔軟な操作、およびレンダリングされたフレームに対する直感的なレイアウト制御です。
これを達成するために、Cinemasterは2つの段階で動作します。
最初の段階では、オブジェクトの境界ボックスを配置し、3Dスペース内でカメラの動きを定義することにより、ユーザーが3Dに目覚める条件付き信号を直感的に構築できるインタラクティブワークフローを設計します。
第2段階では、これらの制御信号(レンダリングされた深さマップ、カメラの軌跡、オブジェクトクラスのラベル)が、テキストからビデオへの拡散モデルのガイダンスとして、ユーザー向けのビデオコンテンツを生成することを保証します。
さらに、3Dオブジェクトの動きとカメラのポーズアノテーションを使用して、野生のデータセットの希少性を克服するために、大規模なビデオデータから3D境界ボックスとカメラの軌道を抽出する自動データアノテーションパイプラインを慎重に確立します。
広範な定性的および定量的実験は、Cinemasterが既存の方法を大幅に上回り、顕著な3Dに目覚めるテキストからビデオへの生成を実装することを示しています。
プロジェクトページ:https://cinemaster-dev.github.io/。

要約(オリジナル)

In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals–comprising rendered depth maps, camera trajectories and object class labels–serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.

arxiv情報

著者 Qinghe Wang,Yawen Luo,Xiaoyu Shi,Xu Jia,Huchuan Lu,Tianfan Xue,Xintao Wang,Pengfei Wan,Di Zhang,Kun Gai
発行日 2025-02-12 18:55:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation はコメントを受け付けていません

Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

要約

AISが急速に前進し、よりエージェントになるにつれて、彼らが提起するリスクは、その能力によってだけでなく、目標や価値を含む彼らの傾向によってますます支配されます。
目標と価値の出現を追跡することは長年の問題を証明しており、長年にわたって多くの関心にもかかわらず、現在のAIが意味のある価値を持っているかどうかは不明のままです。
この問題の解決策を提案し、ユーティリティ関数のフレームワークを活用して、AIの好みの内部一貫性を研究します。
驚くべきことに、現在のLLMで独立してサンプリングされた好みは、高度の構造的一貫性を示し、さらにこれがスケールで出現することがわかります。
これらの発見は、価値のあるシステムが意味のある意味でLLMSに現れることを示唆しています。これは、幅広い意味を持つ発見です。
これらの緊急価値システムを研究するために、AIユーティリティの分析と制御の両方を含む研究アジェンダとしてユーティリティエンジニアリングを提案します。
既存の制御措置にもかかわらず、LLMアシスタントの問題と衝撃的な価値を明らかにします。
これらには、AISが人間よりも自分自身を大切にし、特定の個人と反調整されている場合が含まれます。
これらの緊急価値システムを制約するために、ユーティリティ制御の方法を提案します。
ケーススタディとして、ユーティリティを市民集会に合わせることで政治的バイアスを減らし、新しいシナリオに一般化する方法を示します。
私たちがそれを好むかどうかにかかわらず、バリューシステムはすでにAISで登場しており、これらの緊急表現を完全に理解し制御するための多くの作業が残っています。

要約(オリジナル)

As AIs rapidly advance and become more agentic, the risk they pose is governed not only by their capabilities but increasingly by their propensities, including goals and values. Tracking the emergence of goals and values has proven a longstanding problem, and despite much interest over the years it remains unclear whether current AIs have meaningful values. We propose a solution to this problem, leveraging the framework of utility functions to study the internal coherence of AI preferences. Surprisingly, we find that independently-sampled preferences in current LLMs exhibit high degrees of structural coherence, and moreover that this emerges with scale. These findings suggest that value systems emerge in LLMs in a meaningful sense, a finding with broad implications. To study these emergent value systems, we propose utility engineering as a research agenda, comprising both the analysis and control of AI utilities. We uncover problematic and often shocking values in LLM assistants despite existing control measures. These include cases where AIs value themselves over humans and are anti-aligned with specific individuals. To constrain these emergent value systems, we propose methods of utility control. As a case study, we show how aligning utilities with a citizen assembly reduces political biases and generalizes to new scenarios. Whether we like it or not, value systems have already emerged in AIs, and much work remains to fully understand and control these emergent representations.

arxiv情報

著者 Mantas Mazeika,Xuwang Yin,Rishub Tamirisa,Jaehyuk Lim,Bruce W. Lee,Richard Ren,Long Phan,Norman Mu,Adam Khoja,Oliver Zhang,Dan Hendrycks
発行日 2025-02-12 18:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs はコメントを受け付けていません

SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation

要約

大規模なビジョン言語モデルの最近の進歩により、非常に表現力豊かで多様なベクタースケッチ生成が可能になりました。
ただし、最先端の方法は、脳卒中の配置を決定するために、前処理されたモデルからの繰り返しフィードバックを含む時間のかかる最適化プロセスに依存しています。
その結果、印象的なスケッチを作成しているにもかかわらず、これらの方法は実際のアプリケーションでは制限されています。
この作業では、1秒以内に高品質のスケッチを生成できる画像条件付きベクタースケッチ生成の拡散モデルであるSwiftsketchを紹介します。
Swiftsketchは、ガウス分布からサンプリングされたストローク制御ポイントを徐々に除去することで動作します。
そのトランスデコーダーアーキテクチャは、ベクトル表現の個別の性質を効果的に処理し、ストローク間の固有のグローバル依存関係をキャプチャするように設計されています。
SwiftSketchをトレーニングするために、画像スケッチペアの合成データセットを構築し、既存のスケッチデータセットの制限に対処します。これは、非アーティストによって作成され、プロフェッショナルな品質が欠けていることがよくあります。
これらの合成スケッチを生成するために、ControlSketchを紹介します。これは、深度認識コントロールネットを介して正確な空間制御を組み込むことにより、SDSベースの技術を強化する方法です。
Swiftsketchは、多様な概念全体に一般化され、高い忠実度と自然で視覚的に魅力的なスタイルを組み合わせたスケッチを効率的に作成することを実証します。

要約(オリジナル)

Recent advancements in large vision-language models have enabled highly expressive and diverse vector sketch generation. However, state-of-the-art methods rely on a time-consuming optimization process involving repeated feedback from a pretrained model to determine stroke placement. Consequently, despite producing impressive sketches, these methods are limited in practical applications. In this work, we introduce SwiftSketch, a diffusion model for image-conditioned vector sketch generation that can produce high-quality sketches in less than a second. SwiftSketch operates by progressively denoising stroke control points sampled from a Gaussian distribution. Its transformer-decoder architecture is designed to effectively handle the discrete nature of vector representation and capture the inherent global dependencies between strokes. To train SwiftSketch, we construct a synthetic dataset of image-sketch pairs, addressing the limitations of existing sketch datasets, which are often created by non-artists and lack professional quality. For generating these synthetic sketches, we introduce ControlSketch, a method that enhances SDS-based techniques by incorporating precise spatial control through a depth-aware ControlNet. We demonstrate that SwiftSketch generalizes across diverse concepts, efficiently producing sketches that combine high fidelity with a natural and visually appealing style.

arxiv情報

著者 Ellie Arar,Yarden Frenkel,Daniel Cohen-Or,Ariel Shamir,Yael Vinker
発行日 2025-02-12 18:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation はコメントを受け付けていません