Towards Learning to Complete Anything in Lidar

要約

ワイルド内のLidarベースの形状完了のために、Cal(Lidarですべてを完了)を提案します。
これは、LIDARベースのセマンティック/パノプティックシーンの完成と密接に関連しています。
ただし、現代の方法は、既存のLIDARデータセットにラベル付けされた閉じた語彙からのみオブジェクトを完成させて認識できます。
それとは違う、当社のゼロショットアプローチは、マルチモーダルセンサーシーケンスから、観測されたオブジェクトのオブジェクトの形状とセマンティックな特徴まで、時間的コンテキストを活用します。
これらは、LIDARのみのインスタンスレベルの完了と認識モデルに蒸留されます。
部分的な形状の完成のみを採掘しますが、蒸留モデルは、データセット全体の複数のそのような部分的な観測から完全なオブジェクト形状を推測することを学ぶことがわかります。
モデルは、セマンティックおよびパノプティックシーンの完了のために標準のベンチマークで促され、オブジェクトを(amodal)3D境界ボックスとしてローカライズし、固定クラスの語彙を超えたオブジェクトを認識できることを示します。
プロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/complete-anything-lidarです

要約(オリジナル)

We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar

arxiv情報

著者 Ayca Takmaz,Cristiano Saltori,Neehar Peri,Tim Meinhardt,Riccardo de Lutio,Laura Leal-Taixé,Aljoša Ošep
発行日 2025-04-16 17:21:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Learning to Complete Anything in Lidar はコメントを受け付けていません

Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation

要約

パラメーター効率の高い微調整(PEFT)は、固有の機能を維持および解き放ちながら、強力な基礎モデル(FMS)を多様なダウンストリームタスクに適応させることができる手法です。
ただし、自然な画像を念頭に置いて設計されていることが多い既存のPEFTメソッドは、リモートセンシング(RS)シナリオに適用すると闘うことがあることが観察されています。
これは主に、アーティファクトの影響を処理できないためです。これは、RS画像機能で特に深刻な問題です。
この課題に取り組むために、RSアーティファクト征服用に特別に設計された最初のPEFTメソッドであるEarth-Adapterを紹介します。
Earth-Adapterは、アダプター(MOA)の混合と離散フーリエ変換(DFT)を組み合わせた周波数適応プロセスの新しい混合物を導入します。
DFTを利用することにより、アースアダプターは機能を異なる周波数コンポーネントに分解し、アーティファクトを元の機能から正確に分離できます。
その後、MOAは各アダプターの専門家に重みを動的に割り当て、さまざまな周波数ドメインにわたって機能の組み合わせを可能にします。
これらのシンプルな効果的なアプローチにより、アースアダプターは以前のPEFTメソッドよりもアーティファクトによって引き起こされる乱れをより効率的に克服でき、RSシナリオでのFMSのパフォーマンスを大幅に向上させることができます。
ドメイン適応(DA)およびドメイン一般化(DG)セマンティックセグメンテーションベンチマークに関する実験は、地球適用性の有効性を紹介します。
ベースラインREINと比較して、アースアダプターはDAで9.0%MIOU、DGベンチマークで3.1%MIOUを大幅に改善します。
コードはhttps://github.com/visionxlab/earth-adapterでリリースされます。

要約(オリジナル)

Parameter-Efficient Fine-Tuning (PEFT) is a technique that allows us to adapt powerful Foundation Models (FMs) to diverse downstream tasks while preserving and unleashing their inherent capabilities. However, we have observed that existing PEFT methods, which are often designed with natural imagery in mind, struggle when applied to Remote Sensing (RS) scenarios. This is primarily due to their inability to handle artifact influences, a problem particularly severe in RS image features. To tackle this challenge, we introduce Earth-Adapter, the first PEFT method specifically designed for RS artifacts conquering. Earth-Adapter introduces a novel Mixture of Frequency Adaptation process that combines a Mixture of Adapter (MoA) with Discrete Fourier Transformation (DFT). By utilizing DFT, Earth-Adapter can decompose features into different frequency components, precisely separating artifacts from original features. The MoA then dynamically assigns weights to each adapter expert, allowing for the combination of features across various frequency domains. These simple-yet-effective approaches enable Earth-Adapter to more efficiently overcome the disturbances caused by artifacts than previous PEFT methods, significantly enhancing the FMs’ performance on RS scenarios. Experiments on Domain Adaptation (DA), and Domain Generalization (DG) semantic segmentation benchmarks showcase the Earth-Adapter’s effectiveness. Compared with baseline Rein, Earth-Adapter significantly improves 9.0% mIoU in DA and 3.1% mIoU in DG benchmarks. Our code will be released at https://github.com/VisionXLab/Earth-Adapter.

arxiv情報

著者 Xiaoxing Hu,Ziyang Gong,Yupei Wang,Yuru Jia,Gen Luo,Xue Yang
発行日 2025-04-16 17:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation はコメントを受け付けていません

Beyond Reconstruction: A Physics Based Neural Deferred Shader for Photo-realistic Rendering

要約

ディープラーニングベースのレンダリングは、映画の視覚効果やビデオゲームの写真と現実的なシーンの構築など、さまざまなアプリケーションに適用される写真と現実的な画像合成の大幅な改善を実証しています。
ただし、重要な制限は、これらのパラメーターを制御することなく、照明と材料パラメーターを分解するのが難しいことです。
このペーパーでは、データ駆動型のレンダリングプロセスを分解し、シェーディングと再照明タスクの写真と現実的な結果を生成するための一般化可能なシェーディング関数を学習するために、新しい物理学ベースのニューラル延期シェーディングパイプラインを紹介します。
私たちのモデルは、古典的なモデルや最先端の​​ニューラルシェーディングモデルと比較してパフォーマンスの向上を実現し、任意の照明入力から一般化可能な写真リアリックなシェーディングを可能にします。

要約(オリジナル)

Deep learning based rendering has demonstrated major improvements for photo-realistic image synthesis, applicable to various applications including visual effects in movies and photo-realistic scene building in video games. However, a significant limitation is the difficulty of decomposing the illumination and material parameters, which limits such methods to reconstruct an input scene, without any possibility to control these parameters. This paper introduces a novel physics based neural deferred shading pipeline to decompose the data-driven rendering process, learn a generalizable shading function to produce photo-realistic results for shading and relighting tasks, we also provide a shadow estimator to efficiently mimic shadowing effect. Our model achieves improved performance compared to classical models and a state-of-art neural shading model, and enables generalizable photo-realistic shading from arbitrary illumination input.

arxiv情報

著者 Zhuo He,Paul Henderson,Nicolas Pugeault
発行日 2025-04-16 17:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beyond Reconstruction: A Physics Based Neural Deferred Shader for Photo-realistic Rendering はコメントを受け付けていません

The Tenth NTIRE 2025 Image Denoising Challenge Report

要約

このペーパーでは、提案された方法論と対応する結果を強調するNTIRE 2025 Image noising Challenge({\ Sigma} = 50)の概要を示します。
主な目的は、計算の複雑さやモデルサイズを制約することなく、PSNRを使用して定量的に評価される高品質の除生パフォーマンスを達成できるネットワークアーキテクチャを開発することです。
このタスクは、固定ノイズレベルが50の独立した添加剤ホワイトガウスノイズ(AWGN)を想定しています。合計290人の参加者がチャレンジに登録し、20チームが有効な結果を正常に提出し、現在の最先端の画像除去に関する洞察を提供します。

要約(オリジナル)

This paper presents an overview of the NTIRE 2025 Image Denoising Challenge ({\sigma} = 50), highlighting the proposed methodologies and corresponding results. The primary objective is to develop a network architecture capable of achieving high-quality denoising performance, quantitatively evaluated using PSNR, without constraints on computational complexity or model size. The task assumes independent additive white Gaussian noise (AWGN) with a fixed noise level of 50. A total of 290 participants registered for the challenge, with 20 teams successfully submitting valid results, providing insights into the current state-of-the-art in image denoising.

arxiv情報

著者 Lei Sun,Hang Guo,Bin Ren,Luc Van Gool,Radu Timofte,Yawei Li,Xiangyu Kong,Hyunhee Park,Xiaoxuan Yu,Suejin Han,Hakjae Jeon,Jia Li,Hyung-Ju Chun,Donghun Ryou,Inju Ha,Bohyung Han,Jingyu Ma,Zhijuan Huang,Huiyuan Fu,Hongyuan Yu,Boqi Zhang,Jiawei Shi,Heng Zhang,Huadong Ma,Deepak Kumar Tyagi,Aman Kukretti,Gajender Sharma,Sriharsha Koundinya,Asim Manna,Jun Cheng,Shan Tan,Jun Liu,Jiangwei Hao,Jianping Luo,Jie Lu,Satya Narayan Tazi,Arnim Gautam,Aditi Pawar,Aishwarya Joshi,Akshay Dudhane,Praful Hambadre,Sachin Chaudhary,Santosh Kumar Vipparthi,Subrahmanyam Murala,Jiachen Tu,Nikhil Akalwadi,Vijayalaxmi Ashok Aralikatti,Dheeraj Damodar Hegde,G Gyaneshwar Rao,Jatin Kalal,Chaitra Desai,Ramesh Ashok Tabib,Uma Mudenagudi,Zhenyuan Lin,Yubo Dong,Weikun Li,Anqi Li,Ang Gao,Weijun Yuan,Zhan Li,Ruting Deng,Yihang Chen,Yifan Deng,Zhanglu Chen,Boyang Yao,Shuling Zheng,Feng Zhang,Zhiheng Fu,Anas M. Ali,Bilel Benjdira,Wadii Boulila,Jan Seny,Pei Zhou,Jianhua Hu,K. L. Eddie Law,Jaeho Lee,M. J. Aashik Rasool,Abdur Rehman,SMA Sharif,Seongwan Kim,Alexandru Brateanu,Raul Balmez,Ciprian Orhei,Cosmin Ancuti,Zeyu Xiao,Zhuoyuan Li,Ziqi Wang,Yanyan Wei,Fei Wang,Kun Li,Shengeng Tang,Yunkai Zhang,Weirun Zhou,Haoxuan Lu
発行日 2025-04-16 17:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Tenth NTIRE 2025 Image Denoising Challenge Report はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約

アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプションの品質が不十分であり、モデルアーキテクチャの限られたスケーラビリティによって妨げられます。
この作業は、データとモデルのスケーリングの両方を進めることにより、これらの課題に対処します。
まず、アンビエントオーディオ生成に合わせて調整された効率的でスケーラブルなデータセットコレクションパイプラインを提案し、4,700万を超えるクリップを備えた最大の周囲オーディオテキストデータセットであるAutORECAP-XLをもたらします。
高品質のテキストアノテーションを提供するために、高品質の自動オーディオキャプションモデルであるAutoCAPを提案します。
Q-Formerモジュールを採用し、オーディオメタデータを活用することにより、AutoCAPはキャプション品質を大幅に向上させ、以前のキャプションモデルで$ 3.2 \%$のサイダースコアに達します。
最後に、最大1.25Bのパラメーターをスケーリングするスケーラブルな変圧器ベースのオーディオ生成アーキテクチャであるGenaUを提案します。
合成キャプションとモデルサイズのスケーリングを使用したデータスケーリングの利点を示します。
同様のサイズとデータスケールでトレーニングされたベースラインオーディオジェネレーターと比較した場合、GenauはFADスコアで4.7 \%$ $ 4.7 \%$、11.1 \%$ in、$ 13.5 \%$の大幅な改善を獲得します。
コード、モデルチェックポイント、およびデータセットは公開されています。

要約(オリジナル)

The scalability of ambient sound generators is hindered by data scarcity, insufficient caption quality, and limited scalability in model architecture. This work addresses these challenges by advancing both data and model scaling. First, we propose an efficient and scalable dataset collection pipeline tailored for ambient audio generation, resulting in AutoReCap-XL, the largest ambient audio-text dataset with over 47 million clips. To provide high-quality textual annotations, we propose AutoCap, a high-quality automatic audio captioning model. By adopting a Q-Former module and leveraging audio metadata, AutoCap substantially enhances caption quality, reaching a CIDEr score of $83.2$, a $3.2\%$ improvement over previous captioning models. Finally, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters. We demonstrate its benefits from data scaling with synthetic captions as well as model size scaling. When compared to baseline audio generators trained at similar size and data scale, GenAu obtains significant improvements of $4.7\%$ in FAD score, $11.1\%$ in IS, and $13.5\%$ in CLAP score. Our code, model checkpoints, and dataset are publicly available.

arxiv情報

著者 Moayed Haji-Ali,Willi Menapace,Aliaksandr Siarohin,Guha Balakrishnan,Vicente Ordonez
発行日 2025-04-16 17:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions

要約

単一のRGBビュー、アクションテキスト、およびオブジェクト上の3D接点ポイントを入力として、3Dハンドモーションを予測し、マップ(または相互作用の軌跡)を接触するという新しい問題に取り組みます。
私たちのアプローチは、(1)相互作用コードブック:ハンドポーズと接触点の潜在的なコードブックを学習するVQVAEモデル、相互作用の軌跡を効果的にトークン化する、(2)相互作用予測因子:トランスデコダーモジュール:テスト時間入力からのインデックスタイム入力からの相互作用の軌跡を予測して、学習したコードブックからの潜在的な価格を繰り返します。
モデルをトレーニングするために、3Dハンドポーズを抽出し、多様なホロスアシストデータセットから軌跡に接触するデータエンジンを開発します。
既存の作業よりも2.5〜10倍大きいベンチマークで、観察されたオブジェクトと相互作用の多様性の観点からモデルを評価し、オブジェクトカテゴリ、アクションカテゴリ、タスク、シーン全体でモデルの一般化をテストします。
実験結果は、すべての設定にわたるトランスと拡散ベースラインに対するアプローチの有効性を示しています。

要約(オリジナル)

We tackle the novel problem of predicting 3D hand motion and contact maps (or Interaction Trajectories) given a single RGB view, action text, and a 3D contact point on the object as input. Our approach consists of (1) Interaction Codebook: a VQVAE model to learn a latent codebook of hand poses and contact points, effectively tokenizing interaction trajectories, (2) Interaction Predictor: a transformer-decoder module to predict the interaction trajectory from test time inputs by using an indexer module to retrieve a latent affordance from the learned codebook. To train our model, we develop a data engine that extracts 3D hand poses and contact trajectories from the diverse HoloAssist dataset. We evaluate our model on a benchmark that is 2.5-10X larger than existing works, in terms of diversity of objects and interactions observed, and test for generalization of the model across object categories, action categories, tasks, and scenes. Experimental results show the effectiveness of our approach over transformer & diffusion baselines across all settings.

arxiv情報

著者 Aditya Prakash,Benjamin Lundell,Dmitry Andreychuk,David Forsyth,Saurabh Gupta,Harpreet Sawhney
発行日 2025-04-16 17:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions はコメントを受け付けていません

SHeaP: Self-Supervised Head Geometry Predictor Learned via 2D Gaussians

要約

単眼の画像やビデオからの人間の頭の正確でリアルタイムの3D再構築は、多数の視覚的アプリケーションの根底にあります。
3Dグラウンドトゥルースデータを大規模にすることは困難であるため、以前の方法では、自己教師の方法で豊富な2Dビデオから学ぼうとしています。
通常、これには微分可能なメッシュレンダリングの使用が含まれます。これは効果的ですが、制限に直面します。
これを改善するために、Sheap(2Dガウス系を介して学習した自己監視ヘッドジオメトリ予測子)を提案します。
ソース画像を考えると、3DMMメッシュとこのメッシュに装備されたガウスのセットを予測します。
次に、ターゲットフレームと一致するようにこの装備されたヘッドアバターを蘇生させ、3DMMとガウスの予測ネットワークの両方に測光損失をバックプロパゲートします。
ガウス人を使用してレンダリングすることで、この自己監視されたアプローチの有効性が大幅に向上することがわかります。
2Dデータのみでトレーニングを行うと、この方法は、中立面の現在のベンチマークと非中立表現の新しいベンチマークに関する幾何学的評価における既存の自己監視アプローチを上回ります。
また、私たちの方法は、非常に表現力のあるメッシュを生成し、感情分類の最先端を上回ることができます。

要約(オリジナル)

Accurate, real-time 3D reconstruction of human heads from monocular images and videos underlies numerous visual applications. As 3D ground truth data is hard to come by at scale, previous methods have sought to learn from abundant 2D videos in a self-supervised manner. Typically, this involves the use of differentiable mesh rendering, which is effective but faces limitations. To improve on this, we propose SHeaP (Self-supervised Head Geometry Predictor Learned via 2D Gaussians). Given a source image, we predict a 3DMM mesh and a set of Gaussians that are rigged to this mesh. We then reanimate this rigged head avatar to match a target frame, and backpropagate photometric losses to both the 3DMM and Gaussian prediction networks. We find that using Gaussians for rendering substantially improves the effectiveness of this self-supervised approach. Training solely on 2D data, our method surpasses existing self-supervised approaches in geometric evaluations on the NoW benchmark for neutral faces and a new benchmark for non-neutral expressions. Our method also produces highly expressive meshes, outperforming state-of-the-art in emotion classification.

arxiv情報

著者 Liam Schoneveld,Zhe Chen,Davide Davoli,Jiapeng Tang,Saimon Terazawa,Ko Nishino,Matthias Nießner
発行日 2025-04-16 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SHeaP: Self-Supervised Head Geometry Predictor Learned via 2D Gaussians はコメントを受け付けていません

Adapting a World Model for Trajectory Following in a 3D Game

要約

模倣学習は、専門知識を活用することにより、トレーニングエージェントにとって強力なツールであり、特定の軌道を複製できることは、その不可欠な部分です。
最新の3Dビデオゲームのような複雑な環境では、配信シフトと確率性は、単純なアクションリプレイを超えて堅牢なアプローチを必要とします。
この調査では、さまざまなエンコーダを持つ逆ダイナミクスモデル(IDM)を適用し、ポリシーは最新の3DビデオゲームであるBleeding Edgeに続きます。
さらに、エージェントのアレアトリックの不確実性と不完全性によって引き起こされる分布シフトに対処するいくつかの将来のアライメント戦略を調査します。
軌道偏差距離と、参照とエージェントの軌道の間の最初の重要な偏差点の両方を測定し、最適な構成が選択した設定に依存することを示します。
私たちの結果は、多様なデータ設定では、ゼロからトレーニングされたエンコーダーを備えたGPTスタイルのポリシーヘッドが最高のパフォーマンスを発揮することを示しています。GPTスタイルのポリシーヘッドを備えたDINOV2エンコーダーは、低データレジームで最高の結果をもたらし、GPTスタイルとMLPスタイルの両方のポリシーヘッドは、特定の環境と繊細な環境で事前に導かれたときに同等の結果をもたらしました。

要約(オリジナル)

Imitation learning is a powerful tool for training agents by leveraging expert knowledge, and being able to replicate a given trajectory is an integral part of it. In complex environments, like modern 3D video games, distribution shift and stochasticity necessitate robust approaches beyond simple action replay. In this study, we apply Inverse Dynamics Models (IDM) with different encoders and policy heads to trajectory following in a modern 3D video game — Bleeding Edge. Additionally, we investigate several future alignment strategies that address the distribution shift caused by the aleatoric uncertainty and imperfections of the agent. We measure both the trajectory deviation distance and the first significant deviation point between the reference and the agent’s trajectory and show that the optimal configuration depends on the chosen setting. Our results show that in a diverse data setting, a GPT-style policy head with an encoder trained from scratch performs the best, DINOv2 encoder with the GPT-style policy head gives the best results in the low data regime, and both GPT-style and MLP-style policy heads had comparable results when pre-trained on a diverse setting and fine-tuned for a specific behaviour setting.

arxiv情報

著者 Marko Tot,Shu Ishida,Abdelhak Lemkhenter,David Bignell,Pallavi Choudhury,Chris Lovett,Luis França,Matheus Ribeiro Furtado de Mendonça,Tarun Gupta,Darren Gehring,Sam Devlin,Sergio Valcarcel Macua,Raluca Georgescu
発行日 2025-04-16 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Adapting a World Model for Trajectory Following in a 3D Game はコメントを受け付けていません

Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models

要約

特に状況判断テスト(SJTS)を通じて、人格評価は、心理的研究、人材選択、教育評価のための重要なツールです。
この研究では、中国語の人格状況判断テスト(PSJT)の生成を自動化するための最先端の大手言語モデル(LLM)であるGPT-4の可能性を調査します。
従来のSJT開発は労働集約的であり、バイアスを抑えやすく、GPT-4はスケーラブルで効率的な代替品を提供します。
2つの研究が実施されました。研究1は、コンテンツの妥当性に対する迅速な設計と温度設定の影響を評価し、1.0の温度で最適化されたプロンプトが創造的で正確なアイテムを生成したことを発見しました。
研究2では、GPT-4生成されたPSJTSの心理測定特性を評価し、彼らが満足のいく信頼性と妥当性を実証し、ビッグファイブパーソナリティ特性の測定における手動で開発されたテストのパフォーマンスを上回ることを明らかにしました。
この研究は、高品質のPSJTを開発する際のGPT-4の有効性を強調し、心理測定テスト開発のためのスケーラブルで革新的な方法を提供します。
これらの調査結果は、自動アイテムの生成の可能性と心理学におけるLLMの適用を拡大し、リソース制限設定でのテスト開発プロセスを合理化するために実際的な意味を提供します。

要約(オリジナル)

Personality assessment, particularly through situational judgment tests (SJTs), is a vital tool for psychological research, talent selection, and educational evaluation. This study explores the potential of GPT-4, a state-of-the-art large language model (LLM), to automate the generation of personality situational judgment tests (PSJTs) in Chinese. Traditional SJT development is labor-intensive and prone to biases, while GPT-4 offers a scalable, efficient alternative. Two studies were conducted: Study 1 evaluated the impact of prompt design and temperature settings on content validity, finding that optimized prompts with a temperature of 1.0 produced creative and accurate items. Study 2 assessed the psychometric properties of GPT-4-generated PSJTs, revealing that they demonstrated satisfactory reliability and validity, surpassing the performance of manually developed tests in measuring the Big Five personality traits. This research highlights GPT-4’s effectiveness in developing high-quality PSJTs, providing a scalable and innovative method for psychometric test development. These findings expand the possibilities of automatic item generation and the application of LLMs in psychology, and offer practical implications for streamlining test development processes in resource-limited settings.

arxiv情報

著者 Chang-Jin Li,Jiyuan Zhang,Yun Tang,Jian Li
発行日 2025-04-16 15:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.1 | Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models はコメントを受け付けていません

Seedream 3.0 Technical Report

要約

中国と英語の高性能バイリンガルイメージジェネレーションファンデーションモデルであるSeedReam 3.0を紹介します。
複雑なプロンプトとのアラインメント、きめの細かいタイポグラフィの生成、最適ではない視覚美学と忠実度、限られた画像解像度を含む、Seedream 2.0の既存の課題に対処するためのいくつかの技術的改善を開発します。
具体的には、SeedReam 3.0の進歩は、データ構築からモデルの展開まで、パイプライン全体の改善に起因しています。
データ層では、欠陥認識トレーニングパラダイムとデュアル軸共同データサンプリングフレームワークを使用して、データセットを2倍にします。
さらに、混合解像度トレーニング、クロスモダリティロープ、表現アライメント損失、およびトレーニング前の段階での解像度認識のタイムステップサンプリングなど、いくつかの効果的な手法を採用しています。
トレーニング後の段階では、SFTの多様な審美的なキャプションと、スケーリングを備えたVLMベースの報酬モデルを利用して、人間の好みとよく整合する出力を実現します。
さらに、SeedReam 3.0 Pioneers新しい加速パラダイム。
一貫したノイズの期待と重要性の高いタイムステップサンプリングを採用することにより、画質を維持しながら4〜8倍のスピードアップを達成します。
SeedReam 3.0は、SeedReam 2.0よりも大幅な改善を示しています。特に、専門のタイポグラフィ生成にとって重要な複雑な漢字でのテキストレンダリングの全体的な機能が向上します。
さらに、ネイティブの高解像度の出力(最大2K)を提供し、視覚品質の高い画像を生成できるようにします。

要約(オリジナル)

We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.

arxiv情報

著者 Yu Gao,Lixue Gong,Qiushan Guo,Xiaoxia Hou,Zhichao Lai,Fanshi Li,Liang Li,Xiaochen Lian,Chao Liao,Liyang Liu,Wei Liu,Yichun Shi,Shiqi Sun,Yu Tian,Zhi Tian,Peng Wang,Rui Wang,Xuanda Wang,Xun Wang,Ye Wang,Guofeng Wu,Jie Wu,Xin Xia,Xuefeng Xiao,Zhonghua Zhai,Xinyu Zhang,Qi Zhang,Yuwei Zhang,Shijia Zhao,Jianchao Yang,Weilin Huang
発行日 2025-04-16 16:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Seedream 3.0 Technical Report はコメントを受け付けていません