月別アーカイブ: 2024年6月

ReLUs Are Sufficient for Learning Implicit Neural Representations

要約 Rectified Linear Unit (ReLU) を活性化関数とし … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | ReLUs Are Sufficient for Learning Implicit Neural Representations はコメントを受け付けていません

SatSplatYOLO: 3D Gaussian Splatting-based Virtual Object Detection Ensembles for Satellite Feature Recognition

要約 軌道上整備(OOS)、宇宙船の検査、アクティブデブリ除去(ADR)。 この … 続きを読む

カテゴリー: cs.CV | SatSplatYOLO: 3D Gaussian Splatting-based Virtual Object Detection Ensembles for Satellite Feature Recognition はコメントを受け付けていません

Enhancing predictive imaging biomarker discovery through treatment effect analysis

要約 個々の治療効果を予測する予測バイオマーカーを特定することは、個別化医療にと … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Enhancing predictive imaging biomarker discovery through treatment effect analysis はコメントを受け付けていません

Dsfer-Net: A Deep Supervision and Feature Retrieval Network for Bitemporal Change Detection Using Modern Hopfield Networks

要約 高解像度のリモート センシング画像に不可欠なアプリケーションである変化検出 … 続きを読む

カテゴリー: cs.CV | Dsfer-Net: A Deep Supervision and Feature Retrieval Network for Bitemporal Change Detection Using Modern Hopfield Networks はコメントを受け付けていません

Enhancing 2D Representation Learning with a 3D Prior

要約 視覚データの堅牢かつ効果的な表現を学習することは、コンピューター ビジョン … 続きを読む

カテゴリー: cs.CV | Enhancing 2D Representation Learning with a 3D Prior はコメントを受け付けていません

TopViewRS: Vision-Language Models as Top-View Spatial Reasoners

要約 トップビューの視点は、人間がさまざまなタイプの地図を読み、推論する典型的な … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | TopViewRS: Vision-Language Models as Top-View Spatial Reasoners はコメントを受け付けていません

Parrot: Multilingual Visual Instruction Tuning

要約 GPT-4V のようなマルチモーダル大規模言語モデル (MLLM) の急速 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Parrot: Multilingual Visual Instruction Tuning はコメントを受け付けていません

ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation

要約 拡散トランス (DiT) は、テキストの指示に基づいてリアルな画像やビデオ … 続きを読む

カテゴリー: cs.CV | ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation はコメントを受け付けていません

Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting

要約 ゼロショット ビデオ拡散モデルの最近の進歩により、テキスト駆動のビデオ編集 … 続きを読む

カテゴリー: cs.CV | Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting はコメントを受け付けていません

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

要約 コンテキスト内長が長いモデルをトレーニングすることは、GPU メモリと計算 … 続きを読む

カテゴリー: cs.CV | Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning はコメントを受け付けていません