月別アーカイブ: 2025年2月

Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting

要約 このペーパーでは、画像から高品質で大きな3Dオープンシーンを再構築するとい … 続きを読む

カテゴリー: cs.CV | Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting はコメントを受け付けていません

Unraveling the geometry of visual relational reasoning

要約 人間や他の動物は、神経ネットワークが苦労しているのに対し、形や色が一定にな … 続きを読む

カテゴリー: cs.CV, q-bio.NC | Unraveling the geometry of visual relational reasoning はコメントを受け付けていません

Robust Confinement State Classification with Uncertainty Quantification through Ensembled Data-Driven Methods

要約 Tokamaksの融合性能を最大化することは、高エネルギー閉じ込めに依存し … 続きを読む

カテゴリー: cs.CV, cs.LG, physics.plasm-ph | Robust Confinement State Classification with Uncertainty Quantification through Ensembled Data-Driven Methods はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約 HyperComplex画像処理は、代数および幾何学的原理を含む統一された … 続きを読む

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

X-Dancer: Expressive Music to Human Dance Video Generation

要約 X-Dancerは、単一の静的画像から多様で長距離のリアルなヒューマンダン … 続きを読む

カテゴリー: cs.CV | X-Dancer: Expressive Music to Human Dance Video Generation はコメントを受け付けていません

YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions

要約 この研究では、Yolov3から最新の追加まで、さまざまなヨロ(1回しか見て … 続きを読む

カテゴリー: cs.CV | YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions はコメントを受け付けていません

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

要約 マルチモーダル大手言語モデル(MLLM)は、近年、視覚認識タスクの急速な進 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs はコメントを受け付けていません

Introducing Visual Perception Token into Multimodal Large Language Model

要約 視覚情報を利用するために、マルチモーダル大手言語モデル(MLLM)は、ビジ … 続きを読む

カテゴリー: cs.CV, cs.LG | Introducing Visual Perception Token into Multimodal Large Language Model はコメントを受け付けていません

CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation

要約 3Dインスタンスセグメンテーションは大きな進歩を遂げましたが、現在の方法は … 続きを読む

カテゴリー: cs.CV | CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation はコメントを受け付けていません

FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning

要約 ボックスピックアップやローリング生地など、人間が実行する多くのコンタクトリ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning はコメントを受け付けていません