「cs.CV」カテゴリーアーカイブ

Brainformer: Mimic Human Visual Brain Functions to Machine Vision Models via fMRI

投稿日: 2024年11月27日作成者: jarxiv

要約人間の知覚は、信念を形成し、現実を理解する上で重要な役割を果たします。脳 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BRACTIVE: A Brain Activation Approach to Human Visual Brain Learning

投稿日: 2024年11月27日作成者: jarxiv

要約人間の脳は非常に効率的な処理装置であり、その仕組みを理解することで、機械学 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Health AI Developer Foundations

投稿日: 2024年11月27日作成者: jarxiv

要約堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation

投稿日: 2024年11月27日作成者: jarxiv

要約参照ビデオオブジェクトセグメンテーション (RVOS) は、自然言語表 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DROID-Splat: Combining end-to-end SLAM with 3D Gaussian Splatting

投稿日: 2024年11月27日作成者: jarxiv

要約シーン合成の最近の進歩により、レンダリング目標を使用したハイパープリミティ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

投稿日: 2024年11月27日作成者: jarxiv

要約関節角度が未知の多関節ロボットの視覚ベースの姿勢推定は、協調ロボット工学や … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

SketchAgent: Language-Driven Sequential Sketch Generation

投稿日: 2024年11月27日作成者: jarxiv

要約スケッチはアイデアを外部化するための多用途ツールとして機能し、さまざまな分 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

投稿日: 2024年11月27日作成者: jarxiv

要約重いマルチモーダル大規模言語モデル (MLLM) の推論を高速化するために … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GenDeg: Diffusion-Based Degradation Synthesis for Generalizable All-in-One Image Restoration

投稿日: 2024年11月27日作成者: jarxiv

要約 All-In-One Image Restoration (AIOR) 用 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

投稿日: 2024年11月27日作成者: jarxiv

要約この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Brainformer: Mimic Human Visual Brain Functions to Machine Vision Models via fMRI

BRACTIVE: A Brain Activation Approach to Human Visual Brain Learning

Health AI Developer Foundations

SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation

DROID-Splat: Combining end-to-end SLAM with 3D Gaussian Splatting

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

SketchAgent: Language-Driven Sequential Sketch Generation

Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

GenDeg: Diffusion-Based Degradation Synthesis for Generalizable All-in-One Image Restoration

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー