投稿者「jarxiv」のアーカイブ

Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study

投稿日: 2025年5月19日作成者: jarxiv

要約本研究では、YOLOv8ベースのセグメンテーションモデルによる顔画像のしわ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Face Consistency Benchmark for GenAI Video

投稿日: 2025年5月19日作成者: jarxiv

要約人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Evaluating Vision-Language Models as Evaluators in Path Planning

投稿日: 2025年5月19日作成者: jarxiv

要約複雑な推論を実行するという約束にもかかわらず、大規模な言語モデル（LLM） … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI

投稿日: 2025年5月19日作成者: jarxiv

要約人間の脳の組織原則を包括的に理解するには、他の要因の中でも、神経線維構造の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision

投稿日: 2025年5月19日作成者: jarxiv

要約ロボット支援低侵襲手術（RMIS）における外科的ツールの正確なポーズ推定は … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

投稿日: 2025年5月19日作成者: jarxiv

要約合成ビデオ生成は、そのリアリズムと幅広いアプリケーションに対して大きな注目 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Disentangling CLIP for Multi-Object Perception

投稿日: 2025年5月19日作成者: jarxiv

要約 Clip Excelのようなビジョン言語モデルは、シーン内の単一の顕著なオ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

投稿日: 2025年5月19日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMMS）は現在、多くのビジョン言語ベンチマ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

投稿日: 2025年5月19日作成者: jarxiv

要約変圧器ベースのモデルは、解釈が困難な隠された状態を生成します。この作業で … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views

投稿日: 2025年5月19日作成者: jarxiv

要約ビジョンベースのロボット操作は、カメラを使用して、操作するオブジェクトを含 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study

Face Consistency Benchmark for GenAI Video

Evaluating Vision-Language Models as Evaluators in Path Planning

Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI

SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

Disentangling CLIP for Multi-Object Perception

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views

最近の投稿

最近のコメント

アーカイブ

カテゴリー