投稿者「jarxiv」のアーカイブ

Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study

要約 本研究では、YOLOv8ベースのセグメンテーションモデルによる顔画像のしわ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study はコメントを受け付けていません

Face Consistency Benchmark for GenAI Video

要約 人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む

カテゴリー: cs.CV, cs.MM | Face Consistency Benchmark for GenAI Video はコメントを受け付けていません

Evaluating Vision-Language Models as Evaluators in Path Planning

要約 複雑な推論を実行するという約束にもかかわらず、大規模な言語モデル(LLM) … 続きを読む

カテゴリー: cs.CL, cs.CV | Evaluating Vision-Language Models as Evaluators in Path Planning はコメントを受け付けていません

Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI

要約 人間の脳の組織原則を包括的に理解するには、他の要因の中でも、神経線維構造の … 続きを読む

カテゴリー: cs.CV | Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI はコメントを受け付けていません

SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision

要約 ロボット支援低侵襲手術(RMIS)における外科的ツールの正確なポーズ推定は … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision はコメントを受け付けていません

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

要約 合成ビデオ生成は、そのリアリズムと幅広いアプリケーションに対して大きな注目 … 続きを読む

カテゴリー: cs.CV, cs.LG | VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding はコメントを受け付けていません

Disentangling CLIP for Multi-Object Perception

要約 Clip Excelのようなビジョン言語モデルは、シーン内の単一の顕著なオ … 続きを読む

カテゴリー: cs.CV | Disentangling CLIP for Multi-Object Perception はコメントを受け付けていません

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

要約 大規模なマルチモーダルモデル(LMMS)は現在、多くのビジョン言語ベンチマ … 続きを読む

カテゴリー: cs.AI, cs.CV | HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation はコメントを受け付けていません

Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

要約 変圧器ベースのモデルは、解釈が困難な隠された状態を生成します。 この作業で … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers はコメントを受け付けていません

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views

要約 ビジョンベースのロボット操作は、カメラを使用して、操作するオブジェクトを含 … 続きを読む

カテゴリー: cs.CV, cs.RO | Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views はコメントを受け付けていません