cs.CV」カテゴリーアーカイブ

End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation

要約 オーディオディープフェイクは、デジタルセキュリティと信頼に対する脅威の高ま … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation はコメントを受け付けていません

NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary

要約 敵対的な攻撃は、敵対的なサンプルに対する深いモデルの脆弱性を活用します。 … 続きを読む

カテゴリー: cs.CV | NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary はコメントを受け付けていません

ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification

要約 推論が強化された大規模な言語モデル(LLMS)とマルチモーダルLLMS(M … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification はコメントを受け付けていません

DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition

要約 経済作物の世界的な成長の安全性に直面している深刻な課題を考えると、植物疾患 … 続きを読む

カテゴリー: cs.CV | DS_FusionNet: Dynamic Dual-Stream Fusion with Bidirectional Knowledge Distillation for Plant Disease Recognition はコメントを受け付けていません

SVD Based Least Squares for X-Ray Pneumonia Classification Using Deep Features

要約 X線イメージングによる肺炎の正確かつ早期診断は、効果的な治療と患者の転帰の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | SVD Based Least Squares for X-Ray Pneumonia Classification Using Deep Features はコメントを受け付けていません

TesserAct: Learning 4D Embodied World Models

要約 この論文は、具体化されたエージェントの行動に応じて3Dシーンの動的進化を予 … 続きを読む

カテゴリー: cs.CV, cs.RO | TesserAct: Learning 4D Embodied World Models はコメントを受け付けていません

X-Fusion: Introducing New Modality to Frozen Large Language Models

要約 X-Fusionを提案します。これは、言語機能を維持しながら、マルチモーダ … 続きを読む

カテゴリー: cs.CV | X-Fusion: Introducing New Modality to Frozen Large Language Models はコメントを受け付けていません

YoChameleon: Personalized Vision and Language Generation

要約 大規模なマルチモーダルモデル(GPT-4、ジェミニ、カメレオンなど)は、何 … 続きを読む

カテゴリー: cs.AI, cs.CV | YoChameleon: Personalized Vision and Language Generation はコメントを受け付けていません

Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

要約 最近のビジョン言語アクションモデル(VLA)は、前処理されたビジョン言語モ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success はコメントを受け付けていません

Category-Level and Open-Set Object Pose Estimation for Robotics

要約 オブジェクトのポーズ推定により、シーンの理解やロボットの把握など、コンピュ … 続きを読む

カテゴリー: cs.CV, cs.RO | Category-Level and Open-Set Object Pose Estimation for Robotics はコメントを受け付けていません