cs.AI」カテゴリーアーカイブ

Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video

要約 堅牢なツールと公開されている事前に訓練されたモデルは、言語モデルの機械的解 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video はコメントを受け付けていません

A Survey on Event-driven 3D Reconstruction: Development under Different Categories

要約 イベントカメラは、時間分解能が高い、遅延が低く、ダイナミックレンジが高いた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | A Survey on Event-driven 3D Reconstruction: Development under Different Categories はコメントを受け付けていません

RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers

要約 注意層ではなく、Feedforwardネットワーク(FFN)レイヤーがVi … 続きを読む

カテゴリー: cs.AI, cs.CV | RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers はコメントを受け付けていません

ARFlow: Human Action-Reaction Flow Matching with Physical Guidance

要約 因果的な人間の相互作用をモデル化する際の基本的な課題である人間の行動反応統 … 続きを読む

カテゴリー: cs.AI, cs.CV | ARFlow: Human Action-Reaction Flow Matching with Physical Guidance はコメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

要約 ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles はコメントを受け付けていません

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

要約 トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | DIS-CO: Discovering Copyrighted Content in VLMs Training Data はコメントを受け付けていません

Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback

要約 既存の医療大規模視覚言語モデル(MED-LVLMS)は、広範な医療知識をカ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback はコメントを受け付けていません

MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping

要約 少数のセマンティックセグメンテーションでは、クエリ画像のオブジェクトをセグ … 続きを読む

カテゴリー: cs.AI, cs.CV | MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping はコメントを受け付けていません

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

要約 この研究では、学習された画像キャプション評価メトリックの現在の制限、特にキ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates はコメントを受け付けていません

TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images

要約 この論文では、事前に訓練された拡散モデルを使用したシーンテキスト破壊のため … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images はコメントを受け付けていません