月別アーカイブ: 2025年2月

Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions

要約 視覚的な音声認識は、視覚的なあいまいさ、スピーカー間の人間間変動、沈黙の複 … 続きを読む

カテゴリー: cs.CV | Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions はコメントを受け付けていません

Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

要約 時系列モチーフディスカバリー(TSMD)は、時系列データの繰り返しパターン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約 視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊 … 続きを読む

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics

要約 複数のインテリジェンスの理論は、認知能力の階層的な性質を強調しています。 … 続きを読む

カテゴリー: cs.CL, cs.CV | Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics はコメントを受け付けていません

Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving?

要約 自動化された運転のような現実世界のシナリオのエージェントは、特に知覚的な不 … 続きを読む

カテゴリー: cs.CV, cs.RO | Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving? はコメントを受け付けていません

Understanding Long Videos with Multimodal Language Models

要約 大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能に … 続きを読む

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません

iFormer: Integrating ConvNet and Transformer for Mobile Application

要約 Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいフ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | iFormer: Integrating ConvNet and Transformer for Mobile Application はコメントを受け付けていません

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation

要約 オープンボキャブラリーセマンティックセグメンテーションにより、モデルはトレ … 続きを読む

カテゴリー: cs.CV | From Open-Vocabulary to Vocabulary-Free Semantic Segmentation はコメントを受け付けていません

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

要約 この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパ … 続きを読む

カテゴリー: cs.AI, cs.CV | DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation はコメントを受け付けていません

Bridging Compressed Image Latents and Multimodal Large Language Models

要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Bridging Compressed Image Latents and Multimodal Large Language Models はコメントを受け付けていません