cs.AI」カテゴリーアーカイブ

HDLdebugger: Streamlining HDL debugging with Large Language Models

要約 チップ設計の領域では、ハードウェア記述言語 (HDL) が極めて重要な役割 … 続きを読む

カテゴリー: cs.AI, cs.AR, cs.CE, cs.LG, cs.SE | HDLdebugger: Streamlining HDL debugging with Large Language Models はコメントを受け付けていません

Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool

要約 近年のマルチメディア コンテンツの急増に伴い、複数のビデオから特定の自然言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool はコメントを受け付けていません

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

要約 大規模マルチモーダル モデル (LMM) の機能が進化し続けるにつれて、L … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark はコメントを受け付けていません

Deep Homography Estimation for Visual Place Recognition

要約 視覚的場所認識 (VPR) は、ロボットの位置特定や拡張現実などの多くのア … 続きを読む

カテゴリー: cs.AI, cs.CV | Deep Homography Estimation for Visual Place Recognition はコメントを受け付けていません

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

要約 大規模言語モデル (LLM) は、テキストと画像を理解し、人間のようなテキ … 続きを読む

カテゴリー: cs.AI, cs.CV | Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving はコメントを受け付けていません

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

要約 音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。 音楽とシ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM, cs.SD, eess.AS | QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation はコメントを受け付けていません

Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images

要約 最近、マルチモーダル LLM (MLLM) は画像を理解する優れた能力を示 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images はコメントを受け付けていません

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

要約 ビジュアル エンコーディングは、ビジュアル世界を理解する際の大規模マルチモ … 続きを読む

カテゴリー: cs.AI, cs.CV | LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images はコメントを受け付けていません

Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models

要約 自然言語、プログラミング コード、数学記号の基礎となるデータ分布は大きく異 … 続きを読む

カテゴリー: cs.AI, cs.CL | Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models はコメントを受け付けていません

Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK)

要約 この論文では、キャラクターのようなペルソナを使用して視聴者の参加を強化する … 続きを読む

カテゴリー: cs.AI, cs.RO | Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK) はコメントを受け付けていません