cs.AI」カテゴリーアーカイブ

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

要約 強化学習 (RL) アルゴリズムは、現在の最良の戦略の活用と、より高い報酬 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization はコメントを受け付けていません

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

要約 Text-to-Image(TTI)生成モデルは目覚ましい成功を収めている … 続きを読む

カテゴリー: cs.AI, cs.CV | Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering はコメントを受け付けていません

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

要約 画像とキャプションのペアでユーモアや皮肉を伝えるマルチモーダルなオチは、オ … 続きを読む

カテゴリー: cs.AI, cs.CV | PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension はコメントを受け付けていません

IRR: Image Review Ranking Framework for Evaluating Vision-Language Models

要約 大規模ビジョン言語モデル (LVLM) は、画像とテキストの両方を処理し、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | IRR: Image Review Ranking Framework for Evaluating Vision-Language Models はコメントを受け付けていません

Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning

要約 画像の美的評価 (IAA) は、画像の美的価値を分析および評価し、そのハイ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning はコメントを受け付けていません

Gramian Multimodal Representation Learning and Alignment

要約 人間の知覚は、視覚、聴覚、言語などの複数のモダリティを統合して、周囲の現実 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Gramian Multimodal Representation Learning and Alignment はコメントを受け付けていません

Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

要約 従来の強化学習ベースのロボット制御手法はタスク固有であることが多く、多様な … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning はコメントを受け付けていません

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion

要約 拡散モデルはトーキング ヘッド生成の分野に革命をもたらしましたが、表現力、 … 続きを読む

カテゴリー: cs.AI, cs.CV | EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion はコメントを受け付けていません

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

要約 この研究では、豊富なラベルのない本当の顔を使って、一般化パフォーマンスに関 … 続きを読む

カテゴリー: cs.AI, cs.CV | FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning はコメントを受け付けていません

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

要約 GPU ベースの並列シミュレーションの最近の進歩により、実践者は大量のデー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation はコメントを受け付けていません