2026Position Paper
arXiv Technical Report
vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
面向多模态混合部署的信号驱动决策路由框架,把异构信号组合成覆盖成本、隐私、延迟与安全约束的路由策略。
作者: vLLM Semantic Router Team
2026Vision Paper
arXiv Technical Report
The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project
把路由、集群、多模态与治理方面的工作统一到 Workload-Router-Pool 架构里,形成全栈推理优化视角。
作者: Huamin Chen, Xunzhuo Liu, Bowei He, Fuyuan Lyu, Yankai Chen, Xue Liu, Yuhan Liu, Junchen Jiang
2026
arXiv Technical Report
Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents
形式化定义计算机使用 Agent 中的视觉混淆副手问题,并提出在执行前同时校验点击目标与动作推理的双通道护栏。
作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen
2026
arXiv Technical Report
Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference
提出 OATS,在不引入服务时模型推理的前提下,用离线嵌入优化提升语义路由器的工具排序效果。
作者: Huamin Chen, Xunzhuo Liu, Junchen Jiang, Bowei He, Xue Liu
2026
arXiv Technical Report
Adaptive Vision-Language Model Routing for Computer Use Agents
提出自适应视觉语言模型路由,根据动作难度把计算机使用 Agent 的步骤送到满足可靠性阈值的最低成本模型。
作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen
2026
arXiv Technical Report
98× Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router
结合 Flash Attention、提示压缩和近流式处理,把路由延迟从秒级压到几十毫秒,同时保持路由器足够轻量。
作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen
2026
arXiv Technical Report
inference-fleet-sim: A Queueing-Theory-Grounded Fleet Capacity Planner for LLM Inference
基于排队理论的集群规划器与离散事件模拟器,用于在不预先跑硬件 profiling 的情况下规划多池 GPU 集群。
作者: Huamin Chen, Xunzhuo Liu, Yuhan Liu, Junchen Jiang, Bowei He, Xue Liu
2026
arXiv Technical Report
FleetOpt: Analytical Fleet Provisioning for LLM Inference with Compress-and-Route as Implementation Mechanism
从工作负载分布和 P99 TTFT 目标直接推导最小成本双池集群,并通过 Compress-and-Route 让最优边界可部署。
作者: Huamin Chen, Xunzhuo Liu, Yuhan Liu, Junchen Jiang, Bowei He, Xue Liu
2026
arXiv Technical Report
The 1/W Law: An Analytical Study of Context-Length Routing Topology and GPU Generation Gains for LLM Inference Energy Efficiency
推导 1/W 定律,说明上下文窗口翻倍会显著改变每瓦特吞吐,使上下文长度路由成为能效优化的重要杠杆。
作者: Huamin Chen, Xunzhuo Liu, Yuhan Liu, Junchen Jiang, Bowei He, Xue Liu
2026
arXiv Technical Report
Conflict-Free Policy Languages for Probabilistic ML Predicates: A Framework and Case Study with the Semantic Router DSL
展示概率型 ML 谓词如何在策略语言中静默冲突,并在 Semantic Router DSL 中实现冲突检测与基于 softmax 的预防机制。
作者: Xunzhuo Liu, Hao Wu, Huamin Chen, Bowei He, Xue Liu
2026
arXiv Technical Report
From Inference Routing to Agent Orchestration: Declarative Policy Compilation with Cross-Layer Verification
把 Semantic Router DSL 从单次请求路由扩展到多步 Agent 工作流,并生成可验证的编排节点、Kubernetes 工件与协议边界控制。
作者: Huamin Chen, Xunzhuo Liu, Bowei He, Xue Liu
2026
arXiv Technical Report
Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents
展示对话记忆与检索增强路由如何让轻量级 8B 模型恢复大模型在长期个性化查询上的大部分能力,并显著降低成本。
作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen
2026RAG Verification
arXiv Technical Report
Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems
面向长文档 RAG 的实时验证组件,在保持交互式延迟的同时提升 grounding 覆盖率与答案可信度。
作者: Xunzhuo Liu, Bowei He, Xue Liu, Haichen Zhang, Huamin Chen
2025
NeurIPS - MLForSys
When to Reason: Semantic Router for vLLM
根据查询的推理需求来决定是否启用更强推理路径,只在真正有收益时才付出额外成本。
作者: Chen Wang, Xunzhuo Liu, Yuhan Liu, Yue Zhu, Xiangxi Mo, Junchen Jiang, Huamin Chen
2025
arXiv
Category-Aware Semantic Caching for Heterogeneous LLM Workloads
类别感知的语义缓存方案,让相似度阈值、TTL 与配额按查询类别变化,并采用混合架构平衡内存搜索与外部存储。
作者: Chen Wang, Xunzhuo Liu, Yue Zhu, Alaa Youssef, Priya Nagpurkar, Huamin Chen
2025
Internet Engineering Task Force (IETF)
Semantic Inference Routing Protocol (SIRP)
定义 Semantic Inference Routing Protocol,为 AI 推理系统中的内容级分类与语义路由提供协议框架。
作者: Huamin Chen, Luay Jalil
2025
IETF NMRG
Multi-Provider Extensions for Agentic AI Inference APIs
面向 Agentic AI 推理 API 的多提供商扩展规范。
作者: H. Chen, L. Jalil, N. Cocker
2025
KubeCon NA 2025
Intelligent LLM Routing: A New Paradigm for Multi-Model AI Orchestration in Kubernetes
介绍 Kubernetes 中多模型 AI 编排的新架构范式,并把它与近期的智能推理路由进展连接起来。
作者: Chen Wang, Huamin Chen
2025
vLLM Meetup Beijing
vLLM Semantic Router: Unlock the Power of Intelligent Routing
深入介绍 vLLM Semantic Router 的能力,展示智能路由如何为高效 LLM 推理解锁新可能。
作者: Xunzhuo Liu
2025
vLLM Office Hours
AI-Powered vLLM Semantic Router
概览 vLLM Semantic Router 中由 AI 驱动的新能力与社区最新进展。
作者: Huamin Chen