研究

研究可控 AI 系统。

聚焦路由、安全与运行时控制。

论文 · 开源 · 生产系统

关于我们的研究

我们研究模型之上的控制层。

核心问题是路由请求、执行安全，以及让系统可检查。

研究方向

我们聚焦一组范围不大、但影响很深的基础设施问题。

这些研究都围绕同一个主题展开：如何路由请求、何时推理、以及怎样让 Agent 行为变得可检查。

信号驱动的选择机制

模型路由

我们研究信号学习、模型选择与推理策略，让每个请求都能被匹配到更合适的模型，而不是被同样对待。

打开 GitHub

理解语义的护栏

安全与事实性

我们把越狱检测、隐私保护和工作负载感知的幻觉检测，当作运行时信号而不是事后过滤器来研究。

跨工具、缓存与部署边界的执行

运行时智能

我们研究请求生命周期、语义缓存和系统接口，让多模型执行真正适合生产环境。

论文

研究论文。

共 17 篇论文，覆盖路由、安全、运行时、集群规划与 Agent 系统。

17 篇论文

2026Position Paper

arXiv Technical Report

vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models

面向多模态混合部署的信号驱动决策路由框架，把异构信号组合成覆盖成本、隐私、延迟与安全约束的路由策略。

作者: vLLM Semantic Router Team

论文

2026Vision Paper

arXiv Technical Report

The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project

把路由、集群、多模态与治理方面的工作统一到 Workload-Router-Pool 架构里，形成全栈推理优化视角。

作者: Huamin Chen, Xunzhuo Liu, Bowei He, Fuyuan Lyu, Yankai Chen, Xue Liu, Yuhan Liu, Junchen Jiang

论文

2026

arXiv Technical Report

Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents

形式化定义计算机使用 Agent 中的视觉混淆副手问题，并提出在执行前同时校验点击目标与动作推理的双通道护栏。

作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen

论文

2026

arXiv Technical Report

Outcome-Aware Tool Selection for Semantic Routers: Latency-Constrained Learning Without LLM Inference

提出 OATS，在不引入服务时模型推理的前提下，用离线嵌入优化提升语义路由器的工具排序效果。

作者: Huamin Chen, Xunzhuo Liu, Junchen Jiang, Bowei He, Xue Liu

论文

2026

arXiv Technical Report

Adaptive Vision-Language Model Routing for Computer Use Agents

提出自适应视觉语言模型路由，根据动作难度把计算机使用 Agent 的步骤送到满足可靠性阈值的最低成本模型。

作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen

论文

2026

arXiv Technical Report

98× Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router

结合 Flash Attention、提示压缩和近流式处理，把路由延迟从秒级压到几十毫秒，同时保持路由器足够轻量。

作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen

论文

2026

arXiv Technical Report

inference-fleet-sim: A Queueing-Theory-Grounded Fleet Capacity Planner for LLM Inference

基于排队理论的集群规划器与离散事件模拟器，用于在不预先跑硬件 profiling 的情况下规划多池 GPU 集群。

作者: Huamin Chen, Xunzhuo Liu, Yuhan Liu, Junchen Jiang, Bowei He, Xue Liu

论文

2026

arXiv Technical Report

FleetOpt: Analytical Fleet Provisioning for LLM Inference with Compress-and-Route as Implementation Mechanism

从工作负载分布和 P99 TTFT 目标直接推导最小成本双池集群，并通过 Compress-and-Route 让最优边界可部署。

作者: Huamin Chen, Xunzhuo Liu, Yuhan Liu, Junchen Jiang, Bowei He, Xue Liu

论文

2026

arXiv Technical Report

The 1/W Law: An Analytical Study of Context-Length Routing Topology and GPU Generation Gains for LLM Inference Energy Efficiency

推导 1/W 定律，说明上下文窗口翻倍会显著改变每瓦特吞吐，使上下文长度路由成为能效优化的重要杠杆。

作者: Huamin Chen, Xunzhuo Liu, Yuhan Liu, Junchen Jiang, Bowei He, Xue Liu

论文

2026

arXiv Technical Report

Conflict-Free Policy Languages for Probabilistic ML Predicates: A Framework and Case Study with the Semantic Router DSL

展示概率型 ML 谓词如何在策略语言中静默冲突，并在 Semantic Router DSL 中实现冲突检测与基于 softmax 的预防机制。

作者: Xunzhuo Liu, Hao Wu, Huamin Chen, Bowei He, Xue Liu

论文

2026

arXiv Technical Report

From Inference Routing to Agent Orchestration: Declarative Policy Compilation with Cross-Layer Verification

把 Semantic Router DSL 从单次请求路由扩展到多步 Agent 工作流，并生成可验证的编排节点、Kubernetes 工件与协议边界控制。

作者: Huamin Chen, Xunzhuo Liu, Bowei He, Xue Liu

论文

2026

arXiv Technical Report

Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents

展示对话记忆与检索增强路由如何让轻量级 8B 模型恢复大模型在长期个性化查询上的大部分能力，并显著降低成本。

作者: Xunzhuo Liu, Bowei He, Xue Liu, Andy Luo, Haichen Zhang, Huamin Chen

论文

2026RAG Verification

arXiv Technical Report

Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems

面向长文档 RAG 的实时验证组件，在保持交互式延迟的同时提升 grounding 覆盖率与答案可信度。

作者: Xunzhuo Liu, Bowei He, Xue Liu, Haichen Zhang, Huamin Chen

论文

2025

NeurIPS - MLForSys

When to Reason: Semantic Router for vLLM

根据查询的推理需求来决定是否启用更强推理路径，只在真正有收益时才付出额外成本。

作者: Chen Wang, Xunzhuo Liu, Yuhan Liu, Yue Zhu, Xiangxi Mo, Junchen Jiang, Huamin Chen

论文

2025

arXiv

Category-Aware Semantic Caching for Heterogeneous LLM Workloads

类别感知的语义缓存方案，让相似度阈值、TTL 与配额按查询类别变化，并采用混合架构平衡内存搜索与外部存储。

作者: Chen Wang, Xunzhuo Liu, Yue Zhu, Alaa Youssef, Priya Nagpurkar, Huamin Chen

论文

2025

Internet Engineering Task Force (IETF)

Semantic Inference Routing Protocol (SIRP)

定义 Semantic Inference Routing Protocol，为 AI 推理系统中的内容级分类与语义路由提供协议框架。

作者: Huamin Chen, Luay Jalil

论文

2025

IETF NMRG

Multi-Provider Extensions for Agentic AI Inference APIs

面向 Agentic AI 推理 API 的多提供商扩展规范。

作者: H. Chen, L. Jalil, N. Cocker

论文

2025

KubeCon NA 2025

Intelligent LLM Routing: A New Paradigm for Multi-Model AI Orchestration in Kubernetes

介绍 Kubernetes 中多模型 AI 编排的新架构范式，并把它与近期的智能推理路由进展连接起来。

作者: Chen Wang, Huamin Chen

活动页

2025

vLLM Meetup Beijing

vLLM Semantic Router: Unlock the Power of Intelligent Routing

深入介绍 vLLM Semantic Router 的能力，展示智能路由如何为高效 LLM 推理解锁新可能。

作者: Xunzhuo Liu

观看回放

2025

vLLM Office Hours

AI-Powered vLLM Semantic Router

概览 vLLM Semantic Router 中由 AI 驱动的新能力与社区最新进展。

作者: Huamin Chen

观看回放

研究方法

研究最终会以三种形态交付。

我们把论文、开源和生产系统放进同一个闭环，而不是分开推进。

论文

研究会先被清晰表达出来，形成对路由、安全和运行时控制的技术主张。

开源

研究必须落到可运行的软件里，从信号提取到决策逻辑，都应当可被验证。

生产系统

系统想法最终要接受真实部署约束，而不只是停留在 benchmark 上。

下一步

继续看产品与这家公司背后的判断。

产品页展示这些研究如何变成产品，关于页解释我们的判断和团队。

查看产品关于