推理引擎
全部 vLLM SGLang MindIE TGI TensorRT-LLM
模型场景
全部 文本生成 代码生成 图像生成 视频生成 文本向量 音频生成 深度推理 视觉理解
模型大小
全部 0b~9b 10b~30b 31b~70b 70b~600b 600b以上
上下文长度
全部 ≤8K 8K~64K >64K
模型提供方
全部 Google 零一万物 智谱 Meta 百川 通义千问 深度求索
支持芯片
全部 NVIDIA(英伟达) Iluvatar(天数) Ascend(昇腾)
Q

Qwen2.5-72B-Instruct

通义千问/Qwen2.5-72B-Instruct

vLLM SGLang 文本生成 70b~600b NVIDIA
Qwen2.5是通义千问系列的大语言模型,支持多语言、多模态理解和复杂推理任务。
D

DeepSeek-R1-Distill-Qwen-32B

深度求索/DeepSeek-R1-Distill-Qwen-32B

vLLM 深度推理 31b~70b NVIDIA
DeepSeek-R1是深度求索推出的推理模型,通过强化学习提升推理能力,支持复杂数学和代码任务。
G

GLM-4-9B-Chat

智谱/GLM-4-9B-Chat

vLLM 文本生成 0b~9b NVIDIA
GLM-4是智谱AI推出的新一代大语言模型,支持多轮对话、工具调用和代码生成。
L

Llama-3.1-70B-Instruct

Meta/Llama-3.1-70B-Instruct

vLLM 文本生成 31b~70b NVIDIA
Llama 3.1是Meta推出的开源大语言模型,支持128K上下文,具备强大的多语言理解和生成能力。
R

DeepSeek-V3

深度求索/DeepSeek-V3

vLLM SGLang 文本生成 600b以上
DeepSeek-V3是深度求索推出的超大规模MoE模型,总参数量达671B,每次前向传播激活37B参数。
Q

Qwen2-VL-7B-Instruct

通义千问/Qwen2-VL-7B-Instruct

vLLM 视觉理解 0b~9b NVIDIA
Qwen2-VL是通义千问系列的多模态视觉语言模型,支持图像理解、视频分析和视觉问答任务。