CLI

LazyLLM 提供了一个命令行接口（CLI），用于模型部署、依赖安装和运行服务等操作。本文档介绍了通过 lazyllm.cli 模块可用的核心命令及其用法示例。

`lazyllm deploy`

根据输入命令执行模型部署或启动 MCP（Model Context Protocol）服务器。

当命令以 mcp_server 开头时，将启动一个 MCP 服务器，支持环境变量注入、SSE 服务端口配置等功能。

# 使用 uvx 和 mcp-server-fetch 启动 MCP 服务
lazyllm deploy mcp_server uvx mcp-server-fetch

其中：

# 启动 MCP 服务器，并配置环境变量和 SSE 端口
lazyllm deploy mcp_server -e GITHUB_TOKEN your_token --sse-port 8080 npx -- -y @modelcontextprotocol/server-github

其中：

可选参数说明：

当命令不以 mcp_server 开头时，默认以模型部署模式运行，支持多个框架（如 vllm、lightllm 等），并可启用 Web 聊天接口。

# 使用 vllm 部署 LLaMA3 模型，并开启聊天模式
lazyllm deploy llama3-chat --framework vllm --chat=true --top_p=0.9 --max_tokens=2048

其中：

llama3-chat：要部署的模型名称。
framework=vllm：指定部署使用的框架，支持：
- vllm：高性能推理引擎。
- lightllm：轻量化模型部署。
- lmdeploy、infinity、embedding、mindie：其他特定部署框架。
- auto：自动识别推荐框架。
chat=true：是否开启 Web 聊天服务。等价写法还包括 chat=1, chat=on。
top_p=0.9：设置推理时的 nucleus sampling 截断概率。
max_tokens=2048：生成文本的最大 token 数。

补充说明：

用于安装额外功能组件组（extras groups）或指定的第三方 Python 包。

你可以安装：

安装逻辑会自动处理版本依赖关系和兼容性问题，例如 flash-attn 与 PyTorch 的适配。

# 安装 embedding 和 chat 组件组
lazyllm install embedding chat

其中：

# 安装具体的第三方 Python 包
lazyllm install openai sentence-transformers

其中：

根据传入子命令执行对应的服务或流程。

lazyllm run chatbot --model chatglm3-6b --framework vllm

其中：

lazyllm run rag --model bge-base --framework lightllm --documents /path/to/docs

其中：

lazyllm run workflow.json

其中：

lazyllm run training_service

其中：

lazyllm run infer_service

其中：

❗ 注意事项：对于 chatbot 和 rag，source 和 framework 互斥，且只能从预设选项中选择。如果传入未知命令或参数不正确，会报错提示。