本地部署 Qwen 2.5 的全面指南

以下是有关如何在本地部署 Qwen 2.5 的全面指南,涵盖环境设置、配置和使用:
1. 本地环境设置
- 操作系统:macOS(使用 M 芯片以获得更好的 MLX 支持)。
- 硬件:
- 对于 32B 模型,具有足够内存的系统至关重要。32GB RAM M 芯片 Mac 可能会发现 32B 模型的 Q4 量化具有挑战性。考虑使用 14B 模型以在这样的系统上获得更好的性能。
- 具有 128GB RAM 的 M4 Max 适用于更大的模型,由于统一的内存,其性能可能优于 NVIDIA 卡。
- 软件要求:
- LM Studio:支持 MLX 的最新版本。
- Open WebUI:用于比较多个模型。
- Docker:部署 Open WebUI 所需。
- 光标:用于利用已部署模型的 AI 代码编辑器。
engrok
:创建安全隧道以访问 Cursor 中的本地模型。
2. 详细配置步骤
A. 使用 LM Studio 部署 Qwen 2.5
- 安装 LM Studio:从官方网站下载并安装 LM Studio。
- 查找并下载模型:
- 打开 LM Studio 并搜索 Qwen 2.5 模型。
- 为 M 芯片 Mac 选择模型的 MLX 版本。建议使用 CB 模型。
- 下载所选模型。
- 启动本地服务器:
- 在 LM Studio 中,转到“开发者模式”或类似的设置部分。
- 启用服务器以在本地运行模型。使用默认端口
1234
。 - 确保模型已加载到内存中。
B. 设置 Open WebUI
- 安装 Docker:从 Docker 网站下载并安装 Docker。
- 部署 Open WebUI:
- 运行 Docker。
- 通过 Web 浏览器中的
localhost:3000
访问 Open WebUI。
- 配置 Open WebUI:
- 在 Open WebUI 中,导航到“设置”并找到“外部推理”或“API 端点”部分。
- 输入 API URL:
host.docker.internal:1234/
。 - 将密码字段留空。
- 验证连接以确保 Open WebUI 可以与 LM Studio 通信。
C. 与 Cursor 集成
- 安装
engrok
:
- 打开终端并运行:
brew install engrok
。
- 创建
engrok
隧道:
- 注册
engrok
账户以获取 API 密钥。 - 在终端中运行以下命令,将
YOUR_API_KEY
替换为您实际的engrok
API 密钥:engrok http 1234 --authtoken=YOUR_API_KEY
。 - 复制生成的
engrok
链接。
- 配置 Cursor:
- 在 Cursor 中,转到设置以添加新模型。
- 输入与 LM Studio 中显示的完全相同的模型名称。
- 将
engrok
链接粘贴到“基本 URL”字段中,并在末尾附加/v1
。例如:[engrok_url]/v1
- 无需密码。
- 验证连接。
3. 使用说明
- LM Studio:
- 使用 LM Studio 测试模型,试验提示,并确保它按预期生成输出。
- 打开 WebUI:
- 使用打开 WebUI 比较不同模型的性能,调整设置并微调提示。
- Cursor:
- 打开 Cursor 并选择配置的 Qwen 2.5 模型。
- 使用它进行代码生成、编辑和其他 AI 辅助编码任务。
附加说明
- API 使用:对于基于 API 的访问,请考虑使用 HyperWrite 等平台,它们可能会为初始使用提供免费积分。
- 模型选择:Qwen 2.5 提供各种模型(0.5B、3B、14B、32B)。根据您的硬件和性能需求进行选择。
- 性能:与 Ollama 等旧方法相比,M 系列 Mac 上的 MLX 后端可以提供更快的推理速度。
- 示例:32B 模型可以生成打砖块和贪吃蛇等功能性游戏。生成内容的质量可能有所不同,因此请根据提示进行迭代。
- 游戏:您还可以使用 Qwen 2.5 生成游戏和其他交互式内容。