如何运行 Mixtral 8X7B？捷智算平台运行 Mixtral 8X7B步骤详解

发布时间： 2024-08-05 14:14

Mixtral 是 Mistral AI 最新的开源模型。Mistral AI 于 12 月 8 日通过磁力链接的一条推文发布了该模型，没有任何文档、解释或其他评论。Mistral AI 有几种流行的开源 LLM 模型，包括 Mistral 7B。

Mixtral 8X7B 的显著特点是它是一个混合专家 (MoE) 模型，具有卓越的能力。本指南使用了一些 hack 实现来使其运行。一旦该模型推出几个月，它肯定会获得更多开源工具的支持。

如何运行 Mixtral 8X7B？

要在捷智算平台上运行它，请使用 8X 4090/3090 或 4X A6000/A40 实例。实例上需要 120GB 的总 GPU RAM 来运行模型。我们使用典型的开发 Pytorch 推荐模板和修改版的 Illama 来运行推理。这是一个没有指令微调的基础模型，因此适当的提示技巧很有帮助。

运行 Mixtral 8X7B步骤

1、选择模板：

通过在模板中选择Pytorch 的Devel 模板。

2、租用服务器：

选择 8X 4090/3090 或 4X A40/A6000
添加至少 120GB 的磁盘空间
点击租赁按钮
如果需要的话，购买积分。
请参阅快速入门指南以获取帮助。

3、SSH 进入机器：

单击 >_ 按钮从实例卡获取 SSH 信息
通过 SSH 命令连接到实例。它看起来像这样，但包含实例的端口和服务器 IP 信息：

ssh -p <yourport> root@<yourserverip> -L 8080:localhost:8080

4、下载 Mixtral 8X7B 模型重量：

使用 torrent 文件。这通常需要大约 15 分钟，具体取决于服务器的下载速度。
要下载 torrent 文件，请运行：

apt install transmission-cli

transmission-cli magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce

5、安装 Illama 进行推理：

克隆存储库：

git clone https://github.com/dzhulgakov/llama-mistral

安装依赖项：

pip install fire sentencepiece

6、运行 Mixtral 8X7B！：

加载模型权重并运行提示example_text_completion.py。如果您使用 8 个 GPU，请在运行命令末尾附加“--num-gpus 8”，如下例所示。如果您使用 2 个 GPU，请删除该行。：

cd llama-mistral

python example_text_completion.py ../Downloads/mixtral-8x7b-32kseqlen/ ../Downloads/mixtral-8x7b-32kseqlen/tokenizer.model --num-gpus 8

就这样！您将获得当前列出的提示的输出

7、修改提示：

安装 Nano：

apt install nano

编辑文件：

nano example_text_completion.py

找到底部的提示并进行修改。
重新运行python文件以获取新的响应。

感谢您使用捷智算平台运行最新的开源 LLM Mixtral 8X7B。给我们留言，让我们知道您对该模型的看法。

选择短期还是长期 GPU 算力租赁服务？二者区别详解

如何使用QLoRA和FSDP在2X RTX 4090上训练 70b 语言模型？

热门产品

NVIDIA QM9790 交换机

NVIDIA H100 Tensor Core GPU

为各类数据中心提供出...

NVIDIA H100 Tensor Core GPU

为各类数据中心提供出...

英伟达h200,全球高性能GPU,现货

英伟达h200,Te...

ESC-N8-E11 AI超算服务器

NVIDIA HGX...