如何运行 Mixtral 8X7B?捷智算平台运行 Mixtral 8X7B步骤详解
发布时间: 2024-08-05 14:14

Mixtral 是 Mistral AI 最新的开源模型。Mistral AI 于 12 月 8 日通过磁力链接的一条推文发布了该模型,没有任何文档、解释或其他评论。Mistral AI 有几种流行的开源 LLM 模型,包括 Mistral 7B。


Mixtral 8X7B 的显著特点是它是一个混合专家 (MoE) 模型,具有卓越的能力。本指南使用了一些 hack 实现来使其运行。一旦该模型推出几个月,它肯定会获得更多开源工具的支持。


如何运行 Mixtral 8X7B?


要在捷智算平台上运行它,请使用 8X 4090/3090 或 4X A6000/A40 实例。实例上需要 120GB 的总 GPU RAM 来运行模型。我们使用典型的开发 Pytorch 推荐模板和修改版的 Illama 来运行推理。这是一个没有指令微调的基础模型,因此适当的提示技巧很有帮助。


运行 Mixtral 8X7B步骤


1、选择模板:

通过在模板中选择Pytorch 的Devel 模板。


2、租用服务器:

  • 选择 8X 4090/3090 或 4X A40/A6000

  • 添加至少 120GB 的磁盘空间

  • 点击租赁按钮

  • 如果需要的话,购买积分。

  • 请参阅快速入门指南以获取帮助。


3、SSH 进入机器:

  • 单击 >_ 按钮从实例卡获取 SSH 信息

  • 通过 SSH 命令连接到实例。它看起来像这样,但包含实例的端口和服务器 IP 信息:

ssh -p <yourport> root@<yourserverip> -L 8080:localhost:8080


4、下载 Mixtral 8X7B 模型重量:

  • 使用 torrent 文件。这通常需要大约 15 分钟,具体取决于服务器的下载速度。

  • 要下载 torrent 文件,请运行:

apt install transmission-cli

transmission-cli magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce


5、安装 Illama 进行推理:

  • 克隆存储库:

git clone https://github.com/dzhulgakov/llama-mistral

  • 安装依赖项:

pip install fire sentencepiece


6、运行 Mixtral 8X7B!:

  • 加载模型权重并运行提示example_text_completion.py。如果您使用 8 个 GPU,请在运行命令末尾附加“--num-gpus 8”,如下例所示。如果您使用 2 个 GPU,请删除该行。:

cd llama-mistral

python example_text_completion.py ../Downloads/mixtral-8x7b-32kseqlen/ ../Downloads/mixtral-8x7b-32kseqlen/tokenizer.model --num-gpus 8

就这样!您将获得当前列出的提示的输出


7、修改提示:

  • 安装 Nano:

apt install nano

  • 编辑文件:

nano example_text_completion.py

  • 找到底部的提示并进行修改。

  • 重新运行python文件以获取新的响应。


感谢您使用捷智算平台运行最新的开源 LLM Mixtral 8X7B。给我们留言,让我们知道您对该模型的看法。

粤公网安备 44030502006483号、 粤ICP备15047669号
  • 捷易科技联系人