LLM大模型：QWen2-72B-Instruct模型安装部署过程

AI小白龙* 2024-10-02 11:31:03 阅读 67

最近在给我们的客户私有化部署我们的TorchV系统，客户给的资源足够充裕，借此机会记录下部署千问72B模型的过程，分享给大家！

一、基础信息

操作系统：Ubuntu 22.04.3 LTSGPU: A800(80GB) * 8内存：1TB

二、软件信息

Python: 3.10

Pytorch：2.3.0

Transformers：4.43.0

vLLM：0.5.0

cuda： 12.2

模型: QWen2-72B-Instruct

三、安装步骤

1、安装Conda

Conda 是一个开源的包管理系统和环境管理系统，旨在简化软件包的安装、配置和使用

对于Python环境的部署，能够非常方便的切换环境。

可以通过conda官网链接下载安装：https://www.anaconda.com/download#downloads

<code># 下载

wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh

# 安装

bash Anaconda3-2023.09-0-Linux-x86_64.sh

# 配置环境变量

echo 'export PATH="/path/to/anaconda3/bin:$PATH"' >> ~/.bashrccode>

source ~/.bashrc

安装完成后，通过命令验证安装是否成功

conda --version

安装完成之后，可以配置镜像源，方便快速下载依赖包

# 配置源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --set show_channel_urls yes

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

conda的相关命令

# 指定虚拟环境名称为llm，python版本是3.9

conda create --name llm python=3.9

# 激活conda新环境

conda activate llm

# 查看当前环境列表

conda env list

`2、下载QWen2-72B-Instruct模型`

 Huggingface：https://huggingface.co/Qwen/Qwen2-72B-Instruct
 
ModelScope：https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
 
两个地址都可以下载，下载完成后，将模型文件存放在服务器上。
 
  
  
 ⚠️ 注意服务器的磁盘空间。
  
 3、安装Pytorch等环境依赖信息
   
  
 ⚠️ 在安装Pytorch时，需要保证和cuda驱动版本保持一致，不然会出现各种莫名其妙的问题
  
  
  
 版本选择参考：https://pytorch.org/get-started/locally/
  
  
  
 通过conda创建一个新的环境，然后切换后安装依赖包
  
 
 
4、 安装vLLM

<code>vLLM 框架是一个高效的大语言模型推理和部署服务系统，具备以下特性：

高效的内存管理：通过 PagedAttention 算法，vLLM 实现了对 KV 缓存的高效管理，减少了内存浪费，优化了模型的运行效率。高吞吐量：vLLM 支持异步处理和连续批处理请求，显著提高了模型推理的吞吐量，加速了文本生成和处理速度。易用性：vLLM 与 HuggingFace 模型无缝集成，支持多种流行的大型语言模型，简化了模型部署和推理的过程。兼容 OpenAI 的 API 服务器。分布式推理：框架支持在多 GPU 环境中进行分布式推理，通过模型并行策略和高效的数据通信，提升了处理大型模型的能力。开源共享：vLLM 由于其开源的属性，拥有活跃的社区支持，这也便于开发者贡献和改进，共同推动技术发展。

GitHub：https://github.com/vllm-project/vllm

文档：https://docs.vllm.ai/en/latest/

在通过conda创建了初始环境后，可以直接通过pip进行安装

pip install vllm

更多的安装方式，可以参考官网文档：https://docs.vllm.ai/en/stable/getting_started/installation.html

5、模型验证

可以通过一个python脚本来验证当前的模型是否可用

脚本如下：

# test.py

from vllm import LLM, SamplingParams

from transformers import AutoTokenizer

import os

import json

def get_completion(prompts, model, tokenizer=None, max_tokens=512, temperature=0.8, top_p=0.95, max_model_len=2048):

stop_token_ids = []

# 创建采样参数。temperature 控制生成文本的多样性，top_p 控制核心采样的概率

sampling_params = SamplingParams(temperature=temperature, top_p=top_p, max_tokens=max_tokens, stop_token_ids=stop_token_ids)

# 初始化 vLLM 推理引擎

llm = LLM(model=model, tokenizer=tokenizer, max_model_len=max_model_len,trust_remote_code=True)

outputs = llm.generate(prompts, sampling_params)

return outputs

if __name__ == "__main__":

# 初始化 vLLM 推理引擎

model='/mnt/soft/models/qwen/Qwen2-72B-Instruct' # 指定模型路径code>

# model="qwen/Qwen2-7B-Instruct" # 指定模型名称，自动下载模型code>

tokenizer = None

# 加载分词器后传入vLLM 模型，但不是必要的。

# tokenizer = AutoTokenizer.from_pretrained(model, use_fast=False)

text = ["你好，帮我介绍一下什么时大语言模型。",

"可以给我将一个有趣的童话故事吗？"]

outputs = get_completion(text, model, tokenizer=tokenizer, max_tokens=512, temperature=1, top_p=1, max_model_len=2048)

# 输出是一个包含 prompt、生成文本和其他信息的 RequestOutput 对象列表。

# 打印输出。

for output in outputs:

prompt = output.prompt

generated_text = output.outputs[0].text

print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

在终端执行python脚本，可以看到控制台是否正常输出

python test.py

`6、启动服务 & 包装OpenAI格式的接口`

 验证模型可用后，那么就可以通过vLLM提供的模块，将整个模型服务包装成OpenAI格式的HTTP服务，提供给上层应用使用。
 
需要注意的参数配置：
 
--model 参数指定模型名称&路径。--served-model-name 指定服务模型的名称。--max-model-len 指定模型的最大长度，如果不指定，那么会从模型配置文件中自动加载，QWen2-72B模型支持最大128K--tensor-parallel-size 指定多个GPU服务运行,QWen2-72B的模型，单卡GPU无法支撑。--gpu-memory-utilization 用于模型执行器的GPU内存分数，范围从0到1。例如，值为0.5意味着GPU内存利用率为50%。如果未指定，将使用默认值0.9。vllm通过此参数预分配了部分显存，避免模型在调用的时候频繁的申请显存。 
  
  
 关于vllm的更多参数，可以参考官方文档：https://docs.vllm.ai/en/stable/models/engine_args.html
  
 这里可以使用tmux命令来进行服务的运行。
 
  
  
 tmux（Terminal Multiplexer）是一个强大的终端复用器，可以让用户在一个终端窗口中同时使用多个会话。使用 tmux 可以提高工作效率，便于管理长期运行的任务和多任务操作
  
 python3 -m vllm.entrypoints.openai.api_server --model /mnt/torchv/models/Qwen2-72B-Instruct --served-model-name QWen2-72B-Instruct --tensor-parallel-size 8 --gpu-memory-utilization 0.7
 
 
出现端口等信息则代表当前的模型服务启动成功！！！
 
首先创建一个新会话
 <code>tmux new -t llm
 
进入会话
 
tmux attach -t llm
 
启动命令：
 
python -m xxx
 
退出当前会话
 
  
  
 如果没反应就多试几次
  
 英文输入下 ctrl + b 然后输入d
 
通过curl命令验证大模型OpenAI接口服务是否可用，脚本如下：
 
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
 "model": "QWen2-72B-Instruct",
 "messages": [
 {
 "role": "user",
 "content": "给我讲一个童话故事"
 }
 ],
 "stream": true,
 "temperature": 0.9,
 "top_p": 0.7,
 "top_k": 20,
 "max_tokens": 512
}'
 
四、总结
 目前的开源生态已经非常成熟了，vLLM这样的工具能够轻松实现对大模型的快速部署，工作效率上大大提升
 
五、References
 官网资源等信息
    资源  地址  
 
   QWen  GitHub：https://github.com/QwenLM/Qwen Huggingface：https://huggingface.co/Qwen ModelScope：https://modelscope.cn/organization/qwen?tab=model docs:https://qwen.readthedocs.io/zh-cn/latest/getting_started/quickstart.html#  
  Pytorch  https://pytorch.org/get-started/locally/  
  Conda  https://www.anaconda.com  
  vLLM  https://docs.vllm.ai/en/latest/getting_started/installation.html  
    
 
 权重文件下载不完全
 在本次部署过程中，碰到了下载模型权重文件不完整的情况，导致通过vLLM部署不起来，可以通过Linux的命令sha256sum工具来对模型权重文件进行检查，对比网站上的模型权重文件的sha256是否一致，如果不一致，需要重新下载安装
 
命令如下：
 
sha256sum your_local_file
 
 
如何系统的去学习大模型LLM ？

资源	地址
QWen	GitHub：https://github.com/QwenLM/Qwen Huggingface：https://huggingface.co/Qwen ModelScope：https://modelscope.cn/organization/qwen?tab=model docs:https://qwen.readthedocs.io/zh-cn/latest/getting_started/quickstart.html#
Pytorch	https://pytorch.org/get-started/locally/
Conda	https://www.anaconda.com
vLLM	https://docs.vllm.ai/en/latest/getting_started/installation.html

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “<code>AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。

内容：

L1.1 人工智能简述与大模型起源L1.2 大模型与通用人工智能L1.3 GPT模型的发展历程L1.4 模型工程L1.4.1 知识大模型L1.4.2 生产大模型L1.4.3 模型工程方法论L1.4.4 模型工程实践L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。

内容：

L2.1 API接口L2.1.1 OpenAI API接口L2.1.2 Python接口接入L2.1.3 BOT工具类框架L2.1.4 代码示例L2.2 Prompt框架L2.3 流水线工程L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。

内容：

L3.1 Agent模型框架L3.2 MetaGPTL3.3 ChatGLML3.4 LLAMAL3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。

内容：

L4.1 模型私有化部署概述L4.2 模型私有化部署的关键技术L4.3 模型私有化部署的实施步骤L4.4 模型私有化部署的应用场景

这份 <code>LLM大模型资料包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

上一篇： SRGAN：使用生成对抗网络对图像进行超分辨率重构

下一篇： AI大模型-智能生成PPT

本文标签

LLM大模型：QWen2-72B-Instruct模型安装部署过程

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。