如何使用服务器训练AI模型

CSDN 2024-10-13 14:07:01 阅读 91

如何使用服务器训练模型

大家好,这里是肆十二,之前有小伙伴反馈说自己的电脑只有cpu,没有GPU,也想要体验一下使用gpu训练模型,或者有的小伙伴反馈说自己所在的实验室提供了linux的服务器,但是不怎么会用,本期我们就来说说如何使用服务器来训练自己的模型。

获取服务器

如果你的实验室有服务器,那你就直接使用你们实验室的服务器即可,一般实验室的老师会提供给你服务器的IP地址、用户名以及密码这些信息,记住这些信息,后面我们将会使用到。

如果你没有服务器,你可以从网上租服务器,这些服务器有的是按照小时计费,有的是按照包年包月计费。具体哪里的好用大家可以去多查一些资料,基本流程都是一致的,你的最终目的都是为了得到这个服务器的ip、用户名以及密码,这里我就以我自己常用的网站为例进行说明。

image-20240925170214796

登录网站之后,你可以根据你的自身情况来挑选合适的显卡,注意这里是按照小时进行计费的,大家要根据自己的经济水平来进行选择,另外,这个网站应该是可以进行学生认证的,认证之后应该有对应的优惠,如果小伙伴感兴趣的话可以认证一哈。点击上面的按钮选择之后,这里要进行对应镜像的选择,考虑到大家可能在服务器上进行多个环境的配置,这里记得选择conda,后面我们可以使用conda来创建不同的虚拟环境以适应不同的项目。

image-20240925170557527

创建成功之后你将会再容器实例中查看到你的服务器

image-20240925170652016

记住下面这个位置的内容,他包含了你服务器的ip地址、端口号以及密码,后面我们链接的时候将会使用到。

image-20240925170749312

访问服务器

之后就是访问服务器了,访问服务器的话这里推荐大家使用的工具是mobaxterm。

下载地址在这个位置:MobaXterm Xserver with SSH, telnet, RDP, VNC and X11 - Home Edition (mobatek.net)

大家下载这个版本即可,这个版本下载下来之后是一个压缩包,解压之后点击exe即可运行,非常方便。

image-20240925170953373

ok,首先我们还是先从我们的autodl上获取到我们服务器的信息

ssh -p 44638 root@connect.cqa1.seetacloud.com

abcxdfdsaf

启动mobaxterm,新建一个会话。

image-20240925171215340

输入你的用户名和密码,这个时候即可登录。注意,密码输入的时候是不会显示的,不是你键盘坏了,是他本来也就是不显示的。

image-20240925171406551

登录成功之后会出现类似于上图这样的信息,其中上面红色的方框是你经常来执行的目录,这个目录下有比较大的空间。

上传文件到服务器

在上传文件之前,我先和你大概说下他的界面上的内容有什么,其中左侧是文件浏览器,在这个文件浏览器下你可以看到服务器上有的文件,中间这个黑框就是命令行了,和我们之前教程中使用的cmd是一个道理。

image-20240925172147311

我们上传文件在左侧进行上传即可,注意上传之前请保证你所处的目录尽量在一个空间比较大的目录下面。

我们进行示范的文件是我们行人检测那期栏目中的文件,其他的文件基本也是一致的,一般在项目目录下都会有一个readme的文件,你使用readme中的向导进行配置即可。

image-20240925172733743

服务器上配置环境

一般在服务器上有几个常用的命令,比如<code>unzip是解压,cd是打开目录,pwd是查看目录,cat是查看文件。

服务器上配置环境的过程和之前在cmd中配置环境的过程是一致的。

配置加速

conda config --remove-key channels

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

conda config --set show_channel_urls yes

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

创建和激活虚拟环境

conda create -n yolo python==3.8.5

conda activate yolo

image-20240925173309591

image-20240925174314137

安装torch

<code>conda install pytorch==1.8.0 torchvision torchaudio cudatoolkit=10.2 # 注意这条命令指定Pytorch的版本和cuda的版本

conda install pytorch==1.10.0 torchvision torchaudio cudatoolkit=11.3 # 30系列以上显卡gpu版本pytorch安装指令

conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly # CPU的小伙伴直接执行这条命令即可

image-20240925174904709

image-20240925180327434

安装其他依赖库

<code>pip install -v -e .

安装完成之后出现successfully表示你这里的安装基本是没有什么问题的。

image-20240925181159830

搞定!

服务器上训练模型

训练模型还是进入到我们的42_demo目录下面,和之前的视频一样执行脚本即可。

注意,训练模型之前需要先将我们的数据集路径配置好。

image-20240925181301327

image-20240925181356045

服务器上执行脚本的时候直接python 要执行的文件即可,注意由于是黑框的缘故,可视化的内容是无法显示的,所以一般服务器我们只是用来做训练和测试。

image-20240925181509422

image-20240925181555452

训练过程中他会显示日志和模型存放的目录在哪里。

服务器上下载训练好的模型使用

训练完毕之后我们直接从上面红色方框的目录将模型拖到本地即可使用。

剩下的就是你在你windows系统上进行执行了,看下面的教程即可。

使用YOLOv8训练自己的数据集(原理解析+数据标注说明+训练教程+图形化系统开发)_yolov8 训练自己的数据集-CSDN博客



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。