玩转香橙派 AIpro,高性能AI开发板评测与项目案例分享

盛世芳华 2024-07-03 16:31:01 阅读 68

公司最近刚忙完一个项目,闲暇之余,看着手里的树莓派、stm32、Esp32又有些手痒了,准备再搞点小项目出来,但一直没有什么好想法。

说来也巧,恰好收到了CSDN官方的OrangePi AIpro测评活动,平时一直都在用树莓派做点小项目,香橙派的大名也有所耳闻,但从未接触过,恰好有这么一个机会了解一下,必须好好把玩一下。

深入了解测评活动后才知道,原来香橙派 AIpro是块AI板子,用的是华为昇腾AI技术路线,华为加持的那必须是遥遥领先,哈哈。我拿到的板子有8TOPS AI算力,这不比树莓派高级的多吗?

虽然和Jetson Xavier NX的21TOPS相比差距不少,但8TOPS的算力在嵌入式AI开发板中已经相当不错,适合多种中等复杂度的AI应用场景,因为抛开价格谈算力,就是耍流氓,我拿到的8TOPS、8G内存的香橙派 AIpro价格是799,是创客的又一个新选择。看着21TOPS、8G内存的Jetson Xavier NX卖3000多,我真的是瑟瑟发抖,要不起~

香橙派 AIpro的详细参数大家可参考官方说明:

http://www.orangepi.cn/html/hardWare/computerAndMicrocontrollers/details/Orange-Pi-AIpro.html

简单的说,采用了昇腾AI技术路线,具体为4核64位处理器+AI处理器,拥有8GB/16GB LPDDR4X,可以外接32GB/64GB/128GB/256GB eMMC模块,支持双4K高清输出,包括两个HDMI输出、GPIO接口、Type-C电源接口、支持SATA/NVMe SSD 2280的M.2插槽、TF插槽、千兆网口、两个USB3.0、一个USB Type-C 3.0、一个Micro USB(串口打印调试功能)、两个MIPI摄像头、一个MIPI屏等,预留电池接口。这么丰富的接口,拿来做机械臂、智能家居中控、智能小车、智能交通、智能音响等产品简直不要太香了!接下来就记录一下香橙派 AIpro从开箱到安装、烧录、跑通示例的完整过程。

1 、开箱

邮寄用了三天时间,香橙派 AIpro套装包含:主板、电源、散热组件、32GB存储卡,线路板设计还是比较合理的,走线清晰、布局紧凑、元器件焊接整齐,看着就有质感,爱了爱了。这里要注意一下,拆包装的时候一定别激动,千万别把天线给扯下来,别问我为什么!

2 、烧录镜像

玩儿过树莓派的都懂,需要先把操作系统的镜像烧录到SD卡中,才能正常启动板子,香橙派 AIpro同样如此。

2.1 下载镜像

香橙派 AIpro官方镜像下载地址:

Orange Pi - Orangepi

官方提供了ubuntu镜像和openeuler镜像,ubuntu大家耳熟能详,openeuler可能知道的人不多,它是华为发布的操作系统,openEuler是一个开源、免费的 Linux 发行版平台。说实话,我对openeuler也不熟悉,咱还是用ubuntu镜像吧,官方把镜像放在了百度网盘,网盘地址是:

https://pan.baidu.com/s/1csbugZiKsuL_NHCOmyi1BA?pwd=ma6z

这里要注意一下,这里有两个镜像,一个是minimal,一个是desktop,minimal镜像只有最基础的功能,Linux 桌面、CANN、示例代码都没有,不适合新手;desktop 镜像预装了 Linux 桌面、CANN、AI 示例代码和测试程序,想要快速体验香橙派 AIpro开发板,咱最好还是下载opiaipro_ubuntu22.04_desktop_aarch64_20240318.img.xz文件。

百度网盘的下载速度难得的给力。

2.2 烧录镜像

下载Windows-格式化软件-SDCardFormatter和Linux镜像烧录工具-balenEther,下载地址:

百度网盘 请输入提取码

解压SDCardFormatterv5_WinEN.zip双击安装SDCardFormatte,将SD卡插入读卡器,读卡器插入电脑,打开SDCardFormatter找到SD卡磁盘,点击Format进行格式化。

双击balenaEtcher-Portable-1.18.4.exe,点击“从文件烧录”,选择我们下载的opiaipro_ubuntu22.04_desktop_aarch64_20240318.img.xz文件,点击“选择目标磁盘”选中SD卡磁盘,点击“现在烧录”,完成镜像的烧录。最后将SD卡插入到香橙派 AIpro的TF卡槽中。

3、硬件安装和开机

3.1 风扇安装

套件带有散热组件,如果不装风扇直接拿来做推理,目测能直接烧开一壶水,所以风扇必须得安排上。安装方式也很简单,4个打孔位置安装4个铜柱,然后贴导热硅脂,再把风扇装上去,风扇的接头插到板子的FAN标识处。

最终效果如下:

3.2 硬件连接

网口插网线,USB口插鼠标、键盘,如果有显示器,那么将板子的HDMI0接口接入到显示器,我正好有一个十几年前买的联想G460笔记本,主板坏了,但屏幕还不错,就弄了个屏幕驱动板,改造成了一个便携式显示器,最近一直配合着树莓派使用,这次又有大用处了。最后Type-C口插电源线,开机~~效果非常不错,输入密码Mind@123进入系统。

注意,开机时风扇转的非常快,小心被刮伤,系统启动成功后,风扇转速就降低了。

4、远程连接

4.1 命令行远程连接

由于我没有蓝牙鼠标和键盘,鼠标和键盘直接插到香橙派 AIpro开发板上的话,线太多太乱,所以最终还是选择使用远程连接。方法很简单,使用MobaXterm新建会话,输入香橙派 AIpro开发板的IP地址,用户名HwHiAiUser、密码Mind@123,IP地址可登录路由器管理界面查找。

远程连接成功后如图所示:

4.2 vnc远程桌面

官方镜像默认安装了VNC,通过VNC Views工具可直接连接,服务地址是IP:1

5、实例代码演示

5.1 调用官方例程

官方例程放在/samples/notebooks目录下,进入目录后执行:

<code>./start_notebook.sh

此时需要访问jupyter来查看例程,因为我是远程连接的香橙派 AIpro,所以需要把开发板的8888端口映射到本地。方法很简单,点击MobaXterm的Tunneling,点击“New SSH tunnel”

接下来如图配置端口映射:

完成后,点击开始图标:

然后就可以通过本地浏览器访问jupyter了。

官方给了9个例程,分别是yolov5目标识别、ocr文字识别、resnet图像分类、图像HDR增强、卡通图片效果生成、蛋白质图谱分类、细胞核实例分割、基于神经网络的人像分割和背景替换、语音转文本,都是非常值得参考学习的例程,方便开发者从项目出发,了解昇腾的开发流程。

我在运行yolov5例程的时候,同时监控了一下芯片的数据,AI Core占用率在30以下浮动,内存占用率在82,在用风扇的情况下,芯片温度在56°左右,所以使用这个开发板时风扇是必备的。

5.2 Yolov8目标识别迁移

官方提供了Yolov5的示例,而Yolo的版本已经迭代到了Yolov8,所以想着把Yolov8迁移过来,在迁移过程中遇到了非常多的坑,所以把迁移过程记录下来,避免大家踩坑。

5.3.1 代码克隆

我基于https://github.com/ultralytics/ultralytics进行模型的迁移。

<code>cd /home/HwHiAiUser/

git clone https://github.com/ultralytics/ultralytics

5.3.2 下载权重文件

cd ultralytics/examples/YOLOv8-OpenCV-ONNX-Python

wget https://github.com/ultralytics/assets/releases/download/v0.0.0/yolov8n.pt

5.3.3 pt权重转onnx

先安装用到的库:

pip install ultralytics -i https://mirrors.aliyun.com/pypi/simple

pip install opencv-python -i https://mirrors.aliyun.com/pypi/simple

然后转换权重文件

yolo export model=yolov8n.pt imgsz=640 format=onnx opset=11

5.3.4 使用onnx进行推理

我修改了main.py,想看一下onnx推理一张图片需要多久。

<code>python main.py --model yolov8n.onnx

使用onnx推理,推理部分仅有1.2FPS。

5.3.5 ATC转换模型

ATC是异构计算架构CANN体系下的模型转换工具, 可以将开源框架的网络模型转换为昇腾AI处理器支持的.om格式离线模型。也就是将pytorch、tensorflow、cafffe框架下训练的模型转换为昇腾硬件可以加载加速的模型。

最大的坑来了,在使用ATC进行模型转换的时候,出现了各种各样的问题,折腾了两天才解决。

我烧录的镜像是官方提供的“opiaipro_ubuntu22.04_desktop_aarch64_20240318.img.xz”,预装了Ascend-cann-toolkit7.0版本,在首次进行模型转换时,出现了一堆BrokenPipeError: [Errno 32] Broken pipe错误,我以为是Ascend-cann-toolkit版本问题,卸载后安装了Ascend-cann-toolkit_8.0.RC1.alpha003版本,重装Ascend-cann-toolkit方法也简单:

<code>cd /usr/local/Ascend/ascend-toolkit/

#删除当前安装,否则会出现磁盘空间不足

rm -rf *

然后进入https://www.hiascend.com/developer/download/community/result?module=cann&cann=8.0.RC1.alpha003,下载Ascend-cann-toolkit_8.0.rc1.alpha003_linux-aarch64.run

chmod +x Ascend-cann-toolkit_8.0.rc1.alpha003_linux-aarch64.run

./Ascend-cann-toolkit_8.0.rc1.alpha003_linux-aarch64.run -- install

安装较慢,耐心等待。

成功后使用最新版atc工具转换模型,仍然报错BrokenPipeError: [Errno 32] Broken pipe。

最后论坛里翻了翻,发现原因是开发板cpu核数较少,atc过程中使用的最大并行进程数默认是服务器的配置,可以使用环境变量减少atc过程中的进程数来减少内存消耗。

#开启日志输出

export ASCEND_SLOG_PRINT_TO_STDOUT=1

export ASCEND_GLOBAL_LOG_LEVEL=0

#减小算子最大并行编译进程数

export TE_PARALLEL_COMPILER=1

#减少图编译时可用的CPU核数

export MAX_COMPILE_CORE_NUMBER=1

然后再进行模型转换,让人兴奋,BrokenPipeError: [Errno 32] Broken pipe错误消失,等了几分钟后,新错误出现了,如图所示,报错fatal error: 'type_traits' file not found

但我确信gcc之类的库是没问题的,而且自己写了一个cpp,特意#include<type_traits>都是能编译通过的。

最后,实在没辙的情况下,我重新烧录了镜像,这次我换用了官方的“opiaipro_openEuler22.03_desktop_aarch64_20240423.img.xz”镜像,问题居然消失了,看来,ubuntu的镜像的确有点问题。

5.3.6 代码迁移

接下来就简单了:

<code>cd ultralytics/examples/YOLOv8-OpenCV-ONNX-Python

#模型转换

atc --framework=5 --model=yolov8n.onnx --output=yolov8n --input_shape="images:1,3,640,640" --soc_version=Ascend310B4 --log=errorcode>

转换成功,目录下生成了yolov8n.om文件,然后复制当前目录下的main.py文件进行魔改

<code>cp main.py mainom.py

vim mainom.py

头部引入以下代码:

from ais_bench.infer.interface import InferSession

import time

修改main函数输入:

<code>#将代码

def main(onnx_model, input_image):

#改为

def main(om_model, input_image):

#注释掉代码:

model: cv2.dnn.Net = cv2.dnn.readNetFromONNX(onnx_model)

#改为

session = InferSession(device_id=0, model_path=om_model)

#注释掉代码

model.setInput(blob) outputs = model.forward()

#改为

outputs = session.infer(feeds=blob, mode="static")code>

#修改

outputs = np.array([cv2.transpose(outputs[0])])

#改为

outputs = np.array([cv2.transpose(outputs[0][0])])

然后开始推理:

<code>python mainom.py --model yolov8n.om

使用昇腾AI技术路线后,推理部分是55FPS,性能强悍。

5.3 LLMS大模型实例

从去年开始,最火热的技术莫过于大语言模型,最近我也一直在研究大语言模型,本地部署体验了通义千问120B、llama3的70B、以及gemma的7B模型,通义千问120B的中文性能绝对是扛把子的存在,毕竟我用了四张3090的显卡才把120b的模型跑起来。

接触到香橙派 AIpro开发板后,就有一个把大语言模型移植到香橙派 AIpro的想法,网上搜罗一番,发现资料不多,难度不小,不过在gitee发现了南京大学开源的一套基于香橙派 AIpro部署的Tiny-Llama语言模型,开源地址:https://gitee.com/wan-zutao/tiny-llama-manual-reset

Tiny-Llama这个模型的尺寸非常小,参数也只有1.1B,我用CPU就能够运行。用香橙派 AIpro跑,速度绝对没得说:

抱着前人栽树后人乘凉的态度,先来体验一番。部署很简单:

5.3.1 克隆项目

<code>cd ~/samples

git clone https://gitee.com/wan-zutao/tiny-llama-manual-reset.git tiny_llamacd

cd tiny_llama/inference

5.3.2 下载model、tokenizer文件

bash download.sh

5.3.3 启动

<code>python3 main.py

然后通过本地浏览器访问Tiny-Llama服务。

Tiny-Llama这个模型是个纯纯的话痨,你问一句,它回你十句,而且常常词不达意,中文基本不支持,我愿称之为废话生成器,所以这种参数很小的模型,还是没啥实用价值。

在大语言模型推理过程中,Ai Core的占用率达到60%左右,基本上1秒出2个英文单词,速度还行,等以后有机会了,可以尝试把千问7B模型迁移过来,不知能否跑得起来。

6、使用感受

香橙派 AIpro开发板玩儿了一周,开发板表现得异常坚挺,几乎都是不间断地运行,没有一次意外重启,在持续高负荷运作期间,板子的温度管理也很出色,始终保持在50到60°左右,这对于高性能计算设备而言非常重要。

香橙派官方对开发者社区的支持力度值得称赞,不仅提供了丰富的例程资源,覆盖了从基础到进阶的多个层面,还细心考虑到不同水平开发者的学习需求,极大地降低了初学者的入门门槛。然而,对于初次接触昇腾AI技术路线的开发者来说,环境配置和开发流程仍然是一个不小的挑战。这一过程中,可能会遇到各种预料之外的问题,比如依赖库的安装、编译等,我利用一周的时间,亲身体验并详细记录了在使用香橙派AIpro进行开发时,新手开发者可能会遭遇到的主要障碍,并以当下流行的YOLOv8模型迁移为例,实现模型的成功转换至昇腾平台。这份实战经验的分享,希望能为新手提供一些帮助。

开发过程中的疑惑与挑战,建议大家积极访问昇腾官方社区(https://www.hiascend.com/forum)。昇腾虽然已经在算力领域占据了举足轻重的地位,但构建和完善一个生机勃勃的生态系统仍是一场持久战。这要求我们每一位开发者不仅要专注于技术创新,更要乐于分享、勇于协作,共同推动昇腾AI生态走向更加繁荣的未来。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。