算力平台和算力卡租用体验

AI_Mind 2024-08-18 14:01:01 阅读 50

        在AI蓬勃发展的今天,算力卡资源,尤其是高性能的图形处理器(GPU),已成为驱动智能革命的最关键因素。其中,NVIDIA作为GPU领域的领头羊,其产品凭借卓越的并行处理能力,在深度学习和高性能计算领域占据主导地位。然而,NVIDIA的GPU卡,如RTX40系列,标价已达万元,A800、H800这类需要特殊渠道的,更是朝向十万,这样的价格门槛对许多个人开发者和小型研究团队来说,无疑是一笔沉重的负担。

         想在这波AIGC的浪潮里,抓住机会,捕点小鱼,开始就遇到算力卡这只“拦路虎”。问题不大,在搜索引擎里找找N卡租用,发现国内阿里云、腾讯云等国内服务商,均提供了按需租用GPU的服务,这些平台不仅提供了NVIDIA系列的GPU,还有一部分国产卡,还根据不同的计算需求,设定了灵活的计费策略,可以降低硬件环境的成本。除了大厂,搜索引擎还推荐了一些“小众”平台。在几大云厂商和一些“小众”平台试用过AI算力后,简单梳理下。

一、大厂云平台使用及算力卡租用

        最开始考虑的一定是租用大厂的算力,毕竟大厂发展时间长、技术成熟、客服服务体系健全、帮助文档全面,上手应该挺快的,但实际去使用了2个平台后发现其弊端。接下来沉浸式体验一下如果我要部署一个服务,在大厂云平台遇到的问题:

        1.使用部署服务,镜像管理是其他产品提供的能力,需要使用还需开通容器镜像服务,一番操作猛如虎,跳转太多,甚至已经忘记最开始的目的是什么了。半个小时后,需要回顾一下我为什么在这个页面停留了这么久,其实我只需要上传一个镜像就好了;        

        2.大厂的产品划分很细,每个产品收点费,合计金额挺贵的。例如上传镜像还要开通容器服务,页面引导是开通企业版,低配一个月250元,有点贵,那就回到介绍页面找是否有个人版本,10分钟后,终于找到可以按使用量计费,价格也不便宜,要用,就开通试试呗。然后回到服务部署页面,再选择GPU算力资源,又需要收费。

        

         其实对比流程的繁琐,个人更在意价格,毕竟一开始就是想解决算力卡买不起的窘境,但是综合下来发现租卡是不算贵,但是加了其他服务下来,总金额并不低。大厂的硬伤是价格还不够低,试试其他小众平台

二、“小众”平台使用及算力卡租用

        其实这样的平台也不少,赛道还是挺丰富的,做算力租赁,做应用,做社区(甚至悄悄擦个边。。。)

1.AutoDL

        一开始以为这个平台很小众,名不见经传,使用后发现其实在学生群体和个人用户(特别是二次元爱好者)中,使用该平台的人并不少。体验后,站在个人角度分享其优缺点:

        (1)使用流程简单:

         核心是租用算力卡,启动一个容器实例,在容器里可以自由使用,因此AutoDL算力云平台的用户界面设计直观,用户可以轻松上手,无需复杂的学习曲线即可开始使用。不存在各种资源开通之间的跳转过程;提供的镜像环境和上网能力,几乎是一键使用。

        (2)算力卡租用价格便宜:

         据页面活动提示,618期间,全场4090和4090D享超低折扣,按量计费低至1.88元人民币每小时,包月价格为1000元人民币每卡。

        (3)社区氛围好:

         在平台的用户可以加入平台的微信群,遇到问题可以在群里发起讨论或询问,整体学习的氛围良好,遇到问题也有可以解决的思路。

        缺点:

         (1)算力卡资源不够多,总是需要抢资源;

        正因为资源比较便宜,已经关机的镜像所使用的机器可能已经被别人使用,因此原来使用的镜像就无法启动,如需使用,只能等这个机器上有空闲资源,或者把镜像保存,导出,迁移到其他机器上使用。

        按照节点找资源,找个空闲资源还是比较费劲的(似乎没有用到K8S这种调度系统?直接Docker上?有点儿想不通。)

        (2)AI开发全流程覆盖不彻底;

        因为它的定位是提供容器实例,所以,在整个开发流程平台上,他其实是不完善的,不知道未来共平台会不会在页面端呈现训练、推理等模块。(在细分领域,还是相当成功的!用户群体很明确,诉求解决的很直接。)

        (3)客服支持不够:

        页面引导充值的时候把50元充值放在首位,笔者以为最低充值50元,反正在大厂的云平台充值充多了都可以退款的。结果充值后没有退费入口,后面又找了两个客服,提供一堆信息,才可以退款。

2.超算互联网

        开始知道这个平台也是因为其算力资源比较便宜。卡也比较多,不过是以国产GPGPU算力卡为主。

        “根据科技部的部署,国家超算互联网将通过算力网络将全国众多超算中心连接起来,用互联网思维运营超算,构建一体化算力服务平台,实现算力资源统筹调度,降低超算应用门槛,带动计算技术向更高水平发展。”该平台是由科技部指导发起,致力于链接我国算力产业上下游及供需双方资源,实现超算、智算等全国算力资源的统筹与调度,打造集算力、应用、数据、生态、社区等于一体的开放共享平台,让国产算力更加普惠易用,助力科技创新和数字经济高质量发展。大家自行查找更多材料。。。

        超算互联网白皮书:https://www.scnet.cn/home/subject/whitepaper/index.html

        同样也在这个平台上体验了一下,站在个人角度分享其优缺点:

        优点:

         (1)资源丰富且价格优惠

        该平台有适用于各种行业的计算资源、应用平台、数据、源代码等,是个综合的服务提供商。针对AI行业,提供了计算资源、模型、AI应用,基本可以满足简单开发的需求。无论是前段时间搞活动的A800的资源还是现在上新的L20,价格甚至比AutoDL还低。以L20为例,AutoDL单价¥3.45元/时,超算互联网单价¥2.53元/时。最近在搞国产卡的活动,1分钱/时,简单试了下,镜像是特殊的国产卡镜像,与N卡不同,但常见的很多大小模型似乎是不需要额外适配就能跑(商城里有不少)。据说很多场景跟L20性能差不多。

      

        (2)免费模型开发

        进入该平台的“模型服务”发现:这里汇集了现在市面上大多数主流大模型,例如:Stable Diffusion3、Llama3 8B、YOLOv8、chatglm、Yi-1.5 9B、Qwen1.5 7B、Gemma 7B。

        

        平台提供免费使用Jupyter Notebook进行2小时开发体验,体验后想要下载,还可以直接下载到本地,现在应该是初期推广,大部分都是免费的。不过跟Notebook里的卡不一样,应该是上一代的国产卡。小点儿参数的大模型推理能跑,免费么,也不要求啥了。

(3)体验了其他功能后,数据管理功能还挺好,默认给了500G,比其他家要多不少,开发过程中产生的数据可以直接传输到文件存储里,然后直接下载到本地,相比之前在网盘里相互传输,这种方式便捷性大大提升(应该是超算传统基于IB的共享存储,性能比本地SSD存储要差点儿,不过也还好)。

缺点:

        (1)AI用户使用动线不明确

        可能该平台之前以HPC为主,提供了多种行业的资源。在加入AI以后,每种资源如何使用的引导不够,导致AI用户操作动线不清晰,感觉平台不太符合AI使用者习惯。例如之前购买N卡后,跳转到控制台,就不知道该如何使用了。研究了一下才发现AI平台菜单切换隐藏深,导致使用困惑。

        (2)AI平台功能隐藏较深且不完整

        该平台的菜单交互有点奇怪,进入控制台后,鼠标放在控制台后面的第一个位置,才可以显示所有菜单,看到所有菜单,才知道该平台是有AI开发能力的。

         但现在看来,AI平台中还缺少模型管理、推理服务等功能,希望能尽快补齐吧。

PS:最近上了新版本,AI体验有所改善。

(1)新版Notebook使用体验明显上升

        最近登录平台,发现Notebook更新了一个大版本,商城也单独拆分了HPC和AI资源。点击进入后,创建方式、使用体验、功能模块,都有较大更新。直接使用“模型镜像”中的Stable Diffusion创建一个Notebook,从创建到成功,也就8s,实属惊喜。

         (2)上新国产加速卡

        新的国产异构加速卡(海光K100_AI???)可以对标L20(既然对标L20,大概效果会差不太多。只看参数都快赶上L40了。),实际效果有待测试。之后也会考虑收集下国产加速卡跑大模型的信息和体验报告。

3.AutoDL与超算互联网简单对比:

        资源价格:2家的价格看来,超算互联网的价格稍低。

        服务范围:AutoDL算力云更侧重于提供算力租赁服务,而超算互联网则提供了一个更全面的服务平台,包括算力调度和生态协作网络。

        用户定位:AutoDL算力云可能更适合需要灵活租用GPU资源的个人或小团队,而超算互联网覆盖的用户群体除了个人或小团体,还可以向需要大规模计算资源和高级服务的企业或研究机构提供服务。(超算互联网AI服务刚起步,不太确定要走什么方向。从传统超算的逻辑,toB可能才是主要客户,toC可能作为生态建设推广和补充。)   

        综上所述,在AI时代,算力卡资源的重要性不言而喻。虽然NVIDIA等高端GPU卡价格昂贵,但租用服务和国产GPU资源的出现,为开发者们提供了更多的选择。未来,随着技术的不断进步和市场的不断扩大,我们有理由相信,算力卡资源将会更加普及和高效,为AI领域的发展注入更多的动力。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。