中国工程院院士高文:没有大算力做大模型就是天方夜谭

7月7日,中国工程院院士、鹏程实验室主任高文在世界人工智能大会提升人工智能产业高峰论坛上发表演讲时表示,没有大算力就不可能建立大模型。 同样的,省一点电就能做出什么产品,其他真正懂得做的人是不会相信的,必须有算力作为基础。

“美国的算力在目前的指标中排名第一,比我们的算力多了30%左右,也就是说GDP也比我们多了30%。当我们的算力超过美国时,我们的GDP可以超越美国。”

他表示,从现在开始,算力也是数字经济发展的一个指标。 算力充足的话,你的数字经济就能发展得好,不够的话,发展就不好。

以下为高文讲话全文:

各位专家、领导大家下午好!

历届领导人都说得很好,计算能力是一个非常重要的东西。 陈书记在今天上午的讲话中还提到,互联网有三大问题需要把握。 其中之一就是人工智能方面的算力建设。 算力建设是一个非常重要的方面,就像电力一样。

今后,算力也是数字经济发展的一个指标。 如果你有足够的算力,你的数字经济就能发展得很好,如果你没有足够的算力,你的数字经济就不会发展得很好。 因此,尤其是智能计算能力非常关键。

所以我想跟大家分享一下鹏程云大脑的智能计算平台,然后分享一下在这个平台上制作的鹏程大脑的大模型。

首先我们说算力很重要,重要到什么程度呢?

清华大学2022年的一份咨询报告提到,经过统计,算力指数与GDP呈正相关。 你的计算能力越强,你的GDP就越强。 最右图大家可以看到,目前美国的算力指数是排在第一位的,算力比我们多了30%左右,也就是说我们的GDP也比我们多了30%。 当我们的计算能力超过美国的时候,我们的GDP就会超过美国。

正是因为算力如此重要,没有算力就不可能发展人工智能和经济。 要有算力,就必须有芯片。 芯片被做成机器,这个机器就是用来训练这个模型的。 为了做到这一点,我们会在2020年深圳做了一个机器,叫做鹏城云脑二号。 在2020年,与当时微软和谷歌的机器相比,这台机器的计算能力是世界上人工智能训练最强大的机器。 两者都很强,相当于一台机器有4000张卡,而这台机器是一台有4000张A100卡的机器。 本机采用全光网络连接,节点之间的延迟很低。

因为有了这台机器,我们可以做很多事情,包括科学研究、工业应用和关键技术研发。

刚才说了,这台机器有4000张卡,一张是鲲鹏CPU,一张是升腾NPU,都是华为的。

有了这台机器之后,这台机器的性能行吗? 就参加世界超级计算的排名,整个超级计算和计算能力的排名,它还有其他赛道,我们参加的其中之一就是IO500赛道,你的输出和输入能力。 该机自2020年10月建成后,于11月参加排行榜,连续6次排名第一,每六个月一次,全节点连续第二次排名第一。

因此,这台机器在做人工智能训练,没有人可以与它相比。 每三年举办一次的该机AI算力也参与了该榜单,连续三次排名第一。 该机不仅硬件强大,还具有非常强的接口能力和网络。 同时,上面的软件也比较齐全,包括分布式计算怎么做、命令调优怎么做、自研的调度规划等等。 如此大规模的机器还是第一次。 相当于四台机器。 事实上,我们的四台机器组成了这台机器,上面有很多软件挑战。

有些专家可能听说过,世界上能同时在1000张卡上选择模型的人只有几千人,能在4000张卡上训练、在10000张卡上训练模型的人不超过100人。 人少,在一张大卡上一起做事,对于软件规划和资源调度来说是一个非常大的挑战。

我们不仅用好鹏城云脑二号,还承担了国家发改委的任务。 我们使用类似于华为生态的鹏程云大脑II,并在升腾AI集群中使用,无论100P和900P的算力如何。 点,我们用网络把资源连接起来,提供给大家,告诉你这里有资源,可以通过网络来使用。

同时,按照国家发改委的要求,我们希望这是一个华为生态以外的异构算力网络的平台。 我们还选择了一些其他厂商的计算能力。 2022年6月项目验收时,聚合智能算力已达到2300P,而云脑二号仅为1000P。 该系统已经聚集了2300P的智能算力。

通过云脑II,我们可以训练大型模型。 训练大型模型的计算量仍然很大,但即使可以训练大型模型,目前的需求也不够。 我们正在计划建设云大脑III。

接下来说一下大模型。 鹏程正在研究一个大型模型。 这是2000亿个参数,也就是200B个参数。 你为什么这么做?

不用再花时间了,因为Chat GPT和类似Chat GPT的大模型不断涌现,而且因为现在很多公司都用这个东西做工业应用和服务。 所以这种模式现在变得非常重要,但是现在有钱的公司可以花几亿,甚至几十亿、几十亿来制造这样的机器,但是大多数公司都做不到。

这个领域的需求这么大,我们该怎么办?

我们鹏程实验室可以做基地,培训后开模型。 大家都在这个基础上谈论垂直应用。 按照这个思路,我们首先要有鹏城云脑二号的算力。 前一阶段我们积累了大量的数据。 在过去的几个月里,我们通过各种渠道获取了这些数据,包括购买。 需要清洗的数据量很大。 也许我拿到了100条数据,清理后就只剩下几条了,因为很多都是重复的、不规则的,这些东西去掉之后就会变得很小。 虽然取了很多数据,但真正用于训练的数据只有1%-5%。 有了这些数据,我们就可以制作一个大型模型库。

这个大模型库就是我们使用的生成式预训练模型,它的底层是和GPT完全类似的东西。 我们用这个东西来训练一个好的模型,希望它能够发布出来。

现在我们考虑这个模型有2000亿个参数和200B个参数。 训练完后,我们希望把它交给我们的合作伙伴,并提供相应的指令微调和相应的人工强化学习工具,甚至可以做一两个垂直领域,我告诉你如何用它作为垂直领域的模型应用方面,因为华为在这方面经验非常丰富,所以我们建议大家想做垂直应用的可以去华为咨询一下,在自己的应用中使用这个模式。

有了这个东西,我们希望能够快速完成这个模型,并推向社会,让社会基于这个模型,开发出中国自己的人工智能大规模模型应用系统。 现在我们正在紧锣密鼓地推进。 应该是第一次,8月底就已经完成所有训练,9月份就发布模型。

现在训练数据有多大? 我们讲的是喂数据,每天喂10B,但是最重要的是喂1T数据,1T被几百T清理,而且现在数据全是中文和代码数据,而且现在还有更多机器里超过4000张卡每天可以吃10个B,100天可以吃1000个B,就是一个T。我训练一个2000亿参数的模型,需要4000张卡训练100天。

这就是计算能力。 如果你规模不够大的话,做模型还是很困难的,而且我现在只训练了1T的数据。 如果我训练两到三个T,我会增加两到三个100天。 以计算能力不可能做出大规模的模型。 当然很多人说我可以用限速(声音)之类的,但其实这和电是一样的。 省电可以生产什么产品? 真正有见识的人听了都不会相信。 他们必须有计算能力作为基础。

我们的计算能力到目前为止,如何把数据训练好又快,我们有一个系统,有一个开源社区叫启智开源社区,有很多工程师在做飞轮数据工程,可以让你把数据清洗到做起来非常快,而且有很多自动和半自动的清洁数据可以帮助你。

模型训练,4000个块消耗10B数据,整体损失每天都在下降一点。 我们很高兴看到每天都有数据报告,每天下降0.2。 我们现在大约是2。我们希望最终能减少到1.8左右。

这就是训练过程。 同时,我们还要考虑私有数据的应用。 有些数据用户希望应用您的模型,但不希望他们的数据丢失或被看到。 我们提供隐私数据保护。 模块,我们称之为防丢包,有了这样的系统就可以支持应用。

我们希望鹏程的心智能够快速赋能社会,让每个人都能做数字政府、“一带一路”、智能制造、智慧金融、智慧医疗等各种可能的应用。这里有黄、白的颜色,黄色,已经投入到人们的工作中,你需要它来进行指导微调和积极学习。 后者是我们合作伙伴做的,我们也有一些完整的教育计划和人才计划。 人才计划希望推出这一模式,培养大批人才。 通过大学和合作伙伴的培训,中国的大模式应用迅速启动。

综上所述,鹏城实验室与华为在鹏城云脑II硬件平台和鹏城大脑模型方面的合作正在不断推进。 基石,希望大家多关注、多参与。

谢谢你们。

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。

您可能还会对下面的文章感兴趣: