亿游国际电脑登陆在线
您当前的位置: > 亿游国际电脑登陆在线 >

手机大模型背后的AI芯片暗战挑战的不只是摩尔定律

编辑: 时间:2024-02-01 浏览:155

  智能手机集成AI技术已非新鲜事,自2017年起,AI便开始在图像降噪等处理任务中发挥作用,并逐步扩展至帧率优化、画质增强等场景应用。然而,这些早期应用所依赖的模型参数量通常不超过1000万,与当前讨论的端侧大模型相比,其规模相差很远。如今,即使是最小的端侧大模型,其参数量也已达到10亿,是早期模型的100倍。

  考虑到手机用户对多模态(文本、图像、视频等)处理的需求,甚至需要动辄百亿参数的模型才能提供满意的用户体验。手机运行如此大规模的模型,需要至少13GB的内存和130GB/s的带宽。然而,观察到2023年旗舰手机的配置,内存通常为16GB,带宽为50GB/s,这样的硬件配置使得在手机上运行大模型看起来几乎成为不可能的任务。

  尽管如此,手机厂商和用户都渴望将大模型集成到手机中。手机行业增长放缓,厂商急需新体验来打破僵局。集成大模型的手机承载着新的重要任务——打破传统应用壁垒、垂直整合软硬结合的新生态。同时,用户对大模型的认知逐渐形成,他们期望能够在智能手机上享受到大模型带来的便利。

  2023年下半年开始,我们逐渐看到各大手机厂商争相进入大模型赛道,而背后,芯片厂商正在赋能。芯片的进化被认为符合摩尔定律,那就是每24个月左右,晶体管的密度就会成倍,目前摩尔定律的速度已经明显放缓,每年仅能增长20%-30%,而以端侧AI的复杂度来讲,每年需要底层硬件提升的性能则需要达到至少两倍。如何突破摩尔定律的瓶颈从而达到用户期待的性能需求,考验的是芯片厂商的创新能力。

  另外,除了芯片本身的性能,如何能让芯片在手机上发挥最大的能效来达到更好的体验,还需要芯片厂商的生态能力、服务能力等各个方面的持续发力。

  在这场手机芯片大进化的背后,联发科和高通是最受瞩目的两大玩家。在2023年10月的骁龙峰会上,高通发布了骁龙8Gen3,支持运行100亿参数端侧大模型。紧随其后,联发科发布了天玑9300,支持运行10亿至330亿参数的端侧大模型。

  AI能力的增强正成为芯片厂商新的竞争焦点。本期《AI未来指北》端侧大模型系列,将深入探讨手机端侧大模型背后的软硬件创新。我们对话了联发科技计算与人工智能技术事业群副总经理陆忠立博士,作为这场AI芯片进化的亲历者和推动者,在本次对话中,他分享了关于这一领域的一些关键见解:

  ● 如果摩尔定律失效,芯片如何才能不断突破能力极限来应对越来越复杂的应用端需求?

  传统的智能手机可以下载APP,这些APP让你的手机变得很聪明,这个智能并不是手机变智能,对于使用者而言,只是在消费内容而已。

  现在端侧大模型出现,会颠覆原来的使用体验。举例来讲,你现在买一个东西可能要到多个电商平台去找最低价的产品,或者通过比价网站找到性价比最好的产品。如果有一个AI助手或智能体,它能够自动帮你去做这些事情,找到最适合你的产品。这样的话,从“你”的角度来讲,这才叫AI Smart Phone。AI Smart Phone和Smart Phone最大的区别就是它能更了解使用者,让使用者更容易达到他想要做的事情,而且是完全朝着对使用者有利的方向。我们觉得现在看起来大模型、多模态、智能体这一系列的发展,就是往这个方向在走,让所谓的智能手机变得更智能化,成为AI Smart Phone。

  第一阶段大语言模型,就像大脑,它能够跟你对话,到了第二阶段就等于多了感官,多了眼睛、耳朵。所以它能够接收到更多的资讯,能够更深入地理解使用者的意图,也更能够全面了解这个世界,我们都能看到,像谷歌最近发布了双子星(Gemini),苹果前几天也发布了它的多模态模型。

  另外,现在99%的大模型都是运行在云端上算力很强,不过本地端会有无法替代的几个优点:第一就是隐私性的问题。因为很多隐私信息,比如说我的声音或者是影像,我并不希望被上传到云端变成训练材料的一部分。另外可以做个性化,如果说语言模型根据你的声音来更适配,准确度可能会更高。第三,我目前觉得最重要的部分是成本。像我刚刚讲到的云端APP,每个月还是要交一定的钱。假设这个能够跑在端侧,原则上大概除了你一开始买手机的费用,后面基本上就是免费的。

  :端侧大模型很大一部分的确是受限于芯片处理的能力。大模型目前我们看起来有三个需求,一个是刚才您提到芯片算力的部分,另外还有两个很重要的部分,一个是内存的容量,还有内存的带宽。甚至在某些情况下,内存的容量跟内存的带宽会影响到整个大模型执行的性能。所以端侧来讲,目前我们看到的是芯片很大部分决定了你在端侧大模型能够跑的大小,或者是速度。

  举例来讲,以2023的旗舰手机来讲,算力大概都是在40TOPS到50T(TOPS)左右,内存的容量大概是在16GB,内存的带宽大概是在50GB/s,大概是这样的数字。

  我并不认为是越大越好,最重要的还是适配性的问题,需要的模型规模与要完成的具体特定工作有关。举个例子,如果仅仅是处理文章的摘要,我们发现10亿参数左右的大模型能够达到的效果其实跟ChatGPT的效果差不多。如果你要进行一些对话,需要的内存带宽,还有算力也会越大,这个连带影响需要的功耗也会越大。我想大部分人也不希望买一个智能手机,做了简单的对话,但是马上就没有电了。

  所以手机大模型的参数量要考虑到性能和功耗的平衡,根据用户所需要的性能以及目标应用有哪些来决定大模型的参数量。

  。芯片并不只是在执行大模型,芯片里面有CPU、GPU、APU,还有各种不同功能的模组。刚刚讲的大模型主要是增强在APU方面的性能和面积,所以对于整体的成本增加有限,以有限成本的增加换取整个大模型在端侧执行,可以让使用者的体验有远超以往的改善。02 摩尔定律失效了吗?

  。从应用层面来看,联发科技也大概做了一些统计,以端侧AI模型的复杂度来讲,每年增加的幅度可能都是两倍、三倍,甚至是十倍,所以看到这两个的确是有蛮大的差距。这个差距没有办法完全靠摩尔定律来弥补,所以就需要在硬件上面有所创新。另外更重要的,是在算法和软件层面的创新。

  如果芯片的性能,按照摩尔定律能够一直很顺利地提升性能,我们肯定会依据摩尔定律进行技术迭代,这占的比例就会比较高。

  我们内部跟客户谈过以后对于未来性能的预期,因为在手机界常常讲,每年CPU、GPU、APU都要成长多少的百分比,这样才能够提供给客户。

  我们从去年(2022年)开始就已经有看到大模型这件事情,那时候觉得离手机来讲还是有点远。因为那时候的模型就是ChatGPT,大概1750亿参数,跟手机能够做的实在相差很远。不过我们还是有一直在关注这件事情,我们事实上从2019年就开始在基于Transformer模型在做一些应用,跟我们的客户端在很多视频及拍照场景就有落地。所以后来看到大模型也是基于Transformer的架构,所以我们也在思考有没有可能把这样的东西放到端侧。只是说那时候觉得距离差得很远。

  直到特别的EurekaMoment(尤利卡时刻),就是Meta发布了它的模型Llama

  所以我们那时候就决定要全力投入,看看怎么样把这样的模型能够放到端侧。大概的一个起心动念是这个样子。回到我们说的手机大模型,即使7B,其实跟原来的手机AI模型也差距很大

  第二个是整个生态系,因为它是Open(开源)的模型,非常给力,很快我们把原来浮点的运算转换成整数运算,模型大小实际上也缩减的很快。

  其实硬件、软件都要,以及跟厂商合作。因为端侧大模型准不准是厂商说了算,他们知道要问什么问题或者什么应用,以及要什么样的答案,那都是由厂商这边的QC或者QA还有RD来决定。联发科技的角度就是提供平台,提供对应的工具链,能够让客户跑得顺。如果结果准确度有什么问题,大家一起来讨论怎么来解决这个问题。

  这是很好的问题。我们自己判断会有三类重要的终端。第一是刚刚提到的智能手机;第二就是PC,现在都有所谓的AI PC的出现,也是让你的PC更有智能,可以做更多内容的创作和生产力的提升;第三个很有潜力的是在车用,主要像新能源车,因为它能提供更好的使用者的体验跟自然语言交互的界面,会让你跟汽车的互动变得更方便。我们觉得大概这三个会直接受到大模型的影响或者助力。当然,随着时间的推移,还会再传播到其他的终端。

  我们判断大概分成三步走:第一步就是现在的大语言模型,主要就是文本进、文本出。第二步就是现在已经在发生的,就是所谓多模态。因为刚刚讲这种大语言模型比较像人的大脑,有的时候是一本正经,有的时候也会胡说八道。不过再来就是要有更多的感官输入,包含视频、图像、声音进来。产出的内容也是一样,不是只产生文本,也会产生视频和图像的输出,这就是现在多模态在专注的事情。

  因为手机本来就是多模态的设备,这样更能够感受到整个环境的需求,比较深刻理解目前要做的一些任务或者一些事情,也会提供更多的服务。这就是现在看到的好几家公司都已经推出多模态的模型。

  基于这些新的模型,也有一些新的做法。主要还是集中在刚刚讲的两方面,一些是硬件的演进,突破算力。第二个非常重要,甚至有时候更重要的是在算法上面的改进。这些算法的改进,就让这些多模态的大模型能够在端侧执行。第三步就是到智能体的部分,除了刚刚讲的能够多模态进来以后,还能善用工具或者善用APP执行任务。

  • 点击这里给我发消息
  • 点击这里给我发消息
  • 点击这里给我发消息
  • 点击这里给我发消息