阿里巴巴发布全球最强AI芯片,芯云战略终成型!

2019-09-25 16:33:59 来源: 互联网
      自去年成立平头哥半导体公司后,阿里巴巴在芯片方面的落子越发频繁。在今日的云栖大会上,平头哥正式发布了阿里的第一款芯片——含光800。
 
      含光为上古三大神剑之一,该剑含而不露,光而不耀。阿里巴巴用它来作为公司首款芯片的命名,体现了他们在这个领域的雄心与谦逊。
 
      阿里巴巴集团CTO、达摩院院长张建锋说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。
 
 
软硬协同,造就全球最强的AI芯片
 
      据阿里巴巴方面介绍,含光800虽然是阿里巴巴第一款芯片,但却是全球性能最强的AI芯片。作为一款主要用于云端视觉处理场景的芯片,含光800的性能打破了现有AI芯片记录,在性能及能效比方面统领全球第一。
 
 
      在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
 
 
      能达成这样的表现,得益于软硬件的协同创新。
 
      阿里巴巴方面的专家指出,传统CPU、GPU在深度学习推理任务上并没有完全发挥硬件能力,例如GPU架构主要针对图像处理设计,其硬件结构、软件生态几乎固化,因此对AI任务很难有深度优化。为此,阿里巴巴在首先在芯片架构上面做了创新。
 
      据介绍,含光800采用自研架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移;同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。
 
    “传统通用处理器基于冯诺依曼结构,其存储和运算处理是分离的,如果处理深度神经网络,需要大量读写运行操作,会受到带宽限制,因此效率较低。而以含光800为代表的神经网络芯片,根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率” 
 
      来到算法这边,一方面,阿里巴巴达摩院机器智能实验室过去两年构建了涵盖语音智能、语言技术、机器视觉、决策智能等方向完整的算法体系,并且取得多个世界领先水平的成果。 
 
     “基于这些能力,平头哥突破了算法和硬件之间的鸿沟,基于阿里巴巴丰富的场景和达摩院算法能力,自研芯片架构,并且设计了完整软件栈”,阿里巴巴专家强调。这样的设计理念也让整个芯片的效果立竿见影。
 
      例如为了解决人工智能芯片行业的通病——功耗,阿里巴巴在自研架构上大幅减少了对内存的访问,这就保证极致性能的情况下,把芯片功耗降到最低水平。
 
      值得一提的是,平头哥用最短的时间完成了芯片的设计、流片整个过程。其中7个月完成了前端设计,之后仅用了3个月就成功流片。
 
初露锋芒,含光800已落地应用
 
      在过去几年的AI芯片浪潮里,大家一直诟病的是——不少AI芯片公司只是高调搞了个发布会,但对于芯片的落地,其实没有太多的场景和想法。这也是整个人工智能行业的症结所在。但对于阿里巴巴而言,天然解决了这一问题。阿里经济体拥有包括图像视频分析、搜索和推荐在内的丰富人工智能应用场景,这都需要AI专用芯片提供算力。
 
      含光800一方面基于这些场景打造,另一方面又反哺场景,提升这些领域的计算效率。
 
      据了解,含光800目前已经实现了大规模应用,应用于阿里巴巴集团内多个场景:例如视频图像识别/分类/搜索、城市大脑等。依托阿里巴巴集团丰富的应用场景,他们早期就针对场景做了大量优化,并实现了性能上的突破。在未来,这个芯片甚至还可被应用于医疗影像、自动驾驶等领域,阿里巴巴的专家强调。
 
      在实际应用中,这款强大的AI芯在实际应用中表现也相当优越。
 
      根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。
 
 
      更为关键的是,其不仅服务阿里内部场景,还将全面通过云服务开放。据了解,,基于含光800的AI云服务已正式上线。
 
      阿里巴巴方面的专家表示,在人工智能场景中,含光800是传统异构计算很好地补充,通过阿里云可以为企业提供更多的选择,未来他们还会推出更多形态的人工智能芯片,在终端、云数据中心都会有更大规模的部署和应用。
 
     “对于受限于算力瓶颈的企业而言,含光800可以更高效地运行更复杂、更先进的算法”,阿里巴巴方面举例说。
 
端云一体芯片格局成型
 
      在发布了含光800以后,阿里巴巴的端云芯片布局已经成型。
 
      这家国内芯片“新晋”不止一次强调,平头哥的目的并非卖芯片。公司延续了母体阿里巴巴集团“让天下没有难做生意”的愿景,开辟了全新的商业模式(平头哥模式),致力于为企业提供普惠算力,目前已经拥有全栈芯片产品家族,涵盖终端处理器IP、终端芯片设计平台SoC、云端AI芯片。
 
      在端侧,平头哥已拥有成熟的生态体系, CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核均已得到大规模量产的验证,授权客户超100家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域;除此之外,基于RISC-V架构的玄铁处理器以及无剑SoC平台也已服务各行业企业,例如人工智能企业云天励飞、老牌芯片商炬芯科技等。
 
      在云端,这次发布的含光800就是一款代表作,全球前三、亚太第一的阿里云为平头哥服务企业提供了绝佳平台,未来企业可以通过阿里云轻松获取含光800的极致算力。未来他们还会在这个领域继续升级。
 
      谈到未来的产品规划的时候,阿里巴巴方面表示,公司产品形态还会进一步完善,例如云上AI训练芯片和端上的AI推理芯片就是下一步的目标。目前平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。
 
      过去十年,阿里巴巴的AI和云计算齐头并进,在这两大领域,已经跻身全球前列。在芯片领域的布局,则补齐了阿里技术版图的一大短板,更为关键的是,三大领域已经展现出了化学反应:
 
      作为业界最大的人工智能应用者之一,阿里巴巴拥有丰富的应用场景,在此之上达摩院已建成完善的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并取得多个世界领先水平的成果,在国际顶级学术会议上共发表了近400篇顶级论文;阿里云稳居全球云计算厂商前三、亚太第一的位置,超过一半的中国A股上市公司和80%中国科技类企业在使用阿里云的服务。
 
      平头哥则得到了达摩院和阿里云的软实力加持,例如基于达摩院的算法能力,打破了算法和硬件之间的鸿沟;基于阿里云飞天云平台的优势,快速形成了端云一体芯片生态,玄铁系列处理器以及无剑平台大幅降低终端芯片设计的门槛,含光800通过阿里云输出给全社会,让企业随时随地可以享受到极致算力。
 
    “芯片、AI和云计算三位一体、协同发展——人工智能算法逐渐集成到芯片,集成算法的专用芯片为云服务提供了更强的性能,而云计算本身则加速了人工智能应用的大规模落地”,阿里巴巴方面补充说。
 
阿里巴巴芯片大图已现
 
      根据阿里巴巴在芯片上的定位,那就是端上做芯片基础设施,云端为企业提供普惠算力。例如,处理器是所有高端系统芯片都需要的产品,它是最核心的基础设施产品,AI芯片是人工智能场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态。
 
      而探索他们在芯片、AI和云计算三位一体的策略中,SoC开发平台无剑在当中扮演了一个很重要的角色。
 
      在前文我们提到,阿里巴巴拥有众多的芯片IP,同时在云端也能提供足够的算力,在AI方面也有深入的研究。对于那些想在他们平台上打造差异化的开发者来说,缺失的就是终端这块方面的硬件实力。而在这个领域,有一个明显特征,那就是开发者们都在基于其特定化的需求打造ASIC,而平头哥的无剑开发平台,正是为了解决这个问题而生的。
 
 
      据平头哥方面介绍,无剑是面向AIoT时代的一站式芯片设计平台,提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案,能帮芯片设计企业将设计成本降低50%,周期压缩50%。
 
     “在这个平台研发芯片的企业,只需专注于20%的专用设计工作量,并让这20%的工作产生80%的价值”,平头哥强调。
 
      除此之外,阿里巴巴旗下的平头哥还将将成立芯片开放社区,进一步为芯片产业提供开放协作的平台;公司还将继续开发操作系统,软硬件融合的算法,核心的IP等。把这些共性的技术能够做好做精做出竞争力,并形成生态,然后开放给其合作伙伴,让他们基于高质量的基础设施打造芯片产品,有助于提升整体的产业竞争力。
 
      凭借这一系列的领先产品,阿里巴巴在AIoT赛道上占有了其他厂商并不具备的先机。站上了未来万亿市场的风口。
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论