中科驭数鄢贵海：SDA服务DSA 让“性能”与“通用性”两者兼得

10 月 25 日-27 日，以「大数据推动数字经济」为主题的「2018 中国计算机大会」(CNCC2018) 在杭州市国际博览中心 (G20 会场) 盛大举办。作为我国计算机领域规模最大，规格最高的学术、技术、产业交融互动的盛会，本次大会汇聚图灵奖获得者、美国工程院院士、中科院、清华、北大、东京大学、微软、谷歌、阿里、头条等众多信息技术领域知名人士及院所高校企业，以超过 7500 名的参会人数再创 CNCC 十五年盛会新高。

　　图灵奖获得者、美国计算机科学家 Robert E.Kahn

　　其中，在 25 日下午的硬件安全论坛中，中科院计算所研究员、中科驭数 CEO 鄢贵海以《软件定义体系结构及计算架构安全属性的设计权衡》为题与香港科技大学工程学院院长 Tim Cheng、马里兰大学帕克分校电气与计算机工程系教授屈钢、香港中文大学计算机科学与工程系副教授徐强分别做了主题分享，并共同参与了《从硬件安全到信息系统安全：过去、现在与未来》的圆桌交流。

　　中科院计算所研究员、中科驭数 CEO 鄢贵海做主题分享

　　半导体芯片「摩尔定律」已接近尾声，但「数据摩尔定律」才刚刚开始

鄢贵海表示，自因特尔创始人戈登摩尔于 1965 年提出「摩尔定律」以来，芯片的运算能力大体上按照每 18 个月翻一番的速率在增长。其中的贡献既来自于工艺进步，也来自架构的不断创新。芯片制造工艺进步所带来巨大贡献体现在，几乎对架构不做任何更改，仅依赖采用更细化的半导体工艺，就可以带来可观的性能提升。同时，更密集、更便宜的晶体管和互连线等片上资源也为更多架构设计提供了可能性。

　　然而，随着工艺不断细化到逼近一定的物理极限，「摩尔定律」的失效已成必然。数据显示，芯片晶体管密度在近三年的年化增长率仅为 3.5%，这意味着原来「工艺-架构」这种「双轮驱动」的发展模式似乎难以平衡。其实，早在 2005 年，单个处理器芯核的能效比提升就已经面临困难，发展多核处理器架构也一直在进行中。在这个比较直接的演化过程中，很多并行应用因此而直接受益，但也有很多应用的性能并没有因为采用多核处理器而得到提升，特别是那些没有「显式」并行度、难以进行并行编译优化的应用。

　　在半导体芯片「摩尔定律」已经接近尾声的同时，「数据摩尔定律」显然才刚刚开始。根据美国发布的《2016-2045 年新兴科技趋势》，全球数据量自 2015 年开始每两年翻一番。随着应用领域的不断创新和数据的指数级增长，尤其是人工智能、区块链、边缘计算等技术对算力需求的不断增强，依靠传统的通用计算已很难有效地为继，而专用计算架构将发挥巨大的作用。且很多领域所承载的市场容量都足以支撑一类专用架构的研发与应用。例如，有预测表明现在热点的领域如「人工智能」、「区块链」等领域都承载了万亿美元量级的市场。

　　专用计算体系结构「百花齐放」，「高性能」和「通用性」却「不可兼得

　　目前，面向专用计算的体系结构研究仍然处于「百花齐放」的时代，从探讨 FPGA、ASIC 等具体底层实现到 ISA 指令集扩展等软硬件架构等均有涉及。专用加速系统的设计方法也还远没有形成统一的定式。以 GPU(图形处理器) 为代表，VPU(视频处理器)、MPU(运动增强处理器)、APU(音频处理器) 等大多与多媒体的的编码解码相关的协处理器虽然得到了较广泛应用，但在一些基础性的行业数据分析、一些业务数据爆发式增长的行业，并没有得到足够的重视。算力问题依然是亟待解决的「刚需」。

　　谷歌用来加速深度学习的 TPU

　　以近年来热门的「深度学习」为例，据人工智能开放组织 OpenAI 今年 5 月发布的分析，自 2012 年以来，由于数据红利和深度学习的训练，人们对于算力的需求增长了超过 30 万倍。可以看到，几乎所有的互联网巨头们都在补充自己的标准服务器——CPU，以通用处理器结合特定应用加速的协处理器来共同处理海量数据。例如 Microsoft 利用 FPGA 来加速其旗下的 Bing 搜索引擎，Google 研发的 TPU 来加速神经网络推理，阿里巴巴公司也有 FPGA 硬件的团队来针对具体的计算负载来做加速等等。然而面对应用的多样性和数据的复杂性，「高性能」和「通用性」却始终「不可兼得」。

　　一边是巨头硬件软件「全栈式」研发，另一边是大多数企业仍是别无选择

　　当前，已经有一些资深的行业人士已经发现，打通底层基础硬件架构和上层应用的「全栈式」研发，定制不同的多元化解决方案，将会变成产业非常重要组成部分。然而，目前除了资本、技术均有优势的巨头们在持续的投资研发更匹配其应用与数据的处理加速器外，绝大多数企业仍然只能选择各类通用 CPU 为核心的服务器，即便在利用率低下、购买及使用成本高昂的情况下，仍然别无选择。

　　这归结于定制专用计算架构具有很高的技术门槛，即便是基于以可编程性和灵活性著称 FPGA 的解决方案，多数企业的研发能力也很难下探到计算架构的层面，且还是牺牲了部分性能，因而无法从根基上优化解决方案来高效地满足「算力」的需求;而对于单个企业而言，建立一个专用架构研发团队在实际上也因为规模效应不足、研发周期长、技术难度大、成本高等因素，导致极大的风险。因此，当下计算架构的创新正是瞄准了这个众多企业面临的核心问题：利用高效的专用计算架构来显著增强企业的数据处理能力，更好的支撑已有业务的运行，也为企业奠定数据驱动的创新提供算力保障。

　　既专用又灵活，用软件定义体系结构让整体计算效率提升百倍

　　作为脱胎于中科院计算技术研究所的中科驭数，为了高效解决特定领域的海量数据处理问题，创新性地采用软件定义加速器的技术路线，从底层核心技术出发，以专用芯片架构为核心，实现软硬件协同的高效的解决方案。其原创技术 KPUTM(即核处理器，已提交备案)，是专为加速特定领域核心功能计算而设计的一种协处理器。KPUTM 以功能核作为基本单元，直接对应用中的计算密集性应用进行抽象和高层综合，实现以应用为中心的架构「定制」。一颗 KPUTM 根据需求可以集成数十至数百个功能核。

　　中科驭数以原创技术设计全新协处理器——KPU

　　区别于传统的以控制流计算模型为基础冯·诺依曼结构，KPUTM 的每一功能核都为某一功能计算专属定制，与 CPU、GPU、NPU 大规模同质化核心不同。其通过数据驱动计算的方式，不仅可以实现超大规模的计算并行，也实现了真正意义上的多指令多数据处理模式。且不同于 FPGA 在电路层的改造的性能牺牲，KPUTM 的核心技术在功能核层，以编译器形式内置的功能核，既实现了领域内硬件的统一，降低了规模限制的硬件成本和设计周期;又能通过软件编程实现不同功能的计算，特定需求只需要增删功能核的种类和数量即可。在整体计算效率提升百倍的前提下，仍然具有非常高的可扩展性和灵活性。从某种意义上说，中科驭数的 KPUTM 技术路线有望突破传统「性能」与「通用性」不可兼得的设计局限，具有广泛的应用前景。

　　大咖评价：趋势已明、把握平衡、选准落地、任重致远

　　在论坛结束后，记者就 KPU 相关技术也请教了 CNCC 的现场特邀嘉宾香港科技大学工程学院院长、IEEE Fellow, Tim Cheng 教授。Cheng 教授早年曾任职于贝尔实验室，创建了 UCSB 计算机工程系、主管科研的副教务长。

　　论坛结束后 Cheng 教授和鄢贵海及与会人士交流 KPU

　　Tim 认为，当前算力需求爆发的趋势已经很清楚，而 DSA(Domain Specific Architecture 领域专用架构) 是可以突破算力瓶颈的一个方向。其优势是对于某个领域的计算任务进行优化，算力可以得到极大提升;但是市场需求量不如通用处理器大，这就要求 DSA 的开发成本和针对领域的需求体量做好平衡。中科驭数推出的基于 SDA(软件定义架构) 方法设计的 KPU，解决了 DSA 设计成本的问题，显著降低了 DSA 的开发成本，这样就大大拓展了 DSA 的使用领域。

　　此外 Tim 对中科驭数首先选择 Fintech 领域开发 KPU 非常赞同。Tim 认为，金融计算领域市场还是非常大的，而且负载有其特殊性，是非常合适的 DSA 应用场景。同时，Tim 也表示 DSA 方向可以助力国家的「科技赋能金融」的长期战略，是一项任重而道远的事业，前景非常广阔。

最新文章