ZILLIZ 星爵:基于 GPU 的大数据加速器的创业时机到了 | YQ Story

  

人工智能时代,全球每天产生的数据量呈指数级增长。据 IDC 统计,到 2020 年,全球数据总量将达到 44ZB(十万亿亿字节),中国的数据量将达到 8060 EB,占全球总量的 18%。于此同时,企业希望通过数据分析的结果增强自身的运营能力,这就要求数据分析速度更快、更高效。


在这样的背景下,云启家族成员 ZILLIZ 渐渐展露了头角,作为一家自主研发、技术领先的 GPU 数据库厂商,ZILLIZ 扎根国内市场不断拓展着自己的创业版图。“各行各业日益增长的数据处理需求与陈旧的数据库软硬件体系之间的矛盾,已经成为了人工智能时代的主要矛盾。” 常年与数据打交道的 ZILLIZ 创始人星爵发现,GPU 性能改进的速度曲线,跟爆炸式的企业数据增长的曲线非常吻合。2016 年,星爵判断,GPU 的大数据加速器的创业时机到了,他决定离开甲骨文,归国创业。


17 年 7 月底,云启资本执行董事陈昱第一次见到星爵时,基于共同的技术背景,和星爵进行了深入的交流。星爵对数据库技术、计算机软硬件架构演进的敏锐的直觉和洞见,让云启很快就做出了投资 ZILLIZ 天使轮的决定。2017 年 8 月,ZILLIZ 获得云启资本领投的数千万人民币天使轮投资。2018年5 月 31 日,ZILLIZ 完成 1000 万美元的 A1 轮融资,云启资本继加持。


今天,我们与大家分享和 ZILLIZ 的访谈。在人工智能时代,拥有世界范围内最大的数据体量、最复杂的使用场景、最多的数据分析需求的中国,ZILLIZ 是如何推动技术进步的。


1.就 ZILLIZ 目前所处的大数据行业行业来说,你们主要解决什么行业问题?


星爵:我们现在处于人工智能时代,全球每天产生的数据量呈指数级增长。尤其企业希望通过数据分析的结果增强自身的运营能力,这就要求数据分析速度更快、更高效,市场需求是比较高的。


尽管市面上已经有一些基于 CPU 的大数据解决方案,已经能处理大量数据,但 CPU 处理器更新迭代的速度已经不能如摩尔定律预测一样定期翻倍,最后必然不能完全满足企业实时分析、高性价比的数据处理需求。简单来说,人工智能时代的主要矛盾,是各行各业日益增长的数据处理需求与陈旧的数据库软硬件体系之间的矛盾。


把数据库搬到 GPU 上,效率提高 100 倍



2.GPU 相对于 CPU 的优势有哪些?ZILLIZ 的核心优势在哪?


星爵:GPU 相较于 CPU 的十几核来说,可以承载数千个处理单元。如何运用 GPU 加速数据处理速度,其实在 2006 年的时候就已经是一个学术热点,但是经过近十年的工业探索,GPU 数据库才真正具备了工业化实力。实际上,GPU 性能改进的速度曲线,跟爆炸式数据增长的曲线非常吻合。我们是可以预见 GPU 数据库早晚的技术成熟并且工业化的。


ZILLIZ 的优势之一,我觉得是选择切入 GPU 数据库市场的时间节点恰到好处。早期技术萌芽期,并不是一个好的进入时期,尤其上层软件受下层硬件的约束。GPU 最早主要用于图像渲染,多应用在游戏领域,使用范围比较窄。随着深度学习技术在 2012 年的突破,它的大规模并行计算能力才开始在人工智能时代彰显价值,GPU 马上就成为主流处理器之一。


之前 GPU 市场普及程度不佳,基于 GPU 的数据库多年来一直没发展起来。而现在英伟达等芯片厂商已经把 GPU 的生态搭建起来,帮助开发者把门槛降低。任何人都可以在上面开发应用,就像当初的安卓系统普及一样,现在我们就有了实现 GPU 数据库的苗头。我相信基于 GPU 的大数据加速器的创业时机基本到了。


最显著与传统的 CPU 数据库相比,ZILLIZ 基于 GPU 的 OLAP 数据库系统,可以将数据处理效率提高 30-100 倍,同时降低 10 倍硬件成本、20 倍计算能耗。过去互联网公司做 BI 报表需要 30 分钟到一小时,工作人员点击操作按钮后就可以去吃饭喝咖啡了。而 ZILLIZ 系统可以将时间缩短为 3-5 秒,提升整个工作流程。


用无感迁移解决部署障碍痛点



3.美国已经统治了数据库市场不少年了,大玩家也不少了,ZILLIZ 如何找到突破口,打破客户顾虑,获得争取客户的信任?


星爵:一方面是我们考虑到客户的体验,重点考量部署的便捷性。一个技术应用本质上要服务于业务需求,我们希望用户在接入我们的新数据库时,他的业务层面不会发生改变。所以在产品设计之初,研发团队就有针对性地将 ETL 工具做了相应的兼容,并提供标准的 SQL 接口。


还有一部分私有部署的客户,我们推出搭载英伟达 GPU 芯片的一体机方案。因为采用 IBM 与英伟达合作开发的 NVLink 技术作为支撑,提升了数据在 CPU 与 GPU 处理器之间的传输速度,不会给客户带来麻烦。甚至于,针对将数据部署在云端的客户,我们也可以为其提供 PaaS 服务,在云端为客户提供服务,从而使客户不需要采购 GPU 硬件设备就可以使用。


4.安全性和较低的迁移成本,使更多的顾客能够放心选择 ZILLIZ?


星爵:这个是一大方面。另外,我们选择侧重于决策支持的 OLAP 数据库,不只是因为计算密集型的 OLAP 需要分析大量数据,与 GPU 计算力的结合更为成熟,也因为 OLAP 是 AI 应用的底层支撑。我们还提供数据库系统和人工智能计算框架之间的直接数据通道,将人工智能处理引擎融合进数据库执行引擎,提供集数据存储、管理、分析和人工智能处理于一体的 OLAP 数据库系统。这一技术还处于高速增长阶段,数据的存储和处理与人工智能处理之间相互分离,是人工智能时代数据处理的痛点之一。目前分析师和数据科学家有将近 80% 的工作时间被浪费在数据 ETL 上,而我们打通了数据库系统和人工智能计算框架之间的数据通道,提高了 AI 端到端的处理性能。


数据库的未来在中国



5.对于 ZILLIZ 的未来你是如何规划的?


星爵:目前还是要做好自己的工作。我们想要在不同的应用领域,比如金融、政府、电信、游戏、电商、物联网、零售、物流、能源、医疗等,都尝试一下。目前我们已经与金融、电信、公安、互联网头部机构经历了一年的 POC,产品迭代也达到 2.0 了,希望我们的产品能够继续进步。


我坚信,数据库的未来一定是在中国。人工智能时代,得益于人口基数、基础架构,中国拥有世界范围内最大的数据体量、最复杂的使用场景、最多的数据分析需求,这必然会倒推技术的进步。所以不出意料,就像微软、甲骨文会在美国出现那样,中国也将会成为 GPU 数据库巨头的摇篮,我也希望 ZILLIZ 能够走得领先,走得更远。

分享到: