Google云计算正式推出无服务器开源集群运算框架Spark服务(Serverless Spark),官方提到,这是目前市面上第一个可自动扩展的无服务器Spark服务,另外,Google还让云计算数据仓库BigQuery连接无服务器Spark计算资源,BigQuery用户现在可以使用无服务器Spark,和BigQuery SQL进行资料分析。这些功能更新的目标,都是要让用户能更简单地运行大规模ETL和数据科学等使用案例。
由于Apache Spark所提供的速度、简易性和程序语言灵活性,使得不少企业应用Apache Spark来进行资料工程、数据挖掘和机器学习等任务,但Google提到,管理集群和调整基础设施的效率很差,针对不同使用案例的集成程序,可能会大幅消耗生产力。
而Google提供无服务器Spark,供用户专注于程序代码和逻辑设计,不再需要管理集群和调整基础设施,通过选择的接口就能上传Spark作业,无服务器Spark会自动处理规模缩放,来符合任务的需要。
另外,Google也开始提供BigQuery实现无服务器Spark功能预览版,通过提供统一接口,供资料分析师在BigQuery编辑器中,编写SQL和PySpark程序代码,并且不需要配置基础设施,就能无缝地使用Spark执行。Google正努力在各种接口,集成无服务器Spark服务,使得用户不需要预先配置任何基础设施,便可以激活Spark,接下来还要让用户在全托管机器学习平台Vertex AI,也能用到Spark。