开源社群越来越多人使用Kubernetes来进行资料处理、资料分析和处理机器学习计算,Kubernetes也增加了不少扩充功能,资源定制化、控制器定制化,以便对更深度整合这类专属应用程序。
现在热门的大数据分析平台Spark在2.3新版中,开始原生支援Kubernetes。可以直接在一个现成Kubernetes 1.7以上版本部署的容器集群中,执行Spark运算工作,而且还可以利用Spark自身功能,来管理分散的资料处理或分析任务。Spark可以接使用Kubernetes集群的命名空间或储存空间,例如整合到外挂式验证机制或Log追踪上。
Spark原生支援Kubernetes最大的好处是,不用重新安装Kubernetes集群,或改变现有Kubernetes集群的配置,只要建立一个新的容器镜像,并指派合适的RBAC权限角色,给所要执行的Spark应用程序,就可以开始使用这个Spark程序了。
在2.3新版中还有不少重要更新,例如增加了新的DataSource机制、Structured Streaming API第二版,也强化了PySpark的效能。
Hadoop工具商MapR强化Kubernetes支持,在K8S分析大数据更稳定
知名Hadoop分析工具之一的MapR,最近在Strata Data大会上宣布,要提供进行容器整合机制,推出MapR Data Fabric的Kubernetes支援,可以让MapR的Converged Data Platform大数据分析平台可以提供容器上可用的永久储存空间,也可供用来部署一个Stateful类型的容器应用。
MapR Data Fabric现在可以原生整合到Kubernetes的储存空间,来提供永久储存空间,可用来存数据库、档案或串流资料等。