产品优势

简单、易用、多种创作工具

极致性能

Databricks Runtime内核,性能优 于社区版Spark,最高可达50倍提升。 满足高性能、高稳定性、可弹性的计算 需求。

批流一体

轻松处理包含数十 亿文件的PB级表的元数据信息,实现了 批流一体的数据处理方式。

协同分析

同时满足数据科学家、数据工程师以及 业务分析师的计算需求,提供交互式的 协同分析工作平台。

数据共享

计算存储分离,减少数据冗余,实现多 引擎间的数据共享,降低数据存储成本 内置对OSS的访问性能优化。

产品功能

全托管分析平台

快速拉起Spark全托管的集群,操作简单,按需付费。

集群规模

用户根据需求设置节点数量,支持集群高可用

机型选择

支持ECS通用型、技术型和内存型三种实例规格

弹性能力

集群规模可动态扩展,调整计算资源大小,达到成本最优

交互式协同工作

多种用户角色共享数据,交互式协同合作。

Notebook

可以协同工作的工作空间,交互式的作业执行方式, 支持Spark、PySpark、Spark R和Spark SQL类型的作 业,分析结果可视化展示。

统一元数据

集群之间共享数据库、表的元信息,无需重复创建。

完全兼容Spark生态

100%兼容开源Spark,迁移成本低,性能表现优异。

Databricks Runtime

在Apache Spark基础上做了大量的性能优化,且针对阿里 云OSS做了I/O优化,提供了更快速、更高效的计算引擎。

Databricks Delta Lake

较开源Delta Lake,功能更完备,对核心功能点均有更 深度的优化和性能提升。

企业安全性

与阿里云RAM集成,可以根据用户和角色做权限控制,保障数据安全性。

应用场景








流批一体数据仓库

简化机器学习生命周期,快速进行模型测试、实验、以及生产部署,并可视化结果。

能够提供

数据获取
接收实时产生的流式数据和外部云存储上批量数据
数据ETL
持续高效地处理增量数据,支持数据的回滚和删改,提供ACID事务性保障
RI数据分析
支持Ad hoc查询,无缝对接多种BI分析工具
AI数据探索
支持机器学习




机器学习

简化机器学习生命周期,快速进行模型测试、实验、以及生产部署,并可视化结果。

应用场景

特征工程
Spark SQL/Data Frame进行的分布式的数据预处理,EDA和特征工程
分布式模型训练
利于Spark ML、ML相关模块做特征处理,进行ML/DL模型分布式训练
在线部署
封装模型到Spark ML pipeline,以PMML或Mleap方式存放于OSS,发布到PAI-EAS做线上预测 服务
云边端一体
利用容器镜像服务和ACK@Edge,将模型作为容器下沉到边缘终端,服务离线终端设备的AI
鼎誉云
立即咨询