核心价值

  • 支持分布式数据治理

    专业的事交给专业的人做,领域数据交给领域内的数据团队自行治理。消除中心化团队由于缺乏专业知识所带来的数据不一致以及更新不及时等问题。

    支持分布式数据治理
  • 敏感数据的安全隔离

    客户原始数据不出域,计算过程透明化。领域到数据网格采用专用边缘路由设备,保障敏感数据的安全存储与运输。

    敏感数据的安全隔离
  • 数据服务“所见即所得”

    数据网格通过分布式选举与协作,实时跟踪监控各领域注册的数据产品服务状态和质量,可自动发现新加入的领域数据产品,让数据服务对用‘所见即所得’。

    数据服务“所见即所得”
  • 极高性能的数据计算

    数据网格实现CPU+GPU计算资源的高效自动调度,重构Spark核心算法C码,N倍提升计算性能。

    极高性能的数据计算

产品架构

产品架构
  • DataStudio方案
  • Hadoop集群
  • Hive仓库
  • Spark计算框架
  • ZooKeeper集群
  • ElasticSearch集群
  • DataStudio集群
  • DataStudio方案

    DataStudio方案重点在数据流动,从原始实时流、远程文件(FTP/SFTP),经大数据平台完成ETL、存储入仓,为下游应用提供数据访问接口,批量数据推送。数据入仓后,通过自定义自动或手动调度任务,应用层对数据进行加工处理,生成标签、高阶分析,再次入仓。
  • Hadoop集群

    Hadoop集群支持分布式存储HDFS、分布式应用程序容器管理YARN。
  • Hive仓库

    Hive仓库基于HDFS存储,采取PARQUET列存储格式,将数据按照Hive定义格式进行分布和存储,实现了大数据背景下的采取SQL的方式访问类似关系型库表的结构化数据。
  • Spark计算框架

    Spark计算框架使用SparkSQL组件访问Hive仓库,基于Spark并行计算框架的SparkSQL组件,具有更高的性能和硬件使用效率。
  • ZooKeeper集群

    ZooKeeper集群是大数据技术体系分布式应用协调器,集群通常由3个以上奇数个节点组成。分布式应用对ZooKeeper集群进行IO和监听操作,操作序列上具备天然的原子性以及心跳检测能力。当ZooKeeper树结构上的临时节点对应的应用掉线时,临时节点也会自动从树结构中删除。这个特性被大量应用在HA双机,以及解决单点问题的各类方案中。
  • ElasticSearch集群

    ElasticSearch集群,Hive仓库只解决OLAP批处理问题,对实时响应的交互式OLTP问题无能为力。分布式搜索引擎ElasticSearch在解决OLTP问题上具备先天性的优势,引入分词组件可轻松实现大文档全文检索。
  • DataStudio集群

    DataStudio集群将应用程序模块、调度配置模块、调度任务发现模块、调度任务执行模块、调度任务日志模块以及系统和REST接口模块这六大模块以Dubbo微服务节点加入到DataStudio集群中。其中调度任务发现模块、调度任务执行模块、系统和REST接口模块具备多节点的横向扩展能力,用于彻底解决单点问题。

产品优势

  • 明确的以网格为单位的输入和输出,对应着明确的数据血缘关系
  • 自助式消费平台让用户无需理解网格领域内部过程处理细节,可从“领域专家”获得结果并予以应用
  • 网格数据服务的数字签名双向认证和加密通信措施,极大降低企业数据安全风险
  • 避免了集中式治理带来昂贵且须持续投入的数据中心人力和软硬件建设成本
  • “站在巨人的肩膀上”让更多领域更高层级的数据治理变得简单可行

客户案例