数据湖探索 DLI

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serveless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值

按需付费,CU单价 $0.057 USD/小时

了解详情
产品优势
  • 兼容开放

    完全兼容Apache Spark、Apache Flink生态和接口,线下应用可无缝平滑迁移上云,减少迁移工作量

  • 批流一体

    采用批流融合高扩展性框架,为TB~EB级数据提供更实时更高效的多样性算力,以支撑更丰富的大数据处理需求

  • 性能卓越

    产品内核及架构深度优化,综合性能是传统MapReduce模型的百倍以上,SLA保障99.95%可用性

  • 成本更低

    按使用时长计费,使用时收费,不使用不收费,定价单位是CU(1CU=1核CPU+4GB内存),CU单价为$0.057 USD/小时

主要功能

  • 支持标准、复杂SQL运算

    支持标准ANSI SQL 2003、CEP SQL

  • 异构数据源融合分析

    支持多类数据格式跨源分析,SQL on AI智能分析

支持标准、复杂SQL运算

标准ANSI SQL 2003

  • 可使用JDBC和SDK等接口运行标准ANSI SQL 2003,用户仅需编写SQL便可实现海量离线数据或在线数据的分析统计,异常检测,实时聚类,时间序列分析等场景,无需关心具体SQL引擎的部署和运维

CEP SQL

  • Flink作业可提供基于Match Recognize的模式匹配检测,帮助业务人员使用SQL实现基于复杂事件规则的异常检测业务。典型应用场景如欺诈检测、车辆异常行为检测、工业设备异常运行状态检测等

异构数据源融合分析

异构数据源联邦分析

  • 支持多种数据格式( CSV、JSON、Parquet、ORC、CarbonData等),云上多种数据源(OBS、DWS、CloudTable、RDS、CSS、 MRS OPENTSDB等)、ECS自建数据库以及线下数据库,数据无需搬迁,即可实现对云上多个数据源进行联邦分析,帮助企业快速完成业务创新和数据价值探索

SQL on AI

  • 将对图片、视频、语言的处理分析能力嵌入在SQL里,提供结构化与非结构化数据的融合分析能力

  • Serverless化服务

    支持serverless spark、无限扩展,按需计费提供高性价比服务

  • 企业级多租户

    支持计算资源按租户隔离,保障作业SLA;支持数据权限控制到队列、作业,帮助企业实现部门间数据共享和权限管理

Serverless化服务

Serverless Spark

  • 基于Apache Spark生态,提供Spark Streaming、Spark Batch等Spark全栈能力,能够基于Spark API轻松完成TB~EB级数据处理分析

无限扩展

  • 支持海量数据存储和计算资源自动弹性扩容,可自如面对流量、数据等的突增。用户不感知,无需关心资源是否够用

企业级多租户

应用场景
  • 海量日志分析

  • 异构数据源联邦分析

  • 大数据ETL处理

  • 地理大数据分析

海量日志分析

运营数据分析

公司不同部门日常通过数据分析平台,分析每日新增日志获取所需指标,通过数据来辅助决策。例如:运营部门通过平台获取新增用户、活跃用户、留存率、流失率、付费率等,了解产品当前状态及后续响应活动措施;投放部门通过平台获取新增用户、活跃用户的渠道来源,来决定下一周期重点投放哪些平台

优势

高效的Spark编程模型

使用Spark Streaming直接从DIS中获取数据,进行数据清理等预处理操作。只需编写处理逻辑,无需关心多线程模型

简单易用

直接使用标准SQL编写指标分析逻辑,无需关注背后复杂的分布式计算平台

按需计费

日志分析按实效性要求按周期进行调度,每次调度之间存在大量空闲期。DLI按需计费只在使用期间收费,成本较独占集群降低50%以上

异构数据源联邦分析

车企数字化服务转型

面临市场新的竞争压力及出行服务不断变革,车企通过构建车联云平台和车机OS,将互联网应用与用车场景打通,完成车企数字化服务转型,从而为车主提供更好的智联出行体验,增加车企竞争力,促进销量增长。例如:通过对车辆日常指标数据(电池、发动机,轮胎胎压、安全气囊等健康状态)的采集和分析,及时将维保建议回馈给车主

优势

多源数据分析免搬迁

关系型数据库RDS中存放车辆和车主基本信息,表格存储CloudTable中存放实时的车辆位置和健康状态信息,数据仓库DWS中存放周期性统计的指标。通过DLI无需数据搬迁,对多数据源进行联邦分析

数据分级存储

车企需要保留全量历史数据支撑审计类等业务,低频进行访问。温冷数据存放在低成本的对象存储服务OBS上,高频访问的热数据存放在数据引擎(CloudTable和DWS)中,降低整体存储成本

告警快速敏捷触发服务器弹性伸缩

对CPU、内存、硬盘空间和带宽无特殊要求

大数据ETL处理

运营商大数据分析

运营商数据体量在PB~EB级,其数据种类多,有结构化的基站信息数据,非结构化的消息通信数据,同时对数据的时效性有很高的要求,DLI服务提供批处理、流处理等多模引擎,打破数据孤岛进行统一的数据分析

优势

大数据ETL

具备TB~EB级运营商数据治理能力,能快速将海量运营商数据做ETL处理,为分布式批处理计算提供分布式数据集

高吞吐低时延

采用Apache Flink的Dataflow模型,高性能计算资源,从用户自建的Kafka、MRS-Kafka、DMS-Kafka消费数据,单CU每秒吞吐1千~2万条消息

细粒度权限管理

P公司内部有N个子部门,子部门之间需要对数据进行共享和隔离。DLI支持计算资源按租户隔离,保障作业SLA;支持数据权限控制到表/列,帮助企业实现部门间数据共享和权限管理

地理大数据分析

地理大数据分析

地理大数据具有大数据的相关特征,数据体量巨大,例如全球卫星遥感影像数据量达到PB级;数据种类多,有结构化的遥感影像栅格数据、矢量数据,非结构化的空间位置数据、三维建模数据;在大体量的地理大数据中,通过高效的挖掘工具或者挖掘方法实现价值提炼,是用户非常关注的话题

优势

提供地理专业算子

支持全栈Spark能力,具备丰富的Spark空间数据分析算法算子,全面支持结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理,支持带有位置属性的动态流数据实时计算处理

CEP SQL

提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景

大数据治理能力

能快速将海量遥感影像数据接入上云,快速完成影像数据切片处理,为分布式批处理计算提供弹性分布式数据集

使用指南

自助获取,弹性伸缩,提供高性能计算能力的云服务器

了解详情