Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以极速和易用性著称。海量数据下仅需亚秒级响应时间即可返回查询结果,不仅可以支持高并发点查询场景,还可以支持高吞吐量的复杂分析场景。基于此,Apache Doris可以更好的满足报表分析、即席查询、统一数仓、数据湖查询加速等场景,用户可以构建用户行为分析、AB测试平台、日志检索分析、用户画像分析、订单分析,以及在此之上的其他应用程序。
创新互联建站是一家集网站建设,绥阳企业网站建设,绥阳品牌网站建设,网站定制,绥阳网站建设报价,网络营销,网络优化,绥阳网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
Apache Doris最早诞生于百度广告报表业务的Palo项目,2017年正式开源,2018年7月由百度捐赠给Apache基金会孵化,在Apache导师的指导下,由孵化器项目管理委员会成员进行孵化和运营。Apache Doris 顺利毕业于 Apache 孵化器,并于 2022 年 6 月成为顶级项目。目前,Apache Doris 社区聚集了来自不同行业近百家公司的 300 多名贡献者,活跃贡献者人数接近 100 人/月。
Apache Doris 目前在中国乃至全球拥有广泛的用户群,截至今天,Apache Doris 已在全球超过 500 家公司的生产环境中使用。中国互联网市值或估值前50强企业中,80%以上长期使用Apache Doris百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博等。它还广泛应用于金融、能源、制造、电信等一些传统行业。
如下图所示,经过各种数据整合和处理后,数据源通常存储在实时数仓Doris和离线数据湖或数仓(Apache Hive、Apache Iceberg或Apache Hudi中)。
使用场景
Apache Doris 广泛应用于以下场景:
面向分析师的具有不规则查询模式和高吞吐量要求的的自助服务分析。小米基于Doris构建了增长分析平台(Growth Analytics,GA),利用用户行为数据进行业务增长分析,平均查询延迟10秒,95%查询延迟30秒以下,数万每天的 SQL 查询数。
Doris 是一个满足统一数据仓库建设需求,简化复杂数据软件栈的平台。海底捞基于Doris的统一数据仓库取代了由Apache Spark、Apache Hive、Apache Kudu、Apache HBase、Apache Phoenix组成的旧架构,大大简化了架构。
通过使用外部表联合位于 Apache Hive、Apache Iceberg 和 Apache Hudi 中的数据,在避免数据复制的同时大大提高了查询性能。
Apache Doris 的整体架构如下图所示。Doris 架构非常简单,只有两类进程。
两种类型的进程都可以水平扩展,单个集群最多可以支持数百台机器和数十 PB 的存储容量。并且这两类流程通过一致性协议保证了服务的高可用性和数据的高可靠性。这种高度集成的架构设计大大降低了分布式系统的运维成本。
Apache Doris 的架构
Doris采用MySQL协议,高度兼容MySQL方言,支持标准SQL。用户可以通过各种客户端工具访问Doris,支持与BI工具无缝对接。
在存储引擎方面,Doris采用列式存储对数据进行按列编码压缩和读取,在实现极高压缩率的同时减少大量扫描无关数据,从而更高效地利用IO和CPU资源.
Doris 还支持比较丰富的索引结构来减少数据扫描:
在存储模型方面,Doris 支持多种存储模型,针对不同场景有针对性的优化:
Doris 还支持强一致性物化视图,物化视图的更新和选择在系统内部自动完成,不需要用户手动选择,从而显着降低了物化视图的维护成本。
在查询引擎方面,Doris采用了MPP模型,节点间和节点内并行执行,也支持多张大表的分布式shuffle join,可以更好的应对复杂的查询。
Apache Doris 的查询引擎
Doris查询引擎是向量化的,所有内存结构都可以以列格式布局,从而实现显著减少虚拟函数调用、提高缓存命中率和高效使用SIMD指令。宽表聚合场景中的性能比非向量化引擎高 5-10 倍。
向量化查询执行器
Doris使用自适应查询执行技术,可以根据运行时的统计动态调整执行计划,例如运行时过滤器技术,在运行时生成过滤器推送到探测端,并自动将过滤器穿透到探测端,大大减少了探测端的数据量,提高了连接性能。Doris 的运行时过滤器支持 In/Min/Max/Bloom 过滤器。
在优化器方面,Doris 使用了 CBO 和 RBO 的组合,RBO 支持常量折叠、子查询重写、谓词下推等,CBO支持 Join 重新排序。CBO仍在持续优化中,主要集中在更准确的统计信息收集和推导、更准确的成本模型预测等方面。
未来,Apache Doris除了数据分析之外,还将提升数据工程能力,更好地覆盖企业数据ETL/ELT场景,通过一个平台满足多种混合工作负载。另一方面,对云基础设施做深度优化,利用云提供的弹性和新硬件,提供性价比更好的产品。
网页题目:Apache Doris:基于MPP架构的实时分析数据库,是时候上手了
分享地址:http://www.csdahua.cn/qtweb/news1/83451.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网