你所在的位置：汇视网 > 聚焦 >科技

wind万点-IndexR,一个千亿级别的实时分析数据库

发布时间：2016-11-07 12:28　　来源：汇视网　　编辑：李陈默阅读量：9228

　　作者：Flow Wei

　　背景

　　舜飞的各个业务线对接全网的各大媒体及APP，从而产生大批数据，实时分析这些数据不只仅用于监控业务的发展，还会影响产品的服务质量，直接制造价值。好比优化师要时刻关注活动的投放质量，竞价算法会依据投放数据实时调整战略，网站主会进行流量分析和迅速事故反应等等。36大数据（http://www.36dsj.com/）

　　这些分析需求的特色：36大数据（http://www.36dsj.com/）

　　超大批- 数据流达到1m/s，一天入库几百亿条消息。准实时- 所有数据要实时处置、入库、分析、展示，从产生到体目前分析结果里延时几秒之内。传统的批处置根本没办法满足需求。全量、精确、靠得住- 不能够采取抽样、近似计算等方法，数据就是流动的金钱，靠得住性要求特别高。多维分析、Ad-hoc查询- 大部分的查询结果是基于一个或多个维度组合的汇总，而且要求短时间内呼应，最好整体赞同SQL和UDF。

　　先来看看如今有哪些处理方案：36大数据（http://www.36dsj.com/）

　　MySQL，PostgreSQL等关系型数据库，它们普通都有特别完整的功能赞同，但没办法赞同超大批数据，统计分析的性能也不怎样好，普通作为T+1架构的实时库。Hbase，或许Redis等K-V数据库，上层普通有一个SQL查询层，好比Phoenix，上游由Spark、Storm等流式框架预聚合数据。这类架构限制特别多，很难赞同复杂及频仍修正的业务。Kylin也属于这一类，离线预聚合。Infobright，Greenplum，MemSQL等各有特色的数据库，有开源社区版本。在必定要求、数据量下能满足特定需求，然而缺陷较多，有些不赞同更新，或许运维困难，数据量赞同小等。Hana, Vertica，和云服务等收费数据库。我们没有选择这个方向，以为把分析系统构建在这类第三方关闭系统上，与如今现有数据工具的整合相比较困难，担忧对后续扩大、迁移的影响。最近几年较火的所谓时间序列数据库，代表为Druid，Pinot，Influxdb等。笔者曾经比较深刻的研究过，甚至在项目中有过安排，但最后以为都不适合。有些项目其实不成熟，或许对硬件要求极高，缺乏弹性，有些架构上有比较大的问题，实际应用时体现的特别不稳固。其他开源分析工具，如Impala，Drill，或许SparkSQL。它们普通专注于计算层，缺乏一个适合的数据格局，而且它们通常是分析静态文件的，没法做到分析实时数据。如今的Parquet，ORC等数据格局通常有不错的扫描、紧缩性能，但缺乏有用的索引和必要的灵巧性。

　　既然现无方案都不能够处理问题，我们最后决定自己做一个适合的数据库系统，叫做 IndexR 。并在一年以后，成功安排于生产环境。36大数据（http://www.36dsj.com/）

　　IndexR简介

　　IndexR是一个基于HDFS的散布式关系型列式数据库，善于海量历史、实时数据的迅速统计分析。

　　迅速统计分析查询- IndexR应用列式存储，关于超大批数据集，它提供高效的索引，通过过滤掉无关数据，迅速定位有用数据，削减IO。它应用了优良的Apach Drill作为上层查询引擎。特别适合于ad-hoc的OLAP查询。

　　数据实时导入- IndexR赞同超高速实时导入数据。数据一达到IndexR节点，马上能够被查询到。实时数据和历史数据能够一起查，不再需求考虑所谓T+1架构。且辨别于其他有相似功能的系统，IndexR永远不会主动抛弃任何数据。

　　高效硬件利用率- 相较于其他系统，IndexR能够跑在便宜的机器上。不需求昂贵的SSD硬盘，高端CPU，甚至小型机，你便能够取得特别好的性能，尽管在上头跑会更加速。尽管跑在JVM上，它手动管理几乎所有的内存，应用经太高度设计、紧凑的数据构造。

　　集群高可用，易扩大，易管理，简单- 散布式系统发展到目前，高可用和扩大性已经是标配了。IndexR的特色是构造特别简单靠得住，且只有少少的必须配置项。

　　与Hadoop生态的深度整合- IndexR把数据寄存于HDFS。这意味着你能够应用MapReduce，或许任何Hadoop工具处置这些文件。我们如今提供了Hive插件，用于各类ETL有关工作，或许跑离线任务。对接Spark的工作正在进行，将被应用于数据挖掘和机器学习。

　　高度紧缩的数据格局- IndexR以列式存储，并提供超高的紧缩率，能够明显的削减IO和网络开支。

　　便利的数据管理- IndexR能够便利的导入、删除数据，而且赞同修正表Schema，如对列的添加、删除、修正等。

　　IndexR架构介绍

　　系统构造36大数据（http://www.36dsj.com/）

　　IndexR参考和应用了许多优良的开源产品，充足施展了各个组件的优势，并补充了缺失的模块，构成一个特别简练、靠得住、高效的数据库系统。

　　IndexR系统主要触及几个组件36大数据（http://www.36dsj.com/）

　　IndexR – 负责文件存储格局，包含索引和数据，数据的实时导入、表界说操作，查询优化，和数据缓存等。散布式计算框架(Drill/Spark)-负责在IndexR数据上的详细查询操作，和其他计算任务。Hadoop和周边工具 – 提供散布式文件存储，离线批量计算，离线数据管理，和各类离线ETL任务。IndexR与Hadoop完美联合，能够作为一个高度紧缩、自带索引的文件格局，兼容Hive的所有操作。Kafka – 消息队列，数据通过kafka流入IndexR。Zookeeper – 集群状态管理。

　　安排架构

　　IndexR数据库系统安排特别简单，没有复杂依附，没有难以懂得的不一样类型的节点，假如你已经拥有一个Hadoop系统，即便没有任何经历，在现有集群上安排IndexR通常能够在半小时之内完成。只需求在所有Hadoop的DataNode(和NameNode)节点上安排一份带有IndexR插件的Drill节点，只有几项必须配置项，而且所有节点的配置都是一样的。

　　IndexR的服务逻辑嵌入了Drillbit过程，无需额外启动服务。

　　存储构造36大数据（http://www.36dsj.com/）

　　IndexR以列式存储数据，并分片存储，分片称为Segment，每个Segment都是自解释的，包含Schema，数据和索引。Segment通常是固定不变的，这极大简化了数据管理，便于散布式处置。

　　实时模块36大数据（http://www.36dsj.com/）

　　IndexR的一大特色是能够极高效率的导入实时数据，而且数据能够马上被查询，能够多节点同时导入。

　　实时导入的数据叫做Realtime Segment，在达到必定阀值后，IndexR会将它们合并成历史Segment，并上传到HDFS，以后数据便能够被离线分析工具所应用和管理。

　　Realtime Segment详细完成参考了 LSM-Tree。通过在磁盘上的commitlog文件保留所有更新操作，最新数据放在内存中以迅速入库和索引，周期性将内存数据dump到磁盘。IndexR过程能够随时被重启，或许直接杀死，不需求担忧数据丧失。

　　性能标准

　　测试硬件标准：每个节点 12核(24线程)CPU, 60G内存, SATA接口7200起色械硬盘。

　　实时导入速度- 超出 30K 消息/秒/节点/表。即，假设有10个节点，每个节点拥有10个表，能够在一秒钟之内消费3M条消息。一天轻松实时导入千亿数据。扫描速度- 通常一行内通常会读取多个字段，在现代CPU和计算框架的帮助下，能够同时对多个字段进行运算，从而取得比以下数据更好的性能。冷数据 – 30M字段/秒/节点。热数据 – 100M字段/秒/节点。扫描速度约为Parquet的2.5倍。OLAP查询- 在我们的实际业务中，我们发现95%的查询延时在3s内，数据量规模为千亿级别，20个节点。一样的Drill环境下约为Parquet格局的3~8倍。紧缩率- 在我们的实际业务中，有关于CSV格局，紧缩率约为10:1，有些表甚至达到20:1。紧缩后大小约为ORC格局的75%。

　　End.

　　转载请注明来自36大数据（36dsj.com)：36大数据» IndexR，一个千亿级其余实时分析数据库

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

wind万点-IndexR,一个千亿级别的实时分析数据库

热门文章

最新文章