Hbase为什么写比读快 - guoyu1

博客园 · · 2884 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

1、Hbase为什么写比读快

（1）根本原因是hbase的存储引擎用的是LSM树，是一种面向磁盘的数据结构：

　　Hbase底层的存储引擎为LSM-Tree(Log-Structured Merge-Tree)。LSM核心思想的核心就是放弃部分读能力，换取写入的最大化能力。LSM Tree它的核心思路其实非常简单，就是假定内存足够大，因此不需要每次有数据更新就必须将数据写入到磁盘中，而可以先将最新的数据驻留在内存中，等到积累到最后多之后，再使用归并排序的方式将内存内的数据合并追加到磁盘队尾(因为所有待排序的树都是有序的，可以通过合并排序的方式快速合并到一起)。另外，写入时候将随机写入转换成顺序写，数据写入速度也很稳定。

　　不过读取的时候稍微麻烦，需要合并磁盘中历史数据和内存中最近修改操作，所以写入性能大大提升，读取时可能需要先看是否命中内存，否则需要访问较多的磁盘文件。极端的说，基于LSM树实现的HBase的写性能比MySQL高了一个数量级，读性能低了一个数量级。

　　LSM树原理把一棵大树拆分成N棵小树，它首先写入内存中，随着小树越来越大，内存中的小树会flush到磁盘中，磁盘中的树定期可以做merge操作，合并成一棵大树，以优化读性能。

补充：

深入理解LSM树：https://www.pianshen.com/article/3694420068/

LSM-Tree全称是Log Structured Merge Tree，是一种分层，有序，面向磁盘的数据结构，其核心思想是充分了利用了，磁盘批量的顺序写要远比随机写性能高出很多，如下图示：

　　围绕这一原理进行设计和优化，以此让写性能达到最优，正如我们普通的Log的写入方式，这种结构的写入，全部都是以Append的模式追加，不存在删除和修改。当然有得就有舍，这种结构虽然大大提升了数据的写入能力，却是以牺牲部分读取性能为代价，故此这种结构通常适合于写多读少的场景

2、Hbase为什么读取速度也快

HBase能提供实时计算服务主要原因：

（1）是由其架构和底层的数据结构决定的，即由：LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache

　　客户端可以直接定位到要查数据所在的HRegion server服务器，然后直接在服务器的一个region上查找要匹配的数据，并且这些数据部分是经过cache缓存的。

　　前面说过HBase会将数据保存到内存中，在内存中的数据是有序的，如果内存空间满了，会刷写到HFile中，而在HFile中保存的内容也是有序的。当数据写入HFile后，内存中的数据会被丢弃。HFile文件为磁盘顺序读取做了优化，按页存储。下图展示了在内存中多个块存储并归并到磁盘的过程，合并写入会产生新的结果块，最终多个块被合并为更大块。

（2）rowkey是排序的

（3）数据按列存储

https://blog.csdn.net/qq_31821675/article/details/79158353

本文来自：博客园

感谢作者：博客园

查看原文：Hbase为什么写比读快 - guoyu1

2884 次点击

加入收藏微博

收入我的专栏

上一篇：原来插入排序、希尔排序是这样的

下一篇：netty中Pipeline的ChannelHandler执行顺序案例详解 - 田志良

核心思想

根本原因

性能比

全部都是

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

Hbase为什么写比读快 - guoyu1

1、Hbase为什么写比读快

2、Hbase为什么读取速度也快

用户登录

今日阅读排行

一周阅读排行

1、Hbase为什么写比读快

2、Hbase为什么读取速度也快

Hbase为什么写比读快 - guoyu1

1、Hbase为什么写比读快

2、Hbase为什么读取速度也快

用户登录

今日阅读排行

一周阅读排行

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

1、Hbase为什么写比读快

2、Hbase为什么读取速度也快

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏