干货 | Elasticsearch Reindex性能提升10倍+实战_铭毅天下的博客

CSDN博客_es reindex速度 · · 2167 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

Elasticsearch 最少必要知识实战教程直播回放

#1、reindex的速率极慢，是否有办法改善？
以下问题来自社区：https://elasticsearch.cn/question/3782

问题1：reindex和snapshot的速率极慢，是否有办法改善？

reindex和snapshot的速率比用filebeat或者kafka到es的写入速率慢好几个数量级（集群写入性能不存在瓶颈），reindex/snapshot的时候CPU还是IO使用率都很低，是不是集群受什么参数限制了reindex和snapshot的速率？
reindex不管是跨集群还是同集群上都很慢，大约3~5M/s的索引速率，会是什么原因导致的？

问题2：数据量几十个G的场景下，elasticsearch reindex速度太慢，从旧索引导数据到新索引，当前最佳方案是什么？

2、Reindex简介

5.X版本后新增Reindex。Reindex可以直接在Elasticsearch集群里面对数据进行重建，如果你的mapping因为修改而需要重建，又或者索引设置修改需要重建的时候，借助Reindex可以很方便的异步进行重建，并且支持跨集群间的数据迁移。比如按天创建的索引可以定期重建合并到以月为单位的索引里面去。当然索引里面要启用_source。

POST _reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

3、原因分析

reindex的核心做跨索引、跨集群的数据迁移。
慢的原因及优化思路无非包括：

1）批量大小值可能太小。
需要结合堆内存、线程池调整大小；
2）reindex的底层是scroll实现，借助scroll并行优化方式，提升效率；
3）跨索引、跨集群的核心是写入数据，考虑写入优化角度提升效率。

4、Reindex提升迁移效率的方案

4.1 提升批量写入大小值

默认情况下，_reindex使用1000进行批量操作，您可以在source中调整batch_size。

POST _reindex
{
  "source": {
    "index": "source",
    "size": 5000
  },
  "dest": {
    "index": "dest",
    "routing": "=cat"
  }
}

批量大小设置的依据：

（1）使用批量索引请求以获得最佳性能。
批量大小取决于数据、分析和集群配置，但一个好的起点是每批处理5-15 MB。
注意，这是物理大小。文档数量不是度量批量大小的好指标。例如，如果每批索引1000个文档，:
1）每个1kb的1000个文档是1mb。
2）每个100kb的1000个文档是100 MB。
这些是完全不同的体积大小。
（2）逐步递增文档容量大小的方式调优。
1）从大约5-15 MB的大容量开始，慢慢增加，直到你看不到性能的提升。然后开始增加批量写入的并发性(多线程等等)。
2）使用kibana、cerebro或iostat、top和ps等工具监视节点，以查看资源何时开始出现瓶颈。如果您开始接收EsRejectedExecutionException，您的集群就不能再跟上了:至少有一个资源达到了容量。要么减少并发性，或者提供更多有限的资源(例如从机械硬盘切换到ssd固态硬盘)，要么添加更多节点。

4.2 借助scroll的sliced提升写入效率

Reindex支持Sliced Scroll以并行化重建索引过程。这种并行化可以提高效率，并提供一种方便的方法将请求分解为更小的部分。

sliced原理（from medcl）

1）用过Scroll接口吧，很慢？如果你数据量很大，用Scroll遍历数据那确实是接受不了，现在Scroll接口可以并发来进行数据遍历了。
2）每个Scroll请求，可以分成多个Slice请求，可以理解为切片，各Slice独立并行，利用Scroll重建或者遍历要快很多倍。

slicing使用举例

slicing的设定分为两种方式：手动设置分片、自动设置分片。
手动设置分片参见官网。
自动设置分片如下：

POST _reindex?slices=5&refresh
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

slices大小设置注意事项：
1）slices大小的设置可以手动指定，或者设置slices设置为auto，auto的含义是：针对单索引，slices大小=分片数；针对多索引，slices=分片的最小值。
2）当slices的数量等于索引中的分片数量时，查询性能最高效。slices大小大于分片数，非但不会提升效率，反而会增加开销。
3）如果这个slices数字很大(例如500)，建议选择一个较低的数字，因为过大的slices 会影响性能。

4.3 ES副本数设置为0

如果要进行大量批量导入，请考虑通过设置index.number_of_replicas来禁用副本：0。
主要原因在于：复制文档时，将整个文档发送到副本节点，并逐字重复索引过程。这意味着每个副本都将执行分析，索引和潜在合并过程。
相反，如果您使用零副本进行索引，然后在提取完成时启用副本，则恢复过程本质上是逐字节的网络传输。这比复制索引过程更有效。

PUT /my_logs/_settings
{
    "number_of_replicas": 1
}

4.4 增加refresh间隔

如果你的搜索结果不需要接近实时的准确性，考虑先不要急于索引刷新refresh。可以将每个索引的refresh_interval到30s。
如果正在进行大量数据导入，可以通过在导入期间将此值设置为-1来禁用刷新。完成后不要忘记重新启用它!
设置方法：

PUT /my_logs/_settings
{ "refresh_interval": -1 }

5、小结

实践证明，比默认设置reindex速度能提升10倍+。
遇到类似问题，多从官网、原理甚至源码的角度思考，逐步拆解分析。
只要思维不滑坡，办法总比问题多！

参考：
[1] Jest Reindex参考：http://t.cn/RDOyIc8
[2] 官网性能优化：http://t.cn/RDOyJqr
[3] 论坛讨论：http://t.cn/RDOya3a

这里写图片描述
打造Elasticsearch基础、进阶、实战第一公众号！

本文来自：CSDN博客_es reindex速度

感谢作者：CSDN博客_es reindex速度

查看原文：干货 | Elasticsearch Reindex性能提升10倍+实战_铭毅天下的博客

2167 次点击

加入收藏微博

收入我的专栏

上一篇：【指导】sed - GNU vs BSD_I__Love__China的博客

下一篇：shell脚本中各种括号的区别以及用法 - 云+社区

数据量

slice

线程

注意事项

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

干货 | Elasticsearch Reindex性能提升10倍+实战_铭毅天下的博客

问题1：reindex和snapshot的速率极慢，是否有办法改善？

问题2：数据量几十个G的场景下，elasticsearch reindex速度太慢，从旧索引导数据到新索引，当前最佳方案是什么？

2、Reindex简介

3、原因分析

4、Reindex提升迁移效率的方案

4.1 提升批量写入大小值

4.2 借助scroll的sliced提升写入效率

sliced原理（from medcl）

slicing使用举例

4.3 ES副本数设置为0

4.4 增加refresh间隔

5、小结

用户登录

今日阅读排行

一周阅读排行

问题1：reindex和snapshot的速率极慢，是否有办法改善？

问题2：数据量几十个G的场景下，elasticsearch reindex速度太慢，从旧索引导数据到新索引，当前最佳方案是什么？

2、Reindex简介

3、原因分析

4、Reindex提升迁移效率的方案

4.1 提升批量写入大小值

4.2 借助scroll的sliced提升写入效率

sliced原理（from medcl）

slicing使用举例

4.3 ES副本数设置为0

4.4 增加refresh间隔

5、小结

干货 | Elasticsearch Reindex性能提升10倍+实战_铭毅天下的博客

问题1：reindex和snapshot的速率极慢，是否有办法改善？

问题2：数据量几十个G的场景下，elasticsearch reindex速度太慢，从旧索引导数据到新索引，当前最佳方案是什么？

2、Reindex简介

3、原因分析

4、Reindex提升迁移效率的方案

4.1 提升批量写入大小值

4.2 借助scroll的sliced提升写入效率

sliced原理（from medcl）

slicing使用举例

4.3 ES副本数设置为0

4.4 增加refresh间隔

5、小结

用户登录

今日阅读排行

一周阅读排行

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

问题1：reindex和snapshot的速率极慢，是否有办法改善？

问题2：数据量几十个G的场景下，elasticsearch reindex速度太慢，从旧索引导数据到新索引，当前最佳方案是什么？

2、Reindex简介

3、原因分析

4、Reindex提升迁移效率的方案

4.1 提升批量写入大小值

4.2 借助scroll的sliced提升写入效率

sliced原理（from medcl）

slicing使用举例

4.3 ES副本数设置为0

4.4 增加refresh间隔

5、小结

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏