Elasticsearch 5.0-基础概念

写在前面
基本概念
类比关系型数据库
为什么有shard和replica
其他补充

本文是 Elasticsearch 5.0 系列博文的基础概念篇，主要介绍集群，节点，索引，类型，文档，分片，副本等基础概念

写在前面

本文以 Elasticsearch 5.0.1 版本为例进行讲解,不定期更新
该系列主要参考的 Elasticsearch Reference: 5.0，尽量避免照搬翻译，只摘录精要部分辅以简单说明
写这个系列博客的初衷是强迫自己梳理，同时方便一些较忙/没空耐心看英文文档的朋友快速上手，建议读者有空多读官方文档，毕竟别人写的都是二手资料
如需查看 ES 系列更多博文，请关注我的个人网站@brianway 或者 @CSDN

基本概念

有关概念在Basic Concepts中已经介绍的很详细了，这里简单说一下。

集群(cluster)：集群由一个或者多个节点组成，由名称唯一标识
节点(node)：一个单独的 Elasticsearch 实例
索引(index)：文档的集合
类型(type)：索引的逻辑分类/分区
文档(document)：能够被索引的信息基础单元
分片(shard)：索引的物理分区，是一个最小的 Lucene 索引单元。分为 primary shard(主分片) 和 replica shard(简称replicas)。
副本/备份(replicas)：主分片的备份

下面就这几个概念进一步说明

类比关系型数据库

其中索引,类型,文档的概念可以类比关系型数据库

Elasticsearch	关系型数据库
索引(index)	数据库(database)
类型(type)	表(table)
文档(document)	行记录(row)
字段(field)	列(column)

为什么有shard和replica

为什么有 shard?

可以水平切分和扩展内容容量
在shards 间分发和并行执行操作，从而提供性能和吞吐量

为什么有replica?

当 shard 失效时提供高可用性。因为这个原因，一个primary shard的replica不会分配到和该shard所处的同一节点
扩展查询的容量/吞吐量，因为查询操作是一个读操作，可以在所有replica上并行执行

其他补充

Elasticsearch 默认为每个 index 创建 5 个主分片，且备份数为 1。也就是说，每个索引由 5 个主分片组成，并且每个分片拥有一个备份。需要注意的是，主分片的数量一旦确定，之后是不能更改的（除非重新建立索引），而 replicas 的数量可以在之后随时更改。

所以在上一篇文章中，我们启动 Kibana 后在 Consonle 查询索引状态GET /_cat/indices?v，会发现 health 是 yellow 而不是 green，就是因为我们只开启了一个节点，而且 Kibana 启动后在 Elasticsearch 中建立了一个默认索引 .kibana，该索引只有 1 个主分片和一个副本，故 shard 都在该节点上，而 shard 的副本不能和该 shard 分配在同一节点，故未生效，从而导致状态是黄色。

另外，每个索引被分配到多个分片，但 number_of_shards 的值只适用于索引，而不是整个集群。这个值指定了每个索引的分片数，而非整个集群中的全部主分片数。（摘自Optimizing Elasticsearch: How Many Shards per Index?）

如果您觉得本文对您有帮助，请扫描下方二维码激励我写作，欢迎留言，谢谢支持！