本文是 Elasticsearch 5.0 系列博文的基础概念篇,主要介绍集群,节点,索引,类型,文档,分片,副本等基础概念
写在前面
- 本文以 Elasticsearch 5.0.1 版本为例进行讲解,不定期更新
- 该系列主要参考的 Elasticsearch Reference: 5.0,尽量避免照搬翻译,只摘录精要部分辅以简单说明
- 写这个系列博客的初衷是强迫自己梳理,同时方便一些较忙/没空耐心看英文文档的朋友快速上手,建议读者有空多读官方文档,毕竟别人写的都是二手资料
- 如需查看 ES 系列更多博文,请关注我的个人网站@brianway 或者 @CSDN
基本概念
有关概念在Basic Concepts中已经介绍的很详细了,这里简单说一下。
- 集群(cluster):集群由一个或者多个节点组成,由名称唯一标识
- 节点(node):一个单独的 Elasticsearch 实例
- 索引(index):文档的集合
- 类型(type):索引的逻辑分类/分区
- 文档(document):能够被索引的信息基础单元
- 分片(shard):索引的物理分区,是一个最小的 Lucene 索引单元。分为 primary shard(主分片) 和 replica shard(简称replicas)。
- 副本/备份(replicas):主分片的备份
下面就这几个概念进一步说明
类比关系型数据库
其中索引,类型,文档的概念可以类比关系型数据库
Elasticsearch | 关系型数据库 |
---|---|
索引(index) | 数据库(database) |
类型(type) | 表(table) |
文档(document) | 行记录(row) |
字段(field) | 列(column) |
为什么有shard和replica
为什么有 shard?
- 可以水平切分和扩展内容容量
- 在shards 间分发和并行执行操作,从而提供性能和吞吐量
为什么有replica?
- 当 shard 失效时提供高可用性。因为这个原因,一个primary shard的replica不会分配到和该shard所处的同一节点
- 扩展查询的容量/吞吐量,因为查询操作是一个读操作,可以在所有replica上并行执行
其他补充
Elasticsearch 默认为每个 index 创建 5 个主分片,且备份数为 1。也就是说,每个索引由 5 个主分片组成,并且每个分片拥有一个备份。需要注意的是,主分片的数量一旦确定,之后是不能更改的(除非重新建立索引),而 replicas 的数量可以在之后随时更改。
所以在上一篇文章中,我们启动 Kibana 后在 Consonle
查询索引状态GET /_cat/indices?v
,会发现 health
是 yellow
而不是 green
,就是因为我们只开启了一个节点,而且 Kibana 启动后在 Elasticsearch 中建立了一个默认索引 .kibana
,该索引只有 1 个主分片和一个副本,故 shard 都在该节点上,而 shard 的副本不能和该 shard 分配在同一节点,故未生效,从而导致状态是黄色。
另外,每个索引被分配到多个分片,但 number_of_shards
的值只适用于索引,而不是整个集群。这个值指定了每个索引的分片数,而非整个集群中的全部主分片数。(摘自Optimizing Elasticsearch: How Many Shards per Index?)