learn-tech/专栏/ElasticSearch知识体系详解/15原理:ES原理之索引文档流程详解.md
2024-10-16 00:01:16 +08:00

23 KiB
Raw Blame History

                        因收到Google相关通知网站将会择期关闭。相关通知内容
                        
                        
                        15 原理ES原理之索引文档流程详解
                        文档索引步骤顺序

单个文档

新建单个文档所需要的步骤顺序:

客户端向 Node 1 发送新建、索引或者删除请求。 节点使用文档的 _id 确定文档属于分片 0 。请求会被转发到 Node 3因为分片 0 的主分片目前被分配在 Node 3 上。 Node 3 在主分片上面执行请求。如果成功了,它将请求并行转发到 Node 1 和 Node 2 的副本分片上。一旦所有的副本分片都报告成功, Node 3 将向协调节点报告成功,协调节点向客户端报告成功。

多个文档

使用 bulk 修改多个文档步骤顺序:

客户端向 Node 1 发送 bulk 请求。 Node 1 为每个节点创建一个批量请求,并将这些请求并行转发到每个包含主分片的节点主机。 主分片一个接一个按顺序执行每个操作。当每个操作成功时,主分片并行转发新文档(或删除)到副本分片,然后执行下一个操作。 一旦所有的副本分片报告所有操作成功,该节点将向协调节点报告成功,协调节点将这些响应收集整理并返回给客户端。

文档索引过程详解

整体的索引流程

先看下整体的索引流程

协调节点默认使用文档ID参与计算也支持通过routing以便为路由提供合适的分片。

shard = hash(document_id) % (num_of_primary_shards)

当分片所在的节点接收到来自协调节点的请求后会将请求写入到Memory Buffer然后定时默认是每隔1秒写入到Filesystem Cache这个从Momery Buffer到Filesystem Cache的过程就叫做refresh 当然在某些情况下存在Momery Buffer和Filesystem Cache的数据可能会丢失ES是通过translog的机制来保证数据的可靠性的。其实现机制是接收到请求后同时也会写入到translog中当Filesystem cache中的数据写入到磁盘中时才会清除掉这个过程叫做flush。 在flush过程中内存中的缓冲将被清除内容被写入一个新段段的fsync将创建一个新的提交点并将内容刷新到磁盘旧的translog将被删除并开始一个新的translog。 flush触发的时机是定时触发默认30分钟或者translog变得太大默认为512M时。

分步骤看数据持久化过程

通过分步骤看数据持久化过程write -> refresh -> flush -> merge

write 过程

一个新文档过来,会存储在 in-memory buffer 内存缓存区中,顺便会记录 TranslogElasticsearch 增加了一个 translog ,或者叫事务日志,在每一次对 Elasticsearch 进行操作时均进行了日志记录)。

这时候数据还没到 segment ,是搜不到这个新文档的。数据只有被 refresh 后,才可以被搜索到。

refresh 过程

refresh 默认 1 秒钟执行一次上图流程。ES 是支持修改这个值的,通过 index.refresh_interval 设置 refresh 冲刷间隔时间。refresh 流程大致如下:

in-memory buffer 中的文档写入到新的 segment 中,但 segment 是存储在文件系统的缓存中。此时文档可以被搜索到 最后清空 in-memory buffer。注意: Translog 没有被清空,为了将 segment 数据写到磁盘 文档经过 refresh 后, segment 暂时写到文件系统缓存,这样避免了性能 IO 操作又可以使文档搜索到。refresh 默认 1 秒执行一次,性能损耗太大。一般建议稍微延长这个 refresh 时间间隔,比如 5 s。因此ES 其实就是准实时,达不到真正的实时。

flush 过程

每隔一段时间—例如 translog 变得越来越大—索引被刷新flush一个新的 translog 被创建,并且一个全量提交被执行

上个过程中 segment 在文件系统缓存中,会有意外故障文档丢失。那么,为了保证文档不会丢失,需要将文档写入磁盘。那么文档从文件缓存写入磁盘的过程就是 flush。写入次怕后清空 translog。具体过程如下

所有在内存缓冲区的文档都被写入一个新的段。 缓冲区被清空。 一个Commit Point被写入硬盘。 文件系统缓存通过 fsync 被刷新flush。 老的 translog 被删除。

merge 过程

由于自动刷新流程每秒会创建一个新的段 ,这样会导致短时间内的段数量暴增。而段数目太多会带来较大的麻烦。 每一个段都会消耗文件句柄、内存和cpu运行周期。更重要的是每个搜索请求都必须轮流检查每个段所以段越多搜索也就越慢。

Elasticsearch通过在后台进行Merge Segment来解决这个问题。小的段被合并到大的段然后这些大的段再被合并到更大的段。

当索引的时候刷新refresh操作会创建新的段并将段打开以供搜索使用。合并进程选择一小部分大小相似的段并且在后台将它们合并到更大的段中。这并不会中断索引和搜索。

一旦合并结束,老的段被删除:

新的段被刷新flush到了磁盘。 ** 写入一个包含新段且排除旧的和较小的段的新提交点。 新的段被打开用来搜索。 老的段被删除。

合并大的段需要消耗大量的I/O和CPU资源如果任其发展会影响搜索性能。Elasticsearch在默认情况下会对合并流程进行资源限制所以搜索仍然 有足够的资源很好地执行。

深入ElasticSearch索引文档的实现机制

TIP

作为选读内容。

写操作的关键点

在考虑或分析一个分布式系统的写操作时,一般需要从下面几个方面考虑:

可靠性:或者是持久性,数据写入系统成功后,数据不会被回滚或丢失。 一致性:数据写入成功后,再次查询时必须能保证读取到最新版本的数据,不能读取到旧数据。 原子性:一个写入或者更新操作,要么完全成功,要么完全失败,不允许出现中间状态。 隔离性:多个写入操作相互不影响。 实时性:写入后是否可以立即被查询到。 性能:写入性能,吞吐量到底怎么样。

Elasticsearch作为分布式系统也需要在写入的时候满足上述的四个特点我们在后面的写流程介绍中会涉及到上述四个方面。

接下来,我们一层一层剖析Elasticsearch内部的写机制。

Lucene的写

众所周知Elasticsearch内部使用了Lucene完成索引创建和搜索功能Lucene中写操作主要是通过IndexWriter类实现IndexWriter提供三个接口

public long addDocument(); public long updateDocuments(); public long deleteDocuments();

通过这三个接口可以完成单个文档的写入更新和删除功能包括了分词倒排创建正排创建等等所有搜索相关的流程。只要Doc通过IndesWriter写入后后面就可以通过IndexSearcher搜索了看起来功能已经完善了但是仍然有一些问题没有解

上述操作是单机的,而不是我们需要的分布式。 文档写入Lucene后并不是立即可查询的需要生成完整的Segment后才可被搜索如何保证实时性 Lucene生成的Segment是在内存中如果机器宕机或掉电后内存中的Segment会丢失如何保证数据可靠性 Lucene不支持部分文档更新但是这又是一个强需求如何支持部分更新

上述问题在Lucene中是没有解决的那么就需要Elasticsearch中解决上述问题。

我们再来看Elasticsearch中的写机制。

Elasticsearch的写

Elasticsearch采用多Shard方式通过配置routing规则将数据分成多个数据子集每个数据子集提供独立的索引和搜索功能。当写入文档的时候根据routing规则将文档发送给特定Shard中建立索引。这样就能实现分布式了。

此外Elasticsearch整体架构上采用了一主多副的方式

每个Index由多个Shard组成每个Shard有一个主节点和多个副本节点副本个数可配。但每次写入的时候写入请求会先根据_routing规则选择发给哪个ShardIndex Request中可以设置使用哪个Filed的值作为路由参数如果没有设置则使用Mapping中的配置如果mapping中也没有配置则使用_id作为路由参数然后通过_routing的Hash值选择出Shard在OperationRouting类中最后从集群的Meta中找出出该Shard的Primary节点。

请求接着会发送给Primary Shard在Primary Shard上执行成功后再从Primary Shard上将请求同时发送给多个Replica Shard请求在多个Replica Shard上执行成功并返回给Primary Shard后写入请求执行成功返回结果给客户端。

这种模式下写入操作的延时就等于latency = Latency(Primary Write) + Max(Replicas Write)。只要有副本在写入延时最小也是两次单Shard的写入时延总和写入效率会较低但是这样的好处也很明显避免写入后单机或磁盘故障导致数据丢失在数据重要性和性能方面一般都是优先选择数据除非一些允许丢数据的特殊场景。

采用多个副本后避免了单机或磁盘故障发生时对已经持久化后的数据造成损害但是Elasticsearch里为了减少磁盘IO保证读写性能一般是每隔一段时间比如5分钟才会把Lucene的Segment写入磁盘持久化对于写入内存但还未Flush到磁盘的Lucene数据如果发生机器宕机或者掉电那么内存中的数据也会丢失这时候如何保证

对于这种问题Elasticsearch学习了数据库中的处理方式增加CommitLog模块Elasticsearch中叫TransLog。

在每一个Shard中写入流程分为两部分先写入Lucene再写入TransLog。

写入请求到达Shard后先写Lucene文件创建好索引此时索引还在内存里面接着去写TransLog写完TransLog后刷新TransLog数据到磁盘上写磁盘成功后请求返回给用户。这里有几个关键点:

一是和数据库不同数据库是先写CommitLog然后再写内存而Elasticsearch是先写内存最后才写TransLog一种可能的原因是Lucene的内存写入会有很复杂的逻辑很容易失败比如分词字段长度超过限制等比较重为了避免TransLog中有大量无效记录减少recover的复杂度和提高速度所以就把写Lucene放在了最前面。 二是写Lucene内存后并不是可被搜索的需要通过Refresh把内存的对象转成完整的Segment后然后再次reopen后才能被搜索一般这个时间设置为1秒钟导致写入Elasticsearch的文档最快要1秒钟才可被从搜索到所以Elasticsearch在搜索方面是NRTNear Real Time近实时的系统。 三是当Elasticsearch作为NoSQL数据库时查询方式是GetById这种查询可以直接从TransLog中查询这时候就成了RTReal Time实时系统。四是每隔一段比较长的时间比如30分钟后Lucene会把内存中生成的新Segment刷新到磁盘上刷新后索引文件已经持久化了历史的TransLog就没用了会清空掉旧的TransLog。

上面介绍了Elasticsearch在写入时的两个关键模块Replica和TransLog接下来我们看一下Update流程

Lucene中不支持部分字段的Update所以需要在Elasticsearch中实现该功能具体流程如下

收到Update请求后从Segment或者TransLog中读取同id的完整Doc记录版本号为V1。 将版本V1的全量Doc和请求中的部分字段Doc合并为一个完整的Doc同时更新内存中的VersionMap。获取到完整Doc后Update请求就变成了Index请求。 加锁。 再次从versionMap中读取该id的最大版本号V2如果versionMap中没有则从Segment或者TransLog中读取这里基本都会从versionMap中获取到。 检查版本是否冲突(V1==V2)如果冲突则回退到开始的“Update doc”阶段重新执行。如果不冲突则执行最新的Add请求。 在Index Doc阶段首先将Version + 1得到V3再将Doc加入到Lucene中去Lucene中会先删同id下的已存在doc id然后再增加新Doc。写入Lucene成功后将当前V3更新到versionMap中。 释放锁,部分更新的流程就结束了。

介绍完部分更新的流程后大家应该从整体架构上对Elasticsearch的写入有了一个初步的映象接下来我们详细剖析下写入的详细步骤。

Elasticsearch写入请求类型

Elasticsearch中的写入请求类型主要包括下列几个Index(Create)UpdateDelete和Bulk其中前3个是单文档操作后一个Bulk是多文档操作其中Bulk中可以包括Index(Create)Update和Delete。

在6.0.0及其之后的版本中前3个单文档操作的实现基本都和Bulk操作一致甚至有些就是通过调用Bulk的接口实现的。估计接下来几个版本后Index(Create)UpdateDelete都会被当做Bulk的一种特例化操作被处理。这样代码和逻辑都会更清晰一些。

下面我们就以Bulk请求为例来介绍写入流程。

红色Client Node。 绿色Primary Node。 蓝色Replica Node。

Client Node

Client Node 也包括了前面说过的Parse Request这里就不再赘述了接下来看一下其他的部分。

Ingest Pipeline

在这一步可以对原始文档做一些处理比如HTML解析自定义的处理具体处理逻辑可以通过插件来实现。在Elasticsearch中由于Ingest Pipeline会比较耗费CPU等资源可以设置专门的Ingest Node专门用来处理Ingest Pipeline逻辑。

如果当前Node不能执行Ingest Pipeline则会将请求发给另一台可以执行Ingest Pipeline的Node。

Auto Create Index

判断当前Index是否存在如果不存在则需要自动创建Index这里需要和Master交互。也可以通过配置关闭自动创建Index的功能。

Set Routing

设置路由条件如果Request中指定了路由条件则直接使用Request中的Routing否则使用Mapping中配置的如果Mapping中无配置则使用默认的_id字段值。

在这一步中如果没有指定id字段则会自动生成一个唯一的_id字段目前使用的是UUID。

Construct BulkShardRequest

由于Bulk Request中会包括多个(Index/Update/Delete)请求这些请求根据routing可能会落在多个Shard上执行这一步会按Shard挑拣Single Write Request同一个Shard中的请求聚集在一起构建BulkShardRequest每个BulkShardRequest对应一个Shard。

Send Request To Primary

这一步会将每一个BulkShardRequest请求发送给相应Shard的Primary Node。

Primary Node

Primary 请求的入口是在PrimaryOperationTransportHandler的messageReceived我们来看一下相关的逻辑流程。

Index or Update or Delete

循环执行每个Single Write Request对于每个Request根据操作类型(CREATE/INDEX/UPDATE/DELETE)选择不同的处理逻辑。

其中Create/Index是直接新增DocDelete是直接根据_id删除DocUpdate会稍微复杂些我们下面就以Update为例来介绍。

Translate Update To Index or Delete

这一步是Update操作的特有步骤在这里会将Update请求转换为Index或者Delete请求。首先会通过GetRequest查询到已经存在的同_id Doc如果有的完整字段和值依赖_source字段然后和请求中的Doc合并。同时这里会获取到读到的Doc版本号记做V1。

Parse Doc

这里会解析Doc中各个字段。生成ParsedDocument对象同时会生成uid Term。在Elasticsearch中_uid = type # _id对用户_Id可见而Elasticsearch中存储的是_uid。这一部分生成的ParsedDocument中也有Elasticsearch的系统字段大部分会根据当前内容填充部分未知的会在后面继续填充ParsedDocument。

Update Mapping

Elasticsearch中有个自动更新Mapping的功能就在这一步生效。会先挑选出Mapping中未包含的新Field然后判断是否运行自动更新Mapping如果允许则更新Mapping。

Get Sequence Id and Version

由于当前是Primary Shard则会从SequenceNumber Service获取一个sequenceID和Version。SequenceID在Shard级别每次递增1SequenceID在写入Doc成功后会用来初始化LocalCheckpoint。Version则是根据当前Doc的最大Version递增1。

Add Doc To Lucene

这一步开始的时候会给特定_uid加锁然后判断该_uid对应的Version是否等于之前Translate Update To Index步骤里获取到的Version如果不相等则说明刚才读取Doc后该Doc发生了变化出现了版本冲突这时候会抛出一个VersionConflict的异常该异常会在Primary Node最开始处捕获重新从“Translate Update To Index or Delete”开始执行。

如果Version相等则继续执行如果已经存在同id的Doc则会调用Lucene的UpdateDocument(uid, doc)接口先根据uid删除Doc然后再Index新Doc。如果是首次写入则直接调用Lucene的AddDocument接口完成Doc的IndexAddDocument也是通过UpdateDocument实现。

这一步中有个问题是如何保证Delete-Then-Add的原子性怎么避免中间状态时被Refresh答案是在开始Delete之前会加一个Refresh Lock禁止被Refresh只有等Add完后释放了Refresh Lock后才能被Refresh这样就保证了Delete-Then-Add的原子性。

Lucene的UpdateDocument接口中就只是处理多个Field会遍历每个Field逐个处理处理顺序是invert indexstore fielddoc valuespoint dimension后续会有文章专门介绍Lucene中的写入。

Write Translog

写完Lucene的Segment后会以keyvalue的形式写TransLogKey是_idValue是Doc内容。当查询的时候如果请求是GetDocByID则可以直接根据_id从TransLog中读取到满足NoSQL场景下的实时性要去。

需要注意的是这里只是写入到内存的TransLog是否Sync到磁盘的逻辑还在后面。

这一步的最后会标记当前SequenceID已经成功执行接着会更新当前Shard的LocalCheckPoint。

Renew Bulk Request

这里会重新构造Bulk Request原因是前面已经将UpdateRequest翻译成了Index或Delete请求则后续所有Replica中只需要执行Index或Delete请求就可以了不需要再执行Update逻辑一是保证Replica中逻辑更简单性能更好二是保证同一个请求在Primary和Replica中的执行结果一样。

Flush Translog

这里会根据TransLog的策略选择不同的执行方式要么是立即Flush到磁盘要么是等到以后再Flush。Flush的频率越高可靠性越高对写入性能影响越大。

Send Requests To Replicas

这里会将刚才构造的新的Bulk Request并行发送给多个Replica然后等待Replica的返回这里需要等待所有Replica返回后可能有成功也有可能失败Primary Node才会返回用户。如果某个Replica失败了则Primary会给Master发送一个Remove Shard请求要求Master将该Replica Shard从可用节点中移除。

这里同时会将SequenceIDPrimaryTermGlobalCheckPoint等传递给Replica。

发送给Replica的请求中Action Name等于原始ActionName + [R]这里的R表示Replica。通过这个[R]的不同可以找到处理Replica请求的Handler。

Receive Response From Replicas

Replica中请求都处理完后会更新Primary Node的LocalCheckPoint。

Replica Node

Replica 请求的入口是在ReplicaOperationTransportHandler的messageReceived我们来看一下相关的逻辑流程。

Index or Delete

根据请求类型是Index还是Delete选择不同的执行逻辑。这里没有Update是因为在Primary Node中已经将Update转换成了Index或Delete请求了。

Parse Doc Update Mapping

以上都和Primary Node中逻辑一致。

Get Sequence Id and Version

Primary Node中会生成Sequence ID和Version然后放入ReplicaRequest中这里只需要从Request中获取到就行。

Add Doc To Lucene

由于已经在Primary Node中将部分Update请求转换成了Index或Delete请求这里只需要处理Index和Delete两种请求不再需要处理Update请求了。比Primary Node会更简单一些。

Write Translog Flush Translog

以上都和Primary Node中逻辑一致。

最后

上面详细介绍了Elasticsearch的写入流程及其各个流程的工作机制我们在这里再次总结下之前提出的分布式系统中的六大特性

可靠性由于Lucene的设计中不考虑可靠性在Elasticsearch中通过Replica和TransLog两套机制保证数据的可靠性。 一致性Lucene中的Flush锁只保证Update接口里面Delete和Add中间不会Flush但是Add完成后仍然有可能立即发生Flush导致Segment可读。这样就没法保证Primary和所有其他Replica可以同一时间Flush就会出现查询不稳定的情况这里只能实现最终一致性。 原子性Add和Delete都是直接调用Lucene的接口是原子的。当部分更新时使用Version和锁保证更新是原子的。 隔离性仍然采用Version和局部锁来保证更新的是特定版本的数据。 实时性使用定期Refresh Segment到内存并且Reopen Segment方式保证搜索可以在较短时间比如1秒内被搜索到。通过将未刷新到磁盘数据记入TransLog保证对未提交数据可以通过ID实时访问到。 性能性能是一个系统性工程所有环节都要考虑对性能的影响在Elasticsearch中在很多地方的设计都考虑到了性能一是不需要所有Replica都返回后才能返回给用户只需要返回特定数目的就行二是生成的Segment现在内存中提供服务等一段时间后才刷新到磁盘Segment在内存这段时间的可靠性由TransLog保证三是TransLog可以配置为周期性的Flush但这个会给可靠性带来伤害四是每个线程持有一个Segment多线程时相互不影响相互独立性能更好五是系统的写入流程对版本依赖较重读取频率较高因此采用了versionMap减少热点数据的多次磁盘IO开销。Lucene中针对性能做了大量的优化。

参考文档

https://www.elastic.co/guide/cn/elasticsearch/guide/current/distrib-read.html

https://www.elastic.co/guide/cn/elasticsearch/guide/current/distrib-multi-doc.html

https://www.elastic.co/guide/cn/elasticsearch/guide/current/inside-a-shard.html

https://zhuanlan.zhihu.com/p/34674517

https://zhuanlan.zhihu.com/p/34669354

https://www.cnblogs.com/yangwenbo214/p/9831479.html