这边文章由笔者在快手一个内部分享 《深入理解 ES 查询机制》 整理而来,主要介绍了 ElasticSearch在搜索时,如何快速定位到相关文档,并揭示了文档得分的细节。包括:
评分机制: ES 简介、TF/IDF 模型、空间向量模型、BM25 模型、模型在 ES 的实际体现;
索引机制: 倒排索引、如何快速定位 Term、Term Index FST(有限状态机索引)、Posting List:Frame Of Reference.
文末提供原始分享幻灯片下载链接。

Delta Lake 在 Spark + AI Summit 2019 宣布开源,引起了不小的震动,这到底是何方神圣?本文将从什么是 Delta Lake、它有那些特点、它是如何实现的,以及它的出现对未来大数据领域和大数据从业者可能有什么影响这些角度,全面解析这一新一代的文件存储层。

上一篇文章介绍了基准测试的基本概念以及 Java性能测试工具 JMH 的简单使用。这一篇文章将通过实例详细介绍 JMH 的使用方法,并验证几个提高程序性能的方式是否正确并给出作者的结论。

基准测试对我们来说,一个熟悉又陌生的名字。说它熟悉的原因是它在我们生活中无处不在;说他陌生,是因为它常常以各种名字存在于我们生活中。比如”不服跑个分“,其中的“跑分”指的就是基准测试。类似的还有网速测试、Online Judge 的评测结果等等。本文将介绍部分基准测试的理论、以及 Java 官方提供的微基准测试工具的使用。

我们在开发中不难出现这样的问题:线上某个功能不可用,登上机器查看日志,发现在报错。但为什么报错,翻了半天日志可能也没找到原因,“日志”到用时方恨少,非常后悔当时没有多打日志。
此时,要么选择在线 Debug — 有时候并不那么容易;要么修改代码,增加相关日志打印语句,重新发布部署,而这容易导致问题难以复现。
Arthas 的出现解决了这样的困境。