热点|Hot

15年做不好的代码搜索，基于Rust重写引擎终于搞定：GitHub声称能从此“改变游戏规则”

作者 Tina 核子可乐

GitHub宣称，源代码搜索引擎将给业界带来颠覆性变革。

GitHub上可供搜索的代码浩如烟海，全球代码仓库已经超过2亿，并且这些代码不是静态的：它在不断变化，这就给代码搜索引擎带来了相当大的挑战。

上线15年来，GitHub一直努力给大家提供一个好用的代码搜索引擎，但一直不能如愿。这两年，GitHub用Rust从头开始构建了自己的搜索引擎，专门用于代码搜索领域，并且自发布后已经极大地改善了该平台的代码搜索能力。

GitHub从头构建代码搜索引擎的动机

搜索是工程师最常用的功能之一，谷歌内部曾对工程师做一次调研，发现平均每位工程师每天会进行5.3次代码搜索会话（session），执行12个代码搜索请求。

对于GitHub这个用户已经达到一亿的代码托管平台来说，具备一个性能良好的搜索引擎尤其重要。然而GitHub自身的代码搜索引擎一度被用户吐槽“形同虚设”，连GitHub工程师Timothy Clem自己都吐槽说“用户体验糟糕”。在这种情况下，一些开发者会使用额外的工具查找代码，比如https://grep.app/或https://sourcegraph.com/search。

实际上，GitHub在这十几年中一直在努力改进其搜索引擎，第一版搜索引擎通过将所有公共文档索引到Solr实例中来工作。对于公共存储库，当时看起来“一切都挺好”，但大型私有存储库仍然无法搜索。

到2010年，搜索领域出现了相当大的动荡，Solr作为一个子项目加入了Lucene，而Elasticsearch作为一种在Lucene之上构建和扩展的好方法逐渐兴起。在2013年初，GitHub推出了由Elasticsearch集群支持的全新代码搜索，整合了公共和私有存储库的搜索体验并更新了设计。

“当我们第一次部署Elasticsearch时，花了几个月的时间来索引GitHub上的所有代码，当时大约有800万个存储库，平均每秒能响应5个搜索请求。”

因为运营规模巨大，在发布后的几天或几周内，GitHub就马上经历了第一次代码搜索中断……

再加上代码库的不断增加，“代码搜索是迄今为止我们运营的最大集群，自发布以来，它的规模又增长了20-40倍”，该公司发现现有技术的正常运行已经越来越难以维持，“从Solr到Elasticsearch，我们尝试用各种通用文本搜索产品来支持代码搜索，但效果都不好。除用户体验糟糕之外，托管成本还非常昂贵，而且索引速度也很慢。”

他们意识到，代码搜索与一般文本搜索有着很大的区别，毕竟代码是写给机器来理解的，需要利用代码之间的结构和相关性，并且还需要支持正则表达式进行搜索。

“归根结底，现成的东西都不能满足我们的需求，所以我们放弃了开源方案，从头开始构建了搜索引擎。”

基于Rust语言的搜索引擎

从2020年开始，GitHub开始全力以赴构建自定义搜索引擎。这款代码搜索引擎被命名为Blackbird，用Rust编写，它创建并增量维护一个由Git blob对象ID分片的代码搜索索引。增量的形式能节省大量存储空间，并保证了跨分片的均匀负载分布。同时支持对文档内容进行正则表达式搜索，还可以捕获额外的元数据，例如它还维护符号定义的索引。最终Blackbird满足了大家的性能目标：速度非常快，索引也非常紧凑，重量约为（去重）语料库大小的1/3。

本周一，Clem发布了一篇博文，讲述了Blackbird的工作原理，深入探讨了这个可对四分之一代码仓库进行搜索的新技术。

Blackbird目前可对近4500万个GitHub代码仓库进行访问，涵盖的代码总体量达115 TB、涉及155亿份文档。要在这么多行代码之间切换，单靠grep（类Unix系统上用于搜索文本数据的常用命令行工具）显然是远远不够的。

Clem解释道，在8核英特尔CPU上，通过ripgrep对内存内的13 GB文件执行详尽的正则表达式查询大约需要2.769秒，相当于0.6 GB/秒/核心。

“我们很快意识到，面对GitHub所拥有的大量数据来说，用grep的办法根本行不通。代码搜索实际运行在每节点64核、总计32节点的集群之上。即使我们设法将115 TB的代码全放进内存并实现了完美并行查询，那2048个CPU也要饱和运行96秒才能完成一次查询！在此期间，只有当前查询可以运行，其他操作全都得排队。”

每秒只能执行0.01次查询，这就直接给grep判了死刑。

于是，GitHub决定将大部分工作预加载至预先计算出的搜索索引当中，这些索引本质上属于键值对映射。如此一来，我们就能使用数字键（而非文本字符串）来搜索编程语言或单词序列等文档特征，从而大大降低对计算资源的需求。

尽管如此，这些索引还是太大、远远超出了内存容量。因此GitHub又为需要访问的各个索引构建了迭代器。根据Clem的介绍，这些迭代器会延迟返回经过排序的文档ID，而各ID所代表的正是关联文档的级别和满足的查询条件。

为了保持搜索索引的可管理性，GitHub采取分片方法——使用Git的内容可寻址哈希schema与增量编码将数据拆分成多个部分，借此存储数据差异（增量）以减少需要抓取的数据和元数据。考虑到GitHub上存放着大量冗余数据（例如不同fork），这套方案确实效果拔群，一举通过重复数据删除技术将115 TB数据缩减至25 TB。

最终系统的运行速度要远超grep，将最初可怜的每秒0.01次查询提升至每秒640次查询。此外，索引的执行速度可达到每秒约12万个文档，所以处理全部155亿个文档需要约36个小时。而由于增量（变更）索引减少了所需抓取的文档数量，重新索引只需要18个小时。

GitHub Code Search目前处于beta测试阶段，感兴趣的朋友可以点击此处前往体验（https://github.com/features/code-search）。

参考链接

https://github.blog/2021-12-15-a-brief-history-of-code-search-at-github

https://www.theregister.com/2023/02/07/github_code_search/?td=rt-3a

https://github.blog/2023-02-06-the-technology-behind-githubs-new-code-search/

本周热推：

《架构师》2020年9月《架构师》2018年9月《架构师》2019年10月《架构师》2019年1月《架构师》2019年3月