Juicebox 招募 Amazon O

2025/08/08

Juicebox 利用 Amazon OpenSearch 服务的向量数据库提升人才搜索

关键要点

Juicebox 正在通过利用 Amazon OpenSearch服务的强大功能，改进其人才搜索系统。该服务不仅提供传统的全文搜索方法，还结合了现代的语义搜索能力，从而大幅提升招聘人员在超过 8亿个个人资料中的筛选效率与精准度。

Juicebox 是一款基于人工智能的智能人才搜索引擎，利用先进的自然语言模型帮助招聘人员从超过 8 亿个个人资料中识别最佳候选人。其核心功能依赖于，为 Juicebox提供强大搜索基础设施，支持传统的全文搜索与现代的语义搜索的无缝结合。

在本篇文章中，我们将分享 Juicebox 如何利用 OpenSearch 服务提升搜索效果。

招聘搜索中的挑战

传统的招聘搜索引擎通常依赖简单的布尔或关键字搜索。这些方法难以捕捉复杂查询背后的细微之处和意图，常常会产生大量无关结果。招聘人员花费不必要的时间在这些结果上，这个过程既耗时又低效。

此外，招聘搜索引擎通常在处理大数据集时面临困难，随着索引数据量的增加，常导致延迟问题和性能瓶颈。在 Juicebox，我们的数据库已增长至超过 10亿份文档，每分钟有数百万个人资料被搜索，因此我们需要一种解决方案，能够不仅处理大规模的数据摄取和查询，还能支持对复杂查询的上下文理解。

解决方案概述

以下图示展示了解决方案架构。

![解决方案架构](https://d2908q01vomqb2.cloudfront.net/b6692ea5df920cad691c20319a6fffd7a4a766b8/2025/01/13/bdb-4783-arch- 删除)

OpenSearch 服务安全地解锁了实时搜索、监控和商业与操作数据的分析，适用于应用监控、日志分析、可观察性和网站搜索等用例。您可以将搜索文档发送到 OpenSearch 服务，通过与文本和向量嵌入匹配的搜索查询快速检索到相关结果。

在 Juicebox，我们利用 Amazon OpenSearch 服务解决了五个具体挑战，以下各节将进行详细讨论。

问题 1：候选人搜索中的高延迟

起初，由于数据集的规模、尤其是需要深度上下文理解的复杂语义查询，我们在返回搜索结果时面临显著延迟。其他全文搜索引擎无法满足我们对速度和精准度的要求，尤其是在理解招聘人员每次搜索的意图时。

解决方案：BM25 算法实现快速、准确的全文搜索

OpenSearch 服务的 BM25 算法通过让 Juicebox 优化全文搜索性能，同时保持准确性，快速发挥了重要作用。通过关键词相关性评分，BM25有助于根据与招聘人员查询的匹配可能性来对个人资料进行排名。该优化将我们的平均查询延迟从大约 700 毫秒减少到 250毫秒，使招聘人员能够比以前的搜索实现更快地检索相关个人资料。

借助 BM25，我们观察到关键词搜索的延迟几乎减少了三分之二，明显提升了用户的整体搜索体验。

问题 2：匹配意图，而不仅仅是关键词

在招聘过程中，精确的关键词匹配往往会导致错过合格候选人。例如，寻找“具备 NLP经验的数据科学家”的招聘人员，可能会错过那些个人资料中包含“机器学习”的候选人，尽管他们具备相应的专业知识。

解决方案：使用 k-NN 向量搜索实现语义理解

为了解决这一问题，Juicebox 采用了 [k-最近邻 (k-NN) 向量搜索](https://docs.aws.amazon.com/opensearch- service/latest/developerguide/semantic- search.html)。向量嵌入使系统能够理解招聘查询背后的上下文，并根据语义匹配候选人，而不仅仅是关键词匹配。我们维护着一个规模达十亿的向量搜索索引，得益于 OpenSearch 服务的优化，如产品量化能力，能够实现低延迟的 k-NN 搜索。神经搜索功能帮助我们构建了一个检索增强生成 (RAG) 流程，在搜索前对自然语言查询进行嵌入。OpenSearch 服务使我们能够优化算法超参数，如 Hidden Navigable Small Worlds (HNSW) 的 m、ef_search 和 ef_construction，从而实现我们的目标延迟、召回和成本目标。

借助 k-NN 驱动的语义搜索，我们在复杂查询中发现的相关候选人增加了 35%。这些向量化查询的速度仍然快速而准确，达到 0.9 以上的。

问题 3：机器学习模型基准测试的困难

有多个关键绩效指标 (KPI) 衡量搜索的成功。当使用向量嵌入时，您在选择模型、微调模型和选择超参数时有很多选择。您需要基准测试您的解决方案，以确保您获得正确的延迟、成本，尤其是准确性。由于可用的快速演变模型数量庞大（例如 Hugging Face 上的 MTEB 排行榜），基准测试机器学习 (ML) 模型的召回率和性能变得愈加困难。我们在选择和准确测量模型时面临挑战，同时确保在大数据集上表现良好。

解决方案：在 OpenSearch 服务中使用精确 k-NN 和评分脚本

Juicebox 使用了
解决这些挑战。此功能通过执行暴力的最近邻搜索并对向量子集应用过滤器，实现了精确的基准测试，从而确保召回率指标的准确性。利用 OpenSearch 服务提供的多种预训练模型和（与和集成）简化了模型测试。灵活应用过滤和自定义评分脚本使我们能自信地评估多个高维数据集上的模型。

Juicebox 能够以精细控制测量模型性能，达到 0.9 以上的召回率。使用精确的 k-NN 使 Juicebox即使在十亿级数据上基准测试也更加快速且可靠，从而提供了模型选择所需的信心。

问题 4：缺少数据驱动的洞察

招聘人员不仅需要找到候选人，还需要获得更广泛的人才行业趋势的洞察。分析数亿个个人资料以识别技能、地理位置和行业趋势是一项计算密集型任务。大多数其他支持全文搜索或 k-NN 搜索的搜索引擎不支持聚合功能。

解决方案：OpenSearch 服务的高级聚合功能

OpenSearch 服务强大的聚合功能使我们能够构建功能，为招聘人员提供从聚合数据中获得的可操作见解。通过跨数百万个个人资料执行大规模聚合，我们识别出关键技能和招聘趋势，帮助客户调整其人才搜索策略。

聚合查询现在在超 1 亿个个人资料上运行，并在 800 毫秒内返回结果，使招聘人员能够瞬时生成洞察。

问题 5：简化数据摄取和索引

Juicebox 不断从多个网络源摄取数据，每月达到数 TB 的新数据。我们需要一个强大的数据管道，以规模高效地摄取、索引和查询这些数据，而不降低性能。

解决方案：使用 Amazon OpenSearch 摄取管道实现可扩展的数据摄取

利用，我们实施了可扩展的管道。这使我们能够高效处理和索引每月数亿个个人资料，而无需担心管道故障或系统瓶颈。我们使用从多个源预处理数据，将其拆分为优化处理的块，并输入到我们的索引管道中。

结论

在本篇文章中，我们分享了 Juicebox 如何利用 OpenSearch服务提升搜索效果。我们现在可以每月索引数亿个个人资料，保持数据的新鲜与更新，同时在搜索时保持实时可用性。

关于作者

删除)IshanGupta** 是 Juicebox 的联合创始人兼首席技术官，这是一家由顶尖硅谷投资者支持的人工智能招聘软件初创公司，包括 YCombinator、Nat Friedman 和 Daniel Gross。他已经构建了供数千名客户使用的搜索产品，以帮助他们招募人才。

删除)JonHandler** 是亚马逊网络服务 (AWS) 搜索服务的解决方案架构总监，位于加州帕洛阿尔托。Jon 与 OpenSearch 和 AmazonOpenSearch 服务紧密合作，为众多拥有 OpenSearch 搜索和日志分析工作负载的客户提供帮助和指导。在加入 AWS 之前，Jon的软件开发职业生涯包括四年开发大规模电子商务搜索引擎。他拥有宾夕法尼亚大学的文学学士学位和西北大学的计算机科学与人工智能的硕士和博士学位。