# proj149-largescale-vector-search-system **Repository Path**: oscomp/proj149-largescale-vector-search-system ## Basic Information - **Project Name**: proj149-largescale-vector-search-system - **Description**: https://github.com/oscomp/proj149-largescale-vector-search-system - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-01-18 - **Last Updated**: 2024-11-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # proj149-largescale-vector-search-system 大规模向量搜索系统研究 ### 项目描述 随着深度学习在各个领域都有了重大突破,各种内容都能够更有效地被表达成为高维向量,例如,多媒体内容,自然语言语料等。基于向量的搜索目前在深度信息检索中发挥着越来越重要的作用。那么如何快速地在大规模向量数据集中找到与查询向量最近的topK个向量成为了一个很重要的研究问题。我们的目标是设计实现一个高效的向量检索系统,探索如何有效平衡系统资源需求、搜索质量和搜索速度。 ### 所属赛道 2022全国大学生操作系统比赛的“OS功能挑战”赛道 ### 参赛要求 - 以小组为单位参赛,最多三人一个小组,且小组成员是来自同一所高校的本科生(2022年春季学期或之后本科毕业的大一~大四的学生) - 如学生参加了多个项目,参赛学生选择一个自己参加的项目参与评奖 - 请遵循“2022全国大学生操作系统比赛”的章程和技术方案要求 ### 项目导师 陈琪 * github MaggieQi * email cheqi@microsoft.com 张虔熙 * github zqxjjj * email qianxi.zhang@microsoft.com ### 难度 困难 ### 特征 - 实现内存与硬盘相结合的索引构建和查询系统,支持高并发毫秒量级查询 - 评价指标:内存需求量,硬盘需求量,top10查询召回率,平均每个CPU核每秒查询吞吐量,50分位点和99分位点查询延迟,50分位点和99分位点每个查询的IO次数和IO大小 ### 文档 测试数据集和说明文档:https://big-ann-benchmarks.com/ ### License MIT ## 预期目标 ### 注意:下面的内容是建议内容,不要求必须全部完成。选择本项目的同学也可与导师联系,提出自己的新想法,如导师认可,可加入预期目标 * 描述算法思路,实现相关算法,可以编译安装运行 * 任选一个文档中的数据集进行测试(可选择100M数据集),任选一个现有的算法进行对比测试