📄 中文摘要
检索增强的代码生成通常依赖于大型检索代码片段来为解码器提供条件,这使得在线推理成本与代码库的大小相关,并引入了来自长上下文的噪声。提出了一种名为层次嵌入融合(HEF)的两阶段方法,用于代码补全的代码库表示。首先,离线缓存通过一个小型融合模型将代码库块压缩为可重用的密集向量层次结构。其次,在线接口将少量检索到的向量映射为学习到的伪标记,这些伪标记被代码生成器使用。这种方法用固定的伪标记预算替代了数千个检索标记,同时保留了对代码库级信息的访问。在RepoBench和RepoEval上,HEF在一个1.8B参数的模型中表现出色。