|
 【产通社,12月22日讯】摩尔线程(Moore Threads;股票代码:688795)官网消息,其创新研究论文《TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text》近日被自然语言处理领域的顶级国际会议EMNLP 2025收录。该论文提出了一种创新的“混合离线-在线”RAG推理架构,通过预计算与复用KV Cache(Key-value Cache),显著提升生成式检索增强系统的推理效率,为大模型在高频交互与实时响应场景中的应用提供了全新的技术解决方案。 传统Retrieval-Augmented Generation(RAG)系统在处理多文档任务时面临显著瓶颈:频繁检索文档需要重复编码,带来大量冗余计算;长上下文拼接注意力机制复杂度呈平方级增长,严重影响首令牌生成速度,导致延迟;同时,显存占用过高也限制了批处理规模,影响系统整体吞吐,形成性能瓶颈。这些问题制约了RAG系统在实时交互场景中的广泛应用。 摩尔线程TurboRAG通过引入“分块预计算KV Cache”与“位置重编码”两项核心技术,在不改变模型架构的前提下,实现了多文档上下文的快速拼接与高效推理。实验结果显示,在LongBench等多文档问答基准测试中,TurboRAG将首令牌生成速度最高加快9.4倍,平均提升8.6倍,同时在线推理计算量大幅降低98.5%。在大模型文档问答的准确性基准RGB中,即使噪声文档比例高达80%,TurboRAG的答案准确率仍与GPT-4o相当,且模型通用能力保持稳定。该技术已成功在Qwen2、LLaMA等主流开源模型上完成验证,展现出优秀的通用性与工程落地潜力。 作为专注于智能计算创新的科技企业,摩尔线程持续深耕大模型推理加速与系统优化领域。本次被EMNLP 2025收录的TurboRAG研究成果,体现了公司在"算法-系统协同设计"方面的技术实力。查询进一步信息,请访问官方网站 http://developer.mthreads.com。(张怡,产通发布) (完)
|