• 网页
找到约 7 条相关结果

IndexCache 是清华与智谱团队推出的稀疏注意力加速技术,针对 DeepSeek 稀疏注意力(DSA)中索引器计算开销大的问题,通过跨层复用索引来减少冗余计算。IndexCache发现相邻层选择的 top-k token 重叠率高达 70%-100%,因此将层分为”全量层”(计算并缓存索引)和”共享层”(直接复用缓存)。此方法可去除 75% 的索引器计算,在 200K 上下文场景下实现预填充...详情>>