bsp; 激活缓存就是把这些变化不大的中间结果保存下来,在后续的步骤里直接复用,不再重新计算。在连续生成多帧画面(比如制作视频流)时,帧与帧之间的共性更大,能共用的激活值就更多,这能砍掉绝大部分冗余运算,让推理速度成倍提升。 其次,量化(quantization)技术解决的是模型在数值计算层
当前文章:http://d16o7.ruoqiaobo.cn/mostrr/whlf.html
发布时间:19:40:10
文章观点支持