Makemore(Become a Backprop Ninja)

约 60 个字 3 张图片 预计阅读时间不到 1 分钟

为什么在计算方差的时候,我们要使用/(n-1)而不是/n?

拓展阅读: Bessel's Correction (emory.edu)

附批量归一化手动反向传播推导 by 6ch.:

批量归一化

附上矩阵求导手写推导(很清楚)by Karpathy:

image-20250316141432146

image-20250316141500301