Browsed by
Month: 2026 年 1 月

DeepSeek mHC

DeepSeek mHC

解决什么问题(WHY)

Residual Connection

在一个标准的ResNet块中, 输出xl+1x_{l+1}是输入xlx_l和一个非线性变换F(xl)F(x_l)的和:

xl+1=xl+F(xl,Wl)x_{l+1}=x_l+F(x_l, W_l)

我们把这个公式从浅层l递归展开到深层L:

xL=xL1+F(xL1,WL1)=xL2+F(xL2,WL2)+F(xL1,WL1)=...=xl+Σi=LL1F(xi,Wi)x_L=x_{L-1}+F(x_{L-1}, W_{L-1})=x_{L-2}+F(x_{L-2}, W_{L-2})+F(x_{L-1}, W_{L-1})=…=x_l+\Sigma_{i=L}^{L-1}F(x_i,W_i)

下图对比了标准的ResNet、HC和mHC三种残差连接方式:

Read More Read More

1 Star2 Stars3 Stars4 Stars5 Stars (2 votes, average: 5.00 out of 5)
Loading...