Browsed by
Author: spark

DeepSeek mHC

DeepSeek mHC

解决什么问题(WHY)

Residual Connection

在一个标准的ResNet块中, 输出xl+1x_{l+1}是输入xlx_l和一个非线性变换F(xl)F(x_l)的和:

xl+1=xl+F(xl,Wl)x_{l+1}=x_l+F(x_l, W_l)

我们把这个公式从浅层l递归展开到深层L:

xL=xL1+F(xL1,WL1)=xL2+F(xL2,WL2)+F(xL1,WL1)=...=xl+Σi=LL1F(xi,Wi)x_L=x_{L-1}+F(x_{L-1}, W_{L-1})=x_{L-2}+F(x_{L-2}, W_{L-2})+F(x_{L-1}, W_{L-1})=…=x_l+\Sigma_{i=L}^{L-1}F(x_i,W_i)

下图对比了标准的ResNet、HC和mHC三种残差连接方式:

Read More Read More

1 Star2 Stars3 Stars4 Stars5 Stars (2 votes, average: 5.00 out of 5)
Loading...
IOPS、时延和并发有什么关系?

IOPS、时延和并发有什么关系?

对于用户来说,时延决定了用户体验,用户体验差一定是时延差导致的,而不一定是IOPS低。

但是对于大部分场景对性能的评估标准是IOPS,这是因为两个原因:

1)在场景固定的情况下,上层应用以及IO路径上的并发是固定的,在固定并发的情况下,时延越小IOPS更高。

2)IOPS更能体现存储系统的总的能力,对于上层应用的规划和设置更具有参考意义。

Read More Read More

1 Star2 Stars3 Stars4 Stars5 Stars (3 votes, average: 5.00 out of 5)
Loading...