图4.1 三种临界值点
图4.2 悬崖处的梯度下降示意图
图4.3 残差结构示意图
图4.4 梯度下降迭代搜索示意图(等高线风格)
图4.5 从不同的起始点调整θ的过程(θ是2维的情况)
图4.6 无动量和带有动量的梯度下降的比较
图4.7 Nesterov动量法和动量法更新方式的比较
图4.8 组合方法汇总
图4.9 四组算法的训练损失和测试精度的实验结果
图4.10 网格搜索示意图
图4.11 随机搜索示意图
图4.12 神经网络压缩的流程
图4.13 训练量化和权值共享过程
图4.14 网络生长和修剪过程
图4.15 网络生长和修剪算法