Optimization

  • 局部最小值 local minima
  • 鞍点 saddle point
  • 在多维度笛卡尔空间中,你以为的局部最小值很可能是鞍点,因为多出了很多个维度的方向可以走

batch and momentum

  • 分批次训练的速度和优势比较

  • 动量法改进梯度下降

自动调整学习速率

  • \sigma与梯度的关系

  • 学习速率与时间的关系

    • 逐渐下降decay
    • 模拟退火warmup

loss函数

  • 改变loss函数可以改变地形!(梯度下降中的多变量函数)

    • MSE
    • Cross-entropy等价于极大似然法,运用在向量输出的神经网络中

HW2 Classification