Hung-yi Lee ML Lecture 2: What to do if my network fails to train
Optimization
- 局部最小值 local minima
 - 鞍点 saddle point
 - 在多维度笛卡尔空间中,你以为的局部最小值很可能是鞍点,因为多出了很多个维度的方向可以走
 
batch and momentum
- 
分批次训练的速度和优势比较
 - 
动量法改进梯度下降
 
自动调整学习速率
- 
\sigma与梯度的关系
 - 
学习速率与时间的关系
- 逐渐下降decay
 - 模拟退火warmup
 
 
loss函数
- 
改变loss函数可以改变地形!(梯度下降中的多变量函数)
- MSE
 - Cross-entropy等价于极大似然法,运用在向量输出的神经网络中
 
 
