常用模型正则化方法
针对大规模结构化预测问题的模型常常容易面临过拟合问题。过拟合问题是指模型在训练集上错误率很低,但在测试数据集上错误率偏高。要解决模型过拟合问题,我们需要对模型引入惩罚项以降低模型复杂度。具体有以下常用方法:
针对大规模结构化预测问题的模型常常容易面临过拟合问题。过拟合问题是指模型在训练集上错误率很低,但在测试数据集上错误率偏高。要解决模型过拟合问题,我们需要对模型引入惩罚项以降低模型复杂度。具体有以下常用方法:
论文 ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA
神经网络训练问题是非凸优化的重要内容,可用以下公式表示:
\[min_{x \in R^n} f(x) := \frac{1}{M}\sum_{i=1}^Mf_i(x)\]1、先读文献摘要
摘要部分是对paper内容高度抽象浓缩,既可以帮助对要讨论的内容的建立把握、认识,也能帮助从众多论文中筛选优质内容节省时间。对于不是自己关注研究领域,仅读摘要部分也不失为一种开阔视野的方法。
2、明确所在研究领域的大问题
站在更高的视角上,明确所在研究领域的大问题,而不是着急地去考究这一篇论文在阐述什么。
什么是梯度爆炸
在神经网络(RNN)中,误差梯度的作用是用来以合适的方向和合适大小更新网络结构权重值。
在神经网络训练过程中,误差梯度值是不断累积的,从一个小值可能会变化到一个异常大的值,这种误差梯度巨大浮动反过来会导致权重向量的剧烈变化,最终训练的网络结构不够稳定。在极端条件下,由于权重向量更新很大,导致程序内存溢出,输出结果是NAN。