一、神经网络中的超参数 根据吴恩达老师深度学习视频,按重要性给神经网络中的超参数排个序: 学习率α 动量梯度下降中的β,隐藏单元数hidden_units,批处理大小mini_batch_size 层数layers,学习率衰减参数learning_rate_decay 一个好的神经网络难免会经过多次调参,吴恩达老师给出的调参策略是,先随机选取多组参…
一、mini-batch梯度下降 向量化样本数据能够帮助我们同时计算多个样本,例如每个样本的特征数为50,样本数为100,我们可以构造样本数据矩阵(50,100),将矩阵输入到神经网络中就可以同时计算100个样本数据的输出值,神经网络输出值的维度为(1,100)。 $$ \begin{aligned} input:X(n_x,m),n_x为特征数,…
一、训练集、验证集和测试集的划分 在机器学习发展的小数据时代,常见做法是将所有数据三七分,即70%训练集和30%测试集,如果没有明确设置验证集,也可以按照60%训练集,20%验证集,20%测试集来划分。 这是早些年机器学习领域普遍认可的最好的实践方法,如果数据只有100条,1000条或10000条,上述比例是非常合理的。 但是在大数据时代,我们现在…
一、梯度下降法 1.梯度下降的简单使用 神经网络的一个核心是反向传播,而反向传播的核心思想是利用梯度下降法和链式求导法则来对网络中的参数进行更新。让我们通过逻辑回归中的参数更新,简单介绍一下梯度下降法的使用。 $$ \begin{aligned} &(1)z = W^Tx^{(i)} + b \ \end{aligned} $$ $$ \b…