对比分析BN和dropout在预测和训练时区别

batch normalization和dropout是深度学习模型中常用的结构。

但bn和dropout在训练和测试时使用却不相同。

batch normalization

bn在训练时是在每个batch上计算均值和方差来进行归一化，每个batch的样本量都不大，所以每次计算出来的均值和方差就存在差异。预测时一般传入一个样本，所以不存在归一化，其次哪怕是预测一个batch，但batch计算出来的均值和方差是偏离总体样本的，所以通常是通过滑动平均结合训练时所有batch的均值和方差来得到一个总体均值和方差。

以tensorflow代码实现为例：

def bn_layer(self, inputs, training, name='bn', moving_decay=0.9, eps=1e-5):
        # 获取输入维度并判断是否匹配卷积层(4)或者全连接层(2)
        shape = inputs.shape
        param_shape = shape[-1]
        with tf.variable_scope(name):
            # 声明bn中唯一需要学习的两个参数，y=gamma*x+beta
            gamma = tf.get_variable('gamma', param_shape, initializer=tf.constant_initializer(1))
            beta  = tf.get_variable('beat', param_shape, initializer=tf.constant_initializer(0))
            # 计算当前整个batch的均值与方差
            axes = list(range(len(shape)-1))
            batch_mean, batch_var = tf.nn.moments(inputs , axes, name='moments')
            # 采用滑动平均更新均值与方差
            ema = tf.train.exponentialmovingaverage(moving_decay, name="ema")
            def mean_var_with_update():
                ema_apply_op = ema.apply([batch_mean, batch_var])
                with tf.control_dependencies([ema_apply_op]):           
                    return tf.identity(batch_mean), tf.identity(batch_var)
            # 训练时，更新均值与方差，测试时使用之前最后一次保存的均值与方差
            mean, var = tf.cond(tf.equal(training,true), mean_var_with_update,
                    lambda:(ema.average(batch_mean), ema.average(batch_var)))
            # 最后执行batch normalization
            return tf.nn.batch_normalization(inputs ,mean, var, beta, gamma, eps)

training参数可以通过tf.placeholder传入，这样就可以控制训练和预测时training的值。

self.training = tf.placeholder(tf.bool, name="training")

dropout

dropout在训练时会随机丢弃一些神经元，这样会导致输出的结果变小。而预测时往往关闭dropout，保证预测结果的一致性（不关闭dropout可能同一个输入会得到不同的输出，不过输出会服从某一分布。另外有些情况下可以不关闭dropout，比如文本生成下，不关闭会增大输出的多样性）。

为了对齐dropout训练和预测的结果，通常有两种做法，假设dropout rate = 0.2。一种是训练时不做处理，预测时输出乘以(1 - dropout rate)。另一种是训练时留下的神经元除以(1 - dropout rate)，预测时不做处理。以tensorflow为例。

x = tf.nn.dropout(x, self.keep_prob)

self.keep_prob = tf.placeholder(tf.float32, name="keep_prob")

tf.nn.dropout就是采用了第二种做法，训练时除以(1 - dropout rate)，源码如下：

binary_tensor = math_ops.floor(random_tensor)
 ret = math_ops.div(x, keep_prob) * binary_tensor
 if not context.executing_eagerly():
   ret.set_shape(x.get_shape())
 return ret

binary_tensor就是一个mask tensor，即里面的值由0或1组成。keep_prob = 1 - dropout rate。

以上就是对比分析bn和dropout在预测和训练时区别的详细内容，更多关于bn与dropout预测训练对比的资料请关注其它相关文章！

《对比分析BN和dropout在预测和训练时区别.doc》

下载本文的Word格式文档，以方便收藏与打印。

对比分析BN和dropout在预测和训练时区别

batch normalization

dropout

相关推荐

Sourcetrail 代码分析工具的使用

Python日期带时区转换工具类总结

关联mysql失败_Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezon' 时区错误

idea连接数据库时区：Server returns invalid timezone. Go to 'Advanced' tab and set 'serverTimezone' prope

【数据库】时区及JDBC的时区设置

XTU OJ 程设训练 1407 Alice and Bob

数据分析05-matplotlib基本绘图、高级绘图

泰裤辣！！！手摸手教学，如何训练一个你的专属AI歌姬~