卷积神经网络的原理与应用!

投稿用户 • 2022年10月6日 pm8:51 • 运营经验 • 阅读 188

抖店动销，抖店体验分提升。抖店任何业务可添加微信：ad07668

一、CNN原理卷积神经网络（CNN）主要是用于图像识别领域，它指的是一类网络，而不是某一种，其包含很多不同种结构的网络。不同的网络结构通常表现会不一样。从CNN的一些典型结构中，可以看到这些网络创造者非常有创造力，很多结构都非常巧妙，有机会再介绍现今主流的一些典型结构。现在我们先来简单介

一、CNN原理

卷积神经网络（CNN）主要是用于图像识别领域，它指的是一类网络，而不是某一种，其包含很多不同种结构的网络。不同的网络结构通常表现会不一样。从CNN的一些典型结构中，可以看到这些网络创造者非常有创造力，很多结构都非常巧妙，有机会再介绍现今主流的一些典型结构。现在我们先来简单介绍一下卷积神经网络的原理。

Very Deep Convolutional Networks for Large-Scale Image Recognition(2014), arXiv: 1409.1556:

所有CNN最终都是把一张图片转化为特征向量，特征向量就相当于这张图片的DNA。就像上图VGG网络一样，通过多层的卷积，池化，全连接，降低图片维度，最后转化成了一个一维向量。这个向量就包含了图片的特征，当然这个特征不是肉眼上的图片特征，而是针对于神经网络的特征。

之所以用VGG举例，因为他的网络结构非常简洁，清晰，相当好理解，简单介绍一下：

他的输入是一张224×224 的三通道图片，经过两层卷积之后，图片维度不变，通道数增加到了64。
之后那个红色的层是最大池化（max pooling）把图片维度变成了112×112。后续就是不断重复步骤1，2。
当变成1维向量之后，经过全连接（fully connected）加ReLU激活，softmax处理之后，变成了一个包含1000个数字的特征向量。

以上就是CNN所做的事情。

二、 CNN如何训练

1. 卷积神经网络的前向传播过程

在前向传播过程中，输入的图形数据经过多层卷积层的卷积和池化处理，提出特征向量，将特征向量传入全连接层中，得出分类识别的结果。当输出的结果与我们的期望值相符时，输出结果。

1.1 前向传播中的卷积操作

用一个小的权重矩阵去覆盖输入数据，对应位置加权相乘，其和作为结果的一个像素点；
这个权重在输入数据上滑动，形成一张新的矩阵：

这个权重矩阵称为卷积核（convolution kernel）；
其覆盖位置称为感受野（receptive field）；
参数共享；
滑动的像素数量叫做步长（stride）:

以卷积核的边还是中心点作为开始/结束的依据，决定了卷积的补齐（padding）方式。上面的图片是valid方式（这种方式新的矩阵维度可能会降低），而same方式则会在图像边缘用0补齐（这种方式图像维度不会降低）：

如果输入通道不只一个，那么卷积核是三阶的。所有通道的结果累加：

如图：

1.2 前向传播中的池化操作

池化又称为降采样（down_sampling），类型：

最大池化（max pooling）：在感受野内取最大值输出；
平均池化（average pooling）：在感受野内取平均值进行输出；
其他如L2池化等。

理解：

一个选择框，将输入数据某个范围（矩阵）的所有数值进行相应计算，得到一个新的值，作为结果的一个像素点；
池化也有步长和补齐的概念，但是很少使用，通常选择框以不重叠的方式，在padding=0的输入数据上滑动，生成一张新的特征图：

1.3前向传播中的全连接

特征图进过卷积层和下采样层的特征提取之后，将提取出来的特征传到全连接层中，通过全连接层，进行分类，获得分类模型，得到最后的结果。

2. 卷积神经网络的反向传播过程

当卷积神经网络输出的结果与我们的期望值不相符时，则进行反向传播过程。求出结果与期望值的误差，再将误差一层一层地返回，计算出每一层的误差，然后进行权值更新。

3. 卷积神经网络的权值更新

卷积层的误差更新过程为：将误差矩阵当做卷积核，卷积输入的特征图，并得到了权值的偏差矩阵，然后与原先的卷积核的权值相加，并得到了更新后的卷积核。

卷积神经网络的训练过程流程图：

就像这张流程图一样，不断循环这个过程。最后得到一个稳定的权值和阈值。

目前主流框架是pytorch(facebook)和tensorflow(google)。
举个例子(一个手写数字识别网络，其代码量也就100多行)：

import sys

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from tinyenv.FLAGS import flags

FLAGS = None


def train():
    mnist = input_data.read_data_sets(
        FLAGS.data_dir, one_hot=True, fake_data=FLAGS.fake_data,
    )
    sess = tf.InteractiveSession()

    with tf.name_scope('input'):
        x = tf.placeholder(tf.float32, [None, 784], name='x-input')
        y_ = tf.placeholder(tf.float32, [None, 10], name='y-input')

    with tf.name_scope('input_reshape'):
        image_shaped_input = tf.reshape(x, [-1, 28, 28, 1])
        tf.summary.image('input', image_shaped_input, 10)

    def weight_variable(shape):
        """Create a weight variable with appropriate initialization."""
        initial = tf.truncated_normal(shape, stddev=0.1)
        return tf.Variable(initial)

    def bias_variable(shape):
        """Create a bias variable with appropriate initialization."""
        initial = tf.constant(0.1, shape=shape)
        return tf.Variable(initial)

    def variable_summaries(var):
        with tf.name_scope('summaries'):
            mean = tf.reduce_mean(var)
            tf.summary.scalar('mean', mean)
            with tf.name_scope('stddev'):
                stddev = tf.sqrt(tf.reduce_mean(tf.square(var - mean)))
            tf.summary.scalar('stddev', stddev)
            tf.summary.scalar('max', tf.reduce_max(var))
            tf.summary.scalar('min', tf.reduce_min(var))
            tf.summary.histogram('histogram', var)

    def nn_layer(input_tensor, input_dim, output_dim, layer_name,
                 act=tf.nn.relu):
        with tf.name_scope(layer_name):
            with tf.name_scope('weights'):
                weights = weight_variable([input_dim, output_dim])
                variable_summaries(weights)
            with tf.name_scope('biases'):
                biases = bias_variable([output_dim])
                variable_summaries(biases)
            with tf.name_scope('Wx_plus_b'):
                preactivate = tf.matmul(input_tensor, weights) + biases
                tf.summary.histogram('pre_activations', preactivate)
            activations = act(preactivate, name='activation')
            tf.summary.histogram('activations', activations)
            return activations

    hidden1 = nn_layer(x, 784, 500, 'layer1')

    with tf.name_scope('dropout'):
        keep_prob = tf.placeholder(tf.float32)
        tf.summary.scalar('dropout_keep_probability', keep_prob)
        dropped = tf.nn.dropout(hidden1, keep_prob)

    y = nn_layer(dropped, 500, 10, 'layer2', act=tf.identity)

    with tf.name_scope('cross_entropy'):
        diff = tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y)
        with tf.name_scope('total'):
            cross_entropy = tf.reduce_mean(diff)
    tf.summary.scalar('cross_entropy', cross_entropy)

    with tf.name_scope('train'):
        train_step = tf.train.AdamOptimizer(FLAGS.learning_rate).minimize(
            cross_entropy)

    with tf.name_scope('accuracy'):
        with tf.name_scope('correct_prediction'):
            correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
        with tf.name_scope('accuracy'):
            accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    tf.summary.scalar('accuracy', accuracy)

    merged = tf.summary.merge_all()
    train_writer = tf.summary.FileWriter(FLAGS.log_dir + '/train', sess.graph)
    test_writer = tf.summary.FileWriter(FLAGS.log_dir + '/test')
    tf.global_variables_initializer().run()

    def feed_dict(train):
        if train or FLAGS.fake_data:
            xs, ys = mnist.train.next_batch(100, fake_data=FLAGS.fake_data)
            k = FLAGS.dropout
        else:
            xs, ys = mnist.test.images, mnist.test.labels
            k = 1.0
        return {x: xs, y_: ys, keep_prob: k}

    for i in range(FLAGS.iterations):
        if i % 10 == 0:  # Record summaries and test-set accuracy
            summary, acc = sess.run(
                [merged, accuracy], feed_dict=feed_dict(False))
            test_writer.add_summary(summary, i)
            print('Accuracy at step %s: %s' % (i, acc))
        else:
            if i % 100 == 99:
                run_options = tf.RunOptions(
                    trace_level=tf.RunOptions.FULL_TRACE)
                run_metadata = tf.RunMetadata()
                summary, _ = sess.run([merged, train_step],
                                      feed_dict=feed_dict(True),
                                      options=run_options,
                                      run_metadata=run_metadata)
                train_writer.add_run_metadata(run_metadata, 'step%03d' % i)
                train_writer.add_summary(summary, i)
            else:
                summary, _ = sess.run(
                    [merged, train_step], feed_dict=feed_dict(True))
                train_writer.add_summary(summary, i)
    train_writer.close()
    test_writer.close()


def main(_):
    if tf.gfile.Exists(FLAGS.log_dir):
        tf.gfile.DeleteRecursively(FLAGS.log_dir)
    tf.gfile.MakeDirs(FLAGS.log_dir)
    train()


if __name__ == '__main__':
    FLAGS = flags()
    tf.app.run(main=main, argv=[sys.argv[0]])

训练之后，其识别准确度已达到96.7%:

三、应用

1. 图片分类

假设每张图片最后获得了6维特征向量v: [-0.24754368, -0.19974484, 0.45622883, 0.01130153, 0.08802839, -0.0419769]。 我们要把图片分为3类，那么分类矩阵就应该是6 x 3维的矩阵。 因为根据矩阵乘法：m,n维的矩阵乘以n,l维的矩阵，会得到一个m,l维的矩阵。 所以1 x 6维的矩阵乘以6 x 3维的矩阵最后会得到一个1 x 3的向量。 如上述6维向量乘以分类矩阵之后得到：[-0.7777777, -0.9999999, 1.02222222]，那么很明显这张图片会被分到第三类。

2. 相似图搜索

广泛应用的人脸识别其实就是相似图搜索，比对两张照片是不是同一个人，当两张照片是同一个人时，他的欧氏距离会非常接近，反之。

余弦距离：

3.对抗样本

对抗样本和神经网络训练过程不同的是，他是固定权重，更新输入数据。比如输入一张猫的图片，人为地修改一点图片数据，肉眼上看还是一只猫，但是你告诉神经网络这是狗。最后大量数据训练这后，神经网络会把这些图片错误的分类到狗这一类。

四、新技术

1. 批归一化(Batch Normalization)

相当于把数据缩放到了合适的位置，所以应该放在卷积之后，激活函数之前。能加快网络收敛速度。一堆公式，脑壳痛：

2. Dropout(还没有合适的中文翻译)

应用广泛。在标准 Dropout 的每轮迭代中，网络中的每个神经元以 p 的概率被丢弃。Dropout能够有效的改善过拟合的情况，提升泛化能力。前几天google申请的Dropout专利生效了。

Dropout实现要点：

一般是实施在分类器之前（论文是放在最后一层分类器之后）；
Dropout以概率p置零神经元，这种情况下，保留的神经元的输出要除以1-p (论文是在inference时把所有权重乘以p)；
通常p初始值0.5。

#今日头条小助手##深度学习#

抖店动销，抖店体验分提升。抖店任何业务可添加微信：ad07668

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 sumchina520@foxmail.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.zg8899.cn/41899.html

投稿用户

国庆假期“米袋子”“菜篮子”产品的市场供应情况如何？!产品市场调研怎么做

上一篇 2022年10月6日 pm8:41

新监管下融资租赁公司和保理业务变化!保理公司是做什么的简单讲解

下一篇 2022年10月6日 pm9:01

运营经验

艺评丨未君对自然的再思考——解析裘缉木先生的没骨花鸟画!一个木和一个焦念什么

文丨未君明末清初“常州画派”创始人恽南田在论画时说：“笔墨本无情，不可使运笔墨者无情；作画在摄情，不可使鉴画者不生情”。近日拜读当代著名花鸟画家裘缉木先生的花鸟画作品，感叹不已，惊羡之情油然而生。裘缉木先生的花鸟画，既体现了他对传统文脉的深刻把握，也彰显出他在继承和发

2022年10月6日
210 0
运营经验

对话专科“逆袭”硕士的外卖员“我接受自己是平凡的人”!四个人人的具体内容是什么

9月中旬，是何成最忙碌的一段时间。他白天接受采访，回复网友提问，晚上直播，中午插空送下外卖。9月21日晚上8点多，澎湃新闻联系上何成的时候，他刚下播，吃上一口热面。他说，自己本来吃饭很慢，但最近时间太紧张了

2022年10月5日
140 0
运营经验

「抖衣行业观察」增速最快的抖音男装市场还是新蓝海吗？抖音小店卖衣服保证金是多少

抖店动销、抖店报白、过新手期、体验分提升、联系微信：ad07668据行业数据统计，抖音服装行业直播带货的消费主力军多为24-40岁间的中青年女性，在服装直播的观众之中，女性用户占比高达86%

2023年4月1日
128 0
运营经验

西瓜视频风口不在摇摆中产生！优爱腾是什么意思

前不久，巫师财经回归B站，透露出当年离开B站的原因：“是因为西瓜的待遇更好。而如今回归，是因为与西瓜视频的合约到期了。”图源：B站巫师财经一封“竞业协议”，又将西瓜视频拉回了公众视野。上一次西瓜视频留给大家的记忆点，或许还在《囧妈》时期。西瓜视频发生了什么？下一步又将去往何处？受众不对口，UGC难顶关于西瓜视频，不少人的记

2022年9月21日
149 0
运营经验

那些在追觅h12上翻的车！追觅m13和添可3.0洗地机哪个好

618g购入，追觅h12最大的优点就是价格便宜，购入时2300多，加上一些活动返现就更低了。说实话，刚到手的时候觉得这玩意儿真好用(没用过别的洗地机，我估计都挺好用的吧)，可是后来慢慢地翻车了。追觅京东自营订单追觅h12实拍至于大家都吐槽的洗地机清洁完地面之后基站里面脏的一塌糊涂，还需要专门清理基站。这个我就不吐槽了，但是还是给

2022年9月21日
199 0
运营经验

医生提醒若黑痣长在这4个部位，建议平时密切关注，及早做检查,人身上的三星护体痣

所谓“痣”，客观来说就是身体皮下组织细胞中的黑色细胞痣，临床上称为“色素痣”，属于黑色素细胞良性增生。根据色素痣的出现时间不同，可分为获得性色素痣和先天性色素痣，先天性色素痣按大小可分为先天性巨痣、先天性中等痣和先天性小痣。无论是哪种痣的出现，其实都是因为色素沉着，它

2022年12月6日
147 0
运营经验

张月因出演绿茶太逼真，被全网炮轰!季月舒

为什么林有有的扮演者张月没有像刘浩存一样被网友一骂到底，但是他为人处事的谦逊就和刘浩存形成了鲜明的对比。2020年，张月受邀参加了演员竞技类综艺，一开始所有演员都是一个初评级，而出道仅有两年半，手里只握着林有有一个角色的张月却获得了代表最具市场价值的S级，然而张月并不是

2022年10月7日
184 0
运营经验

为研究针刺麻醉，他以身试针！“以己之痛，换天下人无痛”！2020年2月27日是什么日子

11月27日是著名神经生理学家张香桐的115周年诞辰他是国际上公认的树突生理功能研究的先驱者之一中国神经科学的奠基人之一更是一位胸怀大爱的科学大家张香桐工作时的照片20世纪六十年代我国已进行很多例针刺麻醉手术但针刺麻醉到底是什么神经机制研究人员却很难概括出来为了取得第一手资料年近

2022年12月12日
129 0
运营经验

焕然一新，这些变化点亮新学年！焕然一新的意思解释？

光明日报记者周世祥姚晓丹编者按金秋九月，又一个新学年开始了。与往年一样，一批批中小学新生带着憧憬与期待走进校园；不同的是，这个学年，2022版义务教育课程方案和课程标准正式启用。新课标的启用，将在很大程度上决定未来10年义务教育的发展方向。一年多来，“

2022年10月6日
174 0
运营经验

对话深圳无臂“口书”小伙书法改变人生，想搭残健交流平台!交流平台三年级上册第一单元

早起直播写字，中午看书创作，晚上接着直播，直播完临帖写字……这是深圳龙华33岁无臂小伙何子龙的一天。近日，何子龙用嘴写毛笔字的视频，走红网络。他来自浙江丽水青田县的一个普通务农家庭，是四兄弟姊妹中的老三

2022年10月5日
225 0