《深度学习高手笔记》简介:

本书通过扎实、详细的内容和清晰的结构,从算法理论、算法源码、实验结果等方面对深度学习算法进行分析和介绍。本书共三篇,第一篇主要介绍深度学习在计算机视觉方向的一些卷积神经网络,从基础骨干网络、轻量级 CNN、模型架构搜索 3 个方向展开,介绍计算机视觉方向的里程碑算法;第二篇主要介绍深度学习在自然语言处理方向的重要突破,包括基础序列模型和模型预训练;第三篇主要介绍深度学习在模型优化上的进展,包括模型优化方法。

通过阅读本书,读者可以深入理解主流的深度学习基础算法,搭建起自己的知识体系,领会算法的本质,学习模型优化方法。无论是从事深度学习科研的教师及学生,还是从事算法落地实践的工作人员,都能从本书中获益。

《深度学习高手笔记》摘录:

目前人工智能(Artificial Intelligence,Al)在计算机界非常火热,而其中深度学习(Deep Learning,DL)无疑是更为火热的一个领域,它在计算机视觉、自然语言处理、语音识别、跨模态分析、风控建模等领域均取得了突破性的进展。而且近年来该领域的优秀论文、落地项目也层出不穷。密切关注深度学习领域的进展是每个深度学习工作者必不可少的工作内容之一,不仅为了找工作,升职加薪,还为了更好地跟随前沿科技,汲取算法奥妙。 2014年是深度学习蓬勃发展的一年,这一年计算机视觉方向诞生的算法有VGG、GoogLeNet、RCNN、DeepLab,自然语言处理方向诞生的有注意力机制、神经图灵机、编码器-解码器架构。也就是在这一年,我开始了自己的研究生生涯,由此与人工智能和深度学习结下了不解之缘。度过了3年的求学生涯和4年的工作生涯,时间很快来到了2021年,我也有了7年的人工智能相关的科研与工作经历。在这7年的科研及工作中,我既见证了SVM、决策树、ELM等传统机器学习方法的没落,也了解了深度学习在各个方向的突破性进展。我既发表过使用传统机器学习方法解决神经机器翻译或者细胞检测问题的论文,也使用深度学习技术在OCR,公式识别,人像抠图,文本分类等方向实现了业务落地。在这7年的时间里,我读了很多论文和源码,也做了很多项目和实验。 在机缘巧合下,我听从朋友的建议将几篇学习笔记上传到了知平,没想到得到了大量的收藏和关注,因此开通了“大师兄的深度学习笔记”专栏。截稿时,我在知乎上已更新了一百多篇文章,也有了几百万的阅读量和过万的粉丝数。为了能帮助更多的读者,我将知乎专栏下的文章经过整理、修改、精校、勘误之后完成了本套图书。 本套图书共两卷,分别是卷1基础算法和卷2经典应用。卷1由3篇组成,第一篇介绍深度学习在计算机视觉方向的一些卷积神经网络,从基础骨干网络(第1章),轻...

《深度学习高手笔记》目录:

第 一篇 卷积神经网络
第 1章 基础骨干网络 3
1.1 起源:LeNet-5和AlexNet 4
1.1.1 从LeNet-5开始4
1.1.2 觉醒:AlexNet 6
1.2 更深:VGG 11
1.2.1 VGG介绍11
1.2.2 VGG的训练和测试 13
1.3 更宽:GoogLeNet14
1.3.1 背景知识14
1.3.2 Inception v117
1.3.3 GoogLeNet 19
1.3.4 Inception v219
1.3.5 Inception v320
1.3.6 Inception v421
1.3.7 Inception-ResNet23
1.4 跳跃连接:ResNet 26
1.4.1 残差网络 26
1.4.2 残差网络背后的原理 28
1.4.3 残差网络与模型集成 33
1.5 注意力:SENet 33
1.5.1 SE块 33
1.5.2 SE-Inception 和 SE-ResNet34
1.5.3 SENet 的复杂性分析 35
1.5.4 小结 35
1.6 更密:DenseNet 36
1.6.1 DenseNet 算法解析及源码实现37
1.6.2 压缩层 38
1.6.3 小结 38
1.7 模型集成:DPN 39
1.7.1 高阶 RNN、DenseNet 和残差网络39
1.7.2 DPN 详解41
1.7.3 小结.42
1.8 像素向量:iGPT 43
1.8.1 iGPT 详解44
1.8.2 实验结果分析48
1.8.3 小结 49
1.9 Visual Transformer 之 Swin Transformer 49
1.9.1 网络结构详解50
1.9.2 Swin Transformer 家族59
1.9.3 小结.60
1.10 Vision Transformer 之 CSWin Transformer60
1.10.1 CSWin Transformer 概述61
1.10.2 十字形窗口自注意力机制61
1.10.3 局部加强位置编码 62
1.10.4 CSWin Transformer 块63
1.10.5 CSWin Transformer 的复杂度 63
1.10.6 小结 64
1.11 MLP :MLP-Mixer 64
1.11.1 网络结构 64
1.11.2 讨论 67
第 2 章 轻量级 CNN68
2.1 SqueezeNet 68
2.1.1 SqueezeNet 的压缩策略 69
2.1.2 点火模块 69
2.1.3 SqueezeNet 的网络结构 70
2.1.4 SqueezeNet 的性能 72
2.1.5 小结 72
2.2 MobileNet v1 和 MobileNet v2 73
2.2.1 MobileNet v1 73
2.2.2 MobileNet v2 77
2.2.3 小结 79
2.3 Xception 80
2.3.1 Inception 回顾 80
2.3.2 Xception 详解 81
2.3.3 小结 82
2.4 ResNeXt 82
2.4.1 从全连接讲起83
2.4.2 简化 Inception 83
2.4.3 ResNeXt 详解84
2.4.4 分组卷积 84
2.4.5 小结 85
2.5 ShuffleNet v1 和 ShuffleNet v2 85
2.5.1 ShuffleNet v185
2.5.2 ShuffleNet v288
2.5.3 小结 92
2.6 CondenseNet 92
2.6.1 分组卷积的问题 93
2.6.2 可学习分组卷积 93
2.6.3 架构设计 96
2.6.4 小结 96
第 3 章 模型架构搜索 97
3.1 PolyNet 97
3.1.1 结构多样性98
3.1.2 多项式模型98
3.1.3 对照实验 100
3.1.4 Very Deep PolyNet 101
3.1.5 小结102
3.2 NAS 103
3.2.1 NAS-CNN103
3.2.2 NAS-RNN106
3.2.3 小结 108
3.3 NASNet 108
3.3.1 NASNet 控制器 109
3.3.2 NASNet 的强化学习110
3.3.3 计划 DropPath110
3.3.4 其他超参数111
3.3.5 小结 111
3.4 PNASNet 112
3.4.1 更小的搜索空间 112
3.4.2 SMBO 113
3.4.3 代理函数 114
3.4.4 PNASNet 的实验结果115
3.4.5 小结 116
3.5 AmoebaNet 116
3.5.1 搜索空间 117
3.5.2 年龄进化 118
3.5.3 AmoebaNet 的网络结构120
3.5.4 小结 121
3.6 MnasNet 121
3.6.1 优化目标 122
3.6.2 搜索空间 124
3.6.3 优化策略 125
3.6.4 小结 126
3.7 MobileNet v3 126
3.7.1 参考结构 127
3.7.2 网络搜索 127
3.7.3 人工设计 129
3.7.4 修改 SE 块 131
3.7.5 Lite R-ASPP 132
3.7.6 小结 133
3.8 EfficientNet v1 133
3.8.1 背景知识 133
3.8.2 EfficientNet v1 详解135
3.8.3 小结 137
3.9 EfficientNet v2 137
3.9.1 算法动机 137
3.9.2 EfficientNet v2 详解139
3.10 RegNet 141
3.10.1 设计空间 141
3.10.2 RegNet 详解 145
3.10.3 小结 151
第二篇  自然语言处理
第 4 章 基础序列模型 155
4.1 LSTM 和 GRU 155
4.1.1 序列模型的背景 155
4.1.2 LSTM 157
4.1.3 GRU 159
4.1.4 其他 LSTM 159
4.2 注意力机制 160
4.2.1 机器翻译的注意力机制160
4.2.2 图解注意力机制 161
4.2.3 经典注意力模型 166
4.2.4 小结 170
4.3 Transformer 170
4.3.1 Transformer 详解171
4.3.2 位置嵌入 177
4.3.3 小结 178
4.4 Transformer-XL 179
4.4.1 Transformer 的缺点 179
4.4.2 相对位置编码181
4.4.3 Transformer-XL 详解 183
4.4.4 小结 185
第 5 章 模型预训练 186
5.1 RNN 语言模型 187
5.1.1 语言模型中的 RNN187
5.1.2 训练数据 188
5.1.3 训练细节 188
5.2 ELMo 189
5.2.1 双向语言模型189
5.2.2 ELMo 详解191
5.2.3 应用 ELMo 到下游任务192
5.2.4 小结.192
5.3 GPT-1、GPT-2 和 GPT-3 192
5.3.1 GPT-1:无监督学习193
5.3.2 GPT-2:多任务学习196
5.3.3 GPT-3:海量参数197
5.3.4 小结 200
5.4 BERT 200
5.4.1 BERT 详解 201
5.4.2 小结 205
5.5 BERT“魔改”之 RoBERTa、ALBERT、MT-DNN 和 XLM 205
5.5.1 成熟版 BERT :RoBERTa 206
5.5.2 更快的 BERT :ALBERT 207
5.5.3 多任务 BERT :MT-DNN 207
5.5.4 多语言 BERT :XLM 209
5.5.5 小结211
5.6 XLNet 211
5.6.1 背景知识.212
5.6.2 XLNet 详解213
5.6.3 小结.216
5.7 ERNIE(清华大学) 216
5.7.1 加入知识图谱的动机217
5.7.2 异构信息融合217
5.7.3 DAE.220
5.7.4 ERNIE-T 的微调220
5.7.5 小结221
5.8 ERNIE(百度)和 ERNIE 2.0 221
5.8.1 ERNIE-B222
5.8.2 ERNIE 2.0.223
5.8.3 小结226
第三篇  模型优化
第 6 章 模型优化方法229
6.1 Dropout 230
6.1.1 什么是 Dropout.230
6.1.2 Dropout 的数学原理231
6.1.3 Dropout 是一个正则网络232
6.1.4 CNN 的 Dropout232
6.1.5 RNN 的 Dropout233
6.1.6 Dropout 的变体234
6.1.7 小结.236
6.2 BN 237
6.2.1 BN 详解237
6.2.2 BN 的背后原理240
6.2.3 小结.243
6.3 LN .243
6.3.1 BN 的问题.244
6.3.2 LN 详解.244
6.3.3 对照实验245
6.3.4 小结247
6.4 WN 247
6.4.1 WN 的计算247
6.4.2 WN 的原理248
6.4.3 BN 和 WN 的关系249
6.4.4 WN 的参数初始化249
6.4.5 均值 BN.249
6.4.6 小结 249
6.5 IN 250
6.5.1 IST 中的 IN250
6.5.2 IN 与 BN 对比250
6.5.3 TensorFlow 中的 IN.251
6.5.4 小结.252
6.6 GN 252
6.6.1 GN 算法252
6.6.2 GN 的源码253
6.6.3 GN 的原理253
6.6.4 小结 253
6.7 SN 254
6.7.1 SN 详解.254
6.7.2 SN 的优点.256
6.7.3 小结 256
· · · · · ·