云书馆

编辑推荐

拍立淘是阿里巴巴推出的以图搜图产品，率先改变了消费者购物的方式，影响深远。

本书围绕该产品的技术、工程实践，多角度、立体化地揭示了背后的技术机理：

1、首度剖析基于深度学习的亿级图像检索技术平台，揭示精准推荐的技术奥秘

2、深度分析计算机视觉重要算法原理与应用场景，配以详尽的PyTorch代码

3、阐述构建大规划图像搜索平台思路、技巧与落地经验

作者潘攀是阿里巴巴集团资深算法专家，达摩院视觉理解&互动视觉负责人，负责电商领域的视觉技术研发；拍立淘以图搜图的负责人和创始人之一，为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。

展开

作者简介

潘攀，花名启磐。

阿里巴巴集团资深算法专家，达摩院视觉理解&互动视觉负责人，负责电商领域的视觉技术研发。

拍立淘以图搜图的负责人和创始人之一，为拍立淘、淘宝直播&短视频、虚拟主播、闲鱼等业务提供核心技术。

博士毕业于美国伊利诺伊大学芝加哥分校，研究领域包括深度学习和计算机视觉等。

曾先后在美国三菱研究院和北京富士通研发中心从事视觉技术研发工作。

已发表20余篇论文，拥有10余授权专利，并获得WebVision分类，COCO检测，DAVIS分割等国际计算机视觉竞赛冠军。

展开

内容介绍

图像搜索和识别是计算机视觉领域一个非常重要且基础的题目。本书对构成图像搜索和识别系统的各个算法基础模块一一做了介绍，并在最后一章以拍立淘为例说明了各个模块是怎样一起工作的。针对每个算法模块，本书不仅深入浅出地解释了算法的工作原理，还对算法背后的演进机理和不同方法的特点进行了说明，在第2章至第8章最后均提供了经典算法的PyTorch 代码和相关参考资料。

本书既适合图像搜索和识别领域的初学者，也适合在某个单一任务方面有经验但是想扩充知识面的读者。

展开

精彩书评

推荐序

自20世纪90年代末以来，图像搜索，即基于图像内容的图像检索，在计算机视觉领域吸引了广泛的关注，研究人员展开了大量的研究。图像搜索的研究工作中一个核心问题就是如何有效地表征图像的视觉内容，使得在给定检索图像的情况下，具有相似物体或视觉表现的图像在表征空间的距离较近，反之，视觉内容不相似的图像则距离较远。

在深度学习技术被广泛应用之前，业界尝试了很多基于传统视觉技术的方法。传统的方法一般依赖人工设计的视觉特征，但此种特征通常无法有效地表征自然界中多样的视觉内容，导致在图像搜索时通常效果不佳。与此不同的是，深度学习，准确而言是深度特征学习，能自动从数据中挖掘并学习到图像的紧致视觉表征，这种表征可以同时描述图像的低层结构和高层语义信息，从而能更加有效地处理多样的视觉内容。

在几十年的艰难求索之后，深度学习的成功应用终于给图像搜索领域带来了新的生机。如今，图像搜索已经渗透到人们的日常生活中。比如阿里巴巴的拍立淘产品，能够让用户通过对商品拍照就轻松地找到相同或者相似的商品，这极大地方便了人们的日常购物。

虽然深度学习是图像搜索在多种场景的实际应用中取得较好效果的关键技术，但是要搭建一个成功有效的图像搜索系统还需要很多方法和技巧，这正是本书所要阐述的。本书详细介绍了图像处理和计算机视觉的核心算法模块，如目标检测、图像分类和图像分割等。图像搜索系统在实际场景中能稳定可靠地运行，离不开本书列出的每一个技术模块。本书也包含了一些深度学习的基础学习材料，尤其是卷积神经网络在大规模图像搜索和识别中的应用。

虽然市面上有很多关于深度学习的资料，但无论是入门介绍还是深入讲解的，大部分很少谈及大规模图像搜索和识别的重要技巧。和很多的研究论文不一样，本书深入阐述了大规模图像搜索工程系统的核心模块——向量检索。如果没有一个稳定的、大规模的向量检索系统，大规模的图像搜索就很难在实际中应用。因为一个用户查询可能会花费几分钟甚至几小时的时间，这通常取决于查询库的大小。在本书的最后，作者以阿里巴巴图像搜索和识别系统拍立淘为应用示例，介绍了这些算法在实际产品中是如何实现、配合和部署的。

作者不仅在书中介绍了大规模图像搜索和识别的相关基础技术知识，作为拍立淘的创始人和负责人，他还分享了成功构建图像搜索和识别系统的经验，这就是本书独一无二的地方。

金榕，阿里巴巴集团副总裁，达摩院副院长

好评袭来

最近几年，深度学习方法在计算机视觉领域大放异彩。从2012年AlexNet提出，到2014年GoogLeNet首次打破人类在ImageNet上的正确率，以卷积神经网络为基础的深度学习算法在计算机视觉的各个子领域都实现了远远超过传统算法的效果。同时，“AI Engineering”变成了这些算法落地和体现业务价值当中的重要一环，无论是AI创业公司还是传统企业，都关注如何通过大量开源软件和算法迅速实现业务价值。

即使对于专业的工程师而言，详细了解近年CV领域的每一个细节都是一个巨大的挑战。本书将近年来的算法进展和核心场景用体系化、代码化的方式做了一一呈现，让大家能够按图索骥，迅速理清计算机视觉领域的技术脉络，学以致用。

贾扬清

阿里巴巴集团副总裁、高级研究员

图像搜索识别系统开发需要解决哪些问题？深度学习在图像识别领域的前沿技术是什么？数十亿级图像搜索是如何实现的？阿里巴巴拍立淘是如何构建的？这本书给出了答案，是相关领域从业人员不可多得的参考书。

王井东

微软亚洲研究院首席研究员

“拍立淘，用镜头淘世界。”拍一张服装照片，上淘宝用拍立淘功能搜相似款，然后轻松获得优选的心仪服装。我相信很多女生用过拍立淘。拍立淘的负责人、来自达摩院的阿里巴巴集团资深算法专家潘攀（启磐）博士，在本书中与您分享拍立淘这一黑科技背后的图像搜索与识别方法，揭秘精准推荐和高品质搜索背后的技术奥秘。在我看来，由落地产品的一线技术大拿来写这类书，是再合适不过的，因为书中蕴含的是作者对技术和应用场景的深刻理解。读完本书，你能领悟深度学习、机器视觉和“以图搜图”的魅力，强大而有趣。

金小刚

浙江大学二级教授，“十三五”国家重点研发计划首席科学家

深度学习是近几年发展起来的机器学习方法，它的出现使人工智能技术取得了突破性的进展，大幅度提升了许多智能信息处理应用领域的性能。与学术研究关注单一技术不同，深度学习技术在工业界的落地涉及一整套“工程体系”的建立。作者潘攀于2014年在阿里巴巴研制并成功上线了基于深度学习的大规模图像检索技术平台，也就是为人熟知的拍立淘。他从阿里巴巴广阔的商业和数据生态发展中打造基于深度学习的计算机视觉技术的研发演进路线值得每一位研究人员思考。

本书系统地阐述了基于深度学习的计算机视觉技术在工业界的发展历程，相信读者在仔细阅读后一定会有所收获。

胡卫明

中国科学院自动化研究所研究员，国家杰出青年基金获得者，
国家万人计划科技创新领军人才入选者

近年来，高性能并行算力的发展、海量数据的获取和深度学习技术的突破，给人工智能技术走向应用带来了前所未有的机遇。如何体系化地解决实际问题、满足用户真正的需求，实现从算法、工程到产品的有效落地，仍然是当今人工智能创业人员面临的一个重要挑战。拍立淘作为阿里巴巴集团一项成功落地的人工智能产品，其算法实现和系统设计对业界具有良好的借鉴意义。

在本书中，潘攀博士详实介绍了从算法模块到产品的有机整合应用，相信会对人工智能从业人员有所帮助。

黄凯奇

中国科学院自动化研究所研究员，智能系统与工程研究中心主任

潘攀博士是阿里巴巴集团资深算法专家、拍立淘等图像搜索和识别产品的算法和项目负责人，有丰富的研究经验，是计算机视觉技术落地方面的资深专家。

本书以深度学习为主线，涵盖了图像搜索和识别涉及的各种基础技术及实践经验，同时提供了相应的代码；最后一章概要介绍了拍立淘的系统框架，以此说明书中各模块如何互相配合、协调工作。本书特别适合对计算机视觉技术、深度学习技术的应用感兴趣的初学者和相关从业人员。

吴建鑫

南京大学教授

本书针对基于深度神经网络的图像理解研究进行了归纳整理，并且提供了较为详细的代码实现，适合希望了解计算机视觉研究的读者。

俞扬

南京大学教授

展开

1 概述 1
1．1 图像搜索与识别概述 1
1．2 图像搜索与识别技术的发展和应用 3
1．3 深度学习与图像搜索和识别 4
1．4 本书结构 6
2 深度卷积神经网络 8
2．1 概述 8
2．1．1 深度学习背景 8
2．1．2 深度卷积神经网络 9
2．2 CNN基础操作 11
2．2．1 卷积操作 11
2．2．2 池化操作 12
2．2．3 全连接层 13
2．2．4 激活层 14
2．2．5 批归一化层 14
2．2．6 小结 16
2．3 常见的CNN模型结构 16
2．3．1 网络结构超参数 17
2．3．2 单分支网络结构 19
2．3．3 多分支网络结构 24
2．3．4 小结 38
2．4 常见目标损失函数 38
2．5 本章总结 40
2．6 参考资料 40
3 图像分类 43
3．1 概述 43
3．2 单标记分类 44
3．2．1 常用数据集及评价指标 44
3．2．2 损失函数 45
3．2．3 提升分类精度的实用技巧 47
3．2．4 基于搜索的图像分类 50
3．3 细粒度图像分类 51
3．3．1 概述 51
3．3．2 基于部件对齐的细粒度分类方法 52
3．3．3 基于高阶特征池化的细粒度分类方法 55
3．3．4 小结 56
3．4 多标记图像分类 56
3．4．1 概述 56
3．4．2 baseline：一阶方法 58
3．4．3 标记关系建模 59
3．4．4 小结 60
3．5 代码实践 61
3．6 本章总结 63
3．7 参考资料 63
4 目标检测 66
4．1 概述 66
4．2 两阶段目标检测算法 68
4．2．1 候选框生成 69
4．2．2 特征抽取 71
4．2．3 训练策略 73
4．2．4 小结 76
4．3 单阶段目标检测算法 76
4．3．1 YOLO算法 76
4．3．2 SSD算法 78
4．3．3 RetinaNet算法 81
4．3．4 无锚点框检测算法 83
4．3．5 小结 87
4．4 代码实践 88
4．5 本章总结 91
4．6 参考资料 92
5 图像分割 95
5．1 概述 95
5．2 语义分割 96
5．2．1 概述 96
5．2．2 全卷积神经网络 97
5．2．3 空洞卷积 99
5．2．4 U-Net结构 100
5．2．5 条件随机场关系建模 101
5．2．6 Look Wider to See Better 103
5．2．7 Atrous Spatial Pyramid Pooling算法 104
5．2．8 Context Encoding for Semantic Segmentation 104
5．2．9 多卡同步批归一化 107
5．2．10 小结 107
5．3 实例分割 108
5．3．1 概述 108
5．3．2 FCIS 109
5．3．3 Mask R-CNN 111
5．3．4 Hybrid Task Cascade框架 113
5．3．5 小结 115
5．4 代码实践 115
5．5 本章总结 120
5．6 参考资料 120
6 特征学习 124
6．1 概述 124
6．2 基于分类识别的特征训练 126
6．2．1 Sigmoid函数 127
6．2．2 Softmax函数 128
6．2．3 Weighted Softmax函数 129
6．2．4 Large-Margin Softmax函数 130
6．2．5 ArcFace函数 132
6．2．6 小结 133
6．3 基于度量学习的特征训练 134
6．3．1 Contrastive损失函数 135
6．3．2 Triplet损失函数 137
6．3．3 三元组损失函数在行人再识别中的应用 139
6．3．4 Quadruplet损失函数 140
6．3．5 Listwise Learning 141
6．3．6 组合损失函数 142
6．3．7 小结 142
6．4 代码实践 143
6．5 本章总结 143
6．6 参考资料 144
7 向量检索 147
7．1 概述 147
7．2 局部敏感哈希算法 149
7．2．1 预处理 150
7．2．2 搜索 151
7．2．3 小结 152
7．3 乘积量化系列算法 152
7．3．1 PQ算法 153
7．3．2 IVFPQ算法 155
7．3．3 OPQ算法 156
7．3．4 小结 157
7．4 图搜索算法 157
7．4．1 NSW算法 158
7．4．2 Kgraph算法 161
7．4．3 HNSW算法 163
7．4．4 图搜索算法实验对比 165
7．4．5 小结 165
7．5 代码实践 166
7．6 本章总结 167
7．7 参考资料 168
8 图文理解 171
8．1 概述 171
8．2 图文识别 172
8．2．1 概述 172
8．2．2 数据集和评测标准 174
8．2．3 特征融合方法 176
8．2．4 小结 182
8．3 图文搜索 182
8．3．1 概述 182
8．3．2 数据集和评测标准 184
8．3．3 Dual Attention Networks 185
8．3．4 Bottom-Up Attention 187
8．3．5 图文搜索的损失函数 189
8．3．6 小结 190
8．4 代码实践 191
8．5 本章总结 194
8．6 参考资料 194
9 阿里巴巴图像搜索识别系统 197
9．1 概述 197
9．2 背景介绍 198
9．3 图像搜索架构 200
9．3．1 类目预测模块 200
9．3．2 目标检测和特征联合学习 201
9．3．3 图像索引和检索 205
9．4 实验和结果分析 207
9．5 本章总结 210
9．6 参考资料 211

展开