Distance Measurement Types

宏观理解
微观分析

宏观理解

在机器学习中有很多时候我们需要一个距离的参数。就像求数学中两个坐标点的距离一样，因为数据在分布中本身就是一个坐标点，所以同样需要计算两个数据点的距离。比如KNN算法我们要找离某一个点最近的k个数据点，再比如FaceNet中计算两张人脸的距离来判别是否是一个人等等。还有很多别的距离定义，比如汉明距离等。那么怎么求这些距离，区别在哪里？

我想先引入范数（norm）这个概念，它相当于更严谨的距离、长度的定义。它规定了在多维空间内的向量之间的距离的函数，我们有不同的函数可以用于求出两个向量的距离，他们都可以纳为范数的概念中。

微观分析

L-P范数中的P可以是0、1、2、正无穷，下面这张图可视化的是在三维空间中到原点的范数为1的点构成的图形：

其中P = 2的时候就是欧氏空间二阶范数，也叫欧式距离（Euclidean distance），也是我们在机器学习中应用的最多的一种度量方法，它的计算函数是这样的：

也就是两个点或者两个向量矩阵的差的平方再开根号。

P = 1的时候就是欧氏空间一阶范数，也叫曼哈顿距离（Manhattan Distance）。这个名字来源不是某个发明人而就是纽约的曼哈顿，因为纽约的街道往往横平竖直，就好比把曼哈顿平均给切成了n*n块一样。下面这张图就好比整个曼哈顿，有意思的是从左下角到右上角的这4中颜色的连线，按照曼哈顿距离来计算都是一样的。本人非常建议出租车改成这种计价方式，这也就避免了很多黑心司机给外地人绕道走。