first commit

This commit is contained in:
张乾
2024-10-16 09:22:22 +08:00
parent 206fad82a2
commit bf199f7d5e
538 changed files with 97223 additions and 2 deletions

View File

@ -0,0 +1,299 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
01 二进制:不了解计算机的源头,你学什么编程
我们都知道,计算机的起源是数学中的二进制计数法。可以说,没有二进制,就没有如今的计算机系统。那什么是二进制呢?为什么计算机要使用二进制,而不是我们日常生活中的十进制呢?如何在代码中操作二进制呢?专栏开始,我们就从计算机认知的起源——二进制出发,讲讲它在计算机中的“玄机”。
什么是二进制计数法?
为了让你更好地理解二进制计数法,我们先来简单地回顾一下人类计数的发展史。
原始时代,人类用路边的小石子,来统计放牧归来的羊只数量,这表明我们很早就产生了计数的意识。后来,罗马人用手指作为计数的工具,并在羊皮上画出Ⅰ、Ⅱ、Ⅲ来代替手指的数量。表示一只手时,就写成“Ⅴ”形,表示两只手时,就画成“ⅤⅤ”形等等。
公元3世纪左右印度数学家也有说法是阿拉伯人发明了阿拉伯数字。阿拉伯数字由从0到9这样10个计数符号组成并采取进位制法高位在左低位在右从左往右书写。由于阿拉伯数字本身笔画简单演算便利因此它们逐渐在各国流行起来成为世界通用的数字。
日常生活中,我们广泛使用的十进制计数法,也是基于阿拉伯数字的。这也是十进制计数法的基础。因此,相对其他计数方法,十进制最容易被我们所理解。
让我们来观察一个数字2871。
其中^表示幂或次方运算。十进制的数位千位、百位、十位等全部都是10^n的形式。需要特别注意的是任何非0数字的0次方均为1。在这个新的表示式里10被称为十进制计数法的基数也是十进制中“十”的由来。这个我想你应该好理解因为这和我们日常生活的习惯是统一的。
明白了十进制我们再试着用类似的思路来理解二进制的定义。我以二进制数字110101为例解释给你听。我们先来看这里110101究竟代表了十进制中的数字几呢
刚才我们说了十进制计数是使用10作为基数那么二进制就是使用2作为基数类比过来二进制的数位就是2^n的形式。如果需要将这个数字转化为人们易于理解的十进制我们就可以这样来计算
按照这个思路我们还可以推导出八进制以8为基数、十六进制以16为基数等等计数法很简单我在这里就不赘述了。
至此,你应该已经理解了什么是二进制。但是仅有数学的理论知识是不够的,结合相关的代码实践,相信你会有更深刻的印象。
基于此我们来看看二进制和十进制数在Java语言中是如何互相转换的并验证一下我们之前的推算。我这里使用的是Java语言来实现的其他主流的编程语言实现方式都是类似的。
这段代码的实现采用了Java的BigInteger类及其API函数我都加了代码注释并且穿插一些解释你应该可以看懂。
首先我们引入BigInteger包通过它和Integer类的API函数进行二进制和十进制的互相转换。
import java.math.BigInteger;
public class Lesson1_1 {
/**
* @Description: 十进制转换成二进制
* @param decimalSource
* @return String
*/
public static String decimalToBinary(int decimalSource) {
BigInteger bi = new BigInteger(String.valueOf(decimalSource)); //转换成BigInteger类型默认是十进制
return bi.toString(2); //参数2指定的是转化成二进制
}
/**
* @Description: 二进制转换成十进制
* @param binarySource
* @return int
*/
public static int binaryToDecimal(String binarySource) {
BigInteger bi = new BigInteger(binarySource, 2); //转换为BigInteger类型参数2指定的是二进制
return Integer.parseInt(bi.toString()); //默认转换成十进制
}
}
然后,我们通过一个十进制数和一个二进制数,来验证一下上述代码的正确性。
public static void main(String[] args) {
int a = 53;
String b = "110101";
System.out.println(String.format("数字%d的二进制是%s", a, Lesson1_1.decimalToBinary(a))); //获取十进制数53的二进制数
System.out.println(String.format("数字%s的十进制是%d", b, Lesson1_1.binaryToDecimal(b))); //获取二进制数110101的十进制数
}
这段代码运行的结果是十进制数字53的二进制是110101二进制数字110101的十进制是53。
好了,关于十进制和二进制的概念以及进制之间的相互转换,你应该都很清楚了。既然有十进制,又有二进制,你可能就要问了,为啥计算机使用的是二进制而不是十进制呢?
计算机为什么使用二进制?
我觉得,计算机使用二进制和现代计算机系统的硬件实现有关。组成计算机系统的逻辑电路通常只有两个状态,即开关的接通与断开。
断开的状态我们用“0”来表示接通的状态用“1”来表示。由于每位数据只有断开与接通两种状态所以即便系统受到一定程度的干扰时它仍然能够可靠地分辨出数字是“0”还是“1”。因此在具体的系统实现中二进制的数据表达具有抗干扰能力强、可靠性高的优点。
相比之下如果用十进制设计具有10种状态的电路情况就会非常复杂判断状态的时候出错的几率就会大大提高。
另外二进制也非常适合逻辑运算。逻辑运算中的“真”和“假”正好与二进制的“0”和“1”两个数字相对应。逻辑运算中的加法“或”运算、乘法“与”运算以及否定“非”运算都可以通过“0”和“1”的加法、乘法和减法来实现。
二进制的位操作
了解了现代计算机是基于二进制的,我们就来看看,计算机语言中针对二进制的位操作。这里的位操作,也叫作位运算,就是直接对内存中的二进制位进行操作。常见的二进制位操作包括向左移位和向右移位的移位操作,以及“或”“与”“异或”的逻辑操作。下面我们一一来看。
向左移位
我们先来看向左移位。
二进制110101向左移一位就是在末尾添加一位0因此110101就变成了1101010。请注意这里讨论的是数字没有溢出的情况。
所谓数字溢出就是二进制数的位数超过了系统所指定的位数。目前主流的系统都支持至少32位的整型数字而1101010远未超过32位所以不会溢出。如果进行左移操作的二进制已经超出了32位左移后数字就会溢出需要将溢出的位数去除。
在这个例子中如果将1101010换算为十进制就是106你有没有发现106正好是53的2倍。所以我们可以得出一个结论二进制左移一位其实就是将数字翻倍。
向右移位
接下来我们来看向右移位。
二进制110101向右移一位就是去除末尾的那一位因此110101就变成了11010最前面的0可以省略。我们将11010换算为十进制就是26正好是53除以2的整数商。所以二进制右移一位就是将数字除以2并求整数商的操作。
下面我们来看看,用代码如何进行移位操作。
import java.math.BigInteger;
public class Lesson1_2 {
/**
* @Description: 向左移位
* @param num-等待移位的十进制数, m-向左移的位数
* @return int-移位后的十进制数
*/
public static int leftShift(int num, int m) {
return num << m;
}
/**
* @Description: 向右移位
* @param num-等待移位的十进制数, m-向右移的位数
* @return int-移位后的十进制数
*/
public static int rightShift(int num, int m) {
return num >>> m;
}
}
然后,我们用一段测试代码验证下结果。
public static void main(String[] args) {
int num = 53;
int m = 1;
System.out.println(String.format("数字%d的二进制向左移%d位是%d", num, m, Lesson1_2.leftShift(num, m))); //测试向左移位
System.out.println(String.format("数字%d的二进制向右移%d位是%d", num, m, Lesson1_2.rightShift(num, m))); //测试向右移位
System.out.println();
m = 3;
System.out.println(String.format("数字%d的二进制向左移%d位是%d", num, m, Lesson1_2.leftShift(num, m))); //测试向左移位
System.out.println(String.format("数字%d的二进制向右移%d位是%d", num, m, Lesson1_2.rightShift(num, m))); //测试向右移位
}
这段代码的运行结果是数字53向左移1位是106数字53向右移1位是26。数字53向左移3位是424数字53向右移3位是6。
我来解释一下。其中移位1次相当于乘以或除以2而移位3次就相当于乘以或除以8即2的3次方。细心的话你可能已经发现Java中的左移位和右移位的表示是不太一样的。
左移位是<<,那右移位为什么是>>>而不是>>呢?实际上,>>也是右移操作。简单来说之所以有这两种表达方式根本原因是Java的二进制数值中最高一位是符号位。这里我给你详细解释一下。
当符号位为0时表示该数值为正数当符号位为1时表示该数值为负数。我们以32位Java为例数字53的二进制为110101从右往左数的第32位是0表示该数是正数只是通常我们都将其省略。
如果数字是-53呢那么第32位就不是0而是1。请注意我这里列出的是补码。
那么这个时候向右移位就会产生一个问题对于符号位特别是符号位为1的时候我们是否也需要将其右移呢因此Java里定义了两种右移逻辑右移和算术右移。逻辑右移1位左边补0即可。
算术右移时保持符号位不变除符号位之外的右移一位并补符号位1。补的1仍然在符号位之后。
逻辑右移在Java和Python语言中使用>>>表示,而算术右移使用>>表示。如果你有兴趣,可以自己编码尝试一下,看看这两种操作符输出的结果有何不同。
在C或C++语言中,逻辑右移和算数右移共享同一个运算符>>。那么编译器是如何决定使用逻辑右移还是算数右移呢答案是取决于运算数的类型。如果运算数类型是unsigned则采用逻辑右移而是signed则采用算数右移。如果你针对unsigned类型的数据使用算数右移或者针对signed类型的数据使用逻辑右移那么你首先需要进行类型的转换。
由于左移位无需考虑高位补1还是补0符号位可能为1或0所以不需要区分逻辑左移和算术左移。
位的“或”
我们刚才说了二进制的“1”和“0”分别对应逻辑中的“真”和“假”因此可以针对位进行逻辑操作。
逻辑“或”的意思是参与操作的位中只要有一个位是1那么最终结果就是1也就是“真”。如果我们将二进制110101和100011的每一位对齐进行按位的“或”操作就会得到110111。
位的“与”
同理我们也可以针对位进行逻辑“与”的操作。“与”的意思是参与操作的位中必须全都是1那么最终结果才是1否则就为0。如果我们将二进制110101和100011的每一位对齐进行按位的“与”操作就会得到100001。
位的“异或”
逻辑“异或”和“或”有所不同它具有排异性也就是说如果参与操作的位相同那么最终结果就为0否则为 1。所以如果要得到1参与操作的两个位必须不同这就是此处“异”的含义。我们将二进制110101和100011的每一位对齐进行按位的“异或”操作可以得到结果是10110。
我总结一下“异或”操作的本质其实就是所有数值和自身进行按位的“异或”操作之后都为0。而且要通过“异或”操作得到0也必须通过两个相同的数值进行按位“异或”。这表明了两个数值按位“异或”结果为0是这两个数值相等的必要充分条件可以作为判断两个变量是否相等的条件。
接下来我们来学习一下在代码中如何实现二进制的逻辑操作。Java中使用|表示按位的“或”,&表示按位“与”,^表示按位“异或”。
import java.math.BigInteger;
public class Lesson1_3 {
/**
* @Description: 二进制按位“或”的操作
* @param num1-第一个数字num2-第二个数字
* @return 二进制按位“或”的结果
*/
public static int or(int num1, int num2) {
return (num1 | num2);
}
/**
* @Description: 二进制按位“与”的操作
* @param num1-第一个数字num2-第二个数字
* @return 二进制按位“与”的结果
*/
public static int and(int num1, int num2) {
return (num1 & num2);
}
/**
* @Description: 二进制按位“异或”的操作
* @param num1-第一个数字num2-第二个数字
* @return 二进制按位“异或”的结果
*/
public static int xor(int num1, int num2) {
return (num1 ^ num2);
}
}
同样,我们写一段测试代码,验证一下上面三个函数。
public static void main(String[] args) {
int a = 53;
int b = 35;
System.out.println(String.format("数字%d(%s)和数字%d(%s)的按位‘或’结果是%d(%s)",
a, decimalToBinary(a), b, decimalToBinary(b), Lesson2_3.or(a, b), decimalToBinary(Lesson1_3.or(a, b)))); //获取十进制数53和35的按位“或”
System.out.println(String.format("数字%d(%s)和数字%d(%s)的按位‘与’结果是%d(%s)",
a, decimalToBinary(a), b, decimalToBinary(b), Lesson2_3.and(a, b), decimalToBinary(Lesson1_3.and(a, b)))); //获取十进制数53和35的按位“与”
System.out.println(String.format("数字%d(%s)和数字%d(%s)的按位‘异或’结果是%d(%s)",
a, decimalToBinary(a), a, decimalToBinary(a), Lesson2_3.xor(a, a), decimalToBinary(Lesson1_3.xor(a, a)))); //获取十进制数53和35的按位“异或”
}
这段代码的运行结果是数字53(110101)和数字35(100011)的按位结果是55(110111)数字53(110101)和数字35(100011)的按位结果是33(100001)数字53(110101)和数字53(110101)的按位异或结果是0(0)。
小结
今天我们聊了二进制你可能会问学习二进制究竟有什么用呢平时的编程中我们好像并没有使用相关的知识啊确实目前的高级语言可以帮助我们将人类的思维逻辑转换为使用0和1的机器语言我们不用再为此操心了。但是二进制作为现代计算机体系的基石这些基础的概念和操作你一定要非常了解。
二进制贯穿在很多常用的概念和思想中例如逻辑判断、二分法、二叉树等等。逻辑判断中的真假值就是用二进制的1和0来表示的二分法和二叉树都是把要处理的问题一分为二正好也可以通过二进制的1和0来表示。因此理解了二进制你就能更加容易地理解很多计算机的数据结构和算法也为我们后面的学习打下基础。
思考题
如果不使用Java语言自带的BigInteger类我们还有什么方法来实现十进制到二进制的转换呢提示可以使用二进制的移位和按位逻辑操作来实现。
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,103 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
02 余数:原来取余操作本身就是个哈希函数
你好,我是黄申。今天我们来聊聊“余数”。
提起余数,我想你肯定不陌生,因为我们生活中就有很多很多与余数相关的例子。
比如说今天是星期三你想知道50天之后是星期几那你可以这样算拿50除以7因为一个星期有7天然后余1最后在今天的基础上加一天这样你就能知道50天之后是星期四了。
再比如我们做Web编程的时候经常要用到分页的概念。如果你要展示1123条数据每页10条那该怎么计算总共的页数呢我想你肯定是拿1123除以10最后得到商是112余数是3所以你的总页数就是112+1=113而最后的余数就是多出来凑不够一页的数据。
看完这几个例子,不知道你有没有发现,余数总是在一个固定的范围内。
比如你拿任何一个整数除以7那得到的余数肯定是在06之间的某一个数。所以当我们知道1900年的1月1日是星期一那便可以知道这一天之后的第1万天、10万天是星期几是不是很神奇
你知道整数是没有边界的它可能是正无穷也可能是负无穷。但是余数却可以通过某一种关系让整数处于一个确定的边界内。我想这也是人类发明星期或者礼拜的初衷吧任你时光变迁我都是以7天为一个周期“周”而复始地过着确定的生活。因为从星期的角度看不管你是哪一天都会落到星期一到星期日的某一天里。
我们再拿上面星期的例子来看。假如今天是星期一从今天开始的100天里都有多少个星期呢你拿100除以7得到商14余2也就是说这100天里有14周多2天。换个角度看我们可以说这100天里你的第1天、第8天、第15天等等在余数的世界里都被认为是同一天因为它们的余数都是1都是星期一你要上班的日子。同理第2天、第9天、第16天余数都是2它们都是星期二。
这些数的余数都是一样的所以被归类到了一起有意思吧是的我们的前人早已注意到了这一规律或者特点所以他们把这一结论称为同余定理。简单来说就是两个整数a和b如果它们除以正整数m得到的余数相等我们就可以说a和b对于模m同余。
也就是说上面我们说的100天里所有星期一的这些天都是同余的所有星期二的这些天就是同余的同理星期三、星期四等等这些天也都是同余的。
还有我们经常提到的奇数和偶数其实也是同余定理的一个应用。当然这个应用里它的模就是2了2除以2余0所以它是偶数3除以2余1所以它是奇数。2和4除以2的余数都是0所以它们都是一类都是偶数。3和5除以2的余数都是1所以它们都是一类都是奇数。
你肯定会说,同余定理就这么简单吗,这个定理到底有什么实际的用途啊?其实,我上面已经告诉你答案了,你不妨先自己思考下,同余定理的意义到底是什么。
简单来说,同余定理其实就是用来分类的。你知道,我们有无穷多个整数,那怎么能够全面、多维度地管理这些整数?同余定理就提供了一个思路。
因为不管你的模是几最终得到的余数肯定都在一个范围内。比如我们上面除以7就得到了星期几我们除以2就得到了奇偶数。所以按照这种方式我们就可以把无穷多个整数分成有限多个类。
这一点,在我们的计算机中,可是有大用途。
哈希Hash你应该不陌生在每个编程语言中都会有对应的哈希函数。哈希有的时候也会被翻译为散列简单来说它就是将任意长度的输入通过哈希算法压缩为某一固定长度的输出。这话听着是不是有点耳熟我们上面的求余过程不就是在做这事儿吗
举个例子假如你想要快速读写100万条数据记录要达到高速的存取最理想的情况当然是开辟一个连续的空间存放这些数据这样就可以减少寻址的时间。但是由于条件的限制我们并没有能够容纳100万条记录的连续地址空间这个时候该怎么办呢
我们可以考察一下看看系统是否可以提供若干个较小的连续空间而每个空间又能存放一定数量的记录。比如我们找到了100个较小的连续空间也就是说这些空间彼此之间是被分隔开来的但是内部是连续的并足以容纳1万条记录连续存放那么我们就可以使用余数和同余定理来设计一个散列函数并实现哈希表的结构。
那这个函数应该怎么设计呢?你可以先停下来思考思考,提醒你下,你可以再想想星期几的那个例子,因为这里面用的就是余数的思想。
下面是我想到的一种方法:
在这个公式中x表示等待被转换的数值而size表示有限存储空间的大小mod表示取余操作。通过余数你就能将任何数值转换为有限范围内的一个数值然后根据这个新的数值来确定将数据存放在何处。
具体来说我们可以通过记录标号模100的余数指定某条记录存放在哪个空间。这个时候我们的公式就变成了这样
假设有两条记录它们的记录标号分别是1和101。我们把这些模100之后余数都是1的存放到第1个可用空间里。以此类推将余数为2的2、102、202等存放到第2个可用空间将100、200、300等存放到第100个可用空间里。
这样,我们就可以根据求余的快速数字变化,对数据进行分组,并把它们存放到不同的地址空间里。而求余操作本身非常简单,因此几乎不会增加寻址时间。
除此之外为了增加数据散列的随机程度我们还可以在公式中加入一个较大的随机数MAX于是上面的公式就可以写成这样
我们假设随机数MAX是590199那么我们针对标号为1的记录进行重新计算最后的计算结果就是0而针对标号101的记录如果随机数MAX取627901对应的结果应该是2。这样先前被分配到空间1的两条记录在新的计算公式作用下就会被分配到不同的可用空间中。
你可以尝试记录2和102或者记录100和200最后应该也是同样的情况。你会发现使用了MAX这个随机数之后被分配到同一个空间中的记录就更加“随机”更适合需要将数据重新洗牌的应用场景比如加密算法、MapReduce中的数据分发、记录的高速查询和定位等等。
让我以加密算法为例在这里面引入MAX随机数就可以增强加密算法的保密程度是不是很厉害举个例子比如说我们要加密一组三位数那我们设定一个这样的加密规则
先对每个三位数的个、十和百位数,都加上一个较大的随机数。
2 然后将每位上的数都除以7用所得的余数代替原有的个、十、百位数
最后将第一位和第三位交换。
这就是一个基本的加密变换过程。
假如说我们要加密数字625根据刚才的规则我们来试试。假设随机数我选择590127。那百、十和个位分别加上这个随机数就变成了590133590129590132。然后三位分别除以7求余后得到514。最终我们可以得到加密后的数字就是415。因为加密的人知道加密的规则、求余所用的除数7、除法的商、以及所引入的随机数590127所以当拿到415的时候加密者就可以算出原始的数据是625。是不是很有意思
小结
到这里,余数的所有知识点我们都讲完了。我想在此之前,你肯定是知道余数,也明白怎么求余。但对于余数的应用不知道你之前是否有思考过呢?我们经常说,数学是计算机的基础,在余数这个小知识点里,我们就能找到很多的应用场景,比如我前面介绍的散列函数、加密算法,当然,也还有我们没有介绍到的,比如循环冗余校验等等。
余数只是数学知识中的沧海一粟。你在中学或者大学的时候,肯定接触过很多的数学知识和定理,编程的时候也会经常和数字、公式以及数据打交道,但是真正学懂数学的人却没几个。希望我们可以从余数这个小概念开始,让你认识到数学思想其实非常实用,用好这些知识,对你的编程,甚至生活都有意想不到的作用。
思考题
你可以想想,在生活和编程中,还有哪些地方用到了余数的思想呢?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,269 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
03 迭代法:不用编程语言的自带函数,你会如何计算平方根?
你好,我是黄申。
今天我们来说一个和编程结合得非常紧密的数学概念。在解释这个重要的概念之前,我们先来看个有趣的小故事。
古印度国王舍罕酷爱下棋他打算重赏国际象棋的发明人宰相西萨·班·达依尔。这位聪明的大臣指着象棋盘对国王说“陛下我不要别的赏赐请您在这张棋盘的第一个小格内放入一粒麦子在第二个小格内放入两粒第三小格内放入四粒以此类推每一小格内都比前一小格加一倍的麦子直至放满64个格子然后将棋盘上所有的麦粒都赏给您的仆人我吧
国王自以为小事一桩,痛快地答应了。可是,当开始放麦粒之后,国王发现,还没放到第二十格,一袋麦子已经空了。随着,一袋又一袋的麦子被放入棋盘的格子里,国王很快看出来,即便拿来全印度的粮食,也兑现不了对达依尔的诺言。
放满这64格到底需要多少粒麦子呢这是个相当相当大的数字想要手动算出结果并不容易。如果你觉得自己非常厉害可以试着拿笔算算。其实这整个算麦粒的过程在数学上是有对应方法的这也正是我们今天要讲的概念迭代法Iterative Method
到底什么是迭代法?
迭代法,简单来说,其实就是不断地用旧的变量值,递推计算新的变量值。
我这么说可能还是有一点抽象,不容易理解。我们还回到刚才的故事。大臣要求每一格的麦子都是前一格的两倍,那么前一格里麦子的数量就是旧的变量值,我们可以先记作\(X\_{n-1}\);而当前格子里麦子的数量就是新的变量值,我们记作\(X\_{n}\)。这两个变量的递推关系就是这样的:
如果你稍微有点编程经验,应该能发现,迭代法的思想,很容易通过计算机语言中的循环语言来实现。你知道,计算机本身就适合做重复性的工作,我们可以通过循环语句,让计算机重复执行迭代中的递推步骤,然后推导出变量的最终值。
那接下来我们就用循环语句来算算填满格子到底需要多少粒麦子。我简单用Java语言写了个程序你可以看看。
public class Lesson3_1 {
/**
* @Description: 算算舍罕王给了多少粒麦子
* @param grid-放到第几格
* @return long-麦粒的总数
*/
public static long getNumberOfWheat(int grid) {
long sum = 0; // 麦粒总数
long numberOfWheatInGrid = 0; // 当前格子里麦粒的数量
numberOfWheatInGrid = 1; // 第一个格子里麦粒的数量
sum += numberOfWheatInGrid;
for (int i = 2; i <= grid; i ++) {
numberOfWheatInGrid *= 2; // 当前格子里麦粒的数量是前一格的2倍
sum += numberOfWheatInGrid; // 累计麦粒总数
}
return sum;
}
}
下面是一段测试代码它计算了到第63格时总共需要多少麦粒。
public static void main(String[] args) {
System.out.println(String.format("舍罕王给了这么多粒:%d", Lesson3_1.getNumberOfWheat(63)));
}
计算的结果是9223372036854775807多到数不清了。我大致估算了一下一袋50斤的麦子估计有130万粒麦子那么9223372036854775807相当于70949亿袋50斤的麦子
这段代码有两个地方需要注意。首先用于计算每格麦粒数的变量以及总麦粒数的变量都是Java中的long型这是因为计算的结果实在是太大了超出了Java int型的范围第二我们只计算到了第63格这是因为计算到第64格之后总数已经超过Java中long型的范围。
迭代法有什么具体应用?
看到这里,你可能大概已经理解迭代法的核心理念了。迭代法无论是在数学,还是计算机领域都有很广泛的应用。大体上,迭代法可以运用在以下几个方面:
求数值的精确或者近似解。典型的方法包括二分法Bisection method和牛顿迭代法Newtons method
在一定范围内查找目标值。典型的方法包括二分查找。
机器学习算法中的迭代。相关的算法或者模型有很多比如K-均值算法K-means clustering、PageRank的马尔科夫链Markov chain、梯度下降法Gradient descent等等。迭代法之所以在机器学习中有广泛的应用是因为很多时候机器学习的过程就是根据已知的数据和一定的假设求一个局部最优解。而迭代法可以帮助学习算法逐步搜索直至发现这种解。
这里,我详细讲解一下求数值的解和查找匹配记录这两个应用。
1.求方程的精确或者近似解
迭代法在数学和编程的应用有很多,如果只能用来计算庞大的数字,那就太“暴殄天物”了。迭代还可以帮助我们进行无穷次地逼近,求得方程的精确或者近似解。
比如说我们想计算某个给定正整数nn>1的平方根如果不使用编程语言自带的函数你会如何来实现呢
假设有正整数n这个平方根一定小于n本身并且大于1。那么这个问题就转换成在1到n之间找一个数字等于n的平方根。
我这里采用迭代中常见的二分法。每次查看区间内的中间值,检验它是否符合标准。
举个例子假如我们要找到10的平方根。我们需要先看1到10的中间数值也就是11/2=5.5。5.5的平方是大于10的所以我们要一个更小的数值就看5.5和1之间的3.25。由于3.25的平方也是大于10的继续查看3.25和1之间的数值也就是2.125。这时2.125的平方小于10了所以看2.125和3.25之间的值一直继续下去直到发现某个数的平方正好是10。
我把具体的步骤画成了一张图,你可以看看。
我这里用Java代码演示一下效果你可以结合上面的讲解来理解迭代的过程。
public class Lesson3_2 {
/**
* @Description: 计算大于1的正整数之平方根
* @param n-待求的数, deltaThreshold-误差的阈值, maxTry-二分查找的最大次数
* @return double-平方根的解
*/
public static double getSqureRoot(int n, double deltaThreshold, int maxTry) {
if (n <= 1) {
return -1.0;
}
double min = 1.0, max = (double)n;
for (int i = 0; i < maxTry; i++) {
double middle = (min + max) / 2;
double square = middle * middle;
double delta = Math.abs((square / n) - 1);
if (delta <= deltaThreshold) {
return middle;
} else {
if (square > n) {
max = middle;
} else {
min = middle;
}
}
}
return -2.0;
}
}
这是一段测试代码我们用它来找正整数10的平方根。如果找不到精确解我们就返回一个近似解。
public static void main(String[] args) {
int number = 10;
double squareRoot = Lesson3_2.getSqureRoot(number, 0.000001, 10000);
if (squareRoot == -1.0) {
System.out.println("请输入大于1的整数");
} else if (squareRoot == -2.0) {
System.out.println("未能找到解");
} else {
System.out.println(String.format("%d的平方根是%f", number, squareRoot));
}
}
这段代码的实现思想就是我前面讲的迭代过程,这里面有两个小细节我解释下。
第一我使用了deltaThreshold来控制解的精度。虽然理论上来说可以通过二分的无限次迭代求得精确解但是考虑到实际应用中耗费的大量时间和计算资源绝大部分情况下我们并不需要完全精确的数据。
第二我使用了maxTry来控制循环的次数。之所以没有使用while(true)循环是为了避免死循环。虽然在这里使用deltaThreshold理论上是不会陷入死循环的但是出于良好的编程习惯我们还是尽量避免产生的可能性。
说完了二分迭代法我这里再简单提一下牛顿迭代法。这是牛顿在17世纪提出的一种方法用于求方程的近似解。这种方法以微分为基础每次迭代的时候它都会去找到比上一个值\(x\_{0}\)更接近的方程的根,最终找到近似解。该方法及其延伸也被应用在机器学习的算法中,在之后机器学习中的应用中,我会具体介绍这个算法。
2.查找匹配记录
二分法中的迭代式逼近,不仅可以帮我们求得近似解,还可以帮助我们查找匹配的记录。我这里用一个查字典的案例来说明。
在自然语言处理中,我们经常要处理同义词或者近义词的扩展。这时,你手头上会有一个同义词/近义词的词典。对于一个待查找的单词我们需要在字典中先找出这个单词以及它所对应的同义词和近义词然后进行扩展。比如说这个字典里有一个关于“西红柿”的词条其同义词包括了“番茄”和“tomato”。
那么在处理文章的时候当我们看到了“西红柿”这个词就去字典里查一把拿出“番茄”“tomato”等等并添加到文章中作为同义词/近义词的扩展。这样的话用户在搜索“西红柿”这个词的时候我们就能确保出现“番茄”或者“tomato”的文章会被返回给用户。
乍一看到这个任务的时候,你也许想到了哈希表。没错,哈希表是个好方法。不过,如果不使用哈希表,你还有什么其他方法呢?这里,我来介绍一下,用二分查找法进行字典查询的思路。
第一步,将整个字典先进行排序(假设从小到大)。二分法中很关键的前提条件是,所查找的区间是有序的。这样才能在每次折半的时候,确定被查找的对象属于左半边还是右半边。
第二步,使用二分法逐步定位到被查找的单词。每次迭代的时候,都找到被搜索区间的中间点,看看这个点上的单词,是否和待查单词一致。如果一致就返回;如果不一致,要看被查单词比中间点上的单词是小还是大。如果小,那说明被查的单词如果存在字典中,那一定在左半边;否则就在右半边。
第三步,根据第二步的判断,选择左半边或者后半边,继续迭代式地查找,直到范围缩小到单个的词。如果到最终仍然无法找到,则返回不存在。
当然,你也可以对单词进行从大到小的排序,如果是那样,在第二步的判断就需要相应地修改一下。
我把在a到g的7个字符中查找f的过程画成了一张图你可以看看。
这个方法的整体思路和二分法求解平方根是一致的,主要区别有两个方面:第一,每次判断是否终结迭代的条件不同。求平方根的时候,我们需要判断某个数的平方是否和输入的数据一致。而这里,我们需要判断字典中某个单词是否和待查的单词相同。第二,二分查找需要确保被搜索的空间是有序的。
我把具体的代码写出来了,你可以看一下。
import java.util.Arrays;
public class Lesson3_3 {
/**
* @Description: 查找某个单词是否在字典里出现
* @param dictionary-排序后的字典, wordToFind-待查的单词
* @return boolean-是否发现待查的单词
*/
public static boolean search(String[] dictionary, String wordToFind) {
if (dictionary == null) {
return false;
}
if (dictionary.length == 0) {
return false;
}
int left = 0, right = dictionary.length - 1;
while (left <= right) {
int middle = (left + right) / 2;
if (dictionary[middle].equals(wordToFind)) {
return true;
} else {
if (dictionary[middle].compareTo(wordToFind) > 0) {
right = middle - 1;
} else {
left = middle + 1;
}
}
}
return false;
}
}
我测试代码首先建立了一个非常简单的字典然后使用二分查找法在这个字典中查找单词“i”。
public static void main(String[] args) {
String[] dictionary = {"i", "am", "one", "of", "the", "authors", "in", "geekbang"};
Arrays.sort(dictionary);
String wordToFind = "i";
boolean found = Lesson3_3.search(dictionary, wordToFind);
if (found) {
System.out.println(String.format("找到了单词%s", wordToFind));
} else {
System.out.println(String.format("未能找到单词%s", wordToFind));
}
}
说的这两个例子,都属于迭代法中的二分法,我在第一节的时候说过,二分法其实也体现了二进制的思想。
小结
到这里,我想你对迭代的核心思路有了比较深入的理解。
实际上,人类并不擅长重复性的劳动,而计算机却很适合做这种事。这也是为什么,以重复为特点的迭代法在编程中有着广泛的应用。不过,日常的实际项目可能并没有体现出明显的重复性,以至于让我们很容易就忽视了迭代法的使用。所以,你要多观察问题的现象,思考其本质,看看不断更新变量值或者缩小搜索的区间范围,是否可以获得最终的解(或近似解、局部最优解),如果是,那么你就可以尝试迭代法。
思考题
在你曾经做过的项目中,是否使用过迭代法?如果有,你觉得迭代法最大的特点是什么?如果还没用过,你想想看现在的项目中是否有可以使用的地方?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,201 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
04 数学归纳法:如何用数学归纳提升代码的运行效率?
你好,我是黄申。
上次我们聊了迭代法及其应用,并用编程实现了几个小例子。不过你知道吗,对于某些迭代问题,我们其实可以避免一步步的计算,直接从理论上证明某个结论,节约大量的计算资源和时间,这就是我们今天要说的数学归纳法。
平时我们谈的“归纳”,是一种从经验事实中找出普遍特征的认知方法。比如,人们在观察了各种各样动物之后,通过它们的外观、行为特征、生活习性等得出某种结论,来区分哪些是鸟、哪些是猫等等。比如我这里列出的几个动物的例子。
通过上面的表格,我们可以进行归纳,并得出这样的结论:
如果一个动物,身上长羽毛并且会飞,那么就是属于鸟;
如果一个动物,身上长绒毛、不会飞、而且吃小鱼和老鼠,那么就属于猫。
通过观察\(5\)个动物样本的\(3\)个特征,从而得到某种动物应该具有何种特征,这种方法就是我们平时所提到的归纳法。
我们日常生活中所说的这种归纳法和数学归纳法是不一样的,它们究竟有什么区别呢?具体数学归纳法可以做什么呢?我们接着上一节舍罕王赏麦的故事继续说。
什么是数学归纳法?
上节我们提到,在棋盘上放麦粒的规则是,第一格放一粒,第二格放两粒,以此类推,每一小格内都比前一小格多一倍的麦子,直至放满\(64\)个格子。
我们假想一下自己穿越到了古印度,正站在国王的身边,看着这个棋盘,你发现第\(1\)格到第\(8\)格的麦子数分别是:\(1、2、4、8、16、32、64、128\)。这个时候,国王想知道总共需要多少粒麦子。我们小时候都玩过“找规律”,于是,我发现了这么一个规律,你看看是不是这样?
根据这个观察,我们是不是可以大胆假设,前\(n\)个格子的麦粒总数就是\(2^{n}-1\) 呢如果这个假设成立那么填满64格需要的麦粒总数就是\(1+2+2^{2}+2^{3}+2^{4}+……+ 2^{63}\)-
\(2^{64}-118446744073709551615\)。
这个假设是否成立我们还有待验证。但是对于类似这种无穷数列的问题我们通常可以采用数学归纳法Mathematical Induction来证明。
在数论中,数学归纳法用来证明任意一个给定的情形都是正确的,也就是说,第一个、第二个、第三个,一直到所有情形,概不例外。
数学归纳法的一般步骤是这样的:
证明基本情况(通常是\(n=1\)的时候)是否成立;
假设\(n=k-1\)成立,再证明\(n=k\)也是成立的(\(k\)为任意大于\(1\)的自然数)。
只要学过数学,我想你对这个步骤都不陌生。但是,现在你需要牢记这个步骤,然后我们用这个步骤来证明下开头的例子。
为了让你更好地理解,我将原有的命题分为两个子命题来证明。第一个子命题是,第\(n\)个棋格放的麦粒数为\(2^{n-1}\)。第二个子命题是,前\(n\)个棋格放的麦粒数总和为\(2^{n}-1\)。
首先,我们来证明第一个子命题。
基本情况:我们已经验证了\(n=1\)的时候,第一格内的麦粒数为\(1\),和\(2^{1-1}\)相等。因此,命题在\(k=1\)的时候成立。
假设第\(k-1\)格的麦粒数为\(2^{k-2}\)。那么第\(k\)格的麦粒数为第\(k-1\)格的\(2\)倍,也就是\(2^{k - 2}\*2=2^{k-1}\)。因此,如果命题在\(k=n-1\)的时候成立,那么在\(k=n\)的时候也成立。
所以,第一个子命题成立。在这个基础之上,我再来证明第二个子命题。
基本情况:我们已经验证了\(n=1\)的时候,所有格子的麦粒总数为\(1\)。因此命题在\(k=1\)的时候成立。
假设前\(k-1\)格的麦粒总数为\(2^{k-1}-1\)基于前一个命题的结论第k格的麦粒数为\(2^{k-1}\)。那么前\(k\)格的麦粒总数为\((2^{k-1}-1)+(2^{k-1})=2\*2^{k-1}-1=2^{k}-1\)。因此,如果命题在\(k=n-1\)的时候成立,那么在\(k=n\)的时候也成立。
说到这里,我已经证明了这两个命题都是成立的。和使用迭代法的计算相比,数学归纳法最大的特点就在于“归纳”二字。它已经总结出了规律。只要我们能够证明这个规律是正确的,就没有必要进行逐步的推算,可以节省很多时间和资源。
说到这里,我们也可以看出,数学归纳法中的“归纳”是指的从第一步正确,第二步正确,第三步正确,一直推导到最后一步是正确的。这就像多米诺骨牌,只要确保第一张牌倒下,而每张牌的倒下又能导致下一张牌的倒下,那么所有的骨牌都会倒下。从这里,你也能看出来,这和开篇提到的广义归纳法是不同的。数学归纳法并不是通过经验或样本的观察,总结出事物的普遍特征和规律。
好了,对数学归纳法的概念,我想你现在已经理解了。这里,我对上一节中有关麦粒的代码稍作修改,增加了一点代码来使用数学归纳法的结论,并和迭代法的实现进行了比较,你可以看看哪种方法耗时更长。
public static void main(String[] args) {
int grid = 63;
long start, end = 0;
start = System.currentTimeMillis();
System.out.println(String.format("舍罕王给了这么多粒:%d", Lesson3_1.getNumberOfWheat(grid)));
end = System.currentTimeMillis();
System.out.println(String.format("耗时%d毫秒", (end - start)));
start = System.currentTimeMillis();
System.out.println(String.format("舍罕王给了这么多粒:%d", (long)(Math.pow(2, grid)) - 1));
end = System.currentTimeMillis();
System.out.println(String.format("耗时%d毫秒", (end - start)));
}
在我的电脑上,这段代码运行的结果是:舍罕王给了\(9223372036854775807\)粒,耗时\(4\)毫秒。舍罕王给了这么多粒:\(9223372036854775806\),耗时\(0\)毫秒。
你可能已经发现当grid=\(63\)时,结果差了\(1\)个。这个是由于Math.pow()函数计算精度导致的误差。正确的结果应该是\(9223372036854775807\)。不过基于数学归纳结论的计算明显在耗时上占有优势。虽然在我的笔记本电脑上只有4毫秒的差距但是在生产项目的实践中这种点点滴滴的性能差距都有可能累积成明显的问题。
递归调用和数学归纳的逻辑是一样的?
我们不仅可以使用数学归纳法从理论上指导编程,还可以使用编程来模拟数学归纳法的证明。如果你仔细观察一下数学归纳法的证明过程,会不会觉得和函数的递归调用很像呢?
这里我通过总麦粒数的命题来示范一下。首先,我们要把这个命题的数学归纳证明,转换成一段伪代码,这个过程需要经过这样两步:
第一步,如果\(n\)为\(1\),那么我们就判断麦粒总数是否为\(2^{1-1}=1\)。同时,返回当前棋格的麦粒数,以及从第\(1\)格到当前棋格的麦粒总数。
第二步,如果\(n\)为\(k-1\)的时候成立,那么判断\(n\)为\(k\)的时候是否也成立。此时的判断依赖于前一格\(k-1\)的麦粒数、第\(1\)格到\(k-1\)格的麦粒总数。这也是上一步我们所返回的两个值。
你应该看出来了,这两步分别对应了数学归纳法的两种情况。在数学归纳法的第二种情况下,我们只能假设\(n=k-1\)的时候命题成立。但是,在代码的实现中,我们可以将伪代码的第二步转为函数的递归(嵌套)调用,直到被调用的函数回退到\(n=1\)的情况。然后,被调用的函数逐步返回\(k-1\)时命题是否成立。
如果要写成具体的函数,就类似下面这样:
class Result {
public long wheatNum = 0; // 当前格的麦粒数
public long wheatTotalNum = 0; // 目前为止麦粒的总数
}
public class Lesson4_2 {
/**
* @Description: 使用函数的递归(嵌套)调用,进行数学归纳法证明
* @param k-放到第几格result-保存当前格子的麦粒数和麦粒总数
* @return boolean-放到第k格时是否成立
*/
public static boolean prove(int k, Result result) {
// 证明n = 1时命题是否成立
if (k == 1) {
if ((Math.pow(2, 1) - 1) == 1) {
result.wheatNum = 1;
result.wheatTotalNum = 1;
return true;
} else return false;
}
// 如果n = (k-1)时命题成立证明n = k时命题是否成立
else {
boolean proveOfPreviousOne = prove(k - 1, result);
result.wheatNum *= 2;
result.wheatTotalNum += result.wheatNum;
boolean proveOfCurrentOne = false;
if (result.wheatTotalNum == (Math.pow(2, k) - 1)) proveOfCurrentOne = true;
if (proveOfPreviousOne && proveOfCurrentOne) return true;
else return false;
}
}
}
其中类Result用于保留每一格的麦粒数以及目前为止的麦粒总数。这个代码递归调用了函数prove(int, Result)。
从这个例子中,我们可以看出来,递归调用的代码和数学归纳法的逻辑是一致的。一旦你理解了数学归纳法,就很容易理解递归调用了。只要数学归纳证明的逻辑是对的,递归调用的逻辑就是对的,我们没有必要纠结递归函数是如何嵌套调用和返回的。
不过,和数学归纳证明稍有不同的是,递归编程的代码需要返回若干的变量,来传递\(k-1\)的状态到\(k\)。这里我使用类Result来实现这一点。
这里是一段测试的代码。
public static void main(String[] args) {
int grid = 63;
Result result = new Result();
System.out.println(Lesson4_2.prove(grid, result));
}
我们最多测试到\(63\)。因为如果测试到第\(64\)格麦粒总数就会溢出Java的long型数据。
你可以自己分析一下函数的调用和返回。我这里列出了一开始嵌套调用和到递归结束并开始返回值得的几个状态:
从这个图可以看出,函数从\(k=63\)开始调用,然后调用\(k-1\),也就是\(62\),一直到\(k=1\)的时候,嵌套调用结束,\(k=1\)的函数体开始返回值给\(k=2\)的函数体,一直到\(k=63\)的函数体。从\(k=63, 62, …, 2, 1\)的嵌套调用过程,其实就是体现了数学归纳法的核心思想,我把它称为逆向递推。而从\(k=1, 2, …, 62, 63\)的值返回过程,和上一篇中基于循环的迭代是一致的,我把它称为正向递推。
小结
今天,我介绍了一个编程中非常重要的数学概念:数学归纳法。
上一节我讲了迭代法是如何通过重复的步骤进行计算或者查询的。与此不同的是,数学归纳法在理论上证明了命题是否成立,而无需迭代那样反复计算,因此可以帮助我们节约大量的资源,并大幅地提升系统的性能。
数学归纳法实现的运行时间几乎为\(0\)。不过,数学归纳法需要我们能做出合理的命题假设,然后才能进行证明。虽然很多时候要做这点比较难,确实也没什么捷径。你就是要多做题,多去看别人是怎么解题的,自己去积累经验。
最后,我通过函数的递归调用,模拟了数学归纳法的证明过程。如果你细心的话,会发现递归的函数值返回实现了从\(k=1\)开始到\(k=n\)的迭代。说到这里,你可能会好奇:既然递归最后返回值的过程和基于循环的迭代是一致,那为什么还需要使用递归的方法呢?下一节,我们继续聊这个问题。
思考题
在你日常工作的项目中,什么地方用到了数学归纳法来提升代码的运行效率?如果没有遇到过,你可以尝试做做实验,看看是否有提升?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,150 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
05 递归(上):泛化数学归纳,如何将复杂问题简单化?
你好,我是黄申。上一节的结尾,我们用递归模拟了数学归纳法的证明。同时,我也留下了一个问题:既然递归的函数值返回过程和基于循环的迭代法一致,我们直接用迭代法不就好了,为什么还要用递归的数学思想和编程方法呢?这是因为,在某些场景下,递归的解法比基于循环的迭代法更容易实现。这是为什么呢?我们继续来看舍罕王赏麦的故事。
如何在限定总和的情况下,求所有可能的加和方式?
舍罕王和他的宰相西萨·班·达依尔现在来到了当代。这次国王学乖了,他对宰相说:“这次我不用麦子奖赏你了,我直接给你货币。另外,我也不用棋盘了,我直接给你一个固定数额的奖赏。”
宰相思考了一下回答道“没问题陛下就按照您的意愿。不过我有个小小的要求。那就是您能否列出所有可能的奖赏方式让我自己来选呢假设有四种面额的钱币1元、2元、5元和10元而您一共给我10元那您可以奖赏我1张10元或者10张1元或者5张1元外加1张5元等等。如果考虑每次奖赏的金额和先后顺序那么最终一共有多少种不同的奖赏方式呢
让我们再次帮国王想想,如何解决这个难题吧。这个问题和之前的棋盘上放麦粒有所不同,它并不是要求你给出最终的总数,而是在限定总和的情况下,求所有可能的加和方式。你可能会想,虽然问题不一样,但是求和的重复性操作仍然是一样的,因此是否可以使用迭代法?好,让我们用迭代法来试一下。
我还是使用迭代法中的术语考虑k=1,2,3,…,n的情况。在第一步也就是当n=1的时候我们可以取四种面额中的任何一种那么当前的奖赏就是1元、2元、5元和10元。当n=2的时候奖赏的总和就有很多可能性了。如果第一次奖赏了1元那么第二次有可能取1、2、5元三种面额如果取10总数超过了10元因此不可能
所以在第一次奖赏1元第二次奖赏1元后总和为2元第一次奖赏1元第二次奖赏2元后总和为3元第一次奖赏1元第二次奖赏5元后总和为6元。好吧这还没有考虑第一次奖赏2元和5元的情况。我来画个图从图中你就能发现这种可能的情况在快速地“膨胀”。
你应该能看到,虽然迭代法的思想是可行的,但是如果用循环来实现,恐怕要保存好多中间状态及其对应的变量。说到这里,你是不是很容易就想到计算编程常用的函数递归?
在递归中,每次嵌套调用都会让函数体生成自己的局部变量,正好可以用来保存不同状态下的数值,为我们省去了大量中间变量的操作,极大地方便了设计和编程。
不过,这里又有新的问题了。之前用递归模拟数学归纳法还是非常直观的。可是,这里不是要计算一个最终的数值,而是要列举出所有的可能性。那应该如何使用递归来解决呢?上一节,我只是用递归编程体现了数学归纳法的思想,但是如果我们把这个思想泛化一下,那么递归就会有更多、更广阔的应用场景。
如何把复杂的问题简单化?
首先,我们来看,如何将数学归纳法的思想泛化成更一般的情况?数学归纳法考虑了两种情况:
初始状态也就是n=1的时候命题是否成立
如果n=k-1的时候命题成立。那么只要证明n=k的时候命题也成立。其中k为大于1的自然数。
将上述两点顺序更换一下,再抽象化一下,我写出了这样的递推关系:
假设n=k-1的时候问题已经解决或者已经找到解。那么只要求解n=k的时候问题如何解决或者解是多少
初始状态就是n=1的时候问题如何解决或者解是多少
我认为这种思想就是将复杂的问题,每次都解决一点点,并将剩下的任务转化成为更简单的问题等待下次求解,如此反复,直到最简单的形式。回到开头的例子,我们再将这种思想具体化。
假设n=k-1的时候我们已经知道如何去求所有奖赏的组合。那么只要求解n=k的时候会有哪些金额的选择以及每种选择后还剩下多少奖金需要支付就可以了。
初始状态就是n=1的时候会有多少种奖赏。
有了这个思路,就不难写出这个问题的递归实现。我这里列一个基本的实现。
import java.util.ArrayList;
public class Lesson5_1 {
public static long[] rewards = {1, 2, 5, 10}; // 四种面额的纸币
/**
* @Description: 使用函数的递归(嵌套)调用,找出所有可能的奖赏组合
* @param totalReward-奖赏总金额result-保存当前的解
* @return void
*/
public static void get(long totalReward, ArrayList<Long> result) {
// 当totalReward = 0时证明它是满足条件的解结束嵌套调用输出解
if (totalReward == 0) {
System.out.println(result);
return;
}
// 当totalReward < 0时证明它不是满足条件的解不输出
else if (totalReward < 0) {
return;
} else {
for (int i = 0; i < rewards.length; i++) {
ArrayList<Long> newResult = (ArrayList<Long>)(result.clone()); // 由于有4种情况需要clone当前的解并传入被调用的函数
newResult.add(rewards[i]); // 记录当前的选择,解决一点问题
get(totalReward - rewards[i], newResult); // 剩下的问题,留给嵌套调用去解决
}
}
}
}
我们测试一下总金额为10元的时候有多少种解。
public static void main(String[] args) {
int totalReward = 10;
Lesson5_1.get(totalReward, new ArrayList<Long>());
}
最终,程序运行后大致是这种结果:
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[1, 1, 1, 1, 1, 1, 1, 1, 2]
[1, 1, 1, 1, 1, 1, 1, 2, 1]
[1, 1, 1, 1, 1, 1, 2, 1, 1]
[1, 1, 1, 1, 1, 1, 2, 2]
...
[5, 5]
[10]
这里面每一行都是一种可能。例如第一行表示分10次奖赏每次1元第二行表示分9次奖赏最后一次是2元以此类推。最终结果的数量还是挺多的一共有129种可能。试想一下如果总金额为100万的话会有多少种可能啊
这个代码还有几点需要留意的地方,我再来解释一下:
1.由于一共只有4种金额的纸币所以无论是n=1的时候还是n=k的时候我们只需要关心这4种金额对组合产生的影响而中间状态和变量的记录和跟踪这些繁琐的事情都由函数的递归调用负责。
2.这个案例的限制条件不再是64个棋格而是奖赏的总金额因此判断嵌套调用是否结束的条件其实不是次数k而是总金额。这个金额确保了递归不会陷入死循环。
3.我这里从奖赏的总金额开始每次嵌套调用的时候减去一张纸币的金额直到所剩的金额为0或者少于0然后结束嵌套调用开始返回结果值。当然你也可以反向操作从金额0开始每次嵌套调用的时候增加一张纸币的金额直到累计的金额达到或超过总金额。
小结
递归和循环其实都是迭代法的实现,而且在某些场合下,它们的实现是可以相互转化的。但是,对于某些应用场景,递归确实很难被循环取代。我觉得主要有两点原因:
第一,递归的核心思想和数学归纳法类似,并更具有广泛性。这两者的类似之处体现在:将当前的问题化解为两部分:一个当前所采取的步骤和另一个更简单的问题。
1.一个当前所采取的步骤。这种步骤可能是进行一次运算(例如每个棋格里的麦粒数是前一格的两倍),或者做一个选择(例如选择不同面额的纸币),或者是不同类型操作的结合(例如今天讲的赏金的案例)等等。
2.另一个更简单的问题。经过上述步骤之后,问题就会变得更加简单一点。这里“简单一点”,指运算的结果离目标值更近(例如赏金的总额),或者是完成了更多的选择(例如纸币的选择)。而“更简单的问题”,又可以通过嵌套调用,进一步简化和求解,直至达到结束条件。
我们只需要保证递归编程能够体现这种将复杂问题逐步简化的思想,那么它就能帮助我们解决很多类似的问题。
第二,递归会使用计算机的函数嵌套调用。而函数的调用本身,就可以保存很多中间状态和变量值,因此极大的方便了编程的处理。
正是如此,递归在计算机编程领域中有着广泛的应用,而不仅仅局限在求和等运算操作上。在下一节中,我将介绍如何使用递归的思想,进行“分而治之”的处理。
思考题
一个整数可以被分解为多个整数的乘积例如6可以分解为2x3。请使用递归编程的方法为给定的整数n找到所有可能的分解1在解中最多只能出现1次。例如输入8输出是可以是1x8, 8x1, 2x4, 4x2, 1x2x2x2, 1x2x4, ……
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,241 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
06 递归分而治之从归并排序到MapReduce
你好,我是黄申。
上一节,我解释了如何使用递归,来处理迭代法中比较复杂的数值计算。说到这里,你可能会问了,有些迭代法并不是简单的数值计算,而要通过迭代的过程进行一定的操作,过程更加复杂,需要考虑很多中间数据的匹配或者保存。例如我们之前介绍的用二分查找进行数据匹配,或者我们今天将要介绍的归并排序中的数据排序等等。那么,这种情况下,还可以用递归吗?具体又该如何来实现呢?
我们可以先分析一下,这些看似很复杂的问题,是否可以简化为某些更小的、更简单的子问题来解决,这是一般思路。如果可以,那就意味着我们仍然可以使用递归的核心思想,将复杂的问题逐步简化成最基本的情况来求解。因此,今天我会从归并排序开始,延伸到多台机器的并行处理,详细讲讲递归思想在“分而治之”这个领域的应用。
归并排序中的分治思想
首先,我们来看,如何使用递归编程解决数字的排序问题。
对一堆杂乱无序的数字按照从小到大或者从大到小的规则进行排序这是计算机领域非常经典也非常流行的问题。小到Excel电子表格大到搜索引擎都需要对一堆数字进行排序。因此计算机领域的前辈们研究排序问题已经很多年了也提出了许多优秀的算法比如归并排序、快速排序、堆排序等等。其中归并排序和快速排序都很好地体现了分治的思想今天我来说说其中之一的归并排序merge sort
很明显,归并排序算法的核心就是“归并”,也就是把两个有序的数列合并起来,形成一个更大的有序数列。
假设我们需要按照从小到大的顺序合并两个有序数列A和B。这里我们需要开辟一个新的存储空间C用于保存合并后的结果。
我们首先比较两个数列的第一个数如果A数列的第一个数小于B数列的第一个数那么就先取出A数列的第一个数放入C并把这个数从A数列里删除。如果是B的第一个数更小那么就先取出B数列的第一个数放入C并把它从B数列里删除。
以此类推直到A和B里所有的数都被取出来并放入C。如果到某一步A或B数列为空那直接将另一个数列的数据依次取出放入C就可以了。这种操作可以保证两个有序的数列A和B合并到C之后C数列仍然是有序的。
为了你能更好地理解,我举个例子说明一下,这是合并有序数组{1, 2, 5, 8}和{3, 4, 6}的过程。
为了保证得到有序的C数列我们必须保证参与合并的A和B也是有序的。可是等待排序的数组一开始都是乱序的如果无法保证这点那归并又有什么意义呢
还记得上一篇说的递归吗这里我们就可以利用递归的思想把问题不断简化也就是把数列不断简化一直简化到只剩1个数。1个数本身就是有序的对吧
好了现在剩下的疑惑就是每一次如何简化问题呢最简单的想法是我们将长度为n的数列每次简化为长度为n-1的数列直至长度为1。不过这样的处理没有并行性要进行n-1次的归并操作效率就会很低。
所以我们可以在归并排序中引入了分而治之Divide and Conquer的思想。分而治之我们通常简称为分治。它的思想就是将一个复杂的问题分解成两个甚至多个规模相同或类似的子问题然后对这些子问题再进一步细分直到最后的子问题变得很简单很容易就能被求解出来这样这个复杂的问题就求解出来了。
归并排序通过分治的思想把长度为n的数列每次简化为两个长度为n/2的数列。这更有利于计算机的并行处理只需要log2n次归并。
我们把归并和分治的思想结合起来,这其实就是归并排序算法。这种算法每次把数列进行二等分,直到唯一的数字,也就是最基本的有序数列。然后从这些最基本的有序数列开始,两两合并有序的数列,直到所有的数字都参与了归并排序。
我用一个包含09这10个数字的数组给你详细讲解一下归并排序的过程。
假设初始的数组为{7, 6, 2, 4, 1, 9, 3, 8, 0, 5},我们要对它进行从小到大的排序。
第一次分解后,变成两个数组{7, 6, 2, 4, 1}和{9, 3, 8, 0, 5}。
然后,我们将{7, 6, 2, 4, 1}分解为{7, 6}和{2, 4, 1},将{9, 3, 8, 0, 5}分解为{9, 3}和{8, 0, 5}。
如果细分后的组仍然多于一个数字,我们就重复上述分解的步骤,直到每个组只包含一个数字。到这里,这些其实都是递归的嵌套调用过程。
然后,我们要开始进行合并了。我们可以将{4, 1}分解为{4}和{1}。现在无法再细分了,我们开始合并。在合并的过程中进行排序,所以合并的结果为{1,4}。合并后的结果将返回当前函数的调用者,这就是函数返回的过程。
重复上述合并的过程,直到完成整个数组的排序,得到{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}。
为了方便你的理解,我画了张图,给你解释整个归并排序的过程。
说到这里,我想问你,这个归并排序、分治和递归到底是什么关系呢?用一句话简单地说就是,归并排序使用了分治的思想,而这个过程需要使用递归来实现。
归并排序算法用分治的思想把数列不断地简化,直到每个数列仅剩下一个单独的数,然后再使用归并逐步合并有序的数列,从而达到将整个数列进行排序的目的。而这个归并排序,正好可以使用递归的方式来实现。为什么这么说?首先,我们来看看这张图,分治的过程是不是和递归的过程一致呢?
分治的过程可以通过递归来表达,因此,归并排序最直观的实现方式就是递归。所以,我们从递归的步骤出发,来看归并排序如何实现。
我们假设n=k-1的时候我们已经对较小的两组数进行了排序。那我们只要在n=k的时候将这两组数合并起来并且保证合并后的数组仍然是有序的就行了。
所以,在递归的每次嵌套调用中,代码都将一组数分解成更小的两组,然后将这两个小组的排序交给下一次的嵌套调用。而本次调用只需要关心,如何将排好序的两个小组进行合并。
在初始状态也就是n=1的时候对于排序的案例而言只包含单个数字的分组。由于分组里只有一个数字所以它已经是排好序的了之后就可以开始递归调用的返回阶段。我这里画了张图便于你的理解。
你现在应该已经明白了归并排序的基本过程,最难的已经过去了,编写代码实现就不难了。我这里给出示范性代码,你可以参考看看。
import java.util.Arrays;
public class Lesson6_1 {
/**
* @Description: 使用函数的递归(嵌套)调用,实现归并排序(从小到大)
* @param to_sort-等待排序的数组
* @return int[]-排序后的数组
*/
public static int[] merge_sort(int[] to_sort) {
if (to_sort == null) return new int[0];
// 如果分解到只剩一个数,返回该数
if (to_sort.length == 1) return to_sort;
// 将数组分解成左右两半
int mid = to_sort.length / 2;
int[] left = Arrays.copyOfRange(to_sort, 0, mid);
int[] right = Arrays.copyOfRange(to_sort, mid, to_sort.length);
// 嵌套调用,对两半分别进行排序
left = merge_sort(left);
right = merge_sort(right);
// 合并排序后的两半
int[] merged = merge(left, right);
return merged;
}
}
这里要注意一下,在归并的步骤中,由于递归的调用确保了被合并的两个较小的数组是有序的,所以我们无需比较组内的数字,只需要比较组间的数字就行了。
这个合并过程具体的实现代码是这样的:
/**
* @Description: 合并两个已经排序完毕的数组(从小到大)
* @param a-第一个数组b-第二个数组
* @return int[]-合并后的数组
*/
public static int[] merge(int[] a, int[] b) {
if (a == null) a = new int[0];
if (b == null) b = new int[0];
int[] merged_one = new int[a.length + b.length];
int mi = 0, ai = 0, bi = 0;
// 轮流从两个数组中取出较小的值,放入合并后的数组中
while (ai < a.length && bi < b.length) {
if (a[ai] <= b[bi]) {
merged_one[mi] = a[ai];
ai ++;
} else {
merged_one[mi] = b[bi];
bi ++;
}
mi ++;
}
// 将某个数组内剩余的数字放入合并后的数组中
if (ai < a.length) {
for (int i = ai; i < a.length; i++) {
merged_one[mi] = a[i];
mi ++;
}
} else {
for (int i = bi; i < b.length; i++) {
merged_one[mi] = b[i];
mi ++;
}
}
return merged_one;
}
上述两段代码的结合就是归并排序的递归实现你可以用这段代码进行测试
public static void main(String[] args) {
int[] to_sort = {3434, 3356, 67, 12334, 878667, 387};
int[] sorted = Lesson6_1.merge_sort(to_sort);
for (int i = 0; i < sorted.length; i++) {
System.out.println(sorted[i]);
}
}
分布式系统中的分治思想
聊到这里你应该已经了解归并排序算法是如何运作的了也对分而治之的思想有了认识不过分而治之更有趣的应用其实是在分布式系统中
例如当需要排序的数组很大比如达到1024GB的时候我们没法把这些数据都塞入一台普通机器的内存里该怎么办呢有一个办法我们可以把这个超级大的数据集分解为多个更小的数据集比如16GB或者更小然后分配到多台机器让它们并行地处理
等所有机器处理完后中央服务器再进行结果的合并由于多个小任务间不会相互干扰可以同时处理这样会大大增加处理的速度减少等待时间
在单台机器上实现归并排序的时候我们只需要在递归函数内实现数据分组以及合并就行了而在多个机器之间分配数据的时候递归函数内除了分组及合并还要负责把数据分发到某台机器上
在这个框架图中你应该可以看到分布式集群中的数据切分和合并同单台机器上归并排序的过程是一样的因此也是使用了分治的思想从理论的角度来看上面这个图很容易理解不过在实际运用中有个地方需要注意一下
上图中的父结点例如机器123它们都没有被分配排序的工作只是在子结点的排序完成后进行有序数组的合并因此集群的性能没有得到充分利用那么另一种可能的数据切分方式是每台机器拿出一半的数据给另一台机器处理而自己来完成剩下一半的数据
如果分治的时候只进行一次问题切分那么上述层级型的分布式架构就可以转化为类似MapReduce的架构我画出了MapReduce的主要步骤你可以看看这里面有哪些步骤体现了分治的思想
这里面主要有三个步骤用到了分治的思想
1. 数据分割和映射
分割是指将数据源进行切分并将分片发送到Mapper上映射是指Mapper根据应用的需求将内容按照键-值的匹配存储到哈希结构中这两个步骤将大的数据集合切分为更小的数据集降低了每台机器节点的负载因此和分治中的问题分解类似不过MapReduce采用了哈希映射来分配数据而普通的分治或递归不一定需要
2.归约
归约是指接受到的一组键值配对如果是键内容相同的配对就将它们的值归并这和本机的递归调用后返回结果的过程类似不过由于哈希映射的关系MapReduce还需要洗牌的步骤也就是将键-值的配对不断地发给对应的Reducer进行归约普通的分治或递归不一定需要洗牌的步骤
3.合并
为了提升洗牌阶段的效率可以选择减少发送到归约阶段的键-值配对具体做法是在数据映射和洗牌之间加入合并的过程在每个Mapper节点上先进行一次本地的归约然后只将合并的结果发送到洗牌和归约阶段这和本机的递归调用后返回结果的过程类似
说了这么多你现在对分治应该有比较深入的理解了实际上分治主要就是用在将复杂问题转化为若干个规模相当的小问题上分治思想通常包括问题的细分和结果的合并正好对应于递归编程的函数嵌套调用和函数结果的返回细分后的问题交给嵌套调用的函数去解决而结果合并之后交由函数进行返回所以分治问题适合使用递归来实现同时分治的思想也可以帮助我们设计分布式系统和并行计算细分后的问题交给不同的机器来处理而其中的某些机器专门负责收集来自不同机器的处理结果完成结果的合并
小结
这两节我们学习了递归法递归采用了和数学归纳法类似的思想但是它用的是逆向递推化繁为简把复杂的问题逐步简化再加上分治原理我们就可以更有效地把问题细分进行并行化的处理
而计算机编程中的函数嵌套调用正好对应了数学中递归的逆向递推所以你只要弄明白了数学递推式就能非常容易的写出对应的递归编码这是为什么递归在编程领域有着非常广泛的应用不过需要注意的是递归编程在没有开始返回结果之前保存了大量的中间结果所以比较消耗系统资源这也是一般的编程语言都会限制递归的深度也就是嵌套的次数的原因
思考题
你有没有想过在归并排序的时候为什么每次都将原有的数组分解为两组而不是更多组呢如果分为更多组是否可行
欢迎在留言区交作业并写下你今天的学习笔记你可以点击请朋友读”,把今天的内容分享给你的好友和他一起精进

View File

@ -0,0 +1,218 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
07 排列:如何让计算机学会“田忌赛马”?
你好,我是黄申。
“田忌赛马”的故事我想你肯定听过吧?田忌是齐国有名的将领,他常常和齐王赛马,可是总是败下阵来,心中非常不悦。孙膑想帮田忌一把。他把这些马分为上、中、下三等。他让田忌用自己的下等马来应战齐王的上等马,用上等马应战齐王的中等马,用中等马应战齐王的下等马。三场比赛结束后,田忌只输了第一场,赢了后面两场,最终赢得与齐王的整场比赛。
孙膑每次都从田忌的马匹中挑选出一匹,一共进行三次,排列出战的顺序。是不是感觉这个过程很熟悉?这其实就是数学中的排列过程。
我们初高中的时候都学过排列它的概念是这么说的从n个不同的元素中取出m1≤m≤n个不同的元素按照一定的顺序排成一列这个过程就叫排列Permutation。当m=n这种特殊情况出现的时候比如说在田忌赛马的故事中田忌的三匹马必须全部出战这就是全排列All Permutation
如果选择出的这m个元素可以有重复的这样的排列就是为重复排列Permutation with Repetition否则就是不重复排列Permutation without Repetition
看出来没有这其实是一个树状结构。从树的根结点到叶子结点每种路径都是一种排列。有多少个叶子结点就有多少种全排列。从图中我们可以看出最终叶子结点的数量是3x2x1=6所以最终排列的数量为6。
{上等,中等,下等}
{上等,下等,中等}
{中等,上等,下等}
{中等,下等,上等}
{下等,上等,中等}
{下等,中等,上等}
我用t1t2和t3分别表示田忌的上、中、下等马跑完全程所需的时间用q1q2和q3分别表示齐王的上、中、下等马跑全程所需的时间因此q1
如果你将这些可能的排列,仔细地和齐王的上等、中等和下等马进行对比,只有{下等,上等,中等}这一种可能战胜齐王也就是t3>q1t1
对于最终排列的数量,这里我再推广一下:
对于n个元素的全排列所有可能的排列数量就是nx(n-1)x(n-2)x…x2x1也就是n!
对于n个元素里取出m(0≤n)个元素的不重复排列数量是nx(n-1)x(n-2)x…x(n - m + 1)也就是n!/(n-m)!。
这两点都是可以用数学归纳法证明的,有兴趣的话你可以自己尝试一下。
如何让计算机为田忌安排赛马?
我们刚才讨论了3匹马的情况这倒还好。可是如果有30匹马、300匹马怎么办30的阶乘已经是天文数字了。更糟糕的是如果两组马之间的速度关系也是非常随机的例如q1
如果你细心的话,就会发现在新版舍罕王赏麦的案例中,其实已经涉及了排列的思想,不过那个案例不是以“选取多少个元素”为终止条件,而是以“选取元素的总和”为终止条件。尽管这样,我们仍然可以使用递归的方式来快速地实现排列。
不过,要把田忌赛马的案例,转成计算机所能理解的内容,还需要额外下点功夫。
首先在不同的选马阶段我们都要保存已经有几匹马出战、它们的排列顺序、以及还剩几匹马没有选择。我使用变量result来存储到当前函数操作之前已经出战的马匹及其排列顺序。而变量horses存储了到当前函数操作之前还剩几匹马还没出战。变量new_result和rest_horses是分别从result和horses克隆而来保证不会影响上一次的结果。
其次孙膑的方法之所以奏效是因为他看到每一等马中田忌的马只比齐王的差一点点。如果相差太多可能就会有不同的胜负结局。所以在设置马匹跑完全程的时间上我特意设置为q1
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
public class Lesson7_1 {
// 设置齐王的马跑完所需时间
public static HashMap<String, Double> q_horses_time = new HashMap<String, Double>(){
{
put("q1", 1.0);
put("q2", 2.0);
put("q3", 3.0);
}
};
// 设置田忌的马跑完所需时间
public static HashMap<String, Double> t_horses_time = new HashMap<String, Double>(){
{
put("t1", 1.5);
put("t2", 2.5);
put("t3", 3.5);
}
};
public static ArrayList<String> q_horses = new ArrayList<String>(Arrays.asList("q1", "q2", "q3"));
/**
* @Description: 使用函数的递归(嵌套)调用,找出所有可能的马匹出战顺序
* @param horses-目前还剩多少马没有出战result-保存当前已经出战的马匹及顺序
* @return void
*/
public static void permutate(ArrayList<String> horses, ArrayList<String> result) {
// 所有马匹都已经出战,判断哪方获胜,输出结果
if (horses.size() == 0) {
System.out.println(result);
compare(result, q_horses);
System.out.println();
return;
}
for (int i = 0; i < horses.size(); i++) {
// 从剩下的未出战马匹中选择一匹加入结果
ArrayList<String> new_result = (ArrayList<String>)(result.clone());
new_result.add(horses.get(i));
// 将已选择的马匹从未出战的列表中移出
ArrayList<String> rest_horses = ((ArrayList<String>)horses.clone());
rest_horses.remove(i);
// 递归调用,对于剩余的马匹继续生成排列
permutate(rest_horses, new_result);
}
}
}
另外我还使用了compare的函数来比较田忌和齐王的马匹看哪方获胜。
public static void compare(ArrayList<String> t, ArrayList<String> q) {
int t_won_cnt = 0;
for (int i = 0; i < t.size(); i++) {
System.out.println(t_horses_time.get(t.get(i)) + " " + q_horses_time.get(q.get(i)));
if (t_horses_time.get(t.get(i)) < q_horses_time.get(q.get(i))) t_won_cnt ++;
}
if (t_won_cnt > (t.size() / 2)) System.out.println("田忌获胜!");
else System.out.println("齐王获胜!");
System.out.println();
}
下面是测试代码。当然你可以设置更多的马匹,并增加相应的马匹跑完全程的时间。
public static void main(String[] args) {
ArrayList<String> horses = new ArrayList<String>(Arrays.asList("t1", "t2", "t3"));
Lesson7_1.permutate(horses, new ArrayList<String>());
}
在最终的输出结果中6种排列中只有一种情况是田忌获胜的。
[t3, t1, t2]
3.5 1.0
1.5 2.0
2.5 3.0
田忌获胜!
如果田忌不听从孙膑的建议而是随机的安排马匹出战那么他只有1/6的获胜概率。
说到这里我突然产生了一个想法如果齐王也是随机安排他的马匹出战顺序又会是怎样的结果如果动手来实现的话大体思路是我们为田忌和齐王两方都生成他们马匹的全排序然后再做交叉对比看哪方获胜。这个交叉对比的过程也是个排列的问题田忌这边有6种顺序而齐王也是6种顺序所以一共的可能性是6x6=36种。
我用代码模拟了一下,你可以看看。
public static void main(String[] args) {
ArrayList<String> t_horses = new ArrayList<String>(Arrays.asList("t1", "t2", "t3"));
Lesson7_2.permutate(t_horses, new ArrayList<String>(), t_results);
ArrayList<String> q_horses = new ArrayList<String>(Arrays.asList("q1", "q2", "q3"));
Lesson7_2.permutate(q_horses, new ArrayList<String>(), q_results);
System.out.println(t_results);
System.out.println(q_results);
System.out.println();
for (int i = 0; i < t_results.size(); i++) {
for (int j = 0; j < q_results.size(); j++) {
Lesson7_2.compare(t_results.get(i), q_results.get(j));
}
}
}
由于交叉对比时只需要选择2个元素分别是田忌的出战顺序和齐王的出战顺序所以这里使用2层循环的嵌套来实现从最后的结果可以看出田忌获胜的概率仍然是1/6
暴力破解密码如何使用排列思想
聊了这么多相信你对排列有了更多了解在概率中排列有很大的作用因为排列会帮助我们列举出随机变量取值的所有可能性用于生成这个变量的概率分布之后在概率统计篇我还会具体介绍此外排列在计算机领域中有着很多应用场景我这里讲讲最常见的密码的暴力破解
我们先来看去年网络安全界的两件大事第一件发生在2017年5月新型蠕虫式勒索病毒WannaCry爆发当时这个病毒蔓延得非常迅速电脑被感染后其中的文件会被加密锁住黑客以此会向用户勒索比特币第二件和美国的信用评级公司Equifax有关仅在2017年内这个公司就被黑客盗取了大约1.46亿用户的数据
看样子黑客攻击的方式多种多样手段也高明了很多但是窃取系统密码仍然是最常用的攻击方式有时候黑客们并不需要真的拿到你的密码而是通过”,也就是列举各种可能的密码然后逐个地去尝试密码的正确性如果某个尝试的密码正好和原先管理员设置的一样那么系统就被破解了这就是我们常说的暴力破解法
我们可以假设一个密码是由英文字母组成的那么每位密码有52种选择也就是大小写字母加在一起的数量那么生成m位密码的可能性就是52^m种也就是说从n这里n为52个元素取出m0n个元素的可重复全排列总数量为n^m如果你遍历并尝试所有的可能性就能破解密码了
不过即使存在这种暴力法你也不用担心自己的密码很容易被人破解我们平时需要使用密码登录的网站或者移动端App程序基本上都限定了一定时间内尝试密码的次数例如1天之内只能尝试5次等等这些次数一定远远小于密码排列的可能性
这也是为什么有些网站或App需要你一定使用多种类型的字符来创建密码比如字母加数字加特殊符号因为类型越多n^m中的n越大可能性就越多如果使用英文字母的4位密码就有52^4=7311616种超过了700万种。如果我们在密码中再加入09这10个阿拉伯数字那么可能性就是62^4=14776336种超过了1400万。
同理我们也可以增加密码长度也就是用n^m中的m来实现这一点如果在英文和阿拉伯数字的基础上我们把密码的长度增加到6位那么就是62^6=56800235584种已经超过了568亿了这还没有考虑键盘上的各种特殊符号。有人估算了一下如果用上全部256个ASCII码字符设置长度为8的密码那么一般的黑客需要10年左右的时间才能暴力破解这种密码。
小结
排列可以帮助我们生成很多可能性由于这种特性排列最多的用途就是穷举法也就是列出所有可能的情况一个一个验证然后看每种情况是否符合条件的解
古代的孙膑利用排列的思想穷举了田忌马匹的各种出战顺序然后获得了战胜齐王的策略现代的黑客通过排列的方法穷举了各种可能的密码试图破坏系统的安全性如果你所面临的问题它的答案也是各种元素所组成的排列那么你就可以考虑有没有可能排列出所有的可能性然后通过穷举的方式来获得最终的解
思考题
假设有一个4位字母密码每位密码是ae之间的小写字母你能否编写一段代码来暴力破解该密码提示根据可重复排列的规律生成所有可能的4位密码。)
欢迎在留言区交作业并写下你今天的学习笔记你可以点击请朋友读”,把今天的内容分享给你的好友和他一起精进

View File

@ -0,0 +1,151 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
08 组合:如何让计算机安排世界杯的赛程?
你好,我是黄申。
2018年足球世界杯结束有半年了当时激烈的赛况你现在还记忆犹新吧你知道这场足球盛宴的比赛日程是怎么安排的吗如果现在你是组委会你会怎么安排比赛日程呢我们可以用上一节的排列思想让全部的32支入围球队都和其他球队进行一次主客场的比赛。
自己不可能和自己比赛因此在这种不可重复的排列中主场球队有32种选择而客场球队有31种选择。那么一共要进行多少场比赛呢很简单就是32x31=992场这也太夸张了吧一天看2场也要1年多才能看完即使球迷开心了可是每队球员要踢主客场共62场早已累趴下了。
好吧既然这样我们是否可以取消主客场制让任意两个球队之间只要踢1场就好啦取消主客场这就意味着原来两队之间的比赛由2场降为1场那么所有比赛场次就是992/2=496场。还是很多对吧
是的这就是为什么要将所有32支队伍分成8个小组先进行小组赛的原因。一旦分成小组每个小组的赛事就是(4x3)/2=6场。所有小组赛就是6x8=48场。
再加上在16强阶段开始采取淘汰制两两淘汰所以需要8+4+2+2=16场淘汰赛最后一次加2是因为还有3、4名的决赛那么整个世界杯决赛阶段就是48+16=64场比赛。
当然说了这么多你可能会好奇这两两配对比赛的场次我是如何计算出来的让我引出今天的概念组合Combination
组合可以说是排列的兄弟,两者类似但又有所不同,这两者的区别,不知道你还记得不,上学的时候,老师肯定说过不止一次,那就是,组合是不考虑每个元素出现的顺序的。
从定义上来说组合是指从n个不同元素中取出m1≤m≤n个不同的元素。例如我们前面说到的世界杯足球赛的例子从32支球队里找出任意2支球队进行比赛就是从32个元素中取出2个元素的组合。如果上一讲中田忌赛马的规则改一下改为从10匹马里挑出3匹比赛但是并不关心这3匹马的出战顺序那么也是一个组合的问题。
对于所有m取值的组合之全集合我们可以叫作全组合All Combination。例如对于集合{1, 2, 3}而言,全组合就是{空集, {1}, {2}, {3}, {1, 2}, {1,3} {2, 3}, {1, 2, 3}}。
如果我们安排足球比赛时不考虑主客场也就是不考虑这两支球队的顺序两队只要踢一次就行了。那么从n个元素取出m个的组合有多少种可能呢
我们假设某种运动需要3支球队一起比赛那么32支球队就有32x31x30种排列如果三支球队在一起只要比一场那么我们要抹除多余的比赛。三支球队按照任意顺序的比赛有3x2x1=6场所以从32支队伍里取出3支队伍的组合是(32x31x30)/(3x2x1)。基于此,我们可以扩展成以下两种情况。
n个元素里取出m个的组合可能性数量就是n个里取m个的排列数量除以m个全排列的数量也就是(n! / (n-m)!) / m!。
对于全组合而言可能性为2^n种。例如当n=3的时候全组合包括了8种情况。
这两点都可以用数学归纳法证明,有兴趣的话你可以自己尝试一下。
如何让计算机来组合队伍?
上一节我用递归实现了全排列。全组合就是将所有元素列出来没有太大意义所以我这里就带你看下如何使用递归从3个元素中选取2个元素的组合。
我们假设有3个队伍t1t2和t3。我还是把递归的选择画成图这样比较直观你也好理解。从图中我们可以看出对于组合而言由于{t1, t2}已经出现了,因此就无需{t2, t1}。同理,出现{t1, t3},就无需{t3, t1}等等。对于重复的我用叉划掉了。这样最终只有3种组合了。
那么,如何使用代码来实现呢?一种最简单粗暴的做法是:
先实现排列的代码,输出所有的排列。例如{t1, t2}, {t2, t1}
针对每种排列,对其中的元素按照一定的规则排序。那么上述两种排列经过排序后,就是{t1, t2}, {t1, t2}
对排序后的排列,去掉重复的那些。上述两种排列最终只保留一个{t1, t2}。
这样做效率就会比较低,很多排列生成之后,最终还是要被当做重复的结果去掉。
显然,还有更好的做法。从图中我们可以看出被划掉的那些,都是那些出现顺序和原有顺序颠倒的元素。
例如在原有集合中t1在t2的前面所以我们划掉了{t2, t1}的组合。这是因为我们知道t1出现在t2之前t1的组合中一定已经包含了t2所以t2的组合就无需再考虑t1了。因此我只需要在原有的排列代码中稍作修改每次传入嵌套函数的剩余元素不再是所有的未选择元素而是出现在当前被选元素之后的那些。具体代码是这样的
import java.util.ArrayList;
import java.util.Arrays;
public class Lesson8_1 {
/**
* @Description: 使用函数的递归(嵌套)调用,找出所有可能的队伍组合
* @param teams-目前还剩多少队伍没有参与组合result-保存当前已经组合的队伍
* @return void
*/
public static void combine(ArrayList<String> teams, ArrayList<String> result, int m) {
// 挑选完了m个元素输出结果
if (result.size() == m) {
System.out.println(result);
return;
}
for (int i = 0; i < teams.size(); i++) {
// 从剩下的队伍中选择一队加入结果
ArrayList<String> newResult = (ArrayList<String>)(result.clone());
newResult.add(teams.get(i));
// 只考虑当前选择之后的所有队伍
ArrayList<String> rest_teams = new ArrayList<String>(teams.subList(i + 1, teams.size()));
// 递归调用,对于剩余的队伍继续生成组合
combine(rest_teams, newResult, m);
}
}
}
这是一段测试代码可以帮助我们找到从3个元素中选择2个元素的所有组合。
public static void main(String[] args) {
ArrayList<String> teams = new ArrayList<String>(Arrays.asList("t1", "t2", "t3"));
Lesson8_1.combine(teams, new ArrayList<String>(), 2);
}
组合的应用:如何高效地处理词组?
组合在计算机领域中也有很多的应用场景。比如大型比赛中赛程的自动安排、多维度的数据分析以及自然语言处理的优化等等。
在我之前的研究工作中,经常要处理一些自然语言,用组合的思想提升系统性能。今天我结合自己亲身的经历,先来说说组合在自然语言处理中的应用。
当时我们需要将每篇很长的文章分隔成一个个的单词然后对每个单词进行索引便于日后的查询。但是很多时候光有单个的单词是不够的还要考虑多个单词所组成的词组。例如“red bluetooth mouse”这样的词组。
处理词组最常见的一种方式是多元文法。什么是多元文法呢这词看起来很复杂其实就是把邻近的几个单词合并起来组合一个新的词组。比如我可以把“red”和“bluetooth”合并为“red bluetooth”还可以把“bluetooth”和“mouse”合并为“bluetooth mouse”。
设计多元文法只是为了方便计算机的处理而不考虑组合后的词组是不是有正确的语法和语义。例如“red bluetooth”从人类的角度来看这个词就很奇怪。但是毕竟它还会生成很多合理的词组例如“bluetooth mouse”。所以如果不进行任何深入的语法分析我们其实没办法区分哪些多元词组是有意义的哪些是没有意义的因此最简单的做法就是保留所有词组。
普通的多元文法本身存在一个问题那就是定死了每个元组内单词出现的顺序。例如原文中可能出现的是“red bluetooth mouse”可是用户在查询的时候可能输入的是“bluetooth mouse red”。这么输入肯定不符合语法但实际上互联网上的用户经常会这么干。
那么在这种情况下如果我们只保留原文的“red bluetooth mouse”就无法将其和用户输入的“bluetooth red mouse”匹配了。所以如果我们并不要求查询词组中单词所出现的顺序和原文一致那该怎么办呢
我当时就在想可以把每个二元或三元组进行全排列得到所有的可能。但是这样的话二元组的数量就会增加1倍三元组的数量就会增加5倍一篇文章的数据保存量就会增加3倍左右。我也试过对用户查询做全排列把原有的二元组查询变为2个不同的二元组查询把原有的三元组查询变为6个不同的三元组查询但是事实是这样会增加实时查询的耗时。
于是,我就想到了组合。多个单词出现时,我并不关心它们的顺序(也就是不关心排列),而只关心它们的组合。因为无需关心顺序,就意味着我可以对多元组内的单词进行某种形式的标准化。即使原来的单词出现顺序有所不同,经过这个标准化过程之后,都会变成唯一的顺序。
例如“red bluetooth mouse”这三个词排序后就是“bluetooth,mouse,red”而“bluetooth red mouse”排序后也是“bluetooth,mouse,red”自然两者就能匹配上了。我需要做的事情就是在保存文章多元组和处理用户查询这两个阶段分别进行这种排序。这样既可以减少保存的数据量同时可以减少查询的耗时。这个问题很容易就解决了。怎么样组合是不是非常神奇
此外,组合思想还广泛应用在多维度的数据分析中。比如,我们要设计一个连锁店的销售业绩报表。这张报表有若干个属性,包括分店名称、所在城市、销售品类等等。那么最基本的总结数据包括每个分店的销售额、每个城市的销售额、每个品类的销售额。除了这些最基本的数据,我们还可以利用组合的思想,生成更多的筛选条件。
小结
组合和排列有相似之处都是从n个元素中取出若干个元素。不过排列考虑了取出的元素它们之间的顺序而组合无需考虑这种顺序。这是排列和组合最大的区别。因此组合适合找到多个元素之间的联系而并不在意它们之间的先后顺序例如多元文法中的多元组这有利于避免不必要的数据保存或操作。
具体到编程,组合和排列两者的实现非常类似。区别在于,组合并不考虑挑选出来的元素之间,是如何排序的。所以,在递归的时候,传入下一个嵌套调用函数的剩余元素,只需要包含当前被选元素之后的那些,以避免重复的组合。
思考题
假设现在需要设计一个抽奖系统。需要依次从100个人中抽取三等奖10名二等奖3名和一等奖1名。请列出所有可能的组合需要注意的每人最多只能被抽中1次。
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,93 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
09 动态规划(上):如何实现基于编辑距离的查询推荐?
你好,我是黄申。
上一篇讲组合的时候我最后提到了有关文本的关键字查询。今天我接着文本搜索的话题来聊聊查询推荐Query Suggestion的实现过程以及它所使用的数学思想动态规划Dynamic Programming
那什么是动态规划呢?在递归那一节,我说过,我们可以通过不断分解问题,将复杂的任务简化为最基本的小问题,比如基于递归实现的归并排序、排列和组合等。不过有时候,我们并不用处理所有可能的情况,只要找到满足条件的最优解就行了。在这种情况下,我们需要在各种可能的局部解中,找出那些可能达到最优的局部解,而放弃其他的局部解。这个寻找最优解的过程其实就是动态规划。
动态规划需要通过子问题的最优解,推导出最终问题的最优解,因此这种方法特别注重子问题之间的转移关系。我们通常把这些子问题之间的转移称为状态转移,并把用于刻画这些状态转移的表达式称为状态转移方程。很显然,找到合适的状态转移方程,是动态规划的关键。
因此,这两节我会通过实际的案例,给你详细解释如何使用动态规划法寻找最优解,包括如何分解问题、发现状态转移的规律,以及定义状态转移方程。
编辑距离
当你在搜索引擎的搜索框中输入单词的时候,有没有发现,搜索引擎会返回一系列相关的关键词,方便你直接点击。甚至,当你某个单词输入有误的时候,搜索引擎依旧会返回正确的搜索结果。
搜索下拉提示和关键词纠错这两个功能其实就是查询推荐。查询推荐的核心思想其实就是对于用户的输入查找相似的关键词并进行返回。而测量拉丁文的文本相似度最常用的指标是编辑距离Edit Distance
我刚才说了,查询推荐的这两个功能是针对输入有缺失或者有错误的字符串,依旧返回相应的结果。那么,将错误的字符串转成正确的,以此来返回查询结果,这个过程究竟是怎么进行的呢?
由一个字符串转成另一个字符串所需的最少编辑操作次数我们就叫作编辑距离。这个概念是俄罗斯科学家莱文斯坦提出来的所以我们也把编辑距离称作莱文斯坦距离Levenshtein distance。很显然编辑距离越小说明这两个字符串越相似可以互相作为查询推荐。编辑操作有这三种把一个字符替换成另一个字符插入一个字符删除一个字符。
比如我们想把mouuse转换成mouse有很多方法可以实现但是很显然直接删除一个“u”是最简单的所以这两者的编辑距离就是1。
状态转移
对于mouse和mouuse的例子我们肉眼很快就能观察出来编辑距离是1。但是我们现实的场景中常常不会这么简单。如果给定任意两个非常复杂的字符串如何高效地计算出它们之间的编辑距离呢
我们之前讲过排列和组合。我们先试试用排列的思想来进行编辑操作。比如把一个字符替换成另一个字符我们可以想成把A中的一个字符替换成B中的一个字符。假设B中有m个不同的字符那么替换的时候就有m种可能性。对于插入一个字符我们可以想成在A中插入来自B的一个字符同样假设B中有m个不同的字符那么也有m种可能性。至于删除一个字符我们可以想成在A中删除任何一个字符假设A有n个不同的字符那么有n种可能性。
可是,等到实现的时候,你会发现实际情况比想象中复杂得多。
首先计算量非常大。我们假设字符串A的长度是n而B字符串中不同的字符数量是m那么A所有可能的排列大致在m^n这个数量级这会导致非常久的处理时间。对于查询推荐等实时性的服务而言服务器的响应时间太长用户肯定无法接受。
其次如果需要在字符串A中加字符那么加几个呢加在哪里呢同样删除字符也是如此。因此可能的排列其实远不止m^n。
我们现在回到问题本身,其实编辑距离只需要求最小的操作次数,并不要求列出所有的可能。而且排列过程非常容易出错,还会浪费大量计算资源。看来,排列的方法并不可行。
好,这里再来思考一下,其实我们并不需要排列的所有可能性,而只是关心最优解,也就是最短距离。那么,我们能不能每次都选择出一个到目前为止的最优解,并且只保留这种最优解?如果是这样,我们虽然还是使用迭代或者递归编程来实现,但效率上就可以提升很多。
我们先考虑最简单的情况。假设字符串A和B都是空字符串那么很明显这个时候编辑距离就是0。如果A增加一个字符a1B保持不动编辑距离就增加1。同样如果B增加一个字符b1A保持不动编辑距离增加1。但是如果A和B有一个字符那么问题就有点复杂了我们可以细分为以下几种情况。
我们先来看插入字符的情况。A字符串是a1的时候B空串增加一个字符变为b1或者B字符串为b1的时候A空串增加一个字符变为a1。很明显这种情况下编辑距离都要增加1。
我们再来看替换字符的情况。当A和B都是空串的时候同时增加一个字符。如果要加入的字符a1和b1不相等表示A和B之间转化的时候需要替换字符那么编辑距离就是加1如果a1和b1相等无需替换那么编辑距离不变。
最后,我们取上述三种情况中编辑距离的最小值作为当前的编辑距离。注意,这里我们只需要保留这个最小的值,而舍弃其他更大的值。这是为什么呢?因为编辑距离随着字符串的增长,是单调递增的。所以,要求最终的最小值,必须要保证对于每个子串,都取得了最小值。有了这点,之后我们就可以使用迭代的方式,一步步推导下去,直到两个字符串结束比较。
刚才我说的情况中没有删除这是因为删除就是插入的逆操作。如果我们从完整的字符串A或者B开始而不是从空串开始这就是删除操作了。
从上述的过程可以看出,我们确实可以把求编辑距离这个复杂的问题,划分为更多更小的子问题。而且,更为重要的一点是,我们在每一个子问题中,都只需要保留一个最优解。之后的问题求解,只依赖这个最优值。这种求编辑距离的方法就是动态规划,而这些子问题在动态规划中被称为不同的状态。
如果文字描述不是很清楚的话,我这里又画一张表,把各个状态之间的转移都标示清楚,你就一目了然了。
我还是用mouuse和mouse的例子。我把mouuse的字符数组作为表格的行每一行表示其中一个字母而mouse的字符数组作为列每列表示其中一个字母这样就得到下面这个表格。
这张表格里的不同状态之间的转移,就是状态转移。其中红色部分表示字符串演变(或者说状态转移)的方式以及相应的编辑距离计算。对于表格中其他空白的部分,我暂时不给出,你可以试着自己来推导。
编辑距离是具有对称性的也就是说从字符串A到B的编辑距离和从字符串B到A的编辑距离两者一定是相等的。这个应该很好理解。
你可以把刚才那个状态转移表的行和列互换一下再推导一下看看得出的编辑距离是否还是1。我现在从理论上解释下这一点。这其实是由编辑距离的三种操作决定的。比如说从字符串A演变到B的每一种操作都可以转换为从字符串B演变到A的某一种操作。
所以说从字符串A演变到B的每一种变化方式都可以找到对应的从字符串B演变到A的某种方式两者的操作次数一样。自然代表最小操作次数的编辑距离也就一样了。
小结
我今天介绍了用于查询推荐的编辑距离。编辑距离的定义很好理解不过求任意两个字符串之间的编辑距离可不是一件容易的事情。我先尝试用排列来分析问题发现这条路走不通而后我们仍然使用了化繁为简的思路把编辑距离的计算拆分为3种情况并建立了子串之间的联系。
你不要觉得这样的分析过程比较繁琐,我想说的是,学数学固然是为了得到结果,但是学习的过程,是要学会解决问题的方法和思路。比如面对一个问题的时候,你可能不知道用什么方法来解决,但是你可以尝试用我们学过的这些基础思想去分析,去比对,在这个分析的过程中去总结这些方法的使用规律,久而久之,你就能摸索出自己解决问题的套路。
比如说,动态规划虽然也采用了把问题逐步简化的思想,但是它和基于递归的归并排序、排列组合等解法有所不同。能够使用动态规划解决的问题,通常只关心一个最优解,而这个最优解是单调改变的,例如最大值、最小值等等。因此,动态规划中的每种状态,通常只保留一个当前的最优解,这也是动态规划效率比较高的原因。
思考题
理解了动态规划法和状态转移之后,你觉得根据编辑距离来衡量字符串之间的相似程度有什么局限性?你有什么优化方案吗?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,163 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
10 动态规划(下):如何求得状态转移方程并进行编程实现?
你好,我是黄申。
上一节,我从查询推荐的业务需求出发,介绍了编辑距离的概念,今天我们要基于此,来获得状态转移方程,然后才能进行实际的编码实现。
状态转移方程和编程实现
上一节我讲到了使用状态转移表来展示各个子串之间的关系,以及编辑距离的推导。不过,我没有完成那张表格。现在我把它补全,你可以和我的结果对照一下。
这里面求最小值的min函数里有三个参数分别对应我们上节讲的三种情况的编辑距离分别是A串插入、B串插入A串删除和替换字符。在表格的右下角我标出了两个字符串的编辑距离1。
概念和分析过程你都理解了,作为程序员,最终还是要落脚在编码上,我这里带你做些编码前的准备工作。
我们假设字符数组A[]和B[]分别表示字符串A和BA[i]表示字符串A中第i个位置的字符B[i]表示字符串B中第i个位置的字符。二维数组d[,]表示刚刚用于推导的二维表格而d[i,j]表示这张表格中第i行、第j列求得的最终编辑距离。函数r(i, j)表示替换时产生的编辑距离。如果A[i]和B[j]相同函数的返回值为0否则返回值为1。
有了这些定义,下面我们用迭代来表达上述的推导过程。
如果i为0且j也为0那么d[i, j]为0。
如果i为0且j大于0那么d[i, j]为j。
如果i大于0且j为0那么d[i, j]为i。
如果i大于0且 j大于0那么d[i, j]=min(d[i-1, j] + 1, d[i, j-1] + 1, d[i-1, j-1] + r(i, j))。
这里面最关键的一步是d[i, j]=min(d[i-1, j] + 1, d[i, j-1] + 1, d[i-1, j-1] + r(i, j))。这个表达式表示的是动态规划中从上一个状态到下一个状态之间可能存在的一些变化,以及基于这些变化的最终决策结果。我们把这样的表达式称为状态转移方程。我上节最开始就说过,在所有动态规划的解法中,状态转移方程是关键,所以你一定要掌握它。
有了状态转移方程,我们就可以很清晰地用数学的方式,来描述状态转移及其对应的决策过程,而且,有了状态转移方程,具体的编码其实就很容易了。基于编辑距离的状态转移方程,我在这里列出了一种编码的实现,你可以看看。
我们首先要定义函数的参数和返回值你需要注意判断一下a和b为null的情况。
public class Lesson10_1 {
/**
* @Description: 使用状态转移方程,计算两个字符串之间的编辑距离
* @param a-第一个字符串b-第二个字符串
* @return int-两者之间的编辑距离
*/
public static int getStrDistance(String a, String b) {
if (a == null || b == null) return -1;
然后初始化状态转移表。我用int型的二维数组来表示这个状态转移表并对i为0且j大于0的元素以及i大于0且j为0的元素赋予相应的初始值。
// 初始用于记录化状态转移的二维表
int[][] d = new int[a.length() + 1][b.length() + 1];
// 如果i为0且j大于等于0那么d[i, j]为j
for (int j = 0; j <= b.length(); j++) {
d[0][j] = j;
}
// 如果i大于等于0且j为0那么d[i, j]为i
for (int i = 0; i <= a.length(); i++) {
d[i][0] = i;
}
我这里实现的时候i和j都是从0开始所以我计算的d[i+1, j+1]而不是d[i, j]。而d[i+1, j+1] = min(d[i, j+1] + 1, d[i+1, j] + 1, d[i, j] + r(i, j)。
// 实现状态转移方程
// 请注意由于Java语言实现的关系代码里的状态转移是从d[i, j]到d[i+1, j+1]而不是从d[i-1, j-1]到d[i, j]。本质上是一样的。
for (int i = 0; i < a.length(); i++) {
for (int j = 0; j < b.length(); j++) {
int r = 0;
if (a.charAt(i) != b.charAt(j)) {
r = 1;
}
int first_append = d[i][j + 1] + 1;
int second_append = d[i + 1][j] + 1;
int replace = d[i][j] + r;
int min = Math.min(first_append, second_append);
min = Math.min(min, replace);
d[i + 1][j + 1] = min;
}
}
return d[a.length()][b.length()];
}
}
最后我们用测试代码测试不同字符串之间的编辑距离
public static void main(String[] args) {
// TODO Auto-generated method stub
System.out.println(Lesson10_1.getStrDistance("mouse", "mouuse"));
}
从推导的表格和最终的代码可以看出我们相互比较长度为m和n的两个字符串一共需要求mxn个子问题因此计算量是mxn这个数量级和排列法的m^n相比这已经降低太多太多了
我们现在可以快速计算出编辑距离所以就能使用这个距离作为衡量字符串之间相似度的一个标准然后就可以进行查询推荐了
到这里使用动态规划来实现的编辑距离其实就讲完了我把两个字符串比较的问题分解成很多子串进行比较的子问题然后使用状态转移方程来描述状态也就是子问题之间的关系并根据问题的定义保留最小的值作为当前的编辑距离直到过程结束
如果我们使用动态规划法来实现编辑距离的测算那就能确保查询推荐的效率和效果不过基于编辑距离的算法也有局限性它只适用于拉丁语系的相似度衡量所以通常只用于英文或者拼音相关的查询如果是在中文这种亚洲语系中差一个汉字或字符语义就会差很远所以并不适合使用基于编辑距离的算法
实战演练钱币组合的新问题
和排列组合等穷举的方法相比动态规划法关注发现某种最优解如果一个问题无需求出所有可能的解而是要找到满足一定条件的最优解那么你就可以思考一下是否能使用动态规划来降低求解的工作量
还记得之前我们提到的新版舍罕王奖赏的故事吗国王需要支付一定数量的赏金而宰相要列出所有可能的钱币组合这使用了排列组合的思想如果这个问题再变化为给定总金额和可能的钱币面额能否找出钱币数量最少的奖赏方式?”,那么我们是否就可以使用动态规划呢
思路和之前是类似的我们先把这个问题分解成很多更小金额的子问题然后试图找出状态转移方程如果增加一枚钱币c那么当前钱币的总数量就是增加c之前的钱币总数再加上当前这枚举个例子假设这里我们有三种面额的钱币2元3元和7元为了凑满100元的总金额我们有三种选择
第一种总和98元的钱币加上1枚2元的钱币如果凑到98元的最少币数是\(x\_{1}\)那么增加一枚2元后就是(\(x\_{1}\) + 1)
第二种总和97元的钱币加上1枚3元的钱币如果凑到97元的最少币数是\(x\_{2}\)那么增加一枚3元后就是(\(x\_{2}\) + 1)
第三种总和93元的钱币加上1枚7元的钱币如果凑到93元的最少币数是\(x\_{3}\)那么增加一枚7元后就是(\(x\_{3}\) + 1)
比较一下以上三种情况的钱币总数取最小的那个就是总额为100元时最小的钱币数换句话说由于奖赏的总金额是固定的所以最后选择的那枚钱币的面额将决定到上一步为止的金额同时也决定了上一步为止钱币的最少数量根据这个我们可以得出如下状态转移方程
其中c[i]表示总额为i的时候所需要的最少钱币数其中j=1,2,3,…,n表示n种面额的钱币value[j]表示第j种钱币的面额。c[i - values(j)]表示选择第j种钱币的时候上一步为止最少的钱币数需要注意的是i - value(j)需要大于等于0而且c[0] = 0
我这里使用这个状态转移方程做些推导具体的数据你可以看下面这个表格表格每一行表示奖赏的总额前3列表示3种钱币的面额最后一列记录最少的钱币数量表中的“/”表示不可能或者说无解
这张状态转移表同样可以帮助你来理解状态转移方程的正确性一旦状态转移方程确定了要编写代码来实现就不难了
小结
通过这两节的内容我讲述了动态规划主要的思想和应用如果仅仅看这两个案例也许你觉得动态规划不难理解不过在实际应用中你可能会产生这些疑问什么时候该用动态规划这个问题可以用动态规划解决啊为什么我没想到我这里就讲一些我个人的经验
首先如果一个问题有很多种可能看上去需要使用排列或组合的思想但是最终求的只是某种最优解例如最小值最大值最短子串最长子串等等那么你不妨试试是否可以使用动态规划
其次状态转移方程是个关键你可以用状态转移表来帮助自己理解整个过程如果能找到准确的转移方程那么离最终的代码实现就不远了当然最好的方式还是结合工作中的项目不断地实践尝试然后总结
思考题
对于总金额固定找出最少钱币数的题目用循环或者递归的方式该如何进行编码呢
欢迎在留言区交作业并写下你今天的学习笔记你可以点击请朋友读”,把今天的内容分享给你的好友和他一起精进

View File

@ -0,0 +1,119 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
11 树的深度优先搜索(上):如何才能高效率地查字典?
你好,我是黄申。
你还记得迭代法中的二分查找吗?在那一讲中,我们讨论了一个查字典的例子。如果要使用二分查找,我们首先要把整个字典排个序,然后每次都通过二分的方法来缩小搜索范围。
不过在平时的生活中咱们查字典并不是这么做的。我们都是从单词的最左边的字母开始逐个去查找。比如查找“boy”这个单词我们一般是这么查的。首先在az这26个英文字母里找到单词的第一个字母b然后在b开头的单词里找到字母o最终在bo开头的单词里找到字母y。
你可以看我画的这种树状图其实就是从树顶层的根结点一直遍历到最下层的叶子结点最终逐步构成单词前缀的过程。对应的数据结构就是前缀树prefix tree或者叫字典树trie。我个人更喜欢前缀树这个名称因为看到这个名词这个数据结构的特征就一目了然。
那前缀树究竟该如何构建呢?有了前缀树,我们又该如何查询呢?今天,我会从图论的基本概念出发,来给你讲一下什么样的结构是树,以及如何通过树的深度优先搜索,来实现前缀树的构建和查询。
图论的一些基本概念
前缀树是一种有向树。那什么是有向树?顾名思义,有向树就是一种树,特殊的就是,它的边是有方向的。而树是没有简单回路的连通图。
如果一个图里所有的边都是有向边,那么这个图就是有向图。如果一个图里所有的边都是无向边,那么这个图就是无向图。既含有向边,又含无向边的图,称为混合图。
在有向图中,以结点\(v\)为出发点的边的数量,我们叫作\(v\)的出度。而以\(v为\)终点的边之数量,称为\(v\)的入度。在上图中,结点\(v\_{2}\)的入度是1出度是2。
还有两个和有向树有关的概念,回路和连通,我这里简单给你解释一下,你很容易就能明白了。
结点和边的交替序列组成的就是通路。所以,通路上的任意两个结点其实就是互为连通的。如果一条通路的起始点\(v\_{1}\)和终止点\(v\_{n}\)相同这种特殊的通路我们就叫作回路。从起始点到终止点所经过的边之数量就是通路的长度。这里我画了一张图这里面有1条通路和1条回路第一条非回路通路的长度是3第二条回路的长度是4。
理解了图的基本概念,我们再来看树和有向树。树是一种特殊的图,它是没有简单回路的连通无向图。这里的简单回路,其实就是指,除了第一个结点和最后一个结点相同外,其余结点不重复出现的回路。你可以看我画的这几幅图。
那么,什么是有向树呢?顾名思义,有向树是一种特殊的树,其中的边都是有向的,而且它满足以下几个条件:
有且仅有一个结点的入度为0这个结点被称为根
除根以外的所有结点入度都为1。从树根到任一结点有且仅有一条有向通路。
除了这些基本定义有向树还有几个重要的概念父结点、子结点、兄弟结点、先辈结点、后辈结点、叶子结点、结点的高度或深度、树的高度或深度。这些都不难理解我画个图展示一下你就能明白了。我把根结点的高度设置为0根据需要你也可以设置为1。
前缀树的构建和查询
好了,说了这么些,你对有向树应该有了理解。接下来,我们来看,如何使用有向树来实现前缀树呢?这整个过程主要包括两个部分:构建前缀树和查询前缀树。
1. 构建前缀树
首先我们把空字符串作为树的根。对于每个单词其中每一个字符都代表了有向树的一个结点。而前一个字符就是后一个字符的父结点后一个字符是前一个字符的子结点。这也意味着每增加一个字符其实就是在当前字符结点下面增加一个子结点相应地树的高度也增加了1。
我们以单词geek为例从根结点开始第一次我增加字符g在根结点下增加一个“g”的结点。第二次我在“g”结点下方增加一个“e”结点。以此类推最终我们可以得到下面的树。
那如果这个时候再增加一个单词geometry会怎样我们继续重复这个过程就能得到下面这个图。
到这里为止我们已经建立了包含两个单词的前缀树。在这棵树的两个叶子结点“k”和“y”上我们可以加上额外的信息比如单词的解释。那么在匹配成功之后就可以直接返回这些信息实现字典的功能了。假设我把牛津词典里所有的英文单词都按照上述的方法处理一遍就能构造一棵包含这个字典里所有单词的前缀树并实现常用单词的查找和解释。
2. 查询前缀树
假设我们已经使用牛津词典,构建完了一个完整的前缀树,现在我们就能按照开篇所说的那种方式,查找任何一个单词了。从前缀树的根开始,查找下一个结点,顺着这个通路走下去,一直走到某个结点。如果这个结点及其前缀代表了一个存在的单词,而待查找的单词和这个结点及其前缀正好完全匹配,那就说明成功找到了一个单词。否则,就表示无法找到。
这里还有几种特殊情况,需要注意。
如果还没到叶子结点的时候,待查的单词就结束了。这个时候要看最后匹配上的非叶子结点是否代表一个单词;如果不是,那说明被查单词并不在字典中。
如果搜索到前缀树的叶子结点,但是被查单词仍有未处理的字母。由于叶子结点没有子结点,这时候,被查单词不可能在字典中。
如果搜索到一半,还没到达叶子结点,被查单词也有尚未处理的字母,但是当前被处理的字母已经无法和结点上的字符匹配了。这时候,被查单词不可能在字典中。
前缀树的构建和查询这两者在本质上其实是一致的。构建的时候我们需要根据当前的前缀进行查询然后才能找到合适的位置插入新的结点。而且这两者都存在一个不断重复迭代的查找过程我们把这种方式称为深度优先搜索Depth First Search
所谓树的深度优先搜索,其实就是从树中的某个结点出发,沿着和这个结点相连的边向前走,找到下一个结点,然后以这种方式不断地发现新的结点和边,一直搜索下去,直到访问了所有和出发点连通的点、或者满足某个条件后停止。
如果到了某个点,发现和这个点直接相连的所有点都已经被访问过,那么就回退到在这个点的父结点,继续查看是否有新的点可以访问;如果没有就继续回退,一直到出发点。由于单棵树中所有的结点都是连通的,所以通过深度优先的策略可以遍历树中所有的结点,因此也被称为深度优先遍历。
为了让你更容易理解,我用下面这张图来展示在一棵有向树中进行深度优先搜索时,结点被访问的顺序。
其中结点上的数字表示结点的ID而虚线表示遍历前进的方向结点边上的数字表示该结点在深度优先搜索中被访问的顺序。在深度优先的策略下我们从点110出发然后发现和110相连的点123访问123后继续发现和123相连的点162再往后发现162没有出度因此回退到123查看和123相连的另一个点587根据587的出度继续往前推进如此类推。
把深度优先搜索,和在前缀树中查询单词的过程对比一下,你就会发现两者的逻辑是一致的。不过,使用前缀树匹配某个单词的时候,只需要沿着一条可能的通路搜索下去,而无需遍历树中所有的结点。
小结
在这一讲,我从数学中图的一些基本定义入手,介绍了有向树,以及有向树的一个应用,前缀树。树在计算机领域中运用非常广泛。比如,二叉树和满二叉树。
二叉树是每个结点最多有两个子树的树结构,它可用于二叉查找树和二叉堆。二叉树甚至可以用于图示化我们之前聊过的二分迭代。
满二叉树是一棵高度为n高度从1开始计且有2^n-1个结点的二叉树。在高度为k(0≤n的这一层上结点的数量为2^(k-1)。如果把树的根标为0每个结点的左子结点标为0每个结点的右子结点标为1那么把根到叶子结点的所有0或1连起来就正好对应一个二进制数。
既然树是如此重要,那么我们该如何高效率地访问树中的结点呢?下一讲,我会继续前缀树的话题,讨论如何遍历树中所有结点。
思考题
现在给你一个字典,请尝试实现其前缀树,包括树的构建和查询两个过程。这里,字典可以用字符串数组来表示,每个字符串代表一个单词。
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,212 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
12 树的深度优先搜索(下):如何才能高效率地查字典?
你好,我是黄申。今天咱们继续聊前缀树。
上节结尾我给你留了道思考题:如何实现前缀树的构建和查询?如果你动手尝试之后,你会发现,这个案例的实现没有我们前面讲的那些排列组合这么直观。
这是因为,从数学的思想,到最终的编程实现,其实需要一个比较长的过程。我们首先需要把问题转化成数学中的模型,然后使用数据结构和算法来刻画数学模型,最终才能落实到编码。
而在前缀树中,我们需要同时涉及树的结构、树的动态构建和深度优先搜索,这个实现过程相对比较复杂。所以,这节我就给你仔细讲解一下,这个实现过程中需要注意的点。只要掌握这些点,你就能轻而易举实现深度优先搜索。
如何使用数据结构表达树?
首先,我想问你一个问题,什么样的数据结构可以表示树?
我们知道,计算机中最基本的数据结构是数组和链表。
数组适合快速地随机访问。不过,数组并不适合稀疏的数列或者矩阵,而且数组中元素的插入和删除操作也比较低效。
相对于数组,链表的随机访问的效率更低,但是它的优势是,不必事先规定数据的数量,表示稀疏的数列或矩阵时,可以更有效地利用存储空间,同时也利于数据的动态插入和删除。
我们再来看树的特点。树的结点及其之间的边,和链表中的结点和链接在本质上是一样的,因此,我们可以模仿链表的结构,用编程语言中的指针或对象引用来构建树。
除此之外,我们其实还可以用二维数组。用数组的行或列元素表示树中的结点,而行和列共同确定了两个树结点之间是不是存在边。可是在树中,这种二维关系通常是非常稀疏的、非常动态的,所以用数组效率就比较低下。
基于上面这些考虑我们可以设计一个TreeNode类表示有向树的结点和边。这个类需要体现前缀树结点最重要的两个属性。
这个结点所代表的字符要用label变量表示。
这个结点有哪些子结点要用sons哈希映射表示。之所以用哈希是为了便于查找某个子结点或者说对应的字符是否存在。
另外我们还可以用变量prefix表示当前结点之前的前缀用变量explanation表示某个单词的解释。和之前一样为了代码的简洁所有属性都用了public避免读取和设置类属性的代码。
这里我写了一段TreeNode类的代码来表示前缀树的结点和边你可以看看。
/**
* @Description: 前缀树的结点
*
*/
public class TreeNode {
public char label; // 结点的名称,在前缀树里是单个字母
public HashMap<Character, TreeNode> sons = null; // 使用哈希映射存放子结点。哈希便于确认是否已经添加过某个字母对应的结点。
public String prefix = null; // 从树的根到当前结点这条通路上全部字母所组成的前缀。例如通路b->o->y对于字母o结点而言前缀是b对于字母y结点而言前缀是bo
public String explanation = null; // 词条的解释
// 初始化结点
public TreeNode(char l, String pre, String exp) {
label = l;
prefix = pre;
explanation = exp;
sons = new HashMap<>();
}
}
说到这里你可能会好奇为什么只有结点的定义而没有边的定义呢实际上这里的有向边表达的是父子结点之间的关系我把这种关系用sons变量来存储子结点。
需要注意的是我们需要动态地构建这棵树。每当接收一个新单词时代码都需要扫描这个单词的每个字母并使用当前的前缀树进行匹配。如果匹配到某个结点发现相应的字母结点并不存在那么就建立一个新的树结点。这个过程不好理解我也写了几行代码你可以结合来看。其中str表示还未处理的字符串parent表示父结点。
// 处理当前字符串的第一个字母
char c = str.toCharArray()[0];
TreeNode found = null;
// 如果字母结点已经存在于当前结点(父节点)的子节点之下,找出它。否则就新生成一个
if (parent.sons.containsKey(c)) {
found = parent.sons.get(c);
} else {
TreeNode son = new TreeNode(c, pre, "");
parent.sons.put(c, son);
found = son;
}
如何使用递归和栈实现深度优先搜索?
构建好了数据结构,我们现在需要考虑,什么样的编程方式可以实现对树结点和边的操作?
仔细观察前缀树构建和查询,你会发现这两个不断重复迭代的过程,都可以使用递归编程来实现。换句话说,深度优先搜索的过程和递归调用在逻辑上是一致的。
我们可以把函数的嵌套调用,看作访问下一个连通的结点;把函数的返回,看作没有更多新的结点需要访问,回溯到上一个结点。在之前的案例中,我已经讲过很多次递归编程的例子,这里我就不列举代码细节了。如果忘记的话,你可以回去前面章节复习一下。
在查询的过程中,至少有三种情况是无法在字典里找到被查的单词的。于是,我们需要在递归的代码中做相应的处理。
第一种情况:被查单词所有字母都被处理完毕,但是我们仍然无法在字典里找到相应的词条。
每次递归调用的函数开始,我们都需要判断待查询的单词,看看是否还有字母需要处理。如果没有更多的字母需要匹配了,那么再确认一下当前匹配到的结点本身是不是一个单词。如果是,就返回相应的单词解释,否则就返回查找失败。
对于结点是不是一个单词你可以使用Node类中的explanation变量来进行标识和判断如果不是一个存在的单词这个变量应该是空串或者Null值。
第二种情况:搜索到前缀树的叶子结点,但是被查单词仍有未处理的字母,就返回查找失败。
我们可以通过结点对象的sons变量来判断这个结点是不是叶子结点。如果是叶子结点这个变量应该是空的HashMap或者Null值。
第三种情况搜索到中途还没到达叶子结点被查单词也有尚未处理的字母但是当前被处理的字母已经无法和结点上的label匹配返回查找失败。是不是叶子仍然通过结点对象的sons变量来判断。
好了,现在你已经可以很方便地在字典里查找某个单词,看看它是否存在,或者看看它的解释是什么。我这里又有一个新的问题了:如果我想遍历整个字典中所有的单词,那该怎么办呢?
仔细观察一下,你应该能发现,查找一个单词的过程,其实就是在有向树中,找一条从树的根到代表这个单词的结点之通路。那么如果要遍历所有的单词,就意味着我们要找出从根到所有代表单词的结点之通路。
所以,在每个结点上,我们不再是和某个待查询单词中的字符进行比较,而是要遍历该结点所有的子结点,这样才能找到所有可能的通路。我们还可以用递归来实现这一过程。
尽管函数递归调用非常直观可是也有它自身的弱点。函数的每次嵌套都可能产生新的变量来保存中间结果这可能会消耗大量的内存。所以这里我们可以用一个更节省内存的数据结构Stack
栈的特点是先进后出First In Last Out也就是最先进入栈的元素最后才会得到处理。我画了一张元素入栈和出栈的过程图你可以看看。
为什么栈可以进行深度优先搜索呢?你可以先回顾一下上一节,我解释深度优先搜索时候的例子。为了方便你回想,我把图放在这里了。
然后,我们用栈来实现一下这个过程。(以下按入栈顺序说,文字的表述顺序可能不太准确,建议对照下方的图片学习)
第1步将初始结点110压入栈中。
第2步弹出结点110搜出下一级结点123、879、945和131。
第3步将结点131、945、879和123依次压入栈中。
第4步重复第2步和第3步弹出和压入的步骤先处理结点123将新发现结点587和162依次压入栈中。
第5步处理结点162由于162是叶子结点所以没有发现新的点。第6步重复第2和第3步处理结点587将新发现结点681压入栈中。
……
第n-1步重复第2和第3步处理结点131将新发现结点906压入栈中。
第n步重复第2和第3步处理结点906没有发现新的结点也没有更多待处理的结点整个过程结束。
从上面的步骤来看,栈先进后出的特性,可以模拟函数的递归调用。实际上,计算机系统里的函数递归,在内部也是通过栈来实现的。如果我们不使用函数调用时自动生成的栈,而是手动使用栈的数据结构,就能始终保持数据的副本只有一个,大大节省内存的使用量。
用TreeNode类和栈实现深度优先搜索的代码我写出来了你可以看看。
// 使用栈来实现深度优先搜索
public void dfsByStack(TreeNode root) {
Stack<TreeNode> stack = new Stack<TreeNode>();
// 创建堆栈对象其中每个元素都是TreeNode类型
stack.push(root); // 初始化的时候,压入根结点
while (!stack.isEmpty()) { // 只要栈里还有结点,就继续下去
TreeNode node = stack.pop(); // 弹出栈顶的结点
if (node.sons.size() == 0) {
// 已经到达叶子结点了,输出
System.out.println(node.prefix + node.label);
} else {
// 非叶子结点,遍历它的每个子结点
Iterator<Entry<Character, TreeNode>> iter
= node.sons.entrySet().iterator();
// 注意这里使用了一个临时的栈stackTemp
// 这样做是为了保持遍历的顺序,和递归遍历的顺序是一致的
// 如果不要求一致可以直接压入stack
Stack<TreeNode> stackTemp = new Stack<TreeNode>();
while (iter.hasNext()) {
stackTemp.push(iter.next().getValue());
}
while (!stackTemp.isEmpty()) {
stack.push(stackTemp.pop());
}
}
}
}
这里面有个细节需要注意一下。当我们把某个结点的子结点压入栈的时候由于栈“先进后出”的特性会导致子结点的访问顺序和递归遍历时子结点的访问顺序相反。如果你希望两者保持一致可以用一个临时的栈stackTemp把子结点入栈的顺序颠倒过来。
小结
这一节我们用递归来实现了深度优先搜索。说到这,你可能会想到,之前讨论的归并排序、排列组合等课题,也采用了递归来实现,那它们是不是也算深度优先搜索呢?
我把归并排序和排列的分解过程放在这里,它们是不是也可以用有向树来表示呢?
在归并排序的数据分解阶段,初始的数据集就是树的根结点,二分之前的数据集代表父节点,而二分之后的左半边的数据集和右半边的数据集都是父结点的子结点。分解过程一直持续到单个的数值,也就是最末端的叶子结点,很明显这个阶段可以用树来表示。如果使用递归编程来进行数据的切分,那么这种实现就是深度优先搜索的体现。
在排列中我们可以把空集认为是树的根结点如果把每次选择的元素作为父结点那么剩下可选择的元素就构成了这个父结点的子结点。而每多选择一个元素就会把树的高度加1。因此我们也可以使用递归和深度优先搜索列举所有可能的排列。
从这两个例子,我们可以看出有些数学思想都是相通的,例如递归、排列和深度优先搜索等等。
我来总结一下,其实深度优先搜索的核心思想,就是按照当前的通路,不断地向前进,当遇到走不通的时候就回退到上一个结点,通过另一个新的边进行尝试。如果这一个点所有的方向都走不通的时候,就继续回退。这样一次一次循环下去,直到到达目标结点。树中的每个结点,既可以表示某个子问题和它所对应的抽象状态,也可以表示某个数据结构中一部分具体的值。
所以,我们需要做的是,观察问题是否可以使用递归的方式来逐步简化,或者是否需要像前缀树这样遍历,如果是,就可以尝试使用深度优先搜索来帮助我们思考并解决问题。
思考题
这两节我讲的是树的深度优先搜索。如果是在一般的图中进行深度优先搜索,会有什么不同呢?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,224 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
13 树的广度优先搜索(上):人际关系的六度理论是真的吗?
你好,我是黄申。
上一节,我们探讨了如何在树的结构里进行深度优先搜索。说到这里,有一个问题,不知道你有没有思考过,树既然是两维的,我们为什么一定要朝着纵向去进行深度优先搜索呢?是不是也可以朝着横向来进行搜索呢?今天我们就来看另一种搜索机制,广度优先搜索。
社交网络中的好友问题
LinkedIn、Facebook、微信、QQ这些社交网络平台都有大量的用户。在这些社交网络中非常重要的一部分就是人与人之间的“好友”关系。
在数学里,为了表示这种好友关系,我们通常使用图中的结点来表示一个人,而用图中的边来表示人和人之间的相识关系,那么社交网络就可以用图论来表示。而“相识关系”又可以分为单向和双向。
单向表示两个人a和ba认识b但是b不认识a。如果是单向关系我们就需要使用有向边来区分是a认识b还是b认识a。如果是双向关系双方相互认识因此直接用无向边就够了。在今天的内容里我们假设相识关系都是双向的所以我们今天讨论的都是无向图。
从上面的例图可以看出人与人之间的相识关系可以有多条路径。比如张三可以直接连接赵六也可以通过王五来连接赵六。比较这两条通路最短的通路长度是1因此张三和赵六是一度好友。也就是说这里我用两人之间最短通路的长度来定义他们是几度好友。照此定义在之前的社交关系示意图中张三、王五和赵六互为一度好友而李四和赵六、王五为二度好友。
寻找两个人之间的最短通路或者说找出两人是几度好友在社交中有不少应用。例如向你推荐新的好友、找出两人之间的关系的紧密程度、职场背景调查等等。在LinkedIn上有个功能就是向你推荐了你可能感兴趣的人。下面这张图是我的LinkedIn主页里所显示的好友推荐。
这些被推荐的候选人和我都有不少的共同连接也就是共同好友。所以他们都是我的二度好友。但是他们和我之间还没有建立直接的联系因此不是一度好友。也就是说对于某个当前用户LinkedIn是这么来选择好友推荐的
被推荐的人和当前用户不是一度好友;
被推荐的人和当前用户是二度好友。
那为什么我们不考虑“三度”甚至是“四度”好友呢我前面已经说过两人之间最短的通路长度表示他们是几度好友。那么三度或者四度就意味着两人间最短的通路也要经历2个或更多的中间人他们的关系就比较疏远互相添加好友的可能性就大大降低。
所以呢,总结一下,如果我们想进行好友推荐,那么就要优先考虑用户的“二度”好友,然后才是“三度”或者“四度”好友。那么,下一个紧接着要面临的问题就是:给定一个用户,如何优先找到他的二度好友呢?
深度优先搜索面临的问题
这种情况下,你可能会想到上一篇介绍的深度优先搜索。深度优先搜索不仅可以用在树里,还可以应用在图里。不过,我们要面临的问题是图中可能存在回路,这会增加通路的长度,这是我们在计算几度好友时所不希望的。
所以在使用深度优选搜索的时候,一旦遇到产生回路的边,我们需要将它过滤。具体的操作是,判断新访问的点是不是已经在当前通路中出现过,如果出现过就不再访问。
如果过滤掉产生回路的边从一个用户出发我们确实可以使用深度优先的策略搜索完他所有的n度好友然后再根据关系的度数从二度、三度再到四度进行排序。这是个解决方法但是效率太低了。为什么呢
你也许听说过社交关系的六度理论。这个理论神奇的地方在于它说地球上任何两个人之间的社交关系不会超过六度。乍一听感觉不太可能。仔细想想假设每个人平均认识100个人我真心不觉得100很多不信你掰着指头数数看自己认识多少人那么你的二度好友就是100^2这个可以用我们前面讲的排列思想计算而来。
以此类推三度好友是100^3到五度好友就有100亿人了已经超过了地球目前的总人口。即使存在一些好友重复的情况下例如你的一度好友可能也出现在你的三度好友中那这也不可能改变结果的数量级。所以目前来看地球上任何两个人之间的社会关系不会超过六度。
六度理论告诉我们,你的社会关系会随着关系的度数增加,而呈指数级的膨胀。这意味着,在深度搜索的时候,每增加一度关系,就会新增大量的好友。
但是你仔细回想一下,当我们在用户推荐中查看可能的好友时,基本上不会看完所有推荐列表,最多也就看个几十个人,一般可能也就看看前几个人。所以,如果我们使用深度优先搜索,把所有可能的好友都找到再排序,那效率实在太低了。
什么是广度优先搜索?
更高效的做法是,我们只需要先找到所有二度的好友,如果二度好友不够了,再去找三度或者四度的好友。这种好友搜索的模式,其实就是我们今天要介绍的广度优先搜索。
广度优先搜索Breadth First Search也叫宽度优先搜索是指从图中的某个结点出发沿着和这个点相连的边向前走去寻找和这个点距离为1的所有其他点。只有当和起始点距离为1的所有点都被搜索完毕才开始搜索和起始点距离为2的点。当所有和起始点距离为2的点都被搜索完了才开始搜索和起始点距离为3的点如此类推。
我用上一节介绍深度优先搜索顺序的那棵树,带你看一下广度优先搜索和深度优先搜索,在结点访问的顺序上有什么不一样。
同样我们用结点上的数字表示结点的ID用虚线表示遍历前进的方向用结点边上的数字表示该结点在广度优先搜索中被访问的顺序。从这个图中你有没有发现广度优先搜索其实就是横向搜索一棵树啊
尽管广度优先和深度优先搜索的顺序是不一样的,它们也有两个共同点。
第一,在前进的过程中,我们不希望走重复的结点和边,所以会对已经被访问过的点做记号,而在之后的前进过程中,就只访问那些还没有被标记的点。这一点上,广度优先和深度优先是一致的。有所不同的是,在广度优先中,如果发现和某个结点直接相连的点都已经被访问过,那么下一步就会看和这个点的兄弟结点直接相连的那些点,从中看看是不是有新的点可以访问。
例如在上图中访问完结点945的两个子结点580和762之后广度优先策略发现945没有其他的子结点了因此就去查看945的兄弟结点131看看它有哪些子结点可以访问因此下一个被访问的点是906。
而在深度优先中如果到了某个点发现和这个点直接相连的所有点都已经被访问过了那么不会查看它的兄弟结点而是回退到这个点的父节点继续查看和父结点直接相连的点中是不是存在新的点。例如在上图中访问完结点945的两个子结点之后深度优先策略会回退到点110然后访问110的子结点131。
第二,广度优先搜索也可以让我们访问所有和起始点相通的点,因此也被称为广度优先遍历。如果一个图包含多个互不连通的子图,那么从起始点开始的广度优先搜索只能涵盖其中一个子图。这时,我们就需要换一个还没有被访问过的起始点,继续广度优先遍历另一个子图。广度优先搜索可以使用同样的方式来遍历有多个连通子图的图,这也回答了上一讲的思考题。
如何实现社交好友推荐?
第12讲中我说深度优先是利用递归的嵌套调用、或者是栈的数据结构来实现的。然而广度优先的访问顺序是不一样的我们需要优先考虑和某个给定结点距离为1的所有其他结点。
等距离为1的结点访问完才会考虑距离为2的结点。等距离为2的结点访问完才会考虑距离为3的结点等等。在这种情况下我们无法不断地根据结点的边走下去而是要先遍历所有距离为1的点。
那么如何在记录所有已被发现的结点情况下优先访问距离更短的点呢仔细观察你会发现和起始点更近的结点会先更早地被发现。也就是说越早被访问到的结点越早地处理它这是不是很像我们平时排队的情形早到的人可以优先接受服务而晚到的人需要等前面的人都离开才能轮到。所以这里我们需要用到队列这种先进先出First In First Out的数据结构。
如果你不是很熟悉队列的数据结构,我这里简短地回顾一下。队列是一种线性表,要被访问的下一个元素来自队列的头部,而所有新来的元素都会加入队列的尾部。
我画了张图给你讲队列的工作过程。首先,读取已有元素的时候,都是从队列的头部来取,例如\(x\_{1}\)\(x\_{2}\)等等。所有新的元素都加入队列的尾部,例如\(x\_{m}\)\(x\_{m+1}\)。
那么在广度优先搜索中,队列是如何工作的呢?这主要分为以下几个步骤。
首先,把初始结点放入队列中。然后,每次从队列首位取出一个结点,搜索所有在它下一级的结点。接下来,把新发现的结点加入队列的末尾。重复上述的步骤,直到没有发现新的结点为止。
我以上面的树状图为例,并通过队列实现广度优先搜索。
第1步将初始结点110加入队列中。
第2步取出结点110搜出下一级结点123、879、945和131。
第3步将点123、879、945和131加入队列的末尾。
第4步重复第2和第3步处理结点123将新发现结点162和587加入队列末尾。
第5步重复第2和第3步处理结点879没有发现新结点。
第6步重复第2和第3步处理结点945将新发现的结点580和762加入队列末尾。
……
第n-1步重复第2和第3步处理结点906没有发现新结点。
第n步重复第2和第3步处理结点681没有发现新的结点也没有更多待处理的结点整个过程结束。
理解了如何使用队列来实现广度优先搜索之后,我们就可以开始着手编写代码。我们现在没有现成的用户关系网络数据,所以我们需要先模拟生成一些用户结点及其间的相识关系,然后利用队列的数据结构进行广度优先的搜索。基于此,主要使用的数据结构包括:
用户结点Node。这次设计的用户结点和前缀树结点TreeNode略有不同包含了用户的ID user_id以及这个用户的好友集合。我用HashSet实现便于在生成用户关系图的时候确认是否会有重复的好友。
表示整个图的结点数组Node[]。由于每个用户使用user_id来表示所以我可以使用连续的数组表示所有的用户。用户的user_id就是数组的下标。
队列Queue。由于Java中Queue是一个接口因此需要用一个拥有具体实现的LinkedList类。
首先我们列出结点Node类的示例代码。
public class Node {
public int user_id; // 结点的名称这里使用用户id
public HashSet<Integer> friends = null;
// 使用哈希映射存放相连的朋友结点。哈希便于确认和某个用户是否相连。
public int degree; // 用于存放和给定的用户结点,是几度好友
// 初始化结点
public Node(int id) {
user_id = id;
friends = new HashSet<>();
degree = 0;
}
}
我们可以用代码随机生成用户间的关系。首先根据指定的用户数量生成Node[]数组以及数组中的每个用户的节点Node。然后根据边的数量生成用户之间的相识关系。需要注意的是自己不能是自己的好友而且某个用户的所有好友之中不能有重复的人。
Node[] user_nodes = new Node[user_num];
// 生成所有表示用户的结点
for (int i = 0; i < user_num; i++) {
user_nodes[i] = new Node(i);
}
// 生成所有表示好友关系的边
for (int i = 0; i < relation_num; i++) {
int friend_a_id = rand.nextInt(user_num);
int friend_b_id = rand.nextInt(user_num);
if (friend_a_id == friend_b_id) continue;
// 自己不能是自己的好友如果生成的两个好友id相同跳过
Node friend_a = user_nodes[friend_a_id];
Node friend_b = user_nodes[friend_b_id];
friend_a.friends.add(friend_b_id);
friend_b.friends.add(friend_a_id);
}
其中user_num-用户的数量也就是结点的数量relation_num-好友关系的数量也就是边的数量由于HashSet有去重的功能所以我这里做了简化处理没有判断是否存在重复的边也没有因为重复的边而重新生成另一条边
随后我们的主角广度优先搜索就要出场了这里我使用了一个visited变量存放已经被访问过的结点防止回路的产生
/**
* @Description: 通过广度优先搜索查找好友
* @param user_nodes-用户的结点user_id-给定的用户ID我们要为这个用户查找好友
* @return void
*/
public static void bfs(Node[] user_nodes, int user_id) {
if (user_id > user_nodes.length) return; // 防止数组越界的异常
Queue<Integer> queue = new LinkedList<Integer>(); // 用于广度优先搜索的队列
queue.offer(user_id); // 放入初始结点
HashSet<Integer> visited = new HashSet<>(); // 存放已经被访问过的结点,防止回路
visited.add(user_id);
while (!queue.isEmpty()) {
int current_user_id = queue.poll(); // 拿出队列头部的第一个结点
if (user_nodes[current_user_id] == null) continue;
// 遍历刚刚拿出的这个结点的所有直接连接结点,并加入队列尾部
for (int friend_id : user_nodes[current_user_id].friends) {
if (user_nodes[friend_id] == null) continue;
if (visited.contains(friend_id)) continue;
queue.offer(friend_id);
visited.add(friend_id); // 记录已经访问过的结点
user_nodes[friend_id].degree = user_nodes[current_user_id].degree + 1; // 好友度数是当前结点的好友度数再加1
System.out.println(String.format("\t%d度好友%d", user_nodes[friend_id].degree, friend_id));
}
}
}
需要注意的是,这里用户结点之间的边是随机生成的,所以每次结果会有所不同。如果想重现固定的结果,可以从某个文件加载用户之间的关系。
小结
在遍历树或者图的时候,如果使用深度优先的策略,被发现的结点数量可能呈指数级增长。如果我们更关心的是最近的相连结点,比如社交关系中的二度好友,那么这种情况下,广度优先策略更高效。也正是由于这种特性,我们不能再使用递归编程或者栈的数据结构来实现广度优先,而是需要用到具有先进先出特点的队列。
思考题
在计算机的操作系统中,我们常常需要查看某个目录下的文件或子目录。现在给定一个目录的路径,请分别使用深度优先和广度优先搜索,列出该目录下所有的文件和子目录。对于子目录,需要进一步展示其下的文件和子目录,直到没有更多的子目录。
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,201 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
14 树的广度优先搜索(下):为什么双向广度优先搜索的效率更高?
你好,我是黄申。
上一讲,我们通过社交好友的关系,介绍了为什么需要广度优先策略,以及如何通过队列来实现它。有了广度优先搜索,我们就可以知道某个用户的一度、二度、三度等好友是谁。不过,在社交网络中,还有一个经常碰到的问题,那就是给定两个用户,如何确定他们之间的关系有多紧密?
最直接的方法是,使用这两人是几度好友,来衡量他们关系的紧密程度。今天,我就这个问题,来聊聊广度优先策略的一种扩展:双向广度优先搜索,以及这种策略在工程中的应用。
如何更高效地求出两个用户间的最短路径?
基本的做法是,从其中一个人出发,进行广度优先搜索,看看另一个人是否在其中。如果不幸的话,两个人相距六度,那么即使是广度优先搜索,同样要达到万亿级的数量。
那究竟该如何更高效地求得两个用户的最短路径呢?我们先看看,影响效率的问题在哪里?很显然,随着社会关系的度数增加,好友数量是呈指数级增长的。所以,如果我们可以控制这种指数级的增长,那么就可以控制潜在好友的数量,达到提升效率的目的。
如何控制这种增长呢?我这里介绍一种“双向广度优先搜索”。它巧妙地运用了两个方向的广度优先搜索,大幅降低了搜索的度数。现在我就带你看下,这个方法的核心思想。
假设有两个人\(a\)、\(b\)。
我们首先从\(a\)出发,进行广度优先搜索,记录\(a\)的所有一度好友\(a\_{1}\),然后看点\(b\)是否出现在集合\(a\_{1}\)中。
如果没有,就再从\(b\)出发,进行广度优先搜索,记录所有一度好友\(b\_{1}\),然后看\(a\)和\(a\_{1}\)是否出现在\(b\)和\(b\_{1}\)的并集中。
如果没有,就回到\(a\),继续从它出发的广度优先搜索,记录所有二度好友\(a\_{2}\),然后看\(b\)和\(b\_{1}\)是否出现在\(a\)、\(a\_{1}\)和\(a\_{2}\)三者的并集中。
如果没有,就回到\(b\),继续从它出发的广度优先搜索。
如此轮流下去,直到找到\(a\)的好友和\(b\)的好友的交集。
如果有交集,就表明这个交集里的点到\(a\)和\(b\)都是通路。
我们假设\(c\)在这个交集中,那么把\(a\)到\(c\)的通路长度和\(b\)到\(c\)的通路长度相加,得到的就是从\(a\)到\(b\)的最短通路长(这个命题可以用反证法证明),也就是两者为几度好友。这个过程有点复杂,我画了一张图帮助你来理解。
思路你应该都清楚了,现在我们来看看如何用代码来实现。
要想实现双向广度优先搜索首先我们要把结点类Node稍作修改增加一个变量degrees。这个变量是HashMap类型用于存放从不同用户出发到当前用户是第几度结点。比如说当前结点是4从结点1到结点4是3度结点2到结点4是2度结点3到结点4是4度那么结点4的degrees变量存放的就是如下映射
有了变量degrees我们就能随时知道某个点和两个出发点各自相距多少。所以在发现交集之后根据交集中的点和两个出发点各自相距多少就能很快地算出最短通路的长度。理解了这点之后我们在原有的Node结点内增加degrees变量的定义和初始化。
public class Node {
......
public HashMap<Integer, Integer> degrees; // 存放从不同用户出发,当前用户结点是第几度
// 初始化结点
public Node(int id) {
......
degrees = new HashMap<>();
degrees.put(id, 0);
}
}
为了让双向广度优先搜索的代码可读性更好我们可以先实现两个模块化的函数getNextDegreeFriend和hasOverlap。函数getNextDegreeFriend是根据给定的队列查找和起始点相距度数为指定值的所有好友。而函数hasOverlap用来判断两个集合是不是有交集。有了这些模块化的函数双向广度优先搜索的代码就更直观了。
在函数一开始,我们先进行边界条件判断。
/**
* @Description: 通过双向广度优先搜索,查找两人之间最短通路的长度
* @param user_nodes-用户的结点user_id_a-用户a的IDuser_id_b-用户b的ID
* @return void
*/
public static int bi_bfs(Node[] user_nodes, int user_id_a, int user_id_b) {
if (user_id_a > user_nodes.length || user_id_b > user_nodes.length) return -1; // 防止数组越界的异常
if (user_id_a == user_id_b) return 0; // 两个用户是同一人直接返回0
由于同时从两个用户的结点出发对于所有有两条搜索的路径我们都需要初始化两个用于广度优先搜索的队列以及两个用于存放已经被访问结点的HashSet。
Queue<Integer> queue_a = new LinkedList<Integer>(); // 队列a用于从用户a出发的广度优先搜索
Queue<Integer> queue_b = new LinkedList<Integer>(); // 队列b用于从用户b出发的广度优先搜索
queue_a.offer(user_id_a); // 放入初始结点
HashSet<Integer> visited_a = new HashSet<>(); // 存放已经被访问过的结点,防止回路
visited_a.add(user_id_a);
queue_b.offer(user_id_b); // 放入初始结点
HashSet<Integer> visited_b = new HashSet<>(); // 存放已经被访问过的结点,防止回路
visited_b.add(user_id_b);
接下来要做的是,从两个结点出发,沿着各自的方向,每次广度优先搜索一度,并查找是不是存在重叠的好友。
int degree_a = 0, degree_b = 0, max_degree = 20; // max_degree的设置防止两者之间不存在通路的情况
while ((degree_a + degree_b) < max_degree) {
degree_a ++;
getNextDegreeFriend(user_id_a, user_nodes, queue_a, visited_a, degree_a);
// 沿着a出发的方向继续广度优先搜索degree + 1的好友
if (hasOverlap(visited_a, visited_b)) return (degree_a + degree_b);
// 判断到目前为止被发现的a的好友和被发现的b的好友两个集合是否存在交集
degree_b ++;
getNextDegreeFriend(user_id_b, user_nodes, queue_b, visited_b, degree_b);
// 沿着b出发的方向继续广度优先搜索degree + 1的好友
if (hasOverlap(visited_a, visited_b)) return (degree_a + degree_b);
// 判断到目前为止被发现的a的好友和被发现的b的好友两个集合是否存在交集
}
return -1;
// 广度优先搜索超过max_degree之后仍然没有发现a和b的重叠认为没有通路
}
你可以同时实现单向广度优先搜索和双向广度优先搜索然后通过实验来比较两者的执行时间看看哪个更短如果实验的数据量足够大比如说结点在1万以上边在5万以上你应该能发现双向的方法对时间和内存的消耗都更少
为什么双向搜索的效率更高呢我以平均好友度数为4给你举例讲解
左边的图表示从结点\(a\)单向搜索走2步右边的图表示分别从结点\(a\)\(b\)双向搜索各走1步很明显左边的结点有16个明显多于右边的8个结点而且随着每人认识的好友数搜索路径的增加这种差距会更加明显
我们假设每个地球人平均认识100个人如果两个人相距六度单向广度优先搜索要遍历100^6=1万亿左右的人。如果是双向广度优先搜索那么两边各自搜索的人只有100^3=100万。
当然你可能会说单向广度优先搜索之后查找匹配用户的开销更小啊的确如此假设我们要知道结点\(a\)\(b\)之间的最短路径单向搜索意味着要在\(a\)的1万亿个好友中查找\(b\)如果采用双向搜索的策略从结点\(a\)\(b\)出发进行广度优先搜索每个方向会产生100万的好友那么需要比较这两组100万的好友是否有交集
假设我们使用哈希表来存储\(a\)的1万亿个好友并把搜索\(b\)是否存在其中的耗时记作x而把判断两组100万好友是否有交集的耗时记为y那么通常x
不过综合考虑广度优先搜索出来的好友数量双向广度优先搜索还是更有效为什么这么说呢稍后介绍算法复杂度的概念和衡量方法时我会具体来分析这个例子
广度优先搜索的应用场景有很多下面我来说说这种策略的一个应用
如何实现更有效地嵌套型聚合
广度优先策略可以帮助我们大幅优化数据分析中的聚合操作聚合是数据分析中一个很常见的操作它会根据一定的条件把记录聚集成不同的分组以便我们统计每个分组里的信息目前SQL语言中的GROUP BY语句Python和Spark语言中data frame的groupby函数Solr的facet查询和ElasticSearch的aggregation查询都可以实现聚合的功能
我们可以嵌套使用不同的聚合获得层级型的统计结果但是实际上针对一个规模超大的数据集聚合的嵌套可能会导致性能严重下降这里我来谈谈如何利用广度优先的策略对这个问题进行优化
首先我用一个具体的例子来给你讲讲什么是多级嵌套的聚合以及为什么它会产生严重的性能问题
这里我列举了一个数据表它描述了一个社交网络中每个人的职业经历字段包括项目的ID用户ID公司ID和同事的IDs
对于这张表我们可以进行三层嵌套的聚集第一级是根据用户ID来聚获取每位用户一共参与了多少项目第二级是根据公司ID来聚获取每位用户在每家公司参与了多少项目第三级根据同事ID来聚获取每位用户在每家公司和每位同事共同参与了多少项目最终结果应该是类似下面这样的
用户u88总共50个项目包括在公司c42中的10个c26中的8个...
在公司c42中参与10个项目包括和u120共事的4个和u99共事的3个...
和u120共同参与4个项目
和u99共同参与3个项目
和u72共同参与3个项目
在公司c26中参与了8个项目
和u145共同参与5个项目
和u128共同参与3个项目
用户u88在其他公司的项目...
用户u66总共47个项目
在公司c28中参与了16个项目
和u65共同参与了5个项目
(用户u66的剩余数据...
...
其他用户的数据...
为了实现这种嵌套式的聚合统计你会怎么来设计呢看起来挺复杂的其实我们可以用最简单的排列的思想分别为每个用户”“每个用户+每个公司”“每个用户+每个公司+每位同事”,生成很多很多的计数器可是如果用户的数量非常大那么这个很多就会成为一个可怕的数字
我们假设这个社交网有5万用户每位用户平均在5家公司工作过而用户在每家公司平均有10名共事的同事那么针对用户的计数器有5万个针对每个用户+每个公司的计数器有25万个而到了每个用户+每个公司+每位同事的计数器就已经达到250万个了三个层级总共需要280万计数器
我们假设一个计数器是4个字节那么280万个计数器就需要消耗超过10M的内存对于高并发低延迟的实时性服务如果每个请求都要消耗10M内存很容易就导致服务器崩溃另外实时性的服务往往只需要前若干个结果就足以满足需求了在这种情况下完全基于排列的设计就有优化的空间了
从刚才那张图中其实我们就能想到一些优化的思路
对于只需要返回前若干结果的应用场景我们可以对图中的树状结构进行剪枝去掉绝大部分不需要的结点和边这样就能节省大量的内存和CPU计算
比如如果我们只需要返回前100个参与项目最多的用户那么就没有必要按照深度优先的策略去扩展树中高度为2和3的结点了而是应该使用广度优先策略首先找出所有高度为1的结点根据项目数量进行排序然后只取出前100个把计数器的数量从5万个一下子降到100个
以此类推我们还可以控制高度为2和3的结点之数量如果我们只要看前100位用户每位用户只看排名第一的公司而每家公司只看合作最多的3名同事那么最终计数器数量就只有50000+100x5+100x1x10=51500。只有文字还是不太好懂我画了一张图帮你理解这个过程。
如果一个项目用到排列组合的思想我们需要在程序里使用大量的变量来保存数据或者进行计算这会导致内存和CPU使用量的急剧增加在允许的情况下我们可以考虑使用广度优先策略对排列组合所生成的树进行优化这样我们就可以有效地缩减树中靠近根的结点数量避免之后树的爆炸性生长
小结
广度优先搜索相对于深度优先搜索没有函数的嵌套调用和回溯操作所以运行速度比较快但是随着搜索过程的进行广度优先需要在队列中存放新遇到的所有结点因此占用的存储空间通常比深度优先搜索多
相比之下深度优先搜索法只保留用于回溯的结点而扩展完的结点会从栈中弹出并被删除所以深度优先搜索占用空间相对较少不过深度优先搜索的速度比较慢而并不适合查找结点之间的最短路径这类的应用
思考题
今天所说的双向广度优先比单向广度优先更高效其实是要基于一个前提条件的你能否说出在什么情况下单向广度优先更高效呢针对这种情况又该如何优化双向广度优先呢
欢迎在留言区交作业并写下你今天的学习笔记你可以点击请朋友读”,把今天的内容分享给你的好友和他一起精进

View File

@ -0,0 +1,185 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
15 从树到图:如何让计算机学会看地图?
你好,我是黄申。
我们经常使用手机上的地图导航App查找出行的路线。那计算机是如何在多个选择中找到最优解呢换句话说计算机是如何挑选出最佳路线的呢
前几节,我们讲了数学中非常重要的图论中的概念,图,尤其是树中的广度优先搜索。在广度优先的策略中,因为社交网络中的关系是双向的,所以我们直接用无向边来求解图中任意两点的最短通路。
这里,我们依旧可以用图来解决这个问题,但是,影响到达最终目的地的因素有很多,比如出行的交通工具、行驶的距离、每条道路的交通状况等等,因此,我们需要赋予到达目的地的每条边,不同的权重。而我们想求的最佳路线,其实就是各边权重之和最小的通路。
我们前面说了,广度优先搜索只测量通路的长度,而不考虑每条边上的权重。那么广度优先搜索就无法高效地完成这个任务了。那我们能否把它改造或者优化一下呢?
我们需要先把交通地图转为图的模型。图中的每个结点表示一个地点,每条边表示一条道路或者交通工具的路线。其中,边是有向的,表示单行道等情况;其次,边是有权重的。
假设你关心的是路上所花费的时间,那么权重就是从一点到另一点所花费的时间;如果你关心的是距离,那么权重就是两点之间的物理距离。这样,我们就把交通导航转换成图论中的一个问题:在边有权重的图中,如何让计算机查找最优通路?
基于广度优先或深度优先搜索的方法
我们以寻找耗时最短的路线为例来看看。
一旦我们把地图转换成了图的模型,就可以运用广度优先搜索,计算从某个出发点,到图中任意一个其他结点的总耗时。
基本思路是,从出发点开始,广度优先遍历每个点,当遍历到某个点的时候,如果该点还没有耗时的记录,记下当前这条通路的耗时。如果该点之前已经有耗时记录了,那就比较当前这条通路的耗时是不是比之前少。如果是,那就用当前的替换掉之前的记录。
实际上,地图导航和之前社交网络最大的不同在于,每个结点被访问了一次还是多次。在之前的社交网络的案例中,使用广度优先策略时,对每个结点的首次访问就能获得最短通路,因此每个结点只需要被访问一次,这也是为什么广度优先比深度优先更有效。
而在地图导航的案例中,从出发点到某个目的地结点,可能有不同的通路,也就意味着耗时不同。而耗时是通路上每条边的权重决定的,而不是通路的长度。因此,为了获取达到某个点的最短时间,我们必须遍历所有可能的路线,来取得最小值。这也就是说,我们对某些结点的访问可能有多次。
我画了一张图方便你理解多条通路对最终结果的影响。这张图中有A、B、C、D、E五个结点分别表示不同的地点。
从这个图中可以看出从A点出发到目的地B点一共有三条路线。
如果你直接从A点到B点度数为1需要50分钟。
从A点到C点再到B点虽然度数为2但总共只要40分钟。
从A点到D点到E点再到最后的B点虽然度数为3但是总耗时只有35分钟比其他所有的路线更优。
这种情形之下,使用广度优先找到的最短通路,不一定是最优的路线。所以,对于在地图上查找最优路线的问题,无论是广度优先还是深度优先的策略,都需要遍历所有可能的路线,然后取最优的解。
在遍历所有可能的路线时,有几个问题需要注意。
第一,由于要遍历所有可能的通路,因此一个点可能会被访问多次。当然,这个“多次“是指某个结点出现在不同通路中,而不是多次出现在同一条通路中。因为我们不想让用户总是兜圈子,所以需要避免回路。
第二如果某个结点x和起始点s之间存在多个通路每当x到s之间的最优路线被更新之后我们还需要更新所有和x相邻的结点之最优路线计算复杂度会很高。
一个优化的版本Dijkstra算法
无论是广度优先还是深度优先的实现,算法对每个结点的访问都可能多于一次。而访问多次,就意味着要消耗更多的计算机资源。那么,有没有可能在保证最终结果是正确的情况下,尽可能地减少访问结点的次数,来提升算法的效率呢?
首先我们思考一下对于某些结点是不是可以提前获得到达它们的最终的解例如最短耗时、最短距离、最低价格等等从而把它们提前移出遍历的清单如果有是哪些结点呢什么时候可以把它们移除呢Dijkstra算法要登场了它简直就是为了解决这些问题量身定制的。
Dijkstra算法的核心思想是对于某个结点如果我们已经发现了最优的通路那么就无需在将来的步骤中再次考虑这个结点。Dijkstra算法很巧妙地找到这种点而且能确保已经为它找到了最优路径。
1.Dijkstra算法的主要步骤
让我们先来看看Dijkstra算法的主要步骤然后再来理解它究竟是如何确定哪些结点已经拥有了最优解。
首先你需要了解几个符号。
第一个是source我们用它表示图中的起始点缩写是s。
然后是weight表示二维数组保存了任意边的权重缩写为w。w[m, n]表示从结点m到结点n的有向边之权重大于等于0。如果m到n有多条边而且权重各自不同那么取权重最小的那条边。
接下来是min_weight表示一维数组保存了从s到任意结点的最小权重缩写为mw。假设从s到某个结点m有多条通路而每条通路的权重是这条通路上所有边的权重之和那么mw[m]就表示这些通路权重中的最小值。mw[s]=0表示起始点到自己的最小权重为0。
最后是Finish表示已经找到最小权重的结点之集合缩写为F。一旦结点被放入集合F这个结点就不再参与将来的计算。
初始的时候Dijkstra算法会做三件事情。第一把起始点s的最小权重赋为0也就是mw[s] = 0。第二往集合F里添加结点sF包含且仅包含s。第三假设结点 s 能直接到达的边集合为M对于其中的每一个对端节点m则把mw[m]设为w[s, m]同时对于所有其他s不能直接到达的结点将通路的权重设为无穷大。
然后Dijkstra算法会重复下列两个步骤。
第一步查找最小mw。从mw数组选择最小值则这个值就是起始点s到所对应的结点的最小权重并且把这个点加入到F中针对这个点的计算就算完成了。
比如当前mw中最小的值是mw[x]=10那么结点s到结点x的最小权重就是10并且把结点x放入集合F将来没有必要再考虑点xmw[x]可能的最小值也就确定为10了。
第二步更新权重。然后我们看看新加入F的结点x是不是可以直接到达其他结点。如果是看看通过x到达其他点的通路权重是否比这些点当前的mw更小如果是那么就替换这些点在mw中的值。
例如x可以直接到达y那么把(mw[x] + w[x, y])和mw[y]比较,如果(mw[x] + w[x, y])的值更小那么把mw[y]更新为这个更小的值而我们把x称为y的前驱结点。
然后重复上述两步再次从mw中找出最小值此时要求mw对应的结点不属于F重复上述动作直到集合F包含了图的所有结点也就是说没有结点需要处理了。
字面描述有些抽象,我用一个具体的例子来解释一下。你可以看我画的这个图。
我们把结点s放入集合F。同s直接相连的结点有a、b、c和d我把它们的mw更新为w数组中的值就可以得到如下结果
然后我们从mw选出最小的值0.2把对应的结点c加入集合F并更新和c直接相连的结点f、h的mw值得到如下结果
然后我们从mw选出最小的值0.3把对应的结点b加入集合F并更新和b直接相连的结点a和f的mw值。以此逐步类推可以得到如下的最终结果
你可以试着自己从头到尾推导一下,看看结果是不是和我的一致。
说到这里你可能会产生一个疑问Dijkstra算法提前把一些结点排除在计算之外而且没有遍历全部可能的路径那么它是如何确保找到最优路径的呢
下面我们就来看看这个问题的答案。Dijkstra算法的步骤看上去有点复杂不过其中最关键的两步是第一个是每次选择最小的mw第二个是假设被选中的最小mw所对应的结点是x那么查看和x直接相连的结点并更新它们的mw。
2.为什么每次都要选择最小的mw
最小的、非无穷大的mw值对应的结点是还没有加入F集合的、且和s有通路的那些结点。假设当前mw数组中最小的值是mw[x]对应的结点是x。如果边的权重都是正值那么通路上的权重之和是单调递增的所以其他通路的权重之和一定大于当前的mw[x]因此即使存在其他的通路其权重也会比mw[x]大。
你可以结合这个图,来理解我刚才这段话。
图中的虚线表示省去了通路中间的若干结点。mw[x]是当前mw数组中的最小值所以它小于等于任何一个mw[xn]其中xn不等于x。
我们假设存在另一个通路,通过\(x\_{n}\)达到x那么通路的权重总和为mw[\(x\_{n}\)] + w[\(x\_{n}\), x] ≥ mw[\(x\_{n}\)] ≥ mw[x]。所以我们可以得到一个结论拥有最小mw值的结点x不可能再找到更小的mw值可以把它放入“已完成“的集合F。
这就是为什么每次都要选择最小的mw值并认为对应的结点已经完成了计算。和广度优先或者深度优先的搜索相比Dijkstra算法可以避免对某些结点重复而且无效的访问。因此每次选择最小的mw就可以提升了搜索的效率。
3.为什么每次都要看x直接相连的结点
我们已经确定mw[x]是从点s到点x的最小权重那么就可以把这个确定的值传播到和x直接相连、而且不在F中的结点。通过这一步我们就可以获得从点s到这些点、而且经过x的通路中最小的那个权重。我画了张图帮助你理解。
在这个图中x直接相连\(y\_{1}\)\(y\_{2}\),…,\(y\_{n}\)。从点s到点x的mw[x]已经确定了那么对于从s到yn的所有通路只有两种可能经过x和不经过x。如果这条通路经过x那么其权重的最小值就是mw[\(y\_{i}\)] = mw[x] + w[x, \(y\_{i}\)]中的一个1≤i≤n我们只需要把这个值和其他未经过x结点的通路之权重对比就足够了。这就是为什么每次要更新和x直接相连的结点之mw。
这一步和广度优先策略中的查找某个结点的所有相邻结点类似。但是之后Dijkstra算法重复挑选最小权重的步骤既没有遵从广度优先也没有遵从深度优先。即便如此它仍然保证了不会遗漏任意一点和起始点s之间、拥有最小权重的通路从而保证了搜索的覆盖率。你可能会奇怪这是如何得到保证的我使用数学归纳法来证明一下。
你还记得数学归纳法的一般步骤吗?刚好借由这个例子我们也来复习一下。
我们的命题是对于任意一个点Dijkstra算法都可以找到它和起始点s之间拥有最小权重的通路。
首先当n=1的时候也就是只有起始点s和另一个终止点的时候Dijkstra算法的初始化阶段的第3步保证了命题的成立。
然后我们假设n=k-1的时候命题成立同时需要证明n=k的时候命题也成立。命题在n=k-1时成立表明从点s到k-1个终点的任何一个时Dijkstra算法都能找到拥有最小权重的通路。那么再增加一个结点xDijkstra算法同样可以为包含x的k个终点找到最小权重通路。
这里我们只需要考虑x和这k-1个点连通的情况。因为如果不连通就没有必要考虑x了。既然连通x可能会指向之前k-1个结点也有可能被这k-1个结点所指向。假设x指向了y而z指向了xy和z都是之前k-1个结点中的一员。
我们先来看x对y的影响。如果x不在从s到y的最小权重通路上那么x的加入并不影响mw[y]的最终结果。如果x在从s到y的最小权重通路上那么就意味着mw[x] + w[x, y]≤mw[y]mw表示没有引入结点x的时候mw的值。
所以有mw[x]≤mw[y]这就意味着Dijkstra算法在查找最小mw的步骤中会在mw[y]之前挑出mw[x]也就是找到了从s到y且经过x的最小权重通路。
我们再来看z对x的影响。假设有多个z指向x分别是\(z\_{1}\), \(z\_{2}\), …,\(z\_{m}\)从s到x的通路必定会经过这m个z结点中的一个。Dijkstra算法中找最小mw的步骤一定会遍历mw[\(z\_{i}\)]1<=i<=m而更新权重的步骤可以并保证从(mw[\(z\_{i}\)] + w[\(z\_{i}\), x])中找出最小值最终找到从s到x的最优通路。
有了详细的推导,想要写出代码就不难了。我这里只给你说几点需要注意的地方。
在自动生成图的函数中,你需要把广度优先搜索的相应代码做两处修改。第一,现在边是有向的了,所以生成的边只需要添加一次;第二,要给边赋予一个权重值,例如可以把边的权重设置为[0,1.0)之间的float型数值。
为了更好地模块化你可以实现两个函数findGeoWithMinWeight和updateWeight。它们分别对应于我之前提到的最重要的两步每次选择最小的mw更新和x直接相连的结点之mw。
每次查找最小mw的时候我们需要跳过已经完成的结点只考虑那些不在F集合中的点。这也是Dijkstra算法比较高效的原因。此外如果你想输出最优路径上的每个结点那么在updateWeight函数中就要记录每个结点的前驱结点。
如果你能跟着我进行一步步的推导并且手写代码进行练习相信你对Dijkstra算法会有更深刻的印象。
小结
我们使用Dijkstra算法来查找地图中两点之间的最短路径而今天我所介绍的Dijkstra使用了更为抽象的“权重”。如果我们把结点作为地理位置边的权重设置为路上所花费的时间那么Dijkstra算法就能帮助我们找到任意两个点之间耗时最短的路线。
除了时间之外你也可以对图的边设置其他类型的权重比如距离、价格这样Dijkstra算法可以让用户找到地图任意两点之间的最短路线或者出行的最低价格等等。有的时候边的权重越大越好比如观光车开过某条路线的车票收入。对于这种情况Dijkstra算法就需要调整一下每次找到最大的mw更新邻近结点时也要找更大的值。所以你只要掌握核心的思路就可以了具体的实现可以根据情况去灵活调整。
思考题
今天的思考题和地图数据的特殊情况有关。
如果边的权重是负数我们还能用今天讲的Dijkstra算法吗
如果地图中存在多条最优路径也就是说多条路径的权重和都是相等的那么我刚刚介绍的Dijkstra算法应该如何修改呢
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,143 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
16 时间和空间复杂度(上):优化性能是否只是“纸上谈兵”?
你好,我是黄申。
作为程序员,你一定非常清楚复杂度分析对编码的重要性。计算机系统从最初的设计、开发到最终的部署,要经过很多的步骤,而影响系统性能的因素有很多。我把这些因素分为三大类:算法理论上的计算复杂度、开发实现的方案和硬件设备的规格。
如果将整个系统的构建比作生产汽车,那么计算复杂度相当于在蓝图设计阶段,对整个汽车的性能进行评估。如果我们能够进行准确的复杂度分析,那么就能从理论上预估汽车的各项指标,避免生产出一辆既耗油又开得很慢的汽车。
可是,你也常常会发现,要准确地分析复杂度并不容易。这一讲,我来说说如何使用数学的思维,来进行系统性的复杂度分析。
基本概念
我先带你简短回顾一下几个重要概念,便于你稍后更好地理解本节的内容。
算法复杂度是一个比较抽象的概念,通常只是一个估计值,它用于衡量程序在运行时所需要的资源,用于比较不同算法的性能好坏。同一段代码处理不同的输入数据所消耗的资源也可能不同,所以分析复杂度时,需要考虑三种情况,最差情况、最好情况和平均情况。
复杂度分析会考虑性能的各个方面,不过我们最关注的是两个部分,时间和空间。时间因素是指程序执行的耗时多少,空间因素是程序占用内存或磁盘存储的多少。因此,我们把复杂度进一步细分为时间复杂度和空间复杂度。
我们通常所说的时间复杂度是指渐进时间复杂度表示程序运行时间随着问题复杂度增加而变化的规律。同理空间复杂度是指渐进空间复杂度表示程序所需要的存储空间随着问题复杂度增加而变化的规律。我们可以使用大O来表示两者。
我这里不会讲太多的基本概念,而是通过数学的思维,总结一些比较通用的方法和规则,帮助你快速、准确地进行复杂度分析。
6个通用法则
复杂度分析有时看上去很难其实呢我们只要通过一定的方法进行系统性的分析就能得找正确的结论。我通过自身的一些经验总结了6个法则相信它们对你会很有帮助。
1.四则运算法则
对于时间复杂度,代码的添加,意味着计算机操作的增加,也就是时间复杂度的增加。如果代码是平行增加的,就是加法。如果是循环、嵌套或者函数的嵌套,那么就是乘法。
比如二分查找的代码中第一步是对长度为n的数组排序第二步是在这个已排序的数组中进行查找。这两个部分是平行的所以计算时间复杂度时可以使用加法。第一步的时间复杂度是O(nlogn)第二步的时间复杂度是O(logn)所以时间复杂度是O(nlogn)+O(logn)。
你还记得在第3讲我讲的查字典的例子吗
String[] dictionary = {"i", "am", "one", "of", "the", "authors", "in", "geekbang"};
Arrays.sort(dictionary); // 时间复杂度为O(nlogn)
String wordToFind = "i";
boolean found = Lesson3_3.search(dictionary, wordToFind); //时间复杂度O(logn)
if (found) {
System.out.println(String.format("找到了单词%s", wordToFind));
} else {
System.out.println(String.format("未能找到单词%s", wordToFind));
}
这里面的Arrays.sort(dictionary)我用了Java自带的排序函数时间复杂度为O(nlogn)而Lesson3_3.search是我自己实现的二分查找时间复杂度为O(logn)。两者是并行的,并依次执行,因此总的时间复杂度是两者相加。
我们再来看另外一个例子。从n个元素中选出3个元素的可重复排列使用3层循环的嵌套或者是3层递归嵌套这里时间复杂度计算使用乘法。由于n*n*n=n3时间复杂度是O(n3)。对应加法和乘法,分别是减法和除法。如果去掉平行的代码,就减掉相应的时间复杂度。如果去掉嵌套内的循环或函数,就除去相应的时间复杂度。
对于空间复杂度,同样如此。需要注意的是,空间复杂度看的是对内存空间的使用,而不是计算的次数。如果语句中没有新开辟空间,那么无论是平行增加还是嵌套增加代码,都不会增加空间复杂度。
2.主次分明法则
这个法则主要是运用了数量级和运算法则优先级的概念。在刚刚介绍的第一个法则中,我们会对代码不同部分所产生的复杂度进行相加或相乘。使用加法或减法时,你可能会遇到不同数量级的复杂度。这个时候,我们只需要看最高数量级的,忽略掉常量、系数和较低数量级的复杂度。
在介绍第一个法则的时候我说了先排序、后二分查找的总时间复杂度是O(nlogn) + O(logn)。实际上我贴出的代码中还有数组初始化、变量赋值、Console输出等步骤如果细究的话时间复杂度应该是O(nlogn) + O(logn) + O(3)但是和O(nlogn)相比常量和O(logn)这种数量级都是可以忽略的所以最终简化为O(nlogn)。
再举个例子我们首先通过随机函数生成一个长度为n的数组然后生成这个数组的全排列。通过循环生成n个随机数的时间复杂度为O(n)而全排列的时间复杂度为O(n!)如果使用四则运算法则总的时间复杂为O(n)+O(n!)。
不过由于n!的数量级远远大于n所以我们可以把总时间复杂度简化为O(n!)。这对于空间复杂度同样适用。假设我们计算一个长度为n的向量和一个维度为[n*n]的矩阵之乘积,那么总的空间复杂度可以由(O(n)+O(n2))简化为O(n2)。
注意,这个法则对于乘法或除法并不适用,因为乘法或除法会改变参与运算的复杂度的数量级。
3.齐头并进法则
这个法则主要是运用了多元变量的概念,其核心思想是复杂度可能受到多个因素的影响。在这种情况下,我们要同时考虑所有因素,并在复杂度公式中体现出来。
我在之前的文章中介绍了使用动态规划解决的编辑距离问题。从解决方案的推导和代码可以看出这个问题涉及两个因素参与比较的第一个字符串的长度n和第二个字符串的长度m。代码使用了两次嵌套循环第一层循环的长度是n第二层循环的长度为m根据乘法法则时间复杂度为O(n*m)。而空间复杂度很容易从推导结果的状态转移表得出也是O(n*m)。
4.排列组合法则
排列组合的思想不仅出现在数学模型的设计中,同样也会出现在复杂度分析中,它经常会用在最好、最坏和平均复杂度分析中。
我们来看个简单的算法题。
给定两个不同的字符a和b以及一个长度为n的字符数组。字符数组里的字符都只出现过一次而且一定存在一个a和一个b请输出a和b之间的所有字符包括a和b。假设我们的算法是按照数组下标从低到高的顺序依次扫描数组那么时间复杂度是多少呢这里时间复杂度是由被扫描的数组元素之数量决定的但是要准确地求解并不容易。仔细思考一下你会发现被扫描的元素之数量存在很多可能的值。
首先考虑字母出现的顺序第一个遇到的字母有2个选择a或者b。而第二个字母只有1个选择这就是2个元素的全排列。下面我们把两种情况分开来看。
第一种情况是a在b之前出现。接下来是a和b之间的距离这会决定我们要扫描多少个字符。两者之间的距离最大为n-1最小为1所以最坏的时间复杂度为O(n-1)根据主次分明法则简化为O(n)最好复杂度为O(1)。
平均复杂度的计算稍微繁琐一些。如果距离为n-1只有1种可能a为数组中第一个字符b为数组中最后一个字符。如果距离为n-2那么a字符的位置有2种可能b在a位置确定的情况下只有1种可能因此排列数是2。以此类推如果距离为n-3那么有3种可能一直到距离1有n-1种可能。所以平均的扫描次数为(1 *(n-1) + 2 *(n-2) + 3 (n -3) + … + (n-1) 1) / (1 + 2 + … + n)最后时间复杂度简化为O(n)。
第二种情况是b在a之前出现。这个分析过程和第一种情况类似。我们假设第一种和第二种情况出现的几率相等那么综合两种情况可以得出平均复杂度为O(n)。
5.一图千言法则
在之前的文章中,我提到了很多数学和算法思想都体现了树这种结构,通过画图它们内在的联系就一目了然了。同样,这些树结构也可以帮助我们分析某些算法的复杂度。
就以我们之前介绍的归并排序为例。这个算法分为数据的切分和归并两大阶段,每个阶段的数据划分不同,分组数量也不同,感觉上时间复杂度不太好计算。下面我们来看一个例子,帮助你理解。
假设等待排序的数组长为n。首先看数据切分阶段。数据切分的次数就是切分阶段那棵树的非叶子结点的数量。这个切分阶段的树是一棵满二叉树叶子结点是n个那么非叶子结点的数量就是n-1个所以切分的次数也就是n-1次。如果我们切分数据的时候并不重新生成新的数据而只是生成切分边界的下标那么时间复杂度就是O(n-1)。
在数据归并阶段我们看二叉树的高度为log2n因此归并的次数为log2n。另外无论数组被细分成多少个小的部分每次归并都需要扫描整个长度为n的数组因此归并阶段的时间复杂度为nlog2n。
两个阶段加起来的时间复杂度为O(n-1)+nlog2n最终简化为nlogn。是不是很直观
我再放出我们之前讲二分查找所用的图,你可以结合这个例子进一步理解。
当然,除了图论,很多简单的图表也能帮助到我们的分析。
例如在使用动态规划法的时候我们经常要画出状态转移的表格。看到这类表格我们可以很容易地得出该算法的时间复杂度和空间复杂度。以编辑距离为例参看下面这个示例的图表我们可以发现每个单元格都对应了3次计算以及一个存储单元而总共的单元格数量为m*nm为第一个字符串的长度n为第二个字符串的长度。所以我们很快就能得出这种算法的时间复杂度为O(3m*n)简写为O(m*n)空间复杂度为O(m*n)。
6.时空互换法则
在给定的计算量下,通常时间复杂度和空间复杂度呈现数学中的反比关系。这就说明,如果我们无法降低整体的计算量,那么也许可以通过增加空间复杂度来达到降低时间复杂度的目的,或者反之,通过增加时间复杂度来降低空间复杂度。
关于这个规则最直观的例子就是缓存系统。在没有缓存系统的时候,每次请求都要服务器来处理,因此时间复杂度比较高。如果使用了缓存系统,那么我们会消耗更多的内存空间,但是降低了请求相应的时间。
说到这,你也许会问,在使用广度优先策略优化聚合操作的时候,无论是时间还是空间复杂度,都大幅降低了啊?请注意,这里时空互换法则有个前提条件,就是计算量固定。而聚合操作的优化,是利用了广度优先的特点,大幅减少了整体的计算量,因此可以保证时间和空间复杂度都得到降低。
小结
时间复杂度和空间复杂度的概念,你一定不陌生。可是,在实际运用中,你可能就会发现复杂度分析并不是那么简单。这一节我通过个人的一些经验,从数学思维的角度出发,总结了几条常用的法则,对你会有所帮助。
这些总结可能还是过于抽象,下一讲中,我会通过几个案例分析,来讲讲如何使用这些法则。
思考题
请尝试使用本次介绍的规则,分析一下双向广度优先搜索的时间和空间复杂度。
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,130 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
17 时间和空间复杂度(下):如何使用六个法则进行复杂度分析?
你好,我是黄申,今天我们接着聊复杂度分析的实战。
上一讲,我从数学的角度出发,结合自身经验给你总结了几个分析复杂度的法则。但是在实际工作中我们会碰到很多复杂的问题,这个时候,正确地运用这些法则并不是件容易的事。今天,我就结合几个案例,教你一步步使用这几个法则。
案例分析一:广度优先搜索
在有关图遍历的专栏中,我介绍了单向广度优先和双向广度优先搜索。当时我提到了通常情况下,双向广度优先搜索性能更好。那么,我们应该如何从理论上分析,谁的效率更高呢?
首先我们来看单向广度优先搜索。我们先快速回顾一下搜索的主要步骤。
第一步判断边界条件时间和空间复杂度都是O(1)。
第二步生成空的队列。常量级的CPU和内存操作根据主次分明法则时间和空间复杂度都是O(1)。
第三步把搜索的起始结点放入队列queue和已访问结点的哈希集合visited类似上一步常量级操作时间和空间复杂度都是O(1)。
第四步也是最核心的步骤包括了while和for的两个循环嵌套。
我们首先看时间复杂度。根据四则运算法则时间复杂度是两个循环的次数相乘。对于嵌套在内的for循环这个次数很好理解和每个结点的直接连接点有关。如果要计算平均复杂度我们就取直接连接点的平均数量假设它为m。
现在的难题在于第一个while循环次数是多少呢我们考虑一下齐头并进法则是否存在其他的因素来决定计算的次数第一次的while循环只有起始点一个。从起始点出发会找到m个一度连接点把它们放入队列那么第二次while循环就是m次依次类推到第i次那么总次数就是(m+m*m+m*m*m+…+m^i)。这里我们假设被重复访问的结点不多,可以忽略不计。
在循环内部所有操作都是常量级的包括通过哈希集合判断是否找到终止结点。所以时间复杂度就是O(m+m*m+m*m*m+…+m^i)取最高数量级m^i最后可以简化成O(m^i)其中i是从起始点开始所走的边数。这就是除了m之外的第二个关键因素。
如果你觉得还是不太好理解,可以使用一图千言法则,我画了一张图来帮助你理解。
我们再来看这个步骤的空间复杂度。通过代码你应该可以看出来只有queue和visited变量新增了数据而图的结点本身没有发生改变。所以考虑内存空间使用时只需要考虑queue和visited的使用情况。两者都是在新发现一个结点时进行操作因此新增的内存空间和被访问过的结点数成正比同样为O(m^i)。
最后这四步是平行的所以我们只需要把这几个时间复杂度相加就行了。很明显前三步都是常量只有最后一步是决定性因素因此时间和空间复杂度都是O(m^i)。
我这里没有考虑图的生成,因为这步在单向搜索和双向搜索中是一样的,而且在实际项目中,我们也不会采用随机生成的方式。
接下来,我们来看看双向广度优先搜索。我刚才已经把单向的搜索过程分析得很透彻了,所以双向的复杂度你应该很容易就能得出来。但是,有两处关键点需要你注意。
第一个关键点是双向搜索所要走的边数。如果单向需要走i条边那么双向是i/2。因此时间和空间复杂度都会变为O(2*m^(i/2)简写为O(m^(i/2))。这里i/2中的2不能省去因为它是在指数上改变了数量级。仅从这点来看双向比单向的复杂度低。
第二个关键点是双向搜索过程中判断是否找到通路的方式。单向搜索只需要判断一个点是否存在集合中每次只有O(1)的复杂度。而双向搜索需要比较两个集合是否存在交集复杂度肯定要高于O(1)。
最常规的实现方法是循环遍历其中一个集合A看看A中的每个元素是不是出现在集合B中。假设两个集合中元素的数量都为n那么循环n次那么时间复杂度就为O(n)。基于这些,我们重新写一下双向广度优先搜索的时间复杂度。
假设我们分别从\(a\)点和\(b\)点出发。
从\(a\)点出发找到m个一度连接点\(a\_{1}\)时间复杂度O(m),然后查看\(b\)是否在这m个结点中时间复杂度是O(1)。
然后从\(b\)点出发找到m个一度连接点\(b\_{1}\)时间复杂度O(m),然后查看\(a\)和\(a\_{1}\)是不是在\(b\)和\(b\_{1}\)中时间复杂度是O(m+1)简写为O(m)。
从\(a\)点继续推进到第二度的结点\(a\_{2}\),这个时候\(a\)、\(a\_{1}\)和\(a\_{2}\)的并集的数量已经有1+m+m^2而\(b\)和\(b\_{1}\)的并集数量只有1+m。
因此,针对\(b\)和\(b\_{1}\)的集合进行循环更高效一些时间复杂度是O(m)。
逐步递推下去,我们可以得到下面这个式子:
O(m) + O(1) + O(m) + O(m) + O(m^2) + O(m) ... + O(m^(i/2)) + O(m^(i/2)) = O(1) + O(4m) + O(4m^2) + ... + O(3m^(i/2))
虽然这个式子简化后仍然为O(m^(i/2)),但是我们可以通过这些推导的步骤了解整个算法运行的过程,以及对最终复杂度的影响。
最后比较单向广度搜索的复杂度O(m^i)和双向广度搜索的复杂度O(m^(i/2)),双向的方法更优。
不过上面讨论的内容都是假设每个点的直接相连点数量都很均匀都是m个。如果数据不是均匀的呢你可以利用排列组合的思想想想看各种不同的情况。我想到了三种情况。
第一种情况我用a=b来表示也就是前面讨论的不管从a和b哪个点出发每个点的直接连接数量都是相当的。这个时候的最好、最坏和平均复杂度非常接近。
第二种情况我用a来表示表示从a点出发每个点的直接连接数量远远小于从b点出发的那些。例如从a点出发2度之内所有的点都只有1、2个直接相连点而从b点出发2度之内的大部分点都有100个以上的直接相连点。
第三种情况和第二种类似我用a>b表示表示从b点出发每个点的直接连接数量远远小于从a点出发的那些。
对于第二和第三种情况双向搜索的最坏、最好和平均的复杂度是多少还会是双向的方法更优吗仔细分析一下各种情况你就能回答第14讲的思考题了。
案例分析二:全文搜索
刚才的分析中我们已经使用了6个复杂度分析法则中的5个不过还没涉及最后一个时空互换。这个原则有自己的特殊性我们需要通过牺牲空间复杂度来降低时间复杂度或者反其道行之。
因此,在实际运用中,我们更多的是使用这个原则来指导和优化系统的设计。今天,我用搜索引擎的例子,来给你讲讲如何做到这一点。
搜索引擎你一定用得很多了,它最基本的也最重要的功能,就是根据你输入的关键词,查找指定的数据对象。这里,我以文本搜索为例。要查找某个关键词是不是出现在一篇文章里,最基本的处理方式有两种。
第一,把全文作为一个很长的字符串,把用户输入的关键词作为一个子串,那这个搜索问题就变成了子串匹配的问题。
假设字符串平均长度为n个字符关键词平均长度为m个字符使用最简单的暴力法就是把代表全文的字符串的每个字符和关键词字符串的每个字符两两相比那么时间复杂度就是O(n*m)。
第二,对全文进行分词,把全文切分成一个个有意义的词,那么这个搜索问题就变成了把输入关键词和这些切分后的词进行匹配的问题。
拉丁文分词比较简单基本上就是根据各种分隔符来切分。而中文分词涉及很多算法不过这不是我们讨论的重点我们假设无论何种语言、何种分词方法时间复杂度都是O(n)其中n为文章的长度。而在词的集合中查找输入的关键词时间复杂度是O(m)m为词集合中元素的数量。
我们也可以先对词的集合排序时间复杂度是O(m*logm)然后使用二分查找时间复杂度都只有O(logm)。如果文章很少改变那么全文的分词和词的排序基本上都属于一次性的开销对于关键词查询来说每次的时间复杂度都只有O(logm)。
无论使用上述哪种方法看上去时间复杂度都不算太高是吧可是别忘了我们可是在海量的文章中查找信息还需要考虑文章数量这个因素。假设文章数量是k那么时间复杂度就变为O(k*n)或者O(k*logm),数量级一下子就增加了。
为了降低搜索引擎在查询时候的时间复杂度,我们要引入倒排索引(或逆向索引),这就是典型的牺牲空间来换取时间。如果你对倒排索引的概念不熟悉,我打个比方给你解释一下。
假设你是一个热爱读书的人,当你进入图书馆或书店的时候,怎样快速找到自己喜爱的书籍?没错,就是看书架上的标签。如果看到一个架子上标着“极客时间 - 数学专栏”,那么恭喜你,离程序员的数学书就不远了。而倒排索引做的就是“贴标签”的事情。
为了实现倒排索引,对于每篇文章我们都要先进行分词,然后将分好的词作为该篇的标签。让我们看看下面三篇样例文章和对应的分词,也就是标签。其中,分词之后,我也做了一些标准化的处理,例如全部转成小写、去掉时态等。
上面这个表格看上去并没有什么特别。好,体现“倒排”的时刻来了。我们转换一下,不再从文章的角度出发,而是从标签的角度出发来看问题。也就是说,从每个标签,我们能找到哪些文章?通过这样的思考,我们可以得到下面这张表。
你看看有了这张表格想知道查找某个关键词在哪些文章中出现是不是很容易呢整个过程就像在哈希表中查找一样时间复杂度只有O(1)了。当然,我们所要付出的成本就是倒排索引这张表。
假设有n个不同的单词而每个单词所对应的文章平均数为m的话那么这种索引的空间复杂度就是O(n*m)。好在n和m通常不会太大对内存和磁盘的消耗都是可以接受的。
小结
这一讲我分析了两个复杂度的案例并在其中穿插了6个法则的运用和讲解。随着项目经验的累积你会发现复杂度分析是个很有趣也很有成就感的事情。
更重要的是,它可以告诉我们哪些方法是可行的,哪些是不可行的,避免不必要的资源浪费。这里,资源浪费可能是硬件资源的浪费,也有可能是开发资源的浪费。这些法则中的数学思想并不高深,却可以帮我们有效地分析复杂度,运筹帷幄于帐中,决胜于千里之外。
思考题
在你日常的工作中,有没有经历过性能分析相关的项目?如果有,你都使用了哪些方法来分析问题的症结?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,132 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
18 总结课:数据结构、编程语句和基础算法体现了哪些数学思想?
你好,我是黄申。
之前的17讲我们从小处着眼介绍了离散数学中最常用的一些知识点。我讲到了很多数据结构、编程语句和基础性算法。这些知识点看似是孤立的但是内部其实有很多联系。今天这一节我们就来总结一下前面讲过的内容把之前讲过的内容串联起来。
数据结构
首先,我们来看一些基本的数据结构,你可别小看这些数据结构,它们其实就是一个个解决问题的“模型”。有了这些模型,你就能把一个个具体的问题抽象化,然后再来解决。
我们从最简单的数据结构数组开始说。自从你开始接触计算机编程,数组一定是你经常使用的数据结构。它的特点你应该很清楚。数组可以通过下标,直接定位到所需的数据,因此数组特别适合快速地随机访问。它常常和循环语句相结合,来实现迭代法,例如二分查找、斐波那契数列等等。
另外,我们将要在“线性代数篇”介绍的矩阵,也可以使用多维数组来表示。不过,数组只对稠密的数列更有效。如果数列非常稀疏,那么很多数组的元素就是无效值,浪费了存储空间。此外,数组中元素的插入和删除也比较麻烦,需要进行数据的批量移动。
那么对于稀疏的数列而言什么样的数据结构更有效呢答案是链表。链表中的结点存储了数据而链表结点之间的相连关系在C和C++语言中是通过指针来实现的而在Java语言中是通过对象引用来实现的。
链表的特点是不能通过下标来直接访问数据,而是必须按照存储的结构逐个读取。这样做的优势在于,不必事先规定数据的数量,也不再需要保存无效的值,表示稀疏的数列时可以更有效地利用存储空间,同时也利于数据的动态插入和删除。但是,相对于数组而言,链表无法支持快速地随机访问,进行读写操作时就更耗时。
和数组一样,链表也可以是多维的。对于非常稀疏的矩阵,也可以用多维链表的结构来表达。
此外,在链表结构中,点和点之间的连接,分别体现了图论中的顶点和边。因此,我们还可以使用指针、对象引用等来表示图结构中的顶点和边。常见的图模型,例如多叉树、无向图和有向图等,都可以用指针或引用来实现。
在数组和链表这些基础的数据结构之上,我们可以构建更复杂的数据结构,比如哈希表、队列和栈等等。这些数据结构,提供了逻辑更复杂的模型,可以通过数组、链表或两者的结合来实现。
第2讲我提到了哈希的概念而哈希表就可以通过数组和链表来构造。在很多编程语言中哈希表的实现采用的是链地址哈希表。
这种方法的主要思想是先分配一个很大的数组空间而数组中的每一个元素都是一个链表的头部。随后我们就可以根据哈希函数算出的哈希值也叫哈希的key找到数组的某个元素及对应的链表然后把数据添加到这个链表中。
之所以要这样设计,是因为存在哈希冲突。对于不同的数据,哈希函数可能产生相同的哈希值,这就是哈希冲突。
如果数组的每个元素都只能存放一个数据,那就无法解决冲突。如果每个元素对应了一个链表,那么当发生冲突的时候,我们就可以把多个数据添加到同一个链表中。可是,把多个数据存放在一个链表,就代表访问效率不高。所以,我们要尽量找到一个合理的哈希函数,减少冲突发生的机会,提升检索的效率。
在第2讲中我还提到了使用求余相关的操作来实现哈希函数。我这里举个例子。你可以看我画的这幅图。
我们把对100求余作为哈希函数。因此数组的长度是100。对于每一个数字通过它对100求余确定它在数组中的位置。如果多个数字的求余结果一样就产生冲突使用链表来解决。我们可以看到表中位置98的链表没有冲突而0、1、2、3和99位置的链表都有冲突。
说完了哈希,我们来看看栈这种数据结构。
我在介绍树的深度优先搜索时讲到栈,它是先进后出的。在我们进行函数递归的时候,函数调用和返回的顺序,也是先进后出,所以,栈体现了递归的思想,可以实现基于递归的编程。
实际上,计算机系统里的函数递归,在内部也是通过栈来实现的。虽然直接通过栈来实现递归不如函数递归调用那么直观,但是,由于栈可以避免过多的中间变量,它可以节省内存空间的使用。
我在介绍广度优先搜索策略时,谈到了队列。
队列和栈最大的不同在于,它是一种先进先出的数据结构,先进入队列的元素会优先得到处理。队列模拟了日常生活中人们排队的现象,其思想已经延伸到很多大型的数据系统中,例如消息队列。
在消息系统中,生产者会源源不断地推送新的数据,而消费者会对这些消息进行处理。可是,有时消费者的处理速度会慢于生产者推送的速度,这会带来很多复杂的后续问题,因此我们可以通过队列实现消息的缓冲。新产生的数据会先进入队列,直到消费者处理它。经过这样的异步处理,消息的队列实现了生产者和消费者的松耦合,对消费者起到了保护作用,使它不容易被数据洪流冲垮。
比哈希表,队列和栈更为复杂的数据结构,是基于图论中的各种模型,例如各种二叉树、多叉树、有向图和无向图等等。通常,这些模型表示了顶点和顶点之间的稀疏关系,所以它们常常是基于指针或者对象引用来实现的。我在讲前缀树、社交关系图和交通地图的案例中,都使用了这些模型。另外,树模型中的多叉树、特别是二叉树体现了递归的思想。之前的递归编程的案例中的图示也可以对应到多叉树的表示。
编程语句
在你刚刚开始学习编程的时候,肯定接触过条件语句、循环语句和函数调用这些基本的语句。
条件语句的一个关键元素是布尔表达式,它其实体现了逻辑代数中逻辑和集合的概念。逻辑代数,也被称为布尔代数,主要包括了逻辑表达式及其相关的逻辑运算,可以帮助我们消除自然语言所带来的歧义,并严格、准确地描述事物。
在编程语言中我们把逻辑表达式和控制语言结合起来比如Java语言的If语句
if(表达式) {函数体1} else {函数体2}若表达式为真执行函数体1否则执行函数体2。
当然逻辑代数在计算机中的应用远不止条件语句。例如SQL语言中的Select语句和布尔检索模型。
Select是SQL查询语言中十分常用的语句。这个语句将根据指定的逻辑表达式在一个数据库中进行查询并返回结果而返回的结果就是满足条件记录的集合。类似地布尔检索模型利用逻辑表达式确定哪些文档满足检索的条件并把它们作为结果返回。
这里顺便提一下除了条件语句中的布尔表达式逻辑代数还体现在编程中的其他地方。例如SQL语言中的Join操作。Join有多种类型每种类型其实都对应了一种集合的操作。
内连接inner join假设被连接的两张数据表分别是左表和右表那么内连接查询能将左表和右表中能关联起来的数据连接后返回返回的结果就是两个表中所有相匹配的数据。如果认为左表是集合A右表是集合B那么从集合的角度来说内连接产生的结果是A、B两个集合的交集。
外连接outer join外连接可以保留左表右表或全部表。根据这些行为的不同可分为左外连接、右外连接和全连接。无论哪一种都是对应于不同的集合操作。
循环语句可以让我们进行有规律地重复性操作,直到满足某个条件。这和迭代法中反复修改某个值的操作非常一致。所以循环常用于迭代法的实现,例如二分或者牛顿法求解方程的根。在之前的迭代法讲解中,我经常使用循环来实现编码。
另外,循环语句也会经常和布尔表达式相结合。嵌套的多层循环,常常用于比较多个元素的大小,或者计算多个元素之间的相似度等等,这也体现了排列组合的思想。
至于函数的调用,一个函数既可以调用自己,也可以调用其他不同的函数。如果不断地调用自己,这就体现了递归的思想。同时,函数的递归调用也可以体现排列组合的思想。
基础算法
在前面的专栏中,我介绍了一些常见算法及其对应的数学思想。而这些思想,在算法中的体现无处不在。
介绍分治思想的时候我谈及了MapReduce的数据切分。在分布式系统中除了数据切分我们还要经常处理的问题是如何确定服务请求被分配到哪台机器上这就引出了负载均衡算法。
常见的包括轮询或者源地址哈希算法。轮询算法把请求按顺序轮流地分配到后端服务器上它并不关心每台服务器当前的负载。如果我们对每个请求标上一个自动增加的ID我们可以认为轮询算法是对请求的ID进行求余操作或者是求余的哈希函数被除数就是可用服务器的数量余数就是接收请求的服务器ID。而源地址哈希进一步扩展了这个思想扩展主要体现在
它可以对请求的IP或其他唯一标识进行哈希而不一定是请求的ID
哈希函数的变换操作不一定是求余。
不管是对何种数据进行哈希变换也不管是何种哈希函数只要能为每个请求确定哈希key之后我们就能为它查找对应的服务器。
另外在第9节中我谈到了字符串的编辑距离但是没有涉及字符串匹配的算法。知名的RKRabin-Karp匹配算法在暴力匹配Brute Force基础之上充分利用了迭代法和哈希提升了算法的效率。
首先RK算法可以根据两个字符串哈希后的值。来判断它们是不是相同。如果哈希值不同则两个字符串肯定不同不用再比较此外RK算法中的哈希设计非常巧妙让相邻两个子字符串的哈希值产生了固定的联系让我们可以通过前一个子串的哈希值推导出后一个子串的哈希值这样就能使用迭代法来计算每个子串的哈希值大大减少了用于哈希函数的计算。
除了分治和动态规划另一个常用的算法思想是回溯。我们可以使用回溯来解决的问题包括八皇后和0/1背包等等。回溯实际上体现了递归和排列的思想。不过它对搜索空间做了一些优化提前排除了不可能的情况提升了算法整体的效率。当然既然回溯体现了递归的思想也可以把整个搜索状态表示成树而对结果的搜索就是树的深度优先遍历。
在前两节讲述算法复杂度分析的时候,我已经从数学的角度出发,总结了几个常用的法则,包括四则运算、主次分明、齐头并进、排列组合、一图千言和时空互换。这些法则体现了数学中的运算优先级、数量级、多元变量、图论等思想。这些我们上两节刚刚讲过,我就不多说了,你可以参考之前的内容快速复习一下。
小结
这一讲,我对常用的数据结构、编程语句和算法中所体现的数学思想,做了一个大体的梳理。可以看到,不同的数据结构,都是在编程中运用数学思维的产物。每种数据结构都有自身的特点,有利于我们更方便地实现某种特定的数学模型。
从数据结构的角度来看,最基本的数组遍历体现了迭代的思想,而链表和树的结构可用于刻画图论中的模型。栈的先进后出、以及队列的先进先出,分别适用于图的深度优先和广度优先遍历。哈希表则充分利用了哈希函数的特点,大幅降低了查询的时间复杂度。
当然,仅仅使用数据结构来存储数据还不够,我们还需要操作这些数据。为了实现操作流程,条件语句使用了布尔代数来控制编程逻辑,循环和函数嵌套使用迭代、递归和排列组合等思想来实现更精细的数学模型。
但是,有时候我们面对的问题太复杂了,除了数据结构和基本的编程语句,我们还需要发明一些算法。为了提升算法的效率,我们需要对其进行复杂度分析。通常,这些算法中的数学思想就更为明显,因为它们都是为了解决特定的问题,根据特定的数学模型而设计的。
有的时候某个算法会体现多种数学思想例如RK字符串匹配算法同时使用了迭代法和哈希。此外多种数学思维可能都是相通的。比如递归的思想、排列的结果、二进制数的枚举都可以用树的结构来图示化因此我们可以通过树来理解。
所以,在平时学习编程的时候,你可以多从数学的角度出发,思考其背后的数学模型。这样不仅有利于你对现有知识的融会贯通,还可以帮助你优化数据结构和算法。
思考题
在你日常的工作项目中,应该经常用到数据结构和算法,能不能列举一下,其中有哪些数学思想呢?
欢迎在留言区交作业,并写下你今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,117 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
19 概率和统计:编程为什么需要概率和统计?
你好,我是黄申。
通过第一个模块的学习,我想你对离散数学在编程领域中的应用,已经有了比较全面的认识。可以看出来,数据结构和基础算法体现的大多数都是离散数学的思想。这些思想更多的时候是给我们提供一种解决问题的思路,在具体指导我们解决问题的时候,我们还需要更多的数学知识。
比如说,在机器学习、数据挖掘等领域,概率统计就发挥着至关重要的作用。那关于概率统计,我们需要掌握哪些知识呢?这些知识究竟可以用在什么地方呢?第二模块的第一节,我们就来聊聊这些问题,让你对这一模块的学习做到心中有数。
概率和统计里有哪些需要掌握的概念?
在第一个模块中,我们认为所有事件都是一分为二的,要么必然发生,要么必然不发生。换句话说,事件的发生只有必然性,没有随机性。但是现实生活中,我们常常会碰到一些模棱两可的情况。
比如你读到一则新闻它报道了某个娱乐圈明星投资了一家互联网公司。那么这则报道是属于娱乐新闻还是科技新闻呢你仔细读了读觉得全篇大部分的内容都是讲述这家互联网企业的发展而只有少部分的内容涉及了这位明星的私生活。你可能会说这篇新闻80%的可能属于科技新闻只有20%的可能属于娱乐新闻。
这里面的数字表示了事件发生的可能性。概率Probability就是描述这种可能性的一个数值。在概率的世界里有很多概念。但是这几个非常基本的概念你一定要知道。
我们用随机变量Random Variable来描述事件所有可能出现的状态并使用概率分布Probability Distribution来描述每个状态出现的可能性。而随机变量又可以分为离散型随机变量Discrete Random Variable和连续型随机变量Continuous Random Variable
这几个概念非常简单,但是其实也很抽象。我举个具体的例子,帮你加深印象。
假设我们使用一个随机变量x来表示新闻类型如果在100篇新闻中有60篇是娱乐新闻有20篇是科技新闻有20篇是体育新闻那么你看到娱乐新闻的概率就是60%看到科技新闻的概率就是20%看到体育新闻的概率就是20%。而这三组数据就可以构成变量x的概率分布P(x)。
在这个概率分布中我们只有一个随机变量x现在我再添加另一个随机变量y表示新闻属于国际的还是国内的。这个时候新的概率分布就需要由x和y这两个变量联合起来才能决定我们把这种概率称为联合概率Joint Probability
比如说刚才那100篇新闻中有30篇是国际新闻而这30篇中有5篇是科技新闻那么国际科技新闻的联合概率就是5/100=5%。不同的x和y取值的组合就对应了不同的联合概率我们用P(x, y)来表示。
对于离散型随机变量通过联合概率P(x, y)在y上求和就可以得到P(x)这个P(x)就是边缘概率Marginal Probability。对于连续型随机变量我们可以通过联合概率P(x, y)在y上的积分推导出边缘概率P(x)。边缘概率有啥用呢?
有的时候情况看起来很复杂而我们其实只需要研究单个事件对概率分布的影响就可以了。这个时候边缘概率可以帮助我们去除那些我们不需要关心的事件把联合概率转换为非联合概率例如从P(x, y)得到P(x)从而忽略y事件。
对于多个随机变量还有一个很重要的概念是条件概率。我估计很多人可能搞不清楚这个概念。我还是举例子跟你说。比如说我们现在假设100篇中有30篇是国际新闻而这30篇中有5篇是科技新闻那在国际新闻中出现科技新闻的概率是多少呢
这时候我们就需要条件概率了。也就是某个事件受其他事件影响之后出现的概率放到咱们的例子里在国际新闻中出现科技新闻的概率就是5/30=16.67%在科技新闻中出现国际新闻的概率就是5/20=25%。
说了这么多,不知道你有没有一种感觉,其实概率论研究的就是这些概率之间相互转化的关系,比如联合概率、条件概率和边缘概率。
通过这些关系概率论中产生了著名的贝叶斯定理Bayes theorem。加上变量的独立性我们就可以构建朴素贝叶斯Naive Bayes分类算法这个算法在机器学习中的应用非常广泛我们后面也会有一节课专门来讲。
此外基于概率发展而来的信息论提出了很多重要的概率例如信息熵Entropy/ 香农熵Shannon Entropy、信息增益Information Gain、基尼指数Gini等。这些概念都被运用到了决策树Decision Tree的算法中。
提到概率论,就一定要提统计学。这是因为,概率和统计其实是互逆的。怎么个互逆呢?
概率论是对数据产生的过程进行建模,然后研究某种模型所产生的数据有什么特性。而统计学正好相反,它需要通过已知的数据,来推导产生这些数据的模型是怎样的。因此统计特别关注数据的各种分布、统计值及其对应的统计意义。
比如现在有一大堆的新闻稿我们想知道这里面有多少是娱乐新闻有多少是科技新闻等等。我们可以先拿出一小部分采样数据逐个来判断它属于哪个类型。比如说分析了10篇之后我们发现有7篇是科技新闻2篇是娱乐新闻1篇是体育新闻那么从统计结果来看三个类型的概率分别是70%、20%和10%。然后,我们根据从这个小采样得来的结论,推测出科技新闻、娱乐新闻和体育新闻所占的比例。这就是统计学要做的事情。
在真实的世界里,我们通常只能观测到一些数据,而无法事先知道,是什么模型产生了这些数据,这时候就要依赖统计学。所以,海量数据的分析、实验和机器学习,都离不开统计学。
概率和统计可以帮我们做什么?
弄清楚这些基本概念之后,我们来看看概率和统计的知识能帮我们做点什么。
首先,我还是要提到复杂度分析。你可能会奇怪,之前讨论的复杂度分析好像没有涉及概率啊。这是因为,在计算平均复杂度的时候,我们其实做了一个假设:所有情况出现的概率都是一样的。
我以最简单的查找算法为例。假设一个数组包含了n个元素我们对其中的元素采取逐个扫描的方式来查找其中的某个元素。如果这个元素一定会被找到那么最好时间复杂度是O(1)最差时间复杂度是O(n)平均时间复杂度是O((n+1)/2)。
等等为什么平均复杂度是O((n+1)/2)呢我们假设一共扫描了n次第1次扫描了1个元素第2次扫描了2个元素一直到第n次扫描了n个元素那么总共的扫描次数是(1+2+…+n) = ((n+1)*n)/2然后除以n次得到每次扫描的元素数量平均值是(n+1)/2所以时间复杂度就是O((n+1)/2)。
我把上述求和式改写成下面这样:
如果1/n是每种情况发生的概率那么平均的扫描次数就是不同情况下扫描次数按照概率进行的加权平均。问题来了为什么这n种情况发生的概率都是1/n呢这是因为之前我们做了一个默认的假设我们每种情况发生的概率是一样的。但在实际生活中概率很可能不是均匀分布的。
比如说一个网站要对它的用户发放优惠券那我们就需要先找到这些用户。我们用一个长度为n的数组代表某个网站的用户列表。我们假设第一个注册用户ID是1第二个注册用户的ID是2以此类推最近刚刚注册的用户ID为n。
如果网站的发放策略是倾向于奖励新用户那么被查找的用户ID有很大的概率会非常接近n因此平均复杂度就会非常接近O(n)。相反如果网站的发放策略是倾向于奖励老用户那么搜索的用户ID有很大的概率是非常接近1的因此平均复杂度会非常接近O(1)。
你可以看到,现实中每种情况出现的可能性是不一样的,这也就意味着概率分布是不均匀的。而不均匀的概率分布,最终会影响平均复杂度的加权平均计算。因此,要想获得更加准确的复杂度分析结果,我们必须要学习概率知识。
除此之外,概率和统计对于机器学习和大数据分析而言更为重要。
对于机器学习而言统计的运用是显而易见的。机器学习中的监督式学习就是通过训练样本估计出模型的参数最后使用训练得出的模型对新的数据进行预测。通过训练样本来估计模型我们可以交给统计来完成。在机器学习的特征工程步骤中我们可以使用统计的正态分布标准化standardization不同取值范围的特征让它们具有可比性。
此外对机器学习算法进行效果评估时A/B测试可以减少不同因素对评测结果的干扰。为了获得更可靠的结论我们需要理解统计意义并为每个A/B测试计算相应的统计值。
最后,概率模型从理论上对某些机器学习算法提供了支持。朴素贝叶斯分类充分利用了贝叶斯定理,使用先验概率推导出后验概率,并通过变量之间相互独立的假设,把复杂的计算进行大幅简化。简化之后,我们就可以把这个算法运用在海量文本的分类任务上。
而决策树使用了信息熵和信息增益挑出最具有区分力的条件构建决策树的结点和分支。这样构建出的树不仅分类效率更高而且更利于人脑的理解。谷歌的PageRank算法利用马尔科夫链的概率转移有效地刻画了人们浏览互联网的行为大幅提升了互联网搜索的体验。
学习这部分内容,需要做哪些准备?
听我说了这么多专栏的内容,你是不是有点担心,专栏的内容太深奥,不好理解。甚至在想,有没有必要做些准备?
学习不是件容易的事,因此进步的过程,从来不会轻松。努力需要你自己来,但是我也会从我的角度出发,助力你的学习。我会争取讲清楚每个知识点背后的前因后果,以及不同知识点之间的联系,避免平铺直叙地罗列一堆理论和公式。
但是,这部分内容,有公式是不可避免的,我尽量只保留那些最核心的公式。因此,即使你之前不太了解概率和统计,也没有关系。只有跟着我的节奏,搞懂每一节的重点,相信你很快就能领悟其中的精髓。
另外,我们无法脱离应用来讲知识,不然就本末倒置了。毕竟,我们学任何知识,都是为了用的。机器学习的知识纷繁复杂,涉及广泛,很多问题甚至是跨学科、跨领域的。
不过,你不用担心,这里面会有太多看不懂的名词。我在讲解的时候,尽量给你抽象出最核心的部分,讲清楚来龙去脉,让你了解它整体的运作方式,不影响你对核心知识点的吸收。
当然,你可以适度地补一些概率知识,这样理解起来会更快。我在之前的加餐三中推荐了几本书,你可以找来看看,了解一些基本概念。另外,你可以准备一些实际工作和项目中的问题。例如,你之前参与的任务,哪些可以使用概率论来解决?碰到的难题有哪些?你是如何解决的?带着这些问题,再来看我的专栏,并且多在留言区写下你的疑问和收获,这样效果会更好。
小结
概率中的概念看起来很多,但是,其实最重要就是你耳熟能详的这几个:随机变量、概率分布、联合概率、条件概率和边缘概率。它们是整个概率的基础,我后面会详细来讲。
通过这些概念之间的相互推导,我们可以得到贝叶斯定理,这是朴素贝叶斯等系列算法的核心。而在概率基础之上发展而来的信息论,定义了信息熵、信息增益和基尼指数等,构成了决策树等系列算法的核心。
概率研究的是模型如何产生数据,统计研究的是如何通过数据来推导其背后的模型。所以说,概率和统计其实是互逆的。
概率和统计的运用非常多,我这里主要讲了三个方面。第一,概率可以帮助我们进行更精准的复杂度分析;第二,概率统计更多是用在机器学习和大数据分析中;第三,概率统计还可以用在各种机器学习的算法中。这些内容,在之后的章节我会进行非常详细地讲解。
思考题
之前你对概率统计的认识是什么样的呢?对这块内容,你觉得最难的是什么?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,226 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
20 概率基础(上):一篇文章帮你理解随机变量、概率分布和期望值
你好,我是黄申。
相信你对变量这个概念并不陌生,数学方程式和编程代码里经常会用到变量。那什么是变量呢?我们在概率中常说的随机变量( random variable和普通的变量variable又有什么不同呢
这些问题其实很简单,我一说你就明白了。
在没有发生运算之前,普通变量的值并不会发生变化,也就是说,它可以取不同的值,但是一旦取值确定之后,它总会是一个固定的值,除非有新的运算操作。
而随机变量的值并不固定比如说某个随机变量可能有10%的概率等于10有20%的概率等于5有30%的概率等于28等等。
我们上节说了,随机变量根据其取值是否连续,可分为离散型随机变量和连续型随机变量。举几个例子,抛硬币出现正反面的次数以及每周下雨的天数,都是离散的值,所以对应的随机变量为离散型。而汽车每小时行驶的速度和银行排队的时间,都是连续的值,对应的随机变量为连续型。
从计算的角度来说就是,我们可以直接求和得出的,就是“离散的”,需要用积分计算的,就是“连续的”。
而随机变量的取值对应了随机现象的一种结果。正是结果的不确定性,才导致了随机变量取值的不确定性,于是我们就引入了概率。我们可以说,每种值是以一定的概率出现的。
概率分布
随机变量的每种取值的出现都遵循一定的可能性,把这个可能性用具体的数值表示出来就是概率。如果将随机变量所有可能出现的值,及其对应的概率都罗列出来,我们就能获得这个变量的概率分布。
我们拿最简单的抛硬币事件来看。从理论上说来出现正面和反面的概率都是50%(我们假设不存在硬币站立的情况)。
我们可以通过一小段Python代码做个模拟实验验证一下这个分布。
import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
def flip_coin(times):
data_array = np.empty(times)
weights_array = np.empty(times)
weights_array.fill(1 / times)
for i in range(0, times): #抛times次的硬币
data_array[i] = random.randint(0, 1) #假设0表示正面1表示反面
data_frame = pd.DataFrame(data_array)
data_frame.plot(kind = 'hist', legend = False) #获取正反面统计次数的直方图
data_frame.plot(kind = 'hist', legend = False, weights = weights_array).set_ylabel("Probability") #获取正反面统计概率的直方图
plt.show()
flip_coin(10)
该代码随机生成若干次的0或10表示硬币正面朝上1表示硬币反面朝上。下表是我生成10次的结果其中正面4次反面6次。
对应的正反面次数和概率直方图如下,而概率的直方图就表示了其概率分布。
通过修改flip_coin函数中的数字我们可以修改抛硬币的次数。我又尝试“抛了”100次得到的结果是正面47次反面53次。
接下来是抛10000次的结果正面是4962次反面是5038次。
你可能已经发现了根据计算机模拟的结果所统计的概率并不是精确的正反面各50%。如果你运行同样的代码,也会发现类似的情况。这是因为理论上的概率,是基于无限次的实验。而我们这里实验的次数是有限的,是一种统计采样。
从10次、100次到10000次我们能看到概率会变得越来越稳定越来越趋近于正反各50%的分布。也就是说,统计的采样次数越多,越趋近于我们理论上的情况。因此,从这个统计实验我们可以看出,概率分布描述的其实就是随机变量的概率规律。
抛硬币正面次数、每周下雨天数这种离散型随机变量,对应的概率分布是很好理解的,但是对于连续型的随机变量,如何理解它们的概率分布呢?
如果我们把连续的值离散化,你会发现这个问题其实不难理解。就拿汽车每小时行驶的公里数来说吧。
现实生活中我们通过汽车的仪表盘读取的速度都是整数值例如每小时60公里。也许比较高档的车会显示数字化的速度带有小数位但实际上汽车最精确的速度是一个无限位数的小数是从0到最高公里数的一个任意数值。
所以,仪表盘所显示的数字,是将实际速度离散化处理之后的数字。除了仪表盘上的速度,汽车行驶在时间维度上也是连续的。类似地,我们还需要对时间进行离散化,比如每分钟查看仪表盘一次并读取速度值。
好的理解了这些之后我同样使用代码来随机一些行驶速度的数据。第一次模拟假设我们手头上有一辆老爷车它的仪表盘最小刻度是5也就是说它只能显示55、60、65这种公里数。然后我们每1分钟采样一次读一次仪表盘那么1小时内我们将生成60个数据。示例代码如下
def check_speed(time_gap, speed_gap, total_time, min_speed, max_speed):
times = (int)(total_time / time_gap) #获取读取仪表盘的次数
data_array = np.empty(times)
weights_array = np.empty(times)
weights_array.fill(1 / times)
for i in range(0, times):
if (speed_gap < 1):
data_array[i] = random.random() * max_speed #随机生成一个最高速和最低速之间的速度
else:
data_array[i] = random.randint(0, max_speed / speed_gap) * speed_gap #随机生成一个最高速和最低速之间的速度先除以speed_gap然后乘以speed_gap进行离散化
data_frame = pd.DataFrame(data_array)
bin_range = np.arange(0, 200, speed_gap)
data_frame.plot(kind = 'hist', bins = bin_range, legend = False) #获取时速统计次数的直方图
data_frame.plot(kind = 'hist', bins = bin_range, legend = False, weights = weights_array, ).set_ylabel("Probability") #获取时速统计概率的直方图
plt.show()
check_speed(1, 5, 60, 0, 200)
对生成的60个数据我们统计其出现在每个速度区间的频次以及相应的概率
我们将频次和概率以直方图的形式来展示
第二次模拟假设我们把车升级到当今的主流车仪表盘的最小刻度已经到1了然后时间维度上我们细分到0.1分钟那么1小时我们将生成600个数据我们还可以进行第三次第四次甚至是无穷次的模拟每次模拟的时候我们都将行驶速度的精度进一步提升将时间间隔进一步缩小让两者都趋近于0那么我们的模拟就从离散逐步趋近于连续的值了
随机变量的概率分布由离散型的直方图变为了连续型的曲线图通过下面的图你可以看到整个演变的过程
当速度间隔和时间间隔精度逐步缩小的时候直方图的分组bin就越小所以你会看到x轴上的数据越浓密y轴上的数据越平滑当间隔或精度无穷小并趋近于0的时候y轴的数据就会随着x轴连续变化而变化
不过当时间间隔小于数秒时我们需要考虑随机产生的数据是否具备真实性毕竟现实中汽车的速度不可能在数秒中从0到200公里因此临近两次的采样数据不能相差太大
上面我通过两个模拟实验分别展示了离散型和连续型概率的分布其实人们在实际运用中已经总结出了一些概率分布我这里挑几个最常见的给你讲解
首先我们来看看离散分布模型常用的离散分布有伯努利分布分类分布二项分布泊松分布等等这里我重点给你介绍两个
第一个是伯努利分布Bernoulli Distribution这是单个随机变量的分布而且这个变量的取值只有两个0或1伯努利分布通过参数λ来控制这个变量为1的概率我把具体的公式列出来并画了张图便于你理解
或者写作
其中x只能为0或1
从这个图也可以看出之前抛硬币的概率分布就属于伯努利分布
另一个是分类分布Categorical Distribution也叫Multinoulli分布它描述了一个具有k个不同状态的单个随机变量这里的k是有限的数值如果k为2的时候那么分类分布就变成了伯努利分布我把这个分布的公式和图解都列了出来
离散型随机变量的状态数量是有限的所以可以通过伯努利和分类分布来描述可是对于连续型随机变量来说状态是无穷多的这时我们就需要连续分布模型比较经典的连续分布有正态分布均匀分布指数分布拉普拉斯分布等等如果你只需要掌握一个的话那肯定是正态分布
这个分布可以近似表示日常生活中很多数据的分布我们经常使用它进行机器学习的特征工程对原始数据实施标准化使得不同范围的数据具有可比性所以如果想要学习机器学习一定要掌握正态分布
正态分布Normal Distribution也叫高斯分布Gaussian Distribution)。我把这个分布的公式列在这里
在这个公式中有两个参数μ表示均值σ表示标准差看这个公式不太直观我们来看一看对应的分布图
从这个图可以看出越靠近中心点μ出现的概率越高而随着渐渐远离μ出现的概率先是加速下降然后减速下降直到趋近于0蓝色区域上的数字表示了这个区域的面积也就是数据取值在这个范围内的概率例如数据取值在[-1σ, μ]之间的概率为34.1%。
现实中很多数据分布都是近似于正态分布的例如人类的身高体重拿身高来说大部分人都是接近平均值身高偏离平均身高越远相对应的人数越少这也是为什么正态分布很常用的原因
正态分布可以扩展到多元正态分布或多维正态分布Multivariate Normal Distribution不过最实用的还是一元标准正态分布这种分布的μ为0σ为1在专栏后面的内容里我会详细介绍如何使用这种分布进行特征值的标准化
期望值
理解了概率分布你还需要了解期望值为什么要了解期望值呢
期望值也叫数学期望是每次随机结果的出现概率乘以其结果的总和如果我们把每种结果的概率看作权重那么期望值就是所有结果的加权平均值它在我们的生活中十分常见例如计算多个数值的平均值其实就是求期望值只不过我们假设每个数值出现的概率是相同的
上一节我提到如何使用概率来解决复杂度分析通过概率的加权平均来获得平均时间复杂度就是时间复杂度的期望值当然这个概念能帮助你解决的实际问题远不止这些
在我看来一个问题只要满足两个要素我们就可以考虑使用期望值
第一个要素在这个问题中可能出现不同的情况而且各种情况的出现满足了一定的概率分布
第二个要素每种情况都对应一个数值这个数值代表了具体的应用含义
如果你觉得这个还是过于抽象我再回到本节的案例给你讲解我先给你提个问题给定了行驶速度的概率分布如何计算汽车在1小时内每分钟行驶的平均速度我们还从比较容易理解的离散型随机变量开始
没错这个问题的答案就是使用1小时所行驶的总距离除以60分钟以之前的每分钟读取仪表盘仪表盘最小刻度是5为例概率分布如下图
1小时行驶的总距离为每种速度乘以用该速度行驶的时间的乘积之总和-
1小时内每分钟平均行驶速度为总距离除以60分钟
将上述式子变换一下我们可以得到
你会发现每分钟的平均值就是每种速度的加权平均而每种速度的权重就是其在概率分布中出现的概率汽车可能按照不同的速度行驶每种速度都有一个出现的概率就是我前面提到的第一个要素而每种速度所对应的每分钟多少公里这个数值就是第二个要素结合这两个要素计算得到的平均值也是汽车每分钟行驶速度的期望值
那么对于连续型的随机变量这种期望值应该如何计算呢我们需要使用下面的积分公式
总结
通过这讲的内容你对概率的基本知识应该有所了解本讲中我通过抛硬币和汽车驾驶的例子讲述了概率论中一些最基本也是最重要的概念包括随机现象随机变量概率分布和期望值
离散型的随机变量在计算机编程中的应用更为广泛它可以和排列组合的思想结合起来通过不同排列或组合的数量计算每种情况出现的概率如果把这种概率和每种情况下的复杂度数值结合起来就可以计算复杂度的期望值
另外离散型概率也可以运用在机器学习的分类算法中例如对于文本进行分类时我们可以通过离散型随机变量表示每个分类或者每个单词出现的概率当然仅靠今天的内容还不足以让我们打造一个分类算法我们还需要了解联合概率条件概率贝叶斯定理等重要的概念下一讲我会详细解释它们
思考题
每天我们的朋友圈都会浮现很多新的动态”。假设我们按照字数把这些动态分为以下几类10个字以内1030个字3050字50100字100字以上
尝试统计一下你朋友圈某个时间段的动态看看每个类有多少条转换成概率分布应该如何表示你的分布和今天介绍的哪个概率分布最接近请注意统计字数时只需要看你朋友自己所写的内容无需考虑转发的文章
欢迎留言和我分享也欢迎你在留言区写下今天的学习笔记你可以点击请朋友读”,把今天的内容分享给你的好友和他一起精进

View File

@ -0,0 +1,147 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
21 概率基础(下):联合概率、条件概率和贝叶斯法则,这些概率公式究竟能做什么?
你好,我是黄申。
上一节我介绍了随机现象、随机变量以及概率分布这些比较简单的概念。为什么要学习这些概念呢?其实就是为了更精确地描述我们生活中的现象,用数学的视角看世界,以此解决其中的问题。
但是实际生活中的现象并非都像“投硬币”那样简单,有很多影响因素都会影响我们去描述这些现象。比如,看似很简单的“投硬币”,我们其实只是考虑最主要的情况,粗暴地把硬币出现的情况一分为二。比如说,不同类型的硬币是否会影响正反面的概率分布呢?站立的情况如何考虑呢?再比如说,在汽车速度的例子中,经过的交通路线,不同的路线是否会影响速度的概率分布呢?
一旦影响因素变多了,我们需要考虑的问题就多了。想要解决刚才那几个问题,更精确地描述这些现象,我们就需要理解几个新的概念,联合概率、条件概率以及贝叶斯法则。
从数学的角度来说,这些概念能描述现实世界中更为复杂的现象,建立更精细的数学模型。比如,我们后面要讲的朴素贝叶斯算法就是建立在联合概率、条件概率和边缘概率之上的。所以,这一节的内容也非常重要,你一定要认真学习并且掌握。
联合概率、条件概率和边缘概率
最近,我一直在操心儿子的教育问题,所以一直在研究他班级的成绩单。为了弄清我儿子在班级上的成绩排名,我向老师要了张全班成绩的分布表。
这张表中有两个随机变量一个是学生的性别一个是分数区间。我们很容易就可以得出这个班中男生的概率是P(男生)=1020=50%90分及以上的学生的概率是P(90-100)=420=20%。那全班考了90分以上的男生的概率是多少呢我们只要找到90分以上的男生人数用这个人数除以全班总人数就行了也就是P(男生, 90-100)=220=10%。
你有没有发现“90分以上的男生”这个概率和之前单独求男生的概率或90分以上的概率不一样。之前只有一个决定因素现在这个概率由性别和分数这两个随机变量同时决定。这种由多个随机变量决定的概率我们就叫联合概率它的概率分布就是联合概率分布。随机变量x和y的联合概率使用P(x, y)表示。我算出了这个例子里所有的联合概率分布。
这里的例子只有两个随机变量但是我们可以很容易扩展到更多的随机变量比如再增加一个学科的变量。那么我们就可以观测这样的数据“班级上女生的数学考了90分及以上的概率是多少其中女生是关于性别变量数学是关于学科变量而90分及以上是关于分数变量。
那么联合概率和单个随机变量的概率之间有什么关联呢?
对于离散型随机变量我们可以通过联合概率P(x, y)在y上求和就可以得到P(x)。对于连续型随机变量我们可以通过联合概率P(x, y)在y上的积分推导出概率P(x)。这个时候我们称P(x)为边缘概率。
除了边缘概率的推导,多个变量的联合概率和单个变量的概率之间还存在一个有趣的关系。在解释这个关系之前,让我先来介绍条件概率。
条件概率也是由多个随机变量决定但是和联合概率不同的是它计算了给定某个或多个随机变量的情况下另一个或多个随机变量出现的概率其概率分布叫做条件概率分布。给定随机变量x随机变量y的条件概率使用P(y | x)表示。
回到成绩分布的案例。我能理解在不同的阶段男生和女生的成绩可能无法直接相比。所以我更关心的是自己儿子和其他男生相比是否落后了。那么我的脑子里就产生了这样一个问题“在男生中考90分及以上的概率是多少”。
仔细看这个问题和前面几个有所不同我只关心男生这个群体所以解答应该是找到考了90分以上的男生的人数然后用这个人数除以男生总人数注意不再是全部总人数。根据上述表格的数据来计算P(90-100|男生)= 210=20%。
解释清楚了条件概率,我就可以列出概率、条件概率和联合概率之间的“三角”关系了。简单地说,联合概率是条件概率和概率的乘积,采用通用的公式来表达就是:
同样的道理,我们也可以得到:
我们仍然可以使用成绩的案例,来验证这个公式。为了更清晰地表述这个问题,我们使用如下的符号:
|男, 90-100| 表示考了90分以上的男生人数
|男| 表示男生人数;
|全班| 表示全班人数。
男生中考了90分及以上的概率为P(90-100 | 男生) = |男生, 90-100| / |男生|全班中男生的概率为P(男) = |男生| / |全班|。如果我们将p(90-100 | 男生) 乘以 P(男) 会得到什么结果呢?
(|男, 90-100| / |男生|) * (|男生| / |全班|) = |男, 90-100| / |全班|
这不就是全班中男生考了90分及以上的联合概率吗其实概率、条件概率和联合概率之间的这种“三角”关系也是著名的贝叶斯定理的核心下面我来详细解释什么是贝叶斯定理以及它可以运用在什么场景之中。
贝叶斯定理
我们假设有这样一个场景我想知道男生考了90100分的概率有多少来评估一下儿子在男生中算什么水平。可是老师出于隐私保护并没有把全班数据的分布告诉我她说道“我可以告诉你全班考90100分的概率以及90100分中男生的概率但是不能告诉你其他信息了”。这个时候贝叶斯定理就可以帮上忙啦。
刚刚我们提到:
所以就有:
这就是非常经典的贝叶斯法则。为什么说经典呢是因为它有很多应用的场景比如朴素贝叶斯你可以多多熟悉一下这个公式。在这个公式中还包含了先验概率Prior Probability、似然函数Likelihood、边缘概率Marginal Probability和后验概率Posterior Probability的概念。
在这里面我们把P(x)称为先验概率。之所以称为“先验”,是因为它是从数据资料统计得到的,不需要经过贝叶斯定理的推算。
P(y | x)是给定x之后y出现的条件概率。在统计学中我们也把P(y | x)写作似然函数L(y | x)。在数学里似然函数和概率是有区别的。概率是指已经知道模型的参数来预测结果而似然函数是根据观测到的结果数据来预估模型的参数。不过当y值给定的时候两者在数值上是相等的在应用中我们可以不用细究。
另外我们没有必要事先知道P(y)。P(y)可以通过联合概率P(x, y)计算边缘概率得来而联合概率P(x, y)可以由P(y|x) * P(x)推出。针对离散型和连续型的边缘概率推导分别如下:
而P(x|y)是根据贝叶斯定理通过先验概率P(x)、似然函数P(y | x)和边缘概率P(y)推算而来,因此我们把它称作后验概率。
回到刚刚的案例我可以通过这样的式子来计算男生考90-100分的概率
P(90-100 | 男生) = {P(男生 | 90-100) * P(90 -100)}/ P(男生)
我只需要数数看班上男生有多少、总人数多少就能算出P(男生)。在加上之前老师告诉我的P(男生 | 90-100)和P(90 -100)就能推算出P(90-100 | 男生)了。这个例子就是通过先验概率,推导出后验概率,这就是贝叶斯定理神奇的地方,也是它最主要的应用场景。
随机变量之间的独立性
说到多个随机变量的联合和条件概率,你可能会产生一个问题:这些随机变量是否会相互影响呢?比如,性别和分数之间有怎样的关系?性别是否会影响分数的概率分布?在之前的成绩分布表中,我们可以得到:
p(90-100 | 男生) = 20%
p(90-100 | 女生) = 20%
p(90-100) = 20%
所以p(90-100 | 男生) = p(90-100 | 女生) = p(90-100)也就是全班中考90分及以上的概率、男生中考90分及以上的概率、以及女生中考90分及以上的概率这三者都是一样。以此类推到其他的分数区间同样如此那么从这个数据上得出的结论是性别对考分的区间没有影响。反之我们也可以看到p(男生 | 90-100) = p(男生 | 80-90) = p(男生 | 70-80) = … = p(男生) = 50%,也就是说考分区间对性别没有影响。这种情况下我们就说性别和分数这两个随机变量是相互独立的。
相互独立会产生一些有趣的现象,刚刚我们提到:
另外将p(x | y) = p(x)带入贝叶斯公式,就可以得出:
变量之间的独立性可以帮我们简化计算。举个例子假设有6个随机变量而每个变量有10种可能的取值那么计算它们的联合概率p(\(x\_{1}\), \(x\_{2}\), \(x\_{3}\), \(x\_{4}\), \(x\_{5}\), \(x\_{6}\)),在实际中是非常困难的一件事情。
根据排列可能的联合取值会达到10的6次方也就是100万这么多。那么使用实际的数据进行统计时我们也至少需要这个数量级的样本否则的话很多联合概率分布的值就是0产生了数据稀疏的问题。但是如果假设这些随机变量都是相互独立的那么我们就可以将联合概率p(\(x\_{1},\) \(x\_{2}\), \(x\_{3}\), \(x\_{4}\), \(x\_{5}\), \(x\_{6}\))转换为p(\(x\_{1}\)) * p(\(x\_{2}\)) * p(\(x\_{3}\)) * p(\(x\_{4}\)) * p(\(x\_{5}\)) * p(\(x\_{6}\))。如此一来我们只需要计算p(\(x\_{1}\))到 p(\(x\_{6}\) )就行了。
不过,班主任刚刚打电话给我,说之前的数据表格有点笔误,实际的分布应该是这样的:
你再推算一下就会发现p(分数 | 性别) = p(分数)和 p(性别 | 分数) = p(性别)并不成立,所以两者不再是相互独立的。所以下面这个式子就不再成立了,这点你在计算的时候需要注意。
在实际项目中,我们会假设多个随机变量是相互独立的,并基于这个假设大幅简化计算,降低对数据统计量的要求。虽然这个假设通常是不成立的,但是仍然可以帮助我们得到近似的解。相比较实现的可行性和求解的精确度,可行性更为重要。在讲解朴素贝叶斯方法中,我会充分利用这一点,从有限的训练样本中构建分类器。
总结
这一讲我继续讨论了概率分布相关的内容,不过这次的重点是多个随机变量相关的联合概率、条件概率、边缘概率。这里概念有点多,但是都很重要,因为这三者之间的推算关系,直接构成了贝叶斯定理的核心,所以你要花点时间理解并记住它们。
而贝叶斯定理定义了先验概率、后验概率和似然函数,后验概率和似然函数及先验概率的乘积成正比关系。此外,通过多个变量之间的独立性,我们可以简化联合概率的计算问题。贝叶斯定理和变量之间独立性的假设,对后面理解朴素贝叶斯算法很有帮助。
如果有一定数量的标注数据,那么通过统计的方法,我们可以很方便地得到先验概率和似然函数,然后推算出后验概率,最后依据后验概率来做预测。这整个过程符合监督式机器学习的模型训练和新数据预测这两个阶段,因此朴素贝叶斯算法被广泛运用在机器学习的分类问题中。下一节中,我们详细讨论这个算法。
思考题
大年三十晚上爷爷奶奶发红包。爷爷准备的红包是4个50元的6个100元的。奶奶准备的红包是8个50元的4个100元的。全家人随机抽你运气很好拿到一个100元的红包。请问这个红包来自爷爷的概率有多少来自奶奶的概率有多少
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,141 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
22 朴素贝叶斯:如何让计算机学会自动分类?
你好,我是黄申。今天我们来聊聊朴素贝叶斯。
在开始正式的内容之前,我想问你一个问题,你是如何区分苹果、甜橙和西瓜的?你可能要说了,这个问题还用得着讲吗?是不是你们博士都喜欢将简单的问题复杂化?还真不是,如果你将计算机想象成一个两三岁的孩子,你会怎么教一个孩子区分这些水果呢?
比如我曾经就和一个小朋友有过这样一段对话:
小朋友:黄叔叔,你和我讲讲,什么样的水果才是苹果呀?
我:圆形的、绿色的水果。
小朋友:那西瓜也是圆形的、绿色的呀?
我:嗯……苹果也有可能是黄色或红色的,但西瓜不是。
小朋友:那甜橙也是圆形的、黄色的呀?
我:好吧,你看到的大部分情况下的甜橙都是黄色的,而苹果只有很少情况(少数品种)是黄色的。而且你还可以尝尝,它们的味道也是不同的。
哈哈,你是不是觉得想要描述清楚,并没有想象中的那么容易?但是,在这个对话中,有两点我觉得你需要关注一下:
我使用了“可能”“大部分情况”“很少情况”等等这种词语,这些词包含了概率的概念;
我使用了多个条件来判断一个水果属于哪个类别。
基于此我接下来就要聊聊我们是如何通过数学的思想和方法系统性地解决这个问题的。其中朴素贝叶斯Naive Bayesian就提供了一个切实可行的方案。不过在深入了解它之前我们还需要做点准备工作。
如何将原始信息转化为计算机能看懂的数据?
事实上,计算机并不像两三岁的小孩那样,可以看到水果的颜色、形状和纹理,或者能尝到水果的味道。我们需要将水果的特征转化为计算机所能理解的数据。最常用的方式就是提取现实世界中的对象之属性,并将这些转化为数字。
以水果为例,你会提取它们的哪些属性呢?我会考虑这些,比如:形状、外皮颜色、斑马纹理、重量、握感、口感。我手边刚好有一个苹果、一个甜橙和一个西瓜,我把它们的属性分别统计了一下,你可以看看。
然后,我们需要这些属性转化为计算机能够理解的东西——数字,也就是说,我给每种属性都定义了具体的数值,用来代表它们的具体属性。
比较细心的话,你可能已经发现了,我偷偷地把重量由连续值转化成了离散值,这是因为朴素贝叶斯处理的都是离散值。
好了仅仅3个水果还不足以构成朴素贝叶斯分类所需的训练样本。为了保证训练的质量我们可以继续扩展到10个水果。
朴素贝叶斯的核心思想
我们现在已经拿到了这10个水果的数据那如果现在我手上有一个新的水果它也有一定的形状、颜色、口感等等你怎么判断它是哪种水果呢
之前的文章我们讲过先验概率、后验概率、条件概率和贝叶斯法则,它们是朴素贝叶斯分类的核心组成部分。通过贝叶斯法则,我们可以根据先验概率和条件概率,推导出后验概率。首先让我们快速回想一下贝叶斯公式。
上一节,我已经详细解释了这个公式的推导和每一部分的含义,这里再强调一下贝叶斯定理的核心思想:用先验概率和条件概率估计后验概率。
那具体到这里的分类问题,我们该如何运用这个公式呢?为了便于理解,我们可以将上述公式改写成这样:
其中c表示一个分类classf表示属性对应的数据字段field。如此一来等号左边的P(c|f)就是待分类样本中出现属性值f时样本属于类别c的概率。而等号右边的P(f|c)是根据训练数据统计得到分类c中出现属性f的概率。P©是分类c在训练数据中出现的概率P(f)是属性f在训练样本中出现的概率。
看到这里,你可能要问了,这里的贝叶斯公式只描述了单个属性值属于某个分类的概率,可是我们要分析的水果每个都有很多属性啊,这该怎么办呢?
别急朴素贝叶斯在这里就要发挥作用了。这是基于一个简单假设建立的一种贝叶斯方法并假定数据对象的不同属性对其归类影响时是相互独立的。此时若数据对象o中同时出现属性fi与fj则对象o属于类别c的概率就是这样
现在我们应该已经可以用10个水果的数据来建立朴素贝叶斯模型了。
其中苹果的分类中共包含3个数据实例对于形状而言出现2次不规则圆、1次圆形和0次椭圆形因此各自的统计概率为0.67、0.33和0.00。我们将这些值称为,给定一个水果分类时,出现某个属性值的条件概率。以此类推,所有的统计结果就是下面这个表格中这样:
对于上表中出现的0.00概率在做贝叶斯公式中的乘积计算时会出现结果为0的情况因此我们通常取一个比这个数据集里最小统计概率还要小的极小值来代替“零概率”。比如我们这里取0.01。在填充训练数据中从来没有出现过的属性值的时候我们就会使用这种技巧我们给这种技巧起个名字就叫作平滑Smoothing
有了这些条件概率,以及各类水果和各个属性出现的先验概率,我们已经建立起了朴素贝叶斯模型。现在,我们就可以用它进行朴素贝叶斯分类了。
假设我们有一个新的水果,它的形状是圆形,口感是甜的,那么根据朴素贝叶斯,它属于苹果、甜橙和西瓜的概率分别是多少呢?我们先来计算一下,它属于苹果的概率有多大。
其中apple表示分类为苹果shape-2表示形状属性的值为2也就是圆形taste-2表示口感属性的值为2。以此类推我们还可计算该水果属于甜橙和西瓜的概率。
比较这三个数值0.00198
你可能已经注意到了这几个公式里的概率乘积通常都非常小在物品的属性非常多的时候这个乘积可能就小到计算机无法处理的地步。因此在实际运用中我们还会采用一些数学手法进行转换比如取log将小数转换为绝对值大于1的负数原理都是一样的。
内容比较多,我稍微总结一下。朴素贝叶斯分类主要包括这几个步骤:
准备数据:针对水果分类这个案例,我们搜集了若干水果的实例,并从水果的常见属性入手,将其转化为计算机所能理解的数据。这种数据也被称为训练样本。
建立模型:通过手头上水果的实例,我们让计算机统计每种水果、属性出现的先验概率,以及在某个水果分类下某种属性出现的条件概率。这个过程也被称为基于样本的训练。
分类新数据:对于一个新水果的属性数据,计算机根据已经建立的模型进行推导计算,得到该水果属于每个分类的概率,实现了分类的目的。这个过程也被称为预测。
朴素贝叶斯分类VS其他分类算法
用朴素贝叶斯进行分类的内容差不多就是这样,你可能要问了,朴素贝叶斯是唯一的分类算法吗?现实中需要分类的场景那么多,朴素贝叶斯都适用吗?确实,我们有很多种分类算法,它们也都有各自的优劣。我这里就把朴素贝叶斯和常用的几种分类算法做个总结和比较。
和KNN最近邻相比朴素贝叶斯需要更多的时间进行模型的训练但是它在对新的数据进行分类预测的时候通常效果更好、用时更短。
和决策树相比,朴素贝叶斯并不能提供一套易于人类理解的规则,但是它可以提供决策树通常无法支持的模糊分类(一个对象可以属于多个分类)。
和SVM支持向量机相比朴素贝叶斯无法直接支持连续值的输入。所以在前面的案例中我将连续值转化成了离散值便于朴素贝叶斯进行处理。
为了便于你理解记忆,我这里也做一下总结。
如果一个分类的应用场景中,待分类对象的属性值大部分都是离散的(或者很容易转化为离散的)、需要支持模糊分类,并且需要快速可靠的实时分类,那么这种场景通常就非常适合使用朴素贝叶斯方法。
总结
今天我从一个看似非常简单的判断水果的例子出发,介绍了如何通过物体的属性及其数值,让计算机理解现实世界中的事物,并通过朴素贝叶斯方法来对其进行分类。
在朴素贝叶斯方法的推导过程中,我给你讲了如何使用贝叶斯法则,将后验概率的估计转换为先验概率和条件概率。朴素贝叶斯训练过程包括基于样本数据的先验概率和条件概率统计,分类过程就包括了使用贝叶斯法则,结合新样本的属性数据以及训练好的模型数据,进行最终的预测。
最后我将朴素贝叶斯和其他常见分类算法比如KNN近邻、决策树、SVM向量机做了对比。朴素贝叶斯适用离散属性值中训练过程耗时长但是分类预测速度快支持模糊分类。这一节的内容比较偏理论下一节我会着重来讲朴素贝叶斯的应用场景告诉你哪些场合下更适合使用朴素贝叶斯法。
思考题
除了文本分类,你还知道什么地方可以使用朴素贝叶斯方法来处理分类问题?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,144 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
23 文本分类:如何区分特定类型的新闻?
你好,我是黄申。
你平时应该见过手机App推送的新闻吧你有没有觉得这些App的推荐算法很神奇它们竟然可以根据你的喜好来推荐新闻。想要实现这些推荐算法有一个非常重要的步骤就是给新闻分类。可是新闻头条这种综合性的平台需要处理的新闻都是海量的我们不可能完全靠人工手动处理这些事情。这个时候我们就要用到计算机技术来对文本进行自动分类。
上一节,我给你介绍了如何利用朴素贝叶斯方法,教会计算机进行最基本的水果分类。基于水果分类,今天我们继续深入分类这个话题,告诉你如何利用自然语言处理和朴素贝叶斯方法,对新闻这种长篇文本进行分类。
文本分类系统的基本框架
想要实现一个完整的文本分类系统,我们通常需要进行这些步骤:
1.采集训练样本
对于每个数据对象,我们必须告诉计算机,它属于哪个分类。上一节的水果案例里,我们给每个水果打上“苹果”“甜橙”和“西瓜”的标签,这就是采集训练样本。
同样,我们可以给每一篇新闻打上标签,也就是说,我们首先要分辨某条新闻是什么类型的,比如是政治的、军事的、财经的、体育的,还是娱乐的等等。这一点非常关键,因为分类标签就相当于计算机所要学习的标准答案,其质量高低直接决定了计算机的分类效果。此外,我们也可以在一开始就预留一些训练样本,专门用于测试分类的效果。
2.预处理自然语言
在水果的案例中当我们把这些水果的特征值提取出来后能很容易地将它们的属性转化成计算机所能处理的数据可是这一步对于文本而言就没有那么容易了。好在专家们已经发明出了一套相对成熟的方法包括词包bag of words、分词、词干Stemming和归一化Normalization、停用词Stopword、同义词Synonyms和扩展词处理。这里你只需要了解有这么些方法就可以了我们使用这些方法的目的就是让计算机能够理解文本所以如果你对刚才提到的这些专业词汇比较陌生完全不用担心这并不会影响对后面知识的理解。
3.训练模型
训练模型就是算法通过训练数据进行模型拟合的过程。对于朴素贝叶斯方法而言,训练的过程就是要获取每个分类的先验概率、每个属性的先验概率以及给定某个分类时,出现某个属性的条件概率。
4.实时分类预测
算法模型在训练完毕后,根据新数据的属性来预测它属于哪个分类的过程。对于朴素贝叶斯方法而言,分类预测的过程就是根据训练阶段所获得的先验概率和条件概率,来预估给定一系列属性的情况下属于某个分类的后验概率。
整个流程大致可以用下图来描述:
这四个步骤你大致了解就可以了,这里面有两点我会重点讲一下,一是对文本中的自然语言进行预处理,并从文本集合建立字典;另一个是如何使用建好的字典,统计朴素贝叶斯方法所需的数据。自然语言的预处理是让计算机“理解”人类语言的关键步骤,如果没有这一步,计算机就无法将大量的自然语言转换成自己可以处理的数据。而条件概率和先验概率是朴素贝叶斯方法所必需的,因此如何准确地统计它们也是需要详细解释的。
基于自然语言的预处理
和之前的水果案例相比,新闻这种文本数据最大的区别在于,它包含了大量的自然语言。那么如何让计算机理解自然语言呢?我们的计算机体系没有思维,要理解人类的语言在现阶段是不现实的。但是,我们仍然可以对自然语言进行适当的处理,将其变为机器所能处理的数据。
首先,我们要知道,文本的重要属性是什么,这样我们才能提取出它的特征。怎么才能知道哪些属性是重要的呢?
我举个例子假如说有人给你一篇几千字的文章让你在10秒钟之内说出文章大意你会怎么办我想大部分人的解决方案是“找关键词”没错我们也可以教给计算机同样的办法。而计算机处理文本的基本单位就是字和单词这就是人们最常用的方法词袋Bag of words模型。
这种模型会忽略文本中的词语出现的顺序以及相应的语法,将整篇文章仅仅看作是一个大量单词的组合。文本中每个词的出现都是独立的,不依赖于其他词的出现情况。讲到这里,你有没有发现在词包模型中,所有单词相互之间是独立的,这个假设和朴素贝叶斯模型的独立假设是不是一致呀?
没错!这里我们就可以很巧妙地将朴素贝叶斯和文本处理结合起来了。不过先不要急,我们还要掌握一些方法,才能将文本中的长篇大论处理成关键词。
1.分词
计算机处理自然语言的基本单位是单词和词组。对于英语等拉丁语系的语言来说,单词之间是以空格作为自然分界符的,所以我们可以直接使用空格对句子进行分割,然后来获取每个单词。但是,中文、日文、韩文这些语言在书写的时候,词和词之间并没有空格可以进行自然分界,所以我们就需要使用一些算法,来估计词语之间的划分,我们将这个过程称为分词。
这里有一个给中文句子分词的例子,你可以看一看。
分词前:今天我们一起来学习计算机学科中的数学知识
分词后:今天 我们 一起 来 学习 计算机 学科 中 的 数学 知识
是不是觉得给句子分词很简单?这是因为你的中文水平比较高,你想想,计算机怎么才能知道如何分词呢?我们有很多现成的分词模型可以使用。我这里介绍两种目前比较主流的分词模型,你只需要了解就行。
第一种是基于字符串匹配。其实就是扫描字符串。如果发现字符串的子串和词相同,就算匹配成功。匹配规则通常是“正向最大匹配”“逆向最大匹配”“长词优先”。这些算法的优点是只需使用基于字典的匹配,因此计算复杂度低;缺点是处理歧义词效果不佳。
第二种是基于统计和机器学习。这类分词基于人工标注的词性和统计特征对中文进行建模。训练阶段根据标注好的语料对模型参数进行估计。在分词阶段再通过模型计算各种分词出现的概率将概率最大的分词作为最终结果。常见的序列标注模型有隐马尔科夫模型HMMHidden Markov Model和条件随机场CRFConditional Random Field我们后面章节会讲到这里我先不展开。
2.取词干和归一化
我们刚才说了相对中文而言英文完全不需要考虑分词。不过它也有中文不具有的单复数、各种时态因此它需要考虑取词干stemming。取词干的目标就是为了减少词的变化形式将派生词转化为基本形式就像下面这样
将amisarewaswere全部转换为be
将carcarscarscars全部转换为car
最后我们还要考虑大小写转化和多种拼写例如color和colour这样的统一化我们把这种做法称为归一化。
3.停用词
无论何种语言都会存在一些不影响或基本不影响相关性的词。有的时候干脆可以指定一个叫停用词stop word的字典直接将这些词过滤不予以考虑。例如英文中的a、an、the、that、is、good、bad等。中文“的、个、你、我、他、好、坏”等。
如此一来我们可以在基本不损失语义的情况下减少数据文件的大小提高计算机处理的效率。当然也要注意停用词的使用场景例如用户观点分析good和bad这样的形容词反而成为了关键。不仅不能过滤反而要加大它们的权重。
4.同义词和扩展词
不同的地域或者不同时代,会导致人们对于同样的物品叫法也不同。例如,在中国北方“番茄”应该叫“西红柿”,而台湾地区将“菠萝”称为“凤梨”。对于计算机而言,需要意识到这两个词是等价的。添加同义词就是一个很好的手段。我们可以维护如下一个同义词的词典:
番茄,西红柿
菠萝,凤梨
洋山芋,土豆
泡面,方便面,速食面,快餐面
山芋,红薯
鼠标,滑鼠
……
有了这样的词典当看到文本中出现“番茄”关键词的时候计算机系统就会将其等同于“西红柿”这个词。有的时候我们还需要扩展词。如果简单地将Dove分别和多芬、德芙简单地等价那么多芬和德芙这两个完全不同的品牌也变成了同义词这样做明显是有问题的。那么我们可以采用扩展关系当系统看到文本中的“多芬”时将其等同于“Dove”看到“德芙”时将其等同于“Dove”。但是看到“Dove”的时候并不将其等同于“多芬”或“德芙”。
通过词包模型的假设,以及上述这些自然语言处理的方法,我们可以将整篇的文字,切分为一个个的单词,这些是表示文章的关键属性。你不难发现,每个单词可以作为文章的属性,而通过这些单词的词频(出现的频率),我们很容易进行概率的统计。下面我对分类的先验概率、单词的先验概率、某个分类下某个单词的条件概率分别给出了示例。
在上表中你会发现某些单词从未在某个分类中出现例如“航母”这个词从未在“体育”和“娱乐”这两个分类中出现。对于这种情况我们可以使用平滑smoothing的技术将其词频或条件概率设置为一个极小的值。这里我设置了最小的词频也就是1。
有了这些单词属性以及相应的概率统计,下一步就是如何使用朴素贝叶斯模型进行文本的分类了。
运用朴素贝叶斯模型
首先我们先来回顾下,上一节推导的朴素贝叶斯公式。
在新闻分类中o就表示一篇文章而c表示新闻的种类包括政治、军事、财经等等。而属性字段f就是我们从文档集而建立的各种单词。公式等号左边的P(c|f)就是待分类新闻中出现单词f时该新闻属于类别c的概率。而等号右边的P(f|c)是根据训练数据统计得到分类c中出现单词f的概率。P( c )是分类c在新闻训练数据中出现的概率P(f)是单词f在训练样本中出现的概率。
我们用刚才表格中的数据来计算下“中国航母”这个短语属于每个分类的概率。
可以看出来“中国航母”这个短语本身属于“政治”和“军事”分类的可能性最高而属于“财经”的可能性最低。需要注意的是我在上述公式使用了中文词便于你的理解在真正的实现中我们需要将中文词和中文分类名称转换为数字型的ID以提高系统的效率。
当然一篇文章所包含的不同的单词数量要远远大于2个之前如果我们只看“中国航母”这个短语那么它属于“政治”和“军事”的概率基本一致。如果我们考虑更长的文章也就是更多的单词那么这个情况也许就会发生变化。为了支持更多的单词我们将上述公式扩展为
这里需要注意一个很实际的问题文章的篇幅很长常常会导致非常多的P(f|c)连续乘积。而P(f|c)通常是非常小的数值因此最后的乘积将快速趋近于0以至于计算机无法识别。这里可以使用我们之前提到的一些数学手法进行转换比如取log将小数转换为绝对值大于1的负数。这样的转换虽然会改变每篇文章属于每个分类的概率的绝对值但是并不会改变这些概率的相对大小。
总结
在这一讲中,我讲了一个文本分类系统的几个关键步骤,其中最重要的是自然语言的处理和分类模型的训练和预测。
自然语言的处理是关键的预处理步骤,它将文本转换成计算机所能处理的数据。常见方法包括中文分词,英文的取词干和归一化,还有适用于各种语言的停用词、同义词和扩展词等。如果不考虑这些词出现的先后顺序,以及表达的深层次语义,那么我们就可以使用词包的方法,将大段的文章和语句转化成单词所组成的集合。之后,我们就能统计每个单词属于每个分类的条件概率,以及分类和单词的先验概率。
一旦将文章表示为单词的集合我们就会发现朴素贝叶斯的模型非常适合文章的分类。因为所有单词出现的词频都是离散值非常适合统计概率。此外许多新闻之类的文章本身也是跨了多个领域因此有可能属于多个分类朴素贝叶斯也能支持这点。我们针对“中国航母”这个短语进行了测试发现其属于“政治”和“军事”分类的可能性最高。不过要注意的是文章可能包含非常多的单词朴素贝叶斯模型中的连续乘积会导致过小的值甚至计算机都无法处理。为了避免这种情况我们可以使用log的数学变换。
思考题
你也许已经通过“中国航母”这个简单的例子,见识到了计算机自动分类的神奇功效。使用同样的分类模型和概率分布,你能否计算一下“美国电影”属于政治、军事、财经、体育和娱乐分类的概率,分别是多少?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,153 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
24 语言模型:如何使用链式法则和马尔科夫假设简化概率模型?
你好,我是黄申。
之前我给你介绍了用于分类的朴素贝叶斯算法。我们讲了,朴素贝叶斯算法可以利用贝叶斯定理和变量之间的独立性,预测一篇文章属于某个分类的概率。除了朴素贝叶斯分类,概率的知识还广泛地运用在其他机器学习算法中,例如语言模型、马尔科夫模型、决策树等等。
今天我就来说说,基于概率和统计的语言模型。语言模型在不同的领域、不同的学派都有不同的定义和实现,因此为了避免歧义,我这里先说明一下,我们谈到的语言模型,都是指基于概率和统计的模型。
语言模型是什么?
在解释语言模型之前,我们先来看两个重要的概念。第一个是链式法则,第二个是马尔科夫假设及其对应的多元文法模型。为什么要先说这两个概念呢?这是因为链式法则可以把联合概率转化为条件概率,而马尔科夫假设通过变量间的独立性来减少条件概率中的随机变量,两者结合就可以大幅简化计算的复杂度。
1.链式法则
链式法则是概率论中一个常用法则。它使用一系列条件概率和边缘概率,来推导联合概率,我用一个公式来给你看看它的具体表现形式。
其中,\(x\_{1}\)到\(x\_{n}\)表示了n个随机变量。
这个公式是怎么来的呢?你还记得联合概率、条件概率和边缘概率之间的“三角”关系吗?我们用这三者的关系来推导一下,最终我们可以得到链式法则。
推导的每一步,都是使用了三种概率之间的关系,这个应该不难理解。
2.马尔科夫假设
理解了链式法则,我们再来看看马尔可夫假设。这个假设的内容是:任何一个词\(w\_{i}\)出现的概率只和它前面的1个或若干个词有关。基于这个假设我们可以提出多元文法Ngram模型。Ngram中的“N”很重要它表示任何一个词出现的概率只和它前面的N-1个词有关。
我以二元文法模型为例来给你解释。按照刚才的说法二元文法表示某个单词出现的概率只和它前面的1个单词有关。也就是说即使某个单词出现在一个很长的句子中我们也只需要看前面那1个单词。用公式来表示出来就是这样
如果是三元文法就说明某个单词出现的概率只和它前面的2个单词有关。即使某个单词出现在很长的一个句子中它也只看相邻的前2个单词。用公式来表达就是这样
你也许会好奇那么一元文法呢按照字面的意思就是每个单词出现的概率和前面0个单词有关。这其实说明每个词的出现都是相互独立的。用公式来表达就是这样的
弄明白链式法则和马尔科夫假设之后,我们现在来看语言模型。
假设我们有一个统计样本文本\(d\)\(s\)表示某个有意义的句子,由一连串按照特定顺序排列的词\(w\_{1}w\_{2},…,w\_{n}\)组成,这里\(n\)是句子里单词的数量。现在我们想知道根据文档d的统计数据\(s\)在文本中出现的可能性,即\(P(s|d)\),那么我们可以把它表示为\(P(s|d)=P(w\_{1}, w\_{2}, …, w\_{n} | d\))。假设我们这里考虑的都是在集合d的情况下发生的概率所以可以忽略\(d\),写为\(P(s)=P(w\_{1}, w\_{2}, …, w\_{n})\)。
到这里,我们碰到了第一个难题,就是如何计算\(P(w\_{1}, w\_{2}, …, w\_{n})\)要在集合中找到一模一样的句子,基本是不可能的。这个时候,我们就需要使用链式法则。我们可以把这个式子改写为:
乍一看问题似乎是解决了。因为通过文档集合C你可以知道\(P(w\_{1})\)\(P(w\_{2}|w\_{1})\)这种概率。不过,再往后看,好像\(P(w\_{3}|w\_{1},w\_{2})\)出现概率很低,\(P(w\_{4}|w\_{1},w\_{2},w\_{3})\)出现的概率就更低了。一直到\(P(w\_{n}|w\_{1}, w\_{2}, …, w\_{n-1})\)基本上又为0了。我们可以使用上一节提到的平滑技巧减少0概率的出现。不过如果太多的概率都是通过平滑的方式而得到的那么模型和真实的数据分布之间的差距就会加大最终预测的效果也会很差所以平滑也不是解决0概率的最终办法。
除此之外,\(P(w\_{1}, w\_{2}, …, w\_{n})和P(w\_{n}|w\_{1}, w\_{2}, …, w\_{n-1})\)还不只会导致0概率它还会使得模型存储空间的急速增加。
为了统计现有文档集合中\(P(w\_{1}, w\_{2}, …, w\_{n})\)这类值我们就需要生成很多的计数器。我们假设文档集合中有m个不同的单词那么从中挑出\(n\)个单词的可重复排列,数量就是\(m^{n}\)。此外,还有\(m^{n-1}\), \(m^{n-2}\)等等。这也意味着,如果要统计并存储的所有\(P(w\_{1}, w\_{2}, …, w\_{n})\)或\(P(w\_{n}|w\_{1}, w\_{2}, …, w\_{n-1})\)这类概率,就需要大量的内存和磁盘空间。当然,你可以做一些简化,不考虑单词出现的顺序,那么问题就变成了可重复组合,但是数量仍然非常巨大。
如何解决0概率和高复杂度的问题呢马尔科夫假设和多元文法模型能帮上大忙了。如果我们使用三元文法模型上述公式可以改写为
这样,系统的复杂度大致在(C(m, 1) + C(m, 2) + C(m, 3))这个数量级,而且\(P(w\_{n}|w\_{n-2}, w\_{n-1})\)为0的概率也会大大低于\(P(w\_{n}|w\_{1}, w\_{2}, …, w\_{n-1})\) (其中\(n>>3\)为0的概率。当然多元文法模型中的N还是不能太大。随着N的增大系统复杂度仍然会快速升高就无法体现出多元文法的优势了。
语言模型的应用
基于概率的语言模型,本身不是新兴的技术。它已经在机器翻译、语音识别和中文分词中得到了成功应用。近几年来,人们也开始在信息检索领域中尝试语言模型。下面我就来讲讲语言模型在信息检索和中文分词这两个方面是如何发挥作用的。
1.信息检索
信息检索很关心的一个问题就是相关性,也就是说,给定一个查询,哪篇文档是更相关的呢?为了解决相关性问题,布尔模型和向量空间检索模型都是从查询的角度出发,观察查询和文档之间的相似程度,并以此来决定如何找出相关的文档。这里的“相似程度”,你可以理解为两者长得有多像。那么,语言模型如何来刻画查询和文档之间的相关度呢?
它不再使用相似度定义,而是采用了概率。一种常见的做法是计算\(P(d|q)\),其中\(q\)表示一个查询,\(d\)表示一篇文档。\(P(d|q)\)表示用户输入查询\(q\)的情况下,文档\(d\)出现的概率是多少?如果这个概率越高,我们就认为\(q\)和\(d\)之间的相关性越高。
通过我们手头的文档集合,并不能直接获得\(P(d|q)\)。好在我们已经学习过了贝叶斯定理,通过这个定理,我们可以将\(P(d|q)\)重写如下:
对于同一个查询,其出现概率\(P(q)\)都是相同的,同一个文档\(d\)的出现概率\(P(d)\)也是固定的。因此它们可以忽略,我们只要关注如何计算\(P(q|d)\)。而语言模型,为我们解决了如何计算\(P(q|d)\)的问题,让\(k\_{1}, k\_{2}, …, k\_{n}\)表示查询q里包含的\(n\)个关键词。那么根据之前的链式法则公式,可以重写为这样:
为了提升效率,我们也使用马尔科夫假设和多元文法。假设是三元文法,那么我们可以写成这样:
最终,当用户输入一个查询\(q\)之后,对于每一篇文档\(d\),我们都能获得\(P(d|q)\)的值。根据每篇文档所获得的\(P(d|q)\)这个值,由高到低对所有的文档进行排序。这就是语言模型在信息检索中的常见用法。
2.中文分词
和拉丁语系不同,中文存在分词的问题。如果想进行分词,你就可以使用语言模型。我举个例子给你解释一下,你就明白了。
最普遍的分词方法之一是基于常用词的词典。如果一个尚未分词的句子里发现了存在于字典里的词,我们就认为找到一个新的词,并把它切分出来。这种切分不会出现完全离谱的结果,但是无法解决某些歧义。我下面来举个例子,原句是“兵乓球拍卖完了”。我在读的时候,会有所停顿,你就能理解分词应该如何进行。可是,仅仅从书面来看,至少有以下几种分词方式:
第一种,兵乓|球|拍卖|完了
第二种,兵乓球|拍卖|完了
第三种,兵乓|球拍|卖完|了
第四种,兵乓|球拍|卖|完了
上面分词的例子,从字面来看都是合理的,所以这种歧义无法通过这句话本身来解决。那么这种情况下,语言模型能为我们做什么呢?我们知道,语言模型是基于大量的语料来统计的,所以我们可以使用这个模型来估算,哪种情况更合理。
假设整个文档集合是D要分词的句子是\(s\),分词结果为\(w\_{1}\), … \(w\_{n}\),那么我们可以求\(P(s)\)的概率为:
请注意在信息检索中我们关心的是每篇文章产生一个句子也就是查询的概率而这里可以是整个文档集合D产生一个句子的概率。
根据链式法则和三元文法模型,那么上面的式子可以重写为:
也就是说,语言模型可以帮我们估计某种分词结果,在文档集合中出现的概率。但是由于不同的分词方法,会导致\(w\_{1}\)到\(w\_{n}\)的不同,因此就会产生不同的\(P(s)\)。接下来,我们只要取最大的\(P(s)\),并假设这种分词方式是最合理的,就可以在一定程度上解决歧义。我们可以使用这个公式来求解:
其中,\(W\_{i}\)表示第\(i\)种分词方法。
回到“兵乓球拍卖完了”这句话,如果文档集合都是讲述的有关体育用品的销售,而不是拍卖行,那么“兵乓|球拍|卖完|了”这种分词的可能性应该更高。
小结
这一节,我介绍了基于概率论的语言模型,以及它在信息检索和中文分词领域中的应用。这一节的公式比较多,你刚开始看可能觉得有点犯晕。不用急,我给你梳理了几个要点,你只要掌握这几个要点,依次再进行细节学习,就会事半功倍。
第一,使用联合概率,条件概率和边缘概率的“三角”关系,进行相互推导。链式法则就是很好的体现。
第二,使用马尔科夫假设,把受较多随机变量影响的条件概率,简化为受较少随机变量影响的条件概率,甚至是边缘概率。
第三,使用贝叶斯定理,通过先验概率推导后验概率。在信息检索中,给定查询的情况下推导文档的概率,就需要用到这个定理。
如果你记住了这几点,那么不仅能很快地理解本篇的内容,还能根据实际需求,设计出满足自己需要的语言模型。
思考题
在中文分词的时候,我们也可以考虑文章的分类。比如,这样一句话“使用纯净水源浇灌的大米”,正确的切分应该是:
使用|纯净|水源|浇灌|的|大米
如果我们知道这句描述来自于“大米”类商品,而不是“纯净水”类商品,那么就不会错误地切分为:
使用|纯净水|源|浇灌|的|大米
想想看,如何对我介绍的语言模型加以改进,把分类信息也包含进去?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,125 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
25 马尔科夫模型从PageRank到语音识别背后是什么模型在支撑
你好,我是黄申。
上一节,我们介绍了基于概率的语言模型。概率语言模型的研究对象其实是一个词的序列,以及这个词序列出现的概率有多大。那语言模型是不是也可以用于估算其他序列出现的概率呢?答案是肯定的。
通过上一节我们知道,语言模型中有个重点:马尔科夫假设及对应的多元文法模型。如果我们把这一点进一步泛化,就能引出马尔科夫模型。也就是说,只要序列的每个状态之间存在转移的概率,那么我们就可以使用马尔科夫模型。有时候情况会更复杂,不仅每个状态之间的转移是按照一定概率进行的,就连每个状态本身也是按照一定概率分布出现的,那么还需要用到隐马尔科夫模型。
今天这一节我们就来学习马尔科夫模型、隐马尔科夫模型以及它们在PageRank和语音识别中的应用。
马尔科夫模型
在介绍语言模型的时候,我们提到了马尔科夫假设,这个假设是说,每个词出现的概率和之前的一个或若干个词有关。我们换个角度思考就是,每个词按照一定的概率转移到下一个词。怎么个转移呢?我来解释一下。
如果把词抽象为一个状态那么我们就可以认为状态到状态之间是有关联的。前一个状态有一定的概率可以转移到到下一个状态。如果多个状态之间的随机转移满足马尔科夫假设那么这类随机过程就是一个马尔科夫随机过程。而刻画这类随机过程的统计模型就是马尔科夫模型Markov Model
前面讲多元文法的时候,我提到了二元文法、三元文法。对于二元文法来说,某个词出现的概率只和前一个词有关。对应的,在马尔科夫模型中,如果一个状态出现的概率只和前一个状态有关,那么我们称它为一阶马尔科夫模型或者马尔科夫链。对应于三元、四元甚至更多元的文法,我们也有二阶、三阶等马尔科夫模型。
我们先从最简单的马尔科夫模型-马尔科夫链开始看。我画了一张示意图,方便你理解马尔科夫链中各个状态的转移过程。
在这张图中你可以看到从状态A到B的概率是0.1从状态B到状态C的概率是0.2等等。我们也可以使用状态转移表来表示这张图。
我们可以根据某个应用的需要,把上述状态转移表具体化。例如,对于语言模型中的二元文法模型,我这里列出了一个示意表。
当然,除了二元文法模型,马尔科夫链还有很多应用的场景。
Google公司最引以为傲的PageRank链接分析算法它的核心思想就是基于马尔科夫链。这个算法假设了一个“随机冲浪者”模型冲浪者从某张网页出发根据Web图中的链接关系随机访问。在每个步骤中冲浪者都会从当前网页的链出网页中随机选取一张作为下一步访问的目标。在整个Web图中绝大部分网页节点都会有链入和链出。那么冲浪者就可以永不停歇地冲浪持续在图中走下去。
在随机访问的过程中越是被频繁访问的链接越是重要。可以看出每个节点的PageRank值取决于Web图的链接结构。假如一个页面节点有很多的链入链接或者是链入的网页有较高的被访问率那么它也将会有更高的被访问概率。
那么PageRank的公式和马尔科夫链有什么关系呢我先给你看一张Web的拓扑图。
其中A、B、C等结点分别代表了页面而结点之间的有向边代表了页面之间的超链接。看了这张图你是不是觉得Web拓扑图和马尔科夫链的模型图基本上是一致的我们可以假设每张网页就是一个状态而网页之间的链接表明了状态转移的方向。这样我们很自然地就可以使用马尔科夫链来刻画“随机冲浪者”。
另外在最基本的PageRank算法中我们可以假设每张网页的出度是\(n\),那么从这张网页转移到任何下一张相连网页的概率都是\(\\frac{1}{n}\),因此这个转移的概率只和当前页面有关,满足一阶马尔科夫模型的假设。我在之前的拓扑结构中添加了转移的概率。
PageRank在标准的马尔科夫链上引入了随机的跳转操作也就是假设冲浪者不按照Web图的拓扑结构走下去只是随机挑选了一张网页进行跳转。这样的处理是类比人们打开一张新网页的行为也是符合实际情况的避免了信息孤岛的形成。最终根据马尔科夫链的状态转移和随机跳转可以得到如下的PageRank公式。
其中,\(p\_{i}\)表示第\(i\)张网页,\(M\_{i}\)是\(p\_{i}\)的入链接集合,\(p\_{j}\)是\(M\_{i}\)集合中的第\(j\)张网页。\(PR\_{(p\_{j})}\)表示网页\(p\_{j}\)的PageRank得分\(L\_{(p\_{j})}\)表示网页\(p\_{j}\)的出链接数量,\(\\frac{1}{L\_{(p\_{j})}}\)就表示从网页\(p\_{j}\)跳转到\(p\_{i}\)的概率。\(α\)是用户不进行随机跳转的概率,\(N\)表示所有网页的数量。
从最简单的马尔科夫链到多阶的马尔科夫模型它们都可以刻画基于马尔科夫假设的随机过程例如概率语言模型中的多元文法和PageRank这类链接分析算法。但是这些模型都是假设每个状态对我们都是已知的比如在概率语言模型中一个状态对应了单词“上学”另一个状态对应了单词“书包”。可是有没有可能某些状态我们是未知的呢下面我们就来详细说说这种情况。
隐马尔科夫模型
在某些现实的应用场景中,我们是无法确定马尔科夫过程中某个状态的取值的。这种情况下,最经典的案例就是语音识别。使用概率对语音进行识别的过程,和语言模型类似,因此我们可以把每个等待识别的词对应为马尔科夫过程中的一个状态。不过,语音识别所面临的困难更大。为什么呢?你先看看下面这个句子。这个句子里全都是拼音,你能看出它表示什么意思吗?
ni(三声) zhi(一声) dao(四声) wo(三声) zai(四声) deng(三声) ni(三声) ma(一声)
中国有句古话说得好,“白纸黑字”,写在文档里的文字对于计算机是确定的,“嘛”“吗”“妈”不会弄错。可是,如果你说一句“你知道我在等你吗”,听众可能一直弄不明白为什么要等别人的妈妈,除非你给他们看到文字版的内容,证明最后一个字是口字旁的“吗”。另外,再加上各种地方的口音、唱歌的发音或者不标准的拼读,情况就更糟糕了。
计算机只知道某个词的发音,而不知道它具体怎么写,对于这种情况,我们就认为计算机只能观测到每个状态的部分信息,而另外一些信息被“隐藏”了起来。这个时候,我们就需要用隐马尔科夫模型来解决这种问题。隐马尔科夫模型有两层,一层是我们可以观测到的数据,称为“输出层”,另一层则是我们无法直接观测到的状态,称为“隐藏状态层”。我画了一张图方便你理解。
其中,\(x\_{1}x\_{2}x\_{3}\)等等属于隐藏状态层,\(a\_{12}\)表示了从状态\(x\_{1}\)到\(x\_{2}\)的转移概率,\(a\_{23}\)表示了从状态\(x\_{2}\)到\(x\_{3}\)的转移概率。这一层和普通的马尔科夫模型是一致的,可惜在隐马尔科夫模型中我们无法通过数据直接观测到这一层。我们所能看到的是,\(y\_{1}y\_{2}y\_{3}\)等等代表的“输出层”。另外,\(b\_{11}\)表示了从状态\(x\_{1}\)到\(y\_{1}\)的输出概率,\(b\_{22}\)表示了从状态\(x\_{2}\)到\(y\_{2}\)的输出概率,\(b\_{33}\)表示了从状态\(x\_{3}\)到\(y\_{3}\)的输出概率等等。
那么在这个两层模型示例中,“隐藏状态层”产生“输出层”的概率是多少呢?这是一系列条件概率决定的,具体的公式我列在这里。
如果你觉得这个两层的模型不太好理解,我来给你说个浅显易懂的例子。假设正在进行普通话语音识别,计算机接受了一个词组的发音。我在下面列出了它的拼音。
xiang(四声)mu(四声) kai(一声)fa(一声) shi(四声)jian(四声)
假设根据我们手头上的语料数据,这个词组有多种可能,我列出两种。
第一种情况
第一种情况下三个确定的状态是“项目”“开发”和“时间”这三个词。从“项目”转移到“开发”的概率是0.25从“开发”转移到“时间”的概率是0.3。从“项目”输出“xiang三声mu四声”的概率是0.1输出“xiang四声mu四声”的概率是0.8输出“xiang四声mu一声”的概率是0.1,“开发”和“时间”也有类似的输出概率。
这个时候你可能会奇怪“项目”的普通话发音就是“xiang四声mu四声为什么还会输出其他的发音呢这是因为前面说的这些概率都是通过历史语料的数据统计而来。在进行语音识别的时候我们会通过不同地区、不同性别、不同年龄等等的人群采集发音的样本。如此一来影响这个发音的因素就很多了比如方言、口音、误读等等。当然在正常情况下大部分的发音还是标准的所以“项目”这个词输出到“xiang四声mu四声”的概率是最高的。
好,有了这些概率的分布,我们来看看“项目开发时间”这个词组最后生成的概率是多少。在两层模型的条件概率公式中,我代入了具体的概率值并使用了如下的推导:
第二种情况
在第二种的可能性中三个确定的状态是“橡木”“开发”和“事件”这三个词。从“橡木”转移到“开发”的概率是0.015从“开发”转移到“事件”的概率是0.05。从“橡木”输出“xiang一声mu四声”的概率是0.2输出“xiang四声mu四声”的概率是0.8,“开发”和“事件”也有类似的输出概率。和第一种情况类似,我们可以计算“橡木开发事件”这个词组最后生成的概率是多少,我用下面这个公式来推导:
最后比较第一种和第二种情况产生的概率分别是P(项目)x0.0027和P(橡木)x0.000459。假设P(项目)和P(橡木)相等那么“项目开发时间”这个词组的概率更高。所以“xiang四声mu四声kai一声fa一声shi四声jian四声”这组发音计算机会识别为“项目开发时间”。从中我们可以看出尽管“事件”这个词产生“shi四声jian四声”这个发音的可能性更高但是“橡木开发事件”这个词组出现的概率极低因此最终计算机还是选择了“项目开发时间”隐藏的状态层起到了关键的作用。
总结
马尔科夫模型考虑了n个状态之间的转移及其对应的关系。这个状态是比较抽象的含义在不同的应用领域代表不同的含义。在概率语言模型中状态表示不同的词状态之间的转移就代表了词按照一定的先后顺序出现。在PageRank这种链接分析中状态表示不同的网页状态之间的转移就代表了人们在不同网页之间的跳转。
在马尔科夫模型中,我们知道了每种状态及其之间转移的概率,然后求解序列出现的概率。然而,有些现实的场景更为复杂,比如说我们观测到的不是状态本身,而是状态按照一定概率分布所产生的输出。针对这种情况,隐马尔科夫模型提出了一种两层的模型,同时考虑了状态之间转移的概率和状态产生输出的概率,为语音识别、手写识别、机器翻译等提供了可行的解决方案。
隐马尔科夫模型需要回答的最主要问题是:给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列?在本节中,我使用了“项目开发时间”这个例子展示隐马尔科夫模型是如何工作的。不过这个例子很简单,我只比较了两种可能性。但是,实际中可能性是非常多的,如果我们使用穷举法,那么复杂度一定很高。
我们可以把两层的模型看作图结构。其中状态和输出是结点转移和输出关系是边相应的概率是边的权重这个时候我们就可以对Dijkstra算法稍加修改来找出权重乘积最大的最优路径提升查找的效率。我们还可以利用状态序列之间存在的先后关系使用基于动态规划的维特比Viterbi算法来找出最优路径。
思考题
机器翻译会使用大量的语料,自动学习不同语言之间词和词的匹配。如果在机器翻译中使用隐马尔科夫进行建模,你认为“隐藏状态层”表示的是什么?“输出层”表示的又是什么?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,119 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
26 信息熵:如何通过几个问题,测出你对应的武侠人物?
你好,我是黄申。
之前和你聊了概率在朴素贝叶斯分类算法中的应用。其实,概率在很多像信息论这样的应用数学领域都有广泛的应用。信息论最初就是运用概率和统计的方法,来研究信息传递的。最近几十年,人们逐步开始使用信息论的概念和思想,来描述机器学习领域中的概率分布,并衡量概率分布之间的相似性。随之而来的是,人们发明了不少相关的机器学习算法。所以接下来的几节,我来介绍一些基于信息论知识的内容。
信息论的概念比较枯燥,为了让你更轻松地学习,让我从一个生动的案例开始。最近我在朋友圈看到一个小游戏,叫“测一测你是金庸笔下的哪个人物?”。玩这个游戏的步骤是,先做几道题,然后根据你的答案,生成对应的结果。下面是我几位朋友答题之后得到的结果。
这种测试挺好玩的,而且好像有很多类似的,比如测星座啊、测运势啊等等。那你知道这种心理或者性格测试的题目是怎么设计的吗?
通常,这种心理测试会有一个题库,包含了许多小题目,也就是从不同的方面,来测试人的性格。不过,针对特定的测试目标,我们可能没必要让被测者回答所有的问题。那么,问卷设计者应该如何选择合适的题目,才能在读者回答尽量少的问题的同时,相对准确地测出自己是什么“性格”呢?这里,我们就需要引入基于概率分布的信息熵的概念,来解决这个问题。
什么是信息熵?
我还是拿刚刚那个“测测你是哪个武侠人物”的小游戏举例子。我设计了一个测试题你可以看看下面这个图表。这个表里一共有10个人物。每个人物都有性别、智商、情商、侠义和个性共5个属性。相应地我会设计5道题目分别测试这5个属性所占的比例。最后将测出的5个属性和答案中的武侠人物对照就可以找到最接近的答案也就是被测者对应的武侠人物。
这个过程非常简单你应该很容易就能理解。在这个设计过程中起决定性作用的环节其实就是如何设计这5道题目。比如题目的先后顺序会不会直接影响要回答问题的数量每个问题在人物划分上是否有着不同的区分能力这些都是信息熵要解决的问题。
我们先来看,这里的区分能力指的是什么呢?每一个问题都会将被测试者划分为不同的人物分组。如果某个问题将属于不同人物分组的被测者,尽可能地划分到了相应的分组,那么我们认为这个问题的区分能力较强。相反,如果某个问题无法将属于不同人物分组的被测者划分开来,那么我们认为这个问题的区分能力较弱。为了帮你进一步理解,我们先来比较一下“性别”和“智商”这两个属性。
首先性别属性将武侠人物平均地划分为一半一半也就是说“男”和“女”出现的先验概率是各50%。如果我们假设被测试的人群其男女性别的概率分布也是50%和50%,那么关于性别的测试题,就能将被测者的群体大致等分。
我们再来看智商属性。我们也将武侠人物划分为2个小集合不过“智商高”的先验概率是80%而“智商中等”的先验概率只有20%。同样我们假设被测试的人群其智商的概率分布也是类似地那么经过关于智商的测试题之后仍然有80%左右的不同人物还是属于同一个集合,并没有被区分开来。因此,我们可以认为关于“智商”的测试题,在对人物进行分组这个问题上,其能力要弱于“性别”的测试题。
上述这些是不是都很简单这些都是我们按照感觉或者说经验来划分的。现在我们试着用两个科学的度量指标信息熵Entropy和信息增益Information Gain来衡量每道题目的区分能力。
首先怎么来理解信息熵呢信息熵我们通常简称为熵其实就是用来刻画给定集合的纯净度的一个指标。你可能要问了那纯净度是啥呢我举个例子给你解释一下。比如说一个集合里的元素全部是属于同一个分组这个时候就表示最纯净我们就说熵为0如果这个集合里的元素是来自不同的分组那么熵是大于0的值。其具体的计算公式如下
其中,\(n\)表示集合中分组的数量,\(p\_{i}\)表示属于第\(i\)个分组的元素在集合中出现的概率。
你可能要问了,这个公式是怎么来的呢?想要解释这个,我们还要从信息量说起。熵的公式是用来计算某个随机变量的信息量之期望,而信息量是信息论中的一个度量,简单来说就是,当我们观察到某个随机变量的具体值时,接收到了多少信息。而我们接收到的信息量跟发生事件的概率有关。事情发生的概率越大,产生的信息量越小;事情发生的概率越小,产生的信息量越大。
因此,我们想要设计一个能够描述信息量的函数,就要同时考虑到下面这三个特点:
信息量应该为正数;
一个事件的信息量和它发生的概率成反比;
\(H(x)\)与\(P(x)\)的对数有关。其中\(H(x)\)表示\(x\)的信息量,\(P(x)\)表示\(x\)出现的概率。假设有两个不相关的事件\(x\)和\(y\),我们观察到这两个事件同时发生时获得的信息量,应该等于这两个事件各自发生时获得的信息量之和,用公式表达出来就是\(H(x,y)=H(x)+H(y)\)。之前我们说过,如果\(xy\)是两个不相关的事件,那么就有\(P(x,y)=P(x)\*P(y)\)。
依照上述这三点,我们可以设计出信息量公式:\(H(x)=-log(P(x), 2)\)。函数log的使用是体现了\(H(x)\)和\(P(x)\)的对数关系我们可以使用其他大于1的数字作为对数的底我这里使用2只是约定俗成。而最开始的负号是为了保证信息量为正。这个公式可以量化随机变量某种取值时所产生的信息量。最后加上计算随机变量不同可能性所产生的信息量之期望我们就得到了熵的公式。
从集合和分组的角度来说,如果一个集合里的元素趋向于落在同一分组里,那么告诉你某个元素属于哪个分组的信息量就越小,整个集合的熵也越小,换句话说,整个集合就越“纯净”。相反,如果一个集合里的元素趋向于分散在不同分组里,那么告诉你某个元素属于哪个分组的信息量就越大,整个集合的熵也越大,换句话说,整个集合就越“混乱”。
为了帮你理解运用这里我再举几个例子帮助你更好地消化这个公式。我们首先来看一个集合它只包含了来自A组的元素。
那么集合中分组的数量\(n\)为1A分组的元素在集合中出现的概率为100%,所以这个集合的熵为-100%*log(100%, 2) = 0。
我们再来看另一个集合它只包含了来自A组和B组的元素其中A、B两组元素数量一样多各占一半。
那么集合中分组的数量\(n\)为2A和B分组的元素在集合中出现的概率各为50%所以这个集合的熵为2*(-50%*log(50%, 2)) = 1高于刚才那个集合。
从上述两个集合的对比可以看出,一个集合中所包含的分组越多、元素在这些分组里分布得越均匀,熵值也越大。而熵值表示了纯净的程度,或者从相反的角度来说,是混乱的程度。
好了,你已经知道单个集合的熵是如何计算的了。那么,如果将一个集合划分成多个更小的集合之后,又该如何根据这些小集合,来计算整体的熵呢?之前我们提到了信息量和熵具有加和的性质,所以对于包含多个集合的更大集合,它的信息量期望值是可以通过每个小集合的信息量期望值来推算的。具体来说,我们可以使用如下公式:
其中,\(T\)表示一种划分,\(P\_{v}\)表示划分后其中某个小集合,\(Entropy(P\_{v})\)表示某个小集合的熵,而\(\\frac{|Pv|} {|P|}\) 表示某个小集合出现的概率。所以这个公式其实就表示,对于多个小集合而言,其整体的熵等于各个小集合之熵的加权平均。而每个小集合的权重是其在整体中出现的概率。
我用个例子进一步解释这个公式。假设A、B、C三个集合是一个大的整体我们现在将C组的元素和A、B组分开。
根据之前单个集合的熵计算A和B组元素所组成的小集合它的熵是1。而C组没有和其他组混合所形成的小集合其熵为0。在计算前两个小集合的整体熵时A组和B组形成的集合出现的概率为\(\\frac{2}{3}\)而C组形成的集合出现概率为\(\\frac{1}{3}\),所有整体熵\(=\\frac{2}{3} \* 1 + \\frac{1}{3} \* 0 = 0.67\)。
什么是信息增益?
如果我们将划分前后的整体熵做个对比你会发现划分后的整体熵要小于划分之前的整体熵。这是因为每次划分都可能将不同分组的元素区分开来降低划分后每个小集合的混乱程度也就是降低它们的熵。我们将划分后整体熵的下降称为信息增益Information Gain。如果划分后整体熵下降得越多信息增益就越大。我列出公式以便你理解。
其中T表示当前选择的特征\(Entropy§\)表示选择特征\(T\)之前的熵,\(Entropy(P\_{v})\)表示特征\(T\)取值为\(v\)分组的熵。减号后面的部分表示选择T做决策之后各种取值加权平均后整体的熵。
\(Gain(P,T)\)表示两个熵值之差,越大表示信息增益越多,应该选择这维特征\(T\)。
我们把这个概念放到咱们的小游戏里就是,如果一个测试问题能够将来自不同分组的人物尽量的分开,也就是该划分对应的信息增益越高,那么我们就认为其区分能力越高,提供的信息含量也越多。好,说到这里,让我们从游戏的最开始出发,比较一下有关性别和智商的两个测试题。
在提出任何问题之前我们无法知道被测者属于哪位武侠人物因此所有被测者属于同一个集合。假设被测者的概率分布和这10位武侠人物的先验概率分布相同那么被测者集合的熵为10*(-1 * 0.1 * log(0.1, 2))=3.32。
通过性别的测试问题对人物进行划分后我们得到了两个更小的集合每个小集合都包含5种不同的人物分组因此每个小集合的熵是(-1 * 5 * 0.2 * log(0.2, 2)) = 2.32两个小集合的整体熵是0.5 * 2.32 + 0.5 * 2.32 = 2.32。因此使用性别的测试题后信息增益是3.32 - 2.32 = 1。
而通过智商的测试问题对人物分组后我们也得到了两个小集合一个包含了8种人物另一个包含了2种人物。包含8种人物的小集合其熵是(-1* 8 * 0.125 * log(0.125, 2)) = 3包含2种人物的小集合其熵是(-1* 2 * 0.5 * log(0.5, 2)) = 1。两个小集合的整体熵是0.8 * 3 + 0.2 * 1 = 2.6。因此使用智商的测试题后信息增益是3.32 - 2.6 = 0.72,低于基于性别的测试。所以,我们可以得出结论,有关性别的测试题比有关智商的测试题更具有区分能力。
信息增益和信息熵是紧密相关的。如果说信息熵衡量了某个状态下,每个分组的纯净程度或者说混乱程度,那么信息增益就是比较了不同状态下,信息熵的差异程度。
总结
这一讲中,我们从一个有趣的人物性格测试开始,探讨了如何高效率地进行问卷调查。其中主要包含了两个要点:信息熵和信息增益。熵的计算是基于集合内各组元素分布的概率来进行的。而信息增益是集合划分前后整体熵的差值。对某个集合进行划分,都会将其中元素细分到更小的集合,而每个细分的集合纯净度就会提高,整体熵就会下降,其中下降的部分就是信息增益。
了解信息熵和信息增益的定义之后我们可以用它们来安排测试问题的先后顺序。其核心的思路是利用信息增益找出区分力最强的测试题。如果一道测试题可以将来自不同分组的元素分隔开来那么就说它是有区分力的。如果分隔后每个细分的集合其熵越趋近于0那么我们说这个测试题的区分力越强。
思考题
假设一个集合包含了64个元素而每个元素的分类都互不相同那么这个集合的信息熵是多少仔细观察一下你所计算的结果和二进制有没有什么联系
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,111 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
27 决策树:信息增益、增益比率和基尼指数的运用
你好,我是黄申。
上一节我通过问卷调查的案例给你解释了信息熵和信息增益的概念。被测者们每次回答一道问题就会被细分到不同的集合每个细分的集合纯净度就会提高而熵就会下降。在测试结束的时候如果所有被测者都被分配到了相应的武侠人物名下那么每个人物分组都是最纯净的熵值都为0。于是测试问卷的过程就转化为“如何将熵从3.32下降到0”的过程。
由于每道问题的区分能力不同,而我们对问题的选择会影响熵下降的幅度。这个幅度就是信息增益。如果问卷题的顺序选择得好,我们可以更快速地完成对用户性格的判定。这一节我们就继续这个话题,看看如何获得一个更简短的问卷设计,把这个核心思想推广到更为普遍的决策树分类算法中。
如何通过信息熵挑选合适的问题?
为了实现一个更简短的问卷,你也许很自然地就想到,每次选择问题的时候,我们可以选择信息增益最高的问题,这样熵值下降得就最快。这的确是个很好的方法。我们来试一试。
我们现在开始选择第一个问题。首先,依次计算“性别”“智商”“情商”“侠义”和“个性”对人物进行划分后的信息增益。我们得到如下结果:
显然第一步我们会选择“侠义”之后用户就会被细分为3组。
针对第一组,我们继续选择在当前这组中,区分力最强、也是信息增益最高的问题。根据计算的结果我们应该选择有关“性别”的问题,然后进一步地细分。后续的步骤依次类推,直到所有人物都被分开,对于第二组和第三组我们也进行同样地操作。整个过程稍微有点复杂,为了帮你理解,我把它画成了一个图。
从这个图可以看出来对于每种人物的判断我们至多需要问3个问题没有必要问全5个问题。比如对于人物J和C我们只需要问2个问题。假设读者属于10种武侠人物的概率是均等的那么我们就可以利用之前介绍的知识来计算读者需要回答的问题数量之期望值。每种人物出现的概率是0.18种人物需要问3个问题2种人物需要问2个问题那么回答问题数的期望值是0.8 * 3 + 0.2 * 2 = 2.8(题)。
如果我们每次不选熵值最高的问题,而选择熵值最低的问题呢?
我计算了一下最差的情况下我们要问完全部5个问题才能确定被测者所对应的武侠人物。而且问4个问题的情况也不少回答问题数的期望值会在4到5之间明显要多于基于最高熵来选择题目的方法。当然如果测试的目标和问题很多基于熵的问题选择其运算量就会比较大我们就可以通过编程来自动化整个过程最终达到优化问卷设计的目的。
好了,现在我们总结一下,如何才能进行高效的问卷调查。最核心的思想是,根据当前的概率分布,挑选在当前阶段区分能力更强的那些问题。具体的步骤有三个。
第一步,根据分组中的人物类型,为每个集合计算信息熵,并通过全部集合的熵值加权平均,获得整个数据集的熵。注意,一开始集合只有一个,并且包含了所有的武侠人物。
第二步,根据信息增益,计算每个问卷题的区分能力。挑选区分能力最强的题目,并对每个集合进行更细的划分。
第三步,有了新的划分之后,回到第一步,重复第一和第二步,直到没有更多的问卷题,或者所有的人物类型都已经被区分开来。这一步也体现了递归的思想。
其实上述这个过程就体现了训练决策树Decision Tree的基本思想。决策树学习属于归纳推理算法之一适用于分类问题。在前面介绍朴素贝叶斯的时候我说过分类算法主要包括了建立模型和分类新数据两个阶段。决定问卷题出现顺序的这个过程其实就是建立决策树模型的过程。
你可以看到,整个构建出来的图就是一个树状结构,这也是“决策树”这个名字的由来。而根据用户对每个问题的答案,从决策树的根节点走到叶子节点,最后来判断其属于何种人物类型,这个过程就是分类新数据的过程。
让我们把问卷案例泛化一下,将武侠人物的类型变为机器学习中的训练样本,将问卷中的题目变为机器学习中的特征,那么问卷调查的步骤就可以泛化为决策树构建树的步骤。
第一步,根据集合中的样本分类,为每个集合计算信息熵,并通过全部集合的熵值加权平均,获得整个数据集的熵。注意,一开始集合只有一个,并且包含了所有的样本。
第二步,根据信息增益,计算每个特征的区分能力。挑选区分能力最强的特征,并对每个集合进行更细的划分。
第三步,有了新的划分之后,回到第一步,重复第一步和第二步,直到没有更多的特征,或者所有的样本都已经被分好类。
有一点需要注意的是问卷案例中的每类武侠人物都只有一个样本而在泛化的机器学习问题中每个类型对应了多个样本。也就是说我们可以有很多个郭靖而且每个人的属性并不完全一致但是它们的分类都是“郭靖”。正是因为这个原因决策树通常都只能把整体的熵降低到一个比较低的值而无法完全降到0。这也意味着训练得到的决策树模型常常无法完全准确地划分训练样本只能求到一个近似的解。
几种决策树算法的异同
随着机器学习的快速发展人们也提出了不少优化版的决策树。采用信息增益来构建决策树的算法被称为ID3Iterative Dichotomiser 3迭代二叉树3代。但是这个算法有一个缺点它一般会优先考虑具有较多取值的特征因为取值多的特征会有相对较大的信息增益。这是为什么呢
你仔细观察一下信息熵的定义就能发现背后的原因。更多的取值会把数据样本划分为更多更小的分组这样熵就会大幅降低信息增益就会大幅上升。但是这样构建出来的树很容易导致机器学习中的过拟合现象不利于决策树对新数据的预测。为了克服这个问题人们又提出了一个改进版C4.5算法。
这个算法使用信息增益率Information Gain Ratio来替代信息增益作为选择特征的标准并降低决策树过拟合的程度。信息增益率通过引入一个被称作分裂信息Split Information的项来惩罚取值较多的特征我把相应的公式给你列出来了。
其中,训练数据集\(P\)通过属性\(T\)的属性值,划分为\(n\)个子数据集,\(|Pi|\)表示第\(i\)个子数据集中样本的数量,\(|P|\)表示划分之前数据集中样本总数量。 这个公式看上去和熵很类似,其实并不相同。
熵计算的时候考虑的是,集合内数据是否属于同一个类,因此即使集合数量很多,但是集合内的数据如果都是来自相同的分类(或分组),那么熵还是会很低。而这里的分裂信息是不同的,它只考虑子集的数量。如果某个特征取值很多,那么相对应的子集数量就越多,最终分裂信息的值就会越大。正是因为如此,人们可以使用分裂信息来惩罚取值很多的特征。具体的计算公式如下:
其中\(Gain(P,T)\)是数据集\(P\)使用特征\(T\)之后的信息增益,\(GainRatio(P,T)\)是数据集\(P\)使用特征\(T\)之后的信息增益率。
另一种常见的决策树是CART算法Classification and Regression Trees分类与回归树。这种算法和ID3、C4.5相比,主要有两处不同:
在分类时CART不再采用信息增益或信息增益率而是采用基尼指数Gini来选择最好的特征并进行数据的划分
在ID3和C4.5决策树中算法根据特征的属性值划分数据可能会划分出多个组。而CART算法采用了二叉树每次把数据切成两份分别进入左子树、右子树。
当然CART算法和ID3、C4.5也有类似的地方。首先CART中每一次迭代都会降低基尼指数这类似于ID3、C4.5降低信息熵的过程。另外,基尼指数描述的也是纯度,与信息熵的含义相似。我们可以用下面这个公式来计算每个集合的纯度。
其中,\(n\)为集合\(P\)中所包含的不同分组(或分类)数量。如果集合\(P\)中所包含的不同分组越多,那么这个集合的基尼指数越高,纯度越低。
然后,我们需要计算整个数据集的基尼指数。
其中,\(m\)为全集使用特征\(T\)划分后,所形成的子集数量。\(P\_{j}\)为第\(j\)个集合。
无论是何种决策树算法,来自信息论的几个重要概念:信息熵、信息增益、信息增益率、基尼指数都起到了重要的作用。如果你能很好的学习并运用这些概念,那么决策树这种类型的算法就不难理解了。
总结
通过这两节的介绍,我想你对信息熵、信息增益、基尼指数等信息论的概念,以及基于这些概念的决策树分类算法应该有了一定了解。决策树算法的优势在于,容易理解和实现。此外,对于通过样本训练所得的树结构,其每个结点都是基于某个数据特征的判定,对于我们的阅读和解释来说都是很方便的。
当然,决策树也有不足。之前我已经提到,这类算法受训练样本的影响很大,比较容易过拟合。在预测阶段,如果新的数据和原来的训练样本差异较大,那么分类效果就会比较差。为此人们也提出了一些优化方案,比如剪枝和随机森林。如果感兴趣,你可以自己去研究一下。
思考题
刚刚我提到了,如果每次都选择使得信息增益最小的问题,那么构建出来的答题路径就相对冗长。你可以自己动手计算一下用户要回答问题数的期望。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。如果你有朋友对决策树感兴趣,你可以点击“请朋友读”,把今天的内容分享给他,说不定就帮他解决一个问题。

View File

@ -0,0 +1,83 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
28 熵、信息增益和卡方:如何寻找关键特征?
你好,我是黄申。今天我们来说说特征选择。
我们已经讨论过信息熵和信息增益在决策树算法中的重要作用。其实,它们还可以运用在机器学习的其他领域,比如特征选择。你可能对“特征选择”这个名词不太熟悉,没有关系,我先花点时间,给你介绍一下什么是特征选择,以及机器学习为什么需要这个步骤。
什么是特征选择?
在编程领域中机器学习已经有了十分广泛的应用它主要包括监督式学习Supervised Learning和非监督式的学习Unsupervised Learning。监督式学习是指通过训练资料学习并建立一个模型并依此模型推测新的实例主要包括分类Classification和回归Regression
无论是在监督学习还是非监督学习中,我们都可以使用特征选择。不过,我今天要聊的特征选择,会聚焦在监督式学习中的特征处理方法。因此,为了说清楚特征选择是什么,以及为什么要进行这个步骤,我们先来看看监督式机器学习的主要步骤。
机器学习的步骤主要包括数据的准备、特征工程、模型拟合、离线和在线测试。测试过程也许会产生新的数据,用于进一步提升模型。在这些处理中,特征工程是非常重要的一步。
“特征”Feature是机器学习非常常用的术语它其实就是可用于模型拟合的各种数据。前面讲朴素贝叶斯分类时我解释了如何把现实世界中水果的各类特征转化为计算机所能理解的数据这个过程其实就是最初级的特征工程。当然特征工程远不止原始特征到计算机数据的转化还包括特征选择、缺失值的填补和异常值的去除等等。这其中非常重要的一步就是特征选择。
越来越多的数据类型和维度的出现,会加大机器学习的难度,并影响最终的准确度。针对这种情形,特征选择尝试发掘和预定义任务相关的特征,同时过滤不必要的噪音特征。它主要包括特征子集的产生、搜索和评估。我们可以使用穷举法来找到最优的结果,但是如果特征有\(N\)个,那么复杂度会达到\(O(2^{N})\)。所以穷举法并不适合特征数量庞大的问题,比如我们之前讲过的文本分类。
因此,在这个领域诞生了一类基于分类标签的选择方法,它们通过信息论的一些统计度量,看特征和类标签的关联程度有多大。这里我还是使用文本分类的案例,来展示如何基于信息论,来进行特征选择。
利用信息熵进行特征选择
我们之前讲过如何为文本数据提取特征。对于一篇自然语言的文章我们主要使用词包Bag of Words模型和分词把完整的文章切分成多个单词或词组而它们就表示了文章的关键属性也就是用于机器学习的特征。
你会发现有些文本预处理的步骤已经在做特征选择的事情了比如“停用词”。它会直接过滤一些不影响或基本不影响文章语义的词这就是在减少噪音特征。不过我之前也提到了停用词的使用过于简单粗暴可能会产生适得其反的效果。例如在进行用户观点分类时“good”和“bad”这样的停用词反而成为了关键。不仅不能过滤反而要加大它们的权重。
那么,我们怎么能知道哪些特征是更重要的呢?对于分类问题,我们更关心的是如何正确地把一篇文章划分到正确的分类中。一个好的特征选择,应该可以把那些对分类有价值的信息提取出来,而过滤掉那些对分类没有什么价值的信息。既然如此,我们能不能充分利用分类标签来进行挑选呢?答案是肯定的。前两节,我描述了信息熵和信息增益的工作原理。这里,我就可以使用它们来进行特征选择。
首先,我们来看这个问题,什么是对分类有价值的特征?
如果一个特征,经常只在某个或少数几个分类中出现,而很少在其他分类中出现,那么说明这个特征具有较强的区分力,它的出现很可能预示着整个数据属于某个分类的概率很高或很低。
这个时候,对于一个特征,我们可以看看包含这个特征的数据,是不是只属于少数几个类。举个例子,出现“电影”这个词的文章,经常出现在“娱乐”这个分类中,而很少出现在“军事”“政治”等其他分类中。
是否属于少数几个类这一点,可以使用信息熵来衡量。我用\(Df\_{i}\)来表示所有出现特征\(f\_{i}\)的数据集合,这个集合一共包含了\(n\)个分类\(C\),而\(c\_{j}\)表示这\(n\)个分类中的第\(j\)个。然后我们就可以根据\(Df\_{i}\)中分类\(C\)的分布,来计算熵。我们用这个公式来计算:
如果熵值很低,说明包含这个特征的数据只出现在少数分类中,对于分类的判断有价值。计算出每个特征所对应的数据集之熵,我们就可以按照熵值由低到高对特征进行排序,挑选出排列靠前的特征。
当然,这个做法只考虑了单个特征出现时,对应数据的分类情况,而并没有考虑整个数据集的分类情况。比如,虽然出现“电影”这个词的文章,经常出现在“娱乐”这个分类中,很少出现在其他分类中,但是可能整个样本数据中,“娱乐”这个分类本来就已经占绝大多数,所以“电影”可能并非一个很有信息含量的特征。
为了改进这一点我们可以借用决策树中信息增益的概念。我们把单个特征f是不是出现作为一个决策条件将数据集分为\(Df\_{i}\) 和\(D\\bar{f\_{i}}\) \(Df\_{i}\)表示出现了这个特征的数据,而\(D\\bar{f\_{i}}\)表示没有出现这个特征的数据。那么使用特征\(f\_{i}\)进行数据划分之后,我们就能得到基于两个新数据集的熵,然后和没有划分之前的熵进行比较,得出信息增益。
如果基于某个特征的划分,所产生的信息增益越大,说明这个特征对于分类的判断越有价值。所以,我们可以计算基于每个特征的划分所产生的信息增益,然后按照增益值由高到低对特征进行排序,挑选出排列靠前的特征。
利用卡方检验进行特征选择
在统计学中,我们使用卡方检验来检验两个变量是否相互独立。把它运用到特征选择,我们就可以检验特征与分类这两个变量是否独立。如果两者独立,证明特征和分类没有明显的相关性,特征对于分类来说没有提供足够的信息量。反之,如果两者有较强的相关性,那么特征对于分类来说就是有信息量的,是个好的特征。为了检验独立性,卡方检验考虑了四种情况的概率:\(P(f\_{i},c\_{j})\) 、\(P(\\bar{f\_{i}} ,\\bar{c\_{j}})\)、\(P(f\_{i},\\bar{c\_{j}})\)和\(P(\\bar{f\_{i}},c\_{j})\)。
在这四种概率中,\(P(f\_{i},c\_{j})\)和\(P(\\bar{f\_{i}} ,\\bar{c\_{j}})\)表示特征\(f\_{i}\)和分类\(c\_{j}\)是正相关的。如果\(P(f\_{i},c\_{j})\)很高表示特征fi的出现意味着属于分类\(c\_{j}\)的概率更高;如果\(P(\\bar{f\_{i}} ,\\bar{c\_{j}})\)很高,表示特征\(f\_{i}\)不出现意味着不属于分类\(c\_{j}\)的概率更高。
类似地,\(P(f\_{i},\\bar{c\_{j}})\)和\(P(\\bar{f\_{i}},c\_{j})\)表示特征\(f\_{i}\)和分类\(c\_{j}\)是负相关的。如果\(P(f\_{i},\\bar{c\_{j}})\)很高,表示特征\(f\_{i}\)的出现意味着不属于分类\(c\_{j}\)的概率更高;如果\(P(\\bar{f\_{i}},c\_{j})\)很高,表示特征\(f\_{i}\)不出现意味着属于分类\(c\_{j}\)的概率更高。
如果特征和分类的相关性很高,要么是正向相关值远远大于负向相关值,要么是负向相关值远远大于正向相关值。如果特征和分类相关性很低,那么正向相关值和负向相关的值就会很接近。卡方检验就是利用了正向相关和负向相关的特性。
其中,\(N\)表示数据的总个数。通过这个公式,你可以看到,如果一个特征和分类的相关性很高,无论是正向相关还是负向相关,那么正向相关和负向相关的差值就很大,最终计算的值就很高。最后,我们就可以按照卡方检验的值由高到低对特征进行排序,挑选出排列靠前的特征。
总结
在之前水果的案例中,可用的特征并不是很多,每种特征都是有价值的。对于文本分类,每种单词或词组都是特征,再加上多元文法,特征的数量会成倍的增加。过多的特征会影响模型分析的速度和准确度。
对于监督式学习而言,我们没有必要进行\(O(2^{N})\)这种数量级的特征子集搜索,而是直接考虑特征和分类标签之间的关系。这个时候信息论等统计度量就可以帮上忙了,它们可以衡量特征和分类之间的关联程度,从而判断哪些特征对于分类来说更重要。
无论是使用何种统计度量,我们都可以计算相应的数值、排序、并得到排名靠前的若干特征。从文本分类的角度来说,我们只会挑选对分类最有价值的那些单词或词组,而去除其他不重要的那些词。如果特征选择得当,我们既可以减少模型存储的空间,还可以提升分类的准确度。当然,过度的减少特征最终会导致准确度的下降,所以对于不同的数据集要结合实验,要把握一个合理的度。
思考题
在之前介绍决策树的时候,我除了解释信息增益,还阐述了基尼指数的概念。既然信息增益可用于特征选择,那么基尼指数是不是也可以呢?你可以试着写出相应的公式。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,183 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
29 归一化和标准化:各种特征如何综合才是最合理的?
你好,我是黄申,今天我来说说特征值的变换。
上一节我讲了如何在众多的特征中,选取更有价值的特征,以提升模型的效率。特征选择是特征工程中的重要步骤,但不是全部。今天,我来说说特征工程中的另一块内容,数值变换。也就是说,我们可以使用统计中的数据分布,对连续型的数值特征进行转换,让多个特征的结合更有效。具体怎么理解呢?我下面就来详细讲一讲。
为什么需要特征变换?
我们在很多机器学习算法中都会使用特征变换。我使用其中一种算法线性回归作为例子,来解释为什么要进行数值型特征的变换。
我们之前介绍的监督式学习会根据某个样本的一系列特征,最后判定它应该属于哪个分类,并给出一个离散的分类标签。除此之外,还有一类监督式学习算法,会根据一系列的特征输入,给出连续的预测值。
举个例子,房地产市场可以根据销售的历史数据,预估待售楼盘在未来的销售情况。如果只是预估卖得“好”还是“不好”,那么这个粒度明显就太粗了。如果我们能做到预估这些房屋的售价,那么这个事情就变得有价值了。想要达成这个预测目的的过程,就需要最基本的因变量连续回归分析。
因变量连续回归的训练和预测,和分类的相应流程大体类似,不过具体采用的技术有一些不同。它采用的是研究一个或多个随机变量\(y\_{1}\)\(y\_{2}\),…,\(y\_{i}\)与另一些变量\(x\_{1}\)\(x\_{2}\),…,\(x\_{k}\)之间关系的统计方法,又称多重回归分析。
我们将\(y\_{1}\)\(y\_{2}\),…,\(y\_{i}\)称为因变量,\(x\_{1}\)\(x\_{2}\),…,\(x\_{k}\)称为自变量。通常情况下,因变量的值可以分解为两部分,一部分是受自变量影响的,即表示为自变量相关的函数,其中函数形式已知,可能是线性也可能是非线性函数,但包含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。
如果因变量和自变量为线性关系时,就称为线性回归模型;如果因变量和自变量为非线性关系,则称为非线性回归分析模型。今天我们要说的是回归中常用的多元线性回归,它的基本形式是:
其中,\(x\_{1}\)\(x\_{2}\),…,\(x\_{n}\)是自变量,\(y\)是因变量,\(ε\)是随机误差通常假定随机误差的均值为0。而w0是截距\(w\_{1}\)\(w\_{2}\),…,\(w\_{n}\)是每个自变量的系数表示每个自变量对最终结果的影响是正面还是负面以及影响的程度。如果某个系数大于0表示对应的自变量对结果是正面影响这个自变量越大结果就越大。否则就是负面影响这个自变量越大结果就越小。而系数的绝对值表示了影响程度的大小如果绝对值趋于0表示基本没有影响。
线性回归也是统计概率中常用的算法。不过它的实现通常会涉及很多线性代数的知识,所以下一个模块的时候,我会再详细介绍这个算法。这一节,你只需要知道线性回归所要达到的目标,以及怎么使用它就可以了。
线性回归和其他算法相比,有很强的可解释性。我们可以通过回归后为每个自变量确定的系数,来判断哪些自变量对最终的因变量影响更大。可是,在正式开始线性回归分析之前,还有一个问题,那就是不同字段的数据没有可比性。
比如,房屋的面积和建造的年份,它们分别代表了不同的含义,也有不一样的取值范围。在线性回归中,如果直接将没有可比性的数字型特征线性加和,那么模型最终的解释肯定会受影响。
这里我用Boston Housing数据集对房价数据进行回归分析这个数据来自70年代美国波士顿周边地区的房价是用于机器学习的经典数据集你可以在Kaggle的网站https://www.kaggle.com/c/boston-housing#description下载到它。这个数据一共有14个特征或者说自变量而有1个目标值或者说因变量。
这里我只使用其中的train.csv。使用一小段Python代码我们就能很快的得到一个线性回归的结果。
import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv("/Users/shenhuang/Data/boston-housing/train.csv") #读取Boston Housing中的train.csv
df_features = df.drop(['medv'], axis=1) #Dataframe中除了最后一列,其余列都是特征,或者说自变量
df_targets = df['medv'] #Dataframe最后一列是目标变量,或者说因变量
regression = LinearRegression().fit(df_features, df_targets) #使用特征和目标数据,拟合线性回归模型
print(regression.score(df_features, df_targets)) #拟合程度的好坏
print(regression.coef_) #各个特征所对应的系
使用上述代码之前请确保你已经按照了Python中的sklearn和pandas包。运行这段代码你可以得到如下的结果
0.735578647853312
[-4.54789253e-03 -5.17062363e-02 4.93344687e-02 5.34084254e-02
3.78011391e+00 -1.54106687e+01 3.87910457e+00 -9.51042267e-03
-1.60411361e+00 3.61780090e-01 -1.14966409e-02 -8.48538613e-01
1.18853164e-02 -6.01842329e-01]
因为不是所有的数据都是可以使用线性回归模型来表示所以我们需要使用regression.score函数来看拟合的程度。如果完美拟合这个函数就会输出1如果拟合效果很差这个函数的输出可能就是一个负数。
这里regression.score函数的输出大约为0.74接近于1.0。它表示这个数据集使用线性模型拟合的效果还是不错的。如果你还是不理解不用担心具体的我们会在线性代数部分详细解答。这里你可以简单的理解为0.74仅仅表示我们可以使用线性回归来解决Boston Housing这个问题。
这里你更需要关注的是每个特征所对应的权重因为它们可以帮助我们解释哪个特征对最终房价的中位值有更大的影响。参看train.csv中的数据你会发现最主要的两个正相关特征是nox系数为3.78011391e+00和age系数为3.87910457e+00。其中nox表示空气污染浓度age表示老房子占比也就是说空气污染越多、房龄越高房价中位数越高这好像不太合乎常理。我们再来看看最主要的负相关特征rm系数为-1.54106687e+01也就是房间数量。房间数量越多房价中位数越低越不合理。
造成这些现象最重要的原因是,不同类型的特征值没有转换到同一个可比较的范围内,所以线性回归后所得到的系数不具有可比性,因此我们无法直接对这些权重加以解释。
两种常见的特征变换方法
该怎么解决这个问题呢?我们就需要对特征值进行转换。今天我介绍两种最常见的变换方法:归一化和标准化。
归一化
我们先来看最常用的方法归一化Normalization。它其实就是获取原始数据的最大值和最小值然后把原始值线性变换到[0,1]之间,具体的变换函数为:
其中\(x\)是原始值,\(max\)为样本数据的最大值,\(min\)为样本数据的最小值,\(x\)是变换后的值。这种方法有个不足最大值与最小值非常容易受噪音数据的影响。
这里面需要注意的是,“归一化”这个词在不同的领域的含义可能不同。这里我们特指基于最大和最小值的变换。
接下来我们来看看在Python中如何实现归一化以及归一化对回归后系数的影响。
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
minMaxScaler = MinMaxScaler() #基于min和max值的归一化
df_normalized = minMaxScaler.fit_transform(df) #对原始数据进行归一化,包括特征值和目标变量
df_features_normalized = df_normalized[:, 0:-1] #获取归一化之后的特征值
df_targets_normalized = df_normalized[:, -1] #获取归一化之后的目标值
#再次进行线性回归
regression_normalized = LinearRegression().fit(df_features_normalized, df_targets_normalized)
print(regression_normalized.score(df_features_normalized, df_targets_normalized))
print(regression_normalized.coef
其中df还是之前加载的dataframe。运行这段代码你可以得到如下结果
0.7355786478533118
[-0.05103746 -0.08448544 0.10963215 0.03204506 0.08400253 -0.16643522
0.4451488 -0.01986622 -0.34152292 0.18490982 -0.13361651 -0.16216516
0.10390408 -0.48468369]
你可以看到表示拟合程度的分数没有变但是每个特征对应的系数或者说权重发生了比较大的变化。仔细观察一下你会发现这次最主要的正相关特征是age0.4451488和tax0.18490982也就是老房子占比和房产税的税率其中至少房产税的税率是比较合理的因为高房价的地区普遍税率也比较高。而最主要的负相关特征是rad-0.34152292和lstat-0.48468369rad表示高速交通的便利程度它的值越大表示离高速越远房价中位数越低。而lstat表示低收入人群的占比这个值越大房价中位数越低这两点都是合理的。
标准化
另一种常见的方法是基于正态分布的z分数z-score标准化Standardization。该方法假设数据呈现标准正态分布。
什么是标准正态分布呢?我们之前介绍过,正态分布是连续随机变量概率分布的一种。在现实生活中,大量随机现象的数据分布都近似于正态分布。
我这里再快速回顾一下这种分布的特点。
它以经过平均数的垂线为轴左右对称展开中间点最高然后逐渐向两侧下降分布曲线和x轴组成的面积为1表示不同事件出现的概率和为1。平均数和标准差是正态分布的关键参数它们会决定分布的具体形态。而标准正态分布是正态分布的一种平均数为0标准差为1。
理解了什么是标准正态分布我们来看看z分数这个方法是如何运作的。实际上z分数标准化是利用标准正态分布的特点计算一个给定分数距离平均数有多少个标准差。它的具体转换公式如下
其中\(x\)为原始值,\(u\)为均值,\(σ\)为标准差,\(x\)是变换后的值。
经过z分数的转换高于平均数的分数会得到一个正的标准分而低于平均数的分数会得到一个负的标准分数。更重要的是转换后的数据是符合标准正态分布的。你通过理论或者具体的数值来推导一下就会发现转换后的数据均值为0标准差为1。
和归一化相比z分数这样的标准化不容易受到噪音数据的影响并且保留了各维特征对目标函数的影响权重。
下面我们来看看在Python中如何实现标准化以及标准化对回归后系数的影响。
standardScaler = StandardScaler() #基于Z分数的标准化
standardScaler.fit(df)
df_standardized = standardScaler.transform(df) #对原始数据进行标准化,包括特征值和目标变量
df_features_standardized = df_standardized[:, 0:-1] #获取标准化之后的特征值
df_targets_standardized = df_standardized[:, -1] #获取标准化之后的特征值
#再次进行线性回归
regression_standardized = LinearRegression().fit(df_features_standardized, df_targets_standardized)
print(regression_standardized.score(df_features_standardized, df_targets_standardized))
print(regression_standardized.coef
其中df还是之前加载的dataframe。运行这段代码这次你得到的结果如下
0.7355786478533118
[-0.07330367 -0.04144107 0.12194378 0.04074345 0.09805446 -0.19311408
0.29767387 -0.02916672 -0.34642803 0.34477088 -0.21410757 -0.19904179
0.11218058 -0.46369483]
表示拟合程度的分数仍然没有变。再次对比不同特征所对应的系数你会发现这次最主要的正相关特征还是age0.29767387和tax0.34477088但是相比之前明显房产税的税率占了更高的权重更加合理。而最主要的负相关特征还是rad-0.34152292和lstat-0.48468369),这两点都是合理的。
总结
今天我介绍了在机器学习领域里,如何使用统计里的数据分布来进行特征值的转换。这里,我帮你梳理了几个要点,便于你的记忆。
第一点,为什么有时候需要转换特征值?因为不同类型的特征取值范围不同,分布也不同,相互之间没有可比性。因此在线性回归中,通过这些原始值分析得到的权重,并不能代表每个特征实际的重要性。
第二点如何使用归一化进行特征值转换这里的归一化是指使用特征取值范围中的最大值和最小值把原始值转换为0到1之间的值。这样处理的好处在于简单易行便于理解。不过它的缺点也很明显由于只考虑了最大最小值因此很容易受到异常数据点的干扰。
第三点如何使用标准化进行转换经过标准化处理之后每种特征的取值都会变成一个标准正态分布以0为均值1为标准差。和归一化相比标准化使用了数据是正态分布的假设不容易受到过大或过小值的干扰。
掌握了上面几个点,你就能很好的理解这一节的内容了。在实际的数据分析或者是统计建模的项目中,对于数值型的特征要保持敏感,看到它们的时候都要考虑一下,是不是需要进行特征值的转换?这样就能避免由于多种特征的不同分布而产生的误导性结论。
思考题
今天我们使用了三种方式处理Boston Housing的数据并训练出三种线性回归的模型。请尝试使用这些模型的predict方法对test.csv数据进行预测看看每种模型的预测效果。提示如果你在train.csv上使用了某种特征值的转换那么相应的test.csv数据也需要经过同样的处理。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你也可以把今天的内容分享给你的好友,和他一起在实战中重新理解数学。

View File

@ -0,0 +1,89 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
30 统计意义如何通过显著性检验判断你的A_B测试结果是不是巧合
你好,我是黄申,今天我们来聊聊统计意义和显著性检验。
之前我们已经讨论了几种不同的机器学习算法,包括朴素贝叶斯分类、概率语言模型、决策树等等。不同的方法和算法会产生不同的效果。在很多实际应用中,我们希望能够量化这种效果,并依据相关的数据进行决策。
为了使这种量化尽可能准确、客观,现在的互联网公司通常是根据用户的在线行为来评估算法,并比较同类算法的表现,以此来选择相应的算法。在线测试有一个很大的挑战,那就是如何排除非测试因素的干扰。
从图中可以看出自2016年1月12日开始转化率曲线的趋势发生了明显的变化。假如说这天恰好上线了一个新版的技术方案A那么转化率上涨一定是新方案导致的吗不一定吧很有可能1月12日有个大型的促销使得价格有大幅下降或者有个和大型企业的合作引入了很多优质顾客等原因有非常多。如果我们取消12日上线的技术方案A然后用虚线表示在这种情况下的转化率曲线这个时候得到了另一张图。
从图中可以发现不用方案A反而获得了更好的转化率表现所以简单地使用在线测试的结果往往会导致错误的结论我们需要一个更健壮的测试方法A/B测试。
A/B测试简单来说就是为同一个目标制定两个或多个方案让一部分用户使用A方案另一部分用户使用B方案记录下每个部分用户的使用情况看哪个方案产生的结果更好。这也意味着通过A/B测试的方式我们可以拿到使用多个不同方法之后所产生的多组结果用于对比。
问题来了假设我们手头上有几组不同的结果每组对应一个方案包含了最近30天以来每天的转化率如何判断哪个方案的效果更好呢你可能会想对每一组的30个数值取平均数看看谁的均值大不就好了但是这真的就够了吗
假设有两组结果需要比较每一组都有5个数据而且这两组都符合正态分布。我用一张图画一下这两个正态分布之间的关系。
从这张图可以看出左边的正态分布A均值μ1比较小右侧的正态分布B均值μ2比较大。可是如果我们无法观测到A和B这两个分布的全部而只根据这两个分布的采样数据来做判断会发生什么情况我们很有可能会得出错误的结论。
比如说在这张图的采样中红色的点表示B的采样它们都是来自B分布的左侧而蓝色的点表示A的采样它们都是来自A分布的右侧。如果我们仅仅根据这两组采样数据的均值来判断很可能会得出“B分布的均值小于A分布均值”这样的错误结论。
A/B测试面临的就是这样的问题。我们所得到的在线测试结果实际上只是一种采样。所以我们不能简单地根据每个组的平均值来判断哪个组更优。那有没有更科学的办法呢在统计学中有一套成熟的系统和对应的方法今天我们就来讲讲这种方法。
为了让你能够充分理解这个我先介绍几个基本概念显著性差异、统计假设检验和显著性检验、以及P值。
显著性差异
从刚刚那两张正态分布图,我们可以分析得出,两组数据之间的差异可能由两个原因引起。
第一两个分布之间的差异。假设A分布的均值小于B分布而两者的方差一致那么A分布随机产生的数据有更高的概率小于B分布随机产生的数据。第二采样引起的差异也就是说采样数据不能完全体现整体的数据分布。我在之前的图中用来自A、B两组的10个数据展示了采样所导致的误差。
如果差异是第一个原因导致的在统计学中我们就认为这两组“有显著性差异”。如果差异是第二种原因导致的我们就认为这两组“无显著性差异”。可以看出来显著性差异Significant Difference其实就是研究多组数据之间的差异是由于不同的数据分布导致的呢还是由于采样的误差导致的呢通常我们也把“具有显著性差异”称为“差异具有统计意义”或者“差异具有显著性”。
这里你还需要注意“差异具有显著性”和“具有显著差异”的区别。如前所说“差异具有显著性“表示不同的组很可能来自不同的数据分布也就是说多个组的数据来自同一分布的可能性非常小。而“具有显著差异”是指差异的幅度很大比如相差100倍。
不过差异的显著性和显著差异没有必然联系。举两个例子比如说两个不同的数据分布它们的均值分别是1和1.2这两个均值相差的绝对值很小也就是没有显著差异但是由于它们源自不同的数据分布所以差异是具有显著性的。再比如说来自同一个数据分布的两个采样它们的均值分别是1和100具有显著的差异但是差异没有显著性。
统计假设检验和显著性检验
统计假设检验是指事先对随机变量的参数或总体分布作出一个假设然后利用样本信息来判断这个假设是否合理。在统计学上我们称这种假设为虚无假设Null Hypothesis也叫原假设或零假设通常记作H0。而和虚无假设对立的假设我们称为对立假设Alternative Hypothesis通常记作H1。也就是说如果证明虚无假设不成立那么就可以推出对立假设成立。
统计假设检验的具体步骤是先认为原假设成立计算其会导致什么结果。若在单次实验中产生了小概率的事件则拒绝原假设H0并接受对立假设H1。若不会产生小概率的事件则不能拒绝原假设H0从而接受它。因此统计学中的假设是否成立并不像逻辑数学中的绝对“真”或“假”而是需要从概率的角度出发来看。
那么问题来了多少才算是“小概率”呢按照业界的约定俗成通常我们把概率不超过0.05的事件称为“小概率事件”。当然根据具体的应用偶尔也会取0.1或0.01等。在假设检验中,我们把这个概率记为α,并称它为显著性水平。
显著性检验是统计假设检验的一种,顾名思义,它可以帮助我们判断多组数据之间的差异,是采样导致的“偶然”,还是由于不同的数据分布导致的“必然“。当然,这里的“偶然”和“必然”都是相对的,和显著性水平α有关。显著性检验的假设是,多个数据分布之间没有差异。如果样本发生的概率小于显著性水平α,证明小概率事件发生了,所以拒绝原假设,也就是说认为多个分布之间有差异。否则呢,接受原假设,认为多个分布之间没有差异。换句话说,显著性水平α即为拒绝原假设的标准。
P值
既然已经定义了显著性检验和显著性水平那么我们如何为多组数据计算它们之间差异的显著性呢我们可以使用P值P-value。P值中的P代表Probability就是当H0假设为真时样本出现的概率或者换句话说其实就是我们所观测到的样本数据符合原假设H0的可能性有多大。
如果P值很小说明观测值与假设H0的期望值有很大的偏离H0发生的概率很小我们有理由拒绝原假设并接受对立假设。P值越小表明结果越显著我们越有信心拒绝原假设。反之说明观测值与假设H0的期望值很接近我们没有理由拒绝H0。
在显著性检验中原假设认为多个分组内的数据来自同一个数据分布如果P值足够小我们就可以拒绝原假设认为多个分组内的数据来自不同的数据分布它们之间存在显著性的差异。所以说只要能计算出P值我们就能把P值和显著性水平α进行比较从而决定是否接受原假设。
总结
今天我从互联网公司常见的A/B测试实验入手给你讲解了一个更科学的方法来比较不同算法的效果它就是统计学里的差异显著性检验。这个方法包含了一些你平时可能不太接触的概念你首先需要理解显著性差异、统计假设检验和P值。其中最为重要的就是显著性差异的概念因为这是差异显著性检验区别于简单的平均值方法的关键。
为了便于你的记忆,我这里再用一个形象的比喻来带你复习一遍。
儿子考了90分我问他“你比班上平均分高多少”如果他回答“我不太确定我只看到了周围几个人的分数我猜大概高出了10分吧”那么说明他对“自己分数比平均分高出10分”这个假设信心不足结论有较大的概率是错误的所以即使可能高了10分我也高兴不起来。
如果他回答“老师说了班级平均分是88分我比平均分高出了2分”那我就很开心了因为老师掌握了全局的信息她说的话让儿子对“自己分数比平均分高出2分”的假设是非常有信心的。即使只高出了2分但是结论有很大的概率是正确的。
理解了概念之后我们就要进入实战环节了。其实显著性检验的具体方法有很多例如方差分析F检验、t检验、卡方检验等等。不同的方法计算P值的方法也不同在下一节我会用A/B测试的案例来详细解释。
思考题
在对比两组数据的差异时,如果不断增加采样次数,也就是样本的数量,使用平均值和使用显著性检验这两者的结论,会不会逐渐变得一致?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,186 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
31 统计意义如何通过显著性检验判断你的A_B测试结果是不是巧合
你好,我是黄申,今天我们接着来聊显著性检验。
上一节我介绍了差异显著性检验的概念它是指从统计的角度来说差异的产生有多大的概率、是不是足够可信。这点和数值差异的大小是有区别的。既然我们不能通过差异的大小来推断差异是否可信那么有没有什么方法可以帮助我们检验不同数据分布之间是否存在显著差异呢具体的方法有不少比如方差分析F检验、t检验、卡方检验等等。我这里以方差分析为例来讲这个方法是如何帮助我们解决AB测试中的问题。
方差分析
方差分析Analysis of Variance, ANOVA也叫F检验。这种方法可以检验两组或者多组样本的均值是否具备显著性差异。它有四个前提假设分别是
随机性:样本是随机采样的;
独立性:来自不同组的样本是相互独立的;
正态分布性:组内样本都来自一个正态分布;
方差齐性:不同组的方差相等或相近。
根据第三个前提,我们假设数据是正态分布,那么分布就有两个参数,一个是平均数,一个是方差。如果我们仅仅知道两个分组的平均值,但并不知道它们的方差相差多大,那么我们所得出的两个分布是否有显著差异的结论就不可靠了。
为了突出重点我们先假设咱们的数据都符合上述四个前提然后我来详细讲解一下方差分析的主要思想。最后我会通过Python语言来验证各个假设和最终的F检验结果。
这里我使用之前提到的A/B测试案例通过方差分析来检验多种算法所产生的用户转化率有没有显著性差异。我们把“转化率”称为“因变量”把“算法”称为“因素”。这里我们只有算法一个因素所以所进行的方差分析是单因素方差分析。在方差分析中因素的取值是离散型的我们称不同的算法取值为“水平”。如果我们比较算法a和b那么a和b就是算法这个因素的两个水平。
我们假设只有两种算法a和b参与了A/B测试。为了检验这些算法导致的转化率是不是存在显著的差异我们进行一个为期10天的测试每天都为每种算法获取一个转化率。具体的数据我列在下面这张表格中。
我使用\(Y\_{ij}\)来表示这种表格中的数据,\(i\)表示第\(i\)次采样(或第\(i\)天),\(j\)表示第\(j\)种水平(或第\(j\)种算法)。以上面这张表格为例,\(Y\_{51}=0.34\)。
如果我们把每种算法导致的转化率看作一个数据分布那么方差分析要解决的问题就是这两个转化率分布的均值是不是相等。如果我把两种数据分布的均值记作μ1和μ2那么原假设H0就是μ1=μ2。而对立假设H1就是μ1 <> μ2。
之前我们提到差异是不是显著性关键要看这个差异是采样的偶然性引起的还是分布本身引起的。方差分析的核心思想也是围绕这个展开的因此它计算了三个数值SST、SSM和SSE。SST表示所有采样数据的因变量方差Total Sum of Squares我把它的计算公式列在这里。
在这个公式中, \(Y\_{ij}\)如前所说,表示了第\(i\)天第\(j\)种算法所导致的转化率。而\(\\overline{\\overline Y}\)表示了10天里2种算法全部20个数据的平均值。SSM表示数据分布所引起的方差我们称它为模型平方和Sum Of Squares for Model它的计算公式如下
在这个公式中,\(n\_{j}\)为水平\(j\)下的观测数量在我们的案例中为10。\(\\overline Y\_{j}\)为第\(j\)个水平的平均值在案例中为算法a或算法b在这10天的平均值。\(\\overline Y\_{j}-\\overline{\\overline Y}\)表示的是某个算法的采样均值和所有采样均值之间的差异,\(n\_{j}\)是相应的权重。我们这里的两个算法都被测试了10天所以权重相同。根据我们的案例SSM是0.00018。SSE表示采样引起的方差我们称它为误差平方和Sum of Squaress for Error。它的计算公式如下
根据我们的案例SSE是0.01652。我们刚刚介绍的三个统计量SST、SSM和SSE这三者的关系其实是这样的
你可以把这三者的公式代入自己证明一下等式是否成立。由此可以看出SST是由SSM和SSE构成的。如果在SST中SSM的占比更大那么说明因素对因变量的差异具有显著的影响如果SSE的占比更大那么说明采样误差对因变量的差异具有更显著的影响。我们使用这两部分的比例来衡量显著性并把这个比例称为F值。具体公式如下
在这个公式中s是水平的个数n为所有样本的总数量s-1为分布的自由度n-s为误差的自由度。你可能对自由度这个概念比较陌生这里我稍微解释一下。
自由度degree of freedom英文缩写是df它是指采样中能够自由变化的数据个数。对于一组包含n个数据的采样来说如果方差是一个固定值那么只有n-1个数据可以自由变化最后一个数的取值是给定的方差和其他n-1个数据决定的而不由它自己随意变化所以自由度就是n-1。这也是为什么在计算一组数的方差时我们在下面这个公式中使用的除数是n-1而不是n。
回到方差分析对于SSM来说如果SSM是固定的那么对于s个水平来说只能有s-1个组数据自由变化而最后一组数据必须固定所以对应于SSM的自由度为s-1。对于SSE来说如果SSE是固定的那么对于n个采样、s个水平数据来说只有n-s个数据是可以自由变化的。因为每个水平中都要有一个数据需要保证该组的平均值\(\\overline Y\_{j}\)而无法自由变化。
在我们的案例中s为不同算法的个数也就是水平的个数s为2采样数据的个数n为20所以分布的自由度为2-1=1误差的自由度为20-2=18。
在我们的案例中F=(0.00018/(2-1))/(0.01652/(20-2))=0.196125908。有了F值我们需要根据F检验值的临界表来查找对应的P值。我列出了这张表的常见内容你可以看看。
通过这张表以及n和m的值我们可以找到在显著性水平α为0.05的时候F值的临界值。如果大于这个临界值那么F检验的P值就会小于显著性水平α证明差异具有显著性。
在咱们的案例中n=20m=s-1=1所以对应的F值为4.414。而我们计算得到的F值为0.196远远小于4.414因此说明差异没有显著性。虽然算法a所导致的平均转化率要比算法b的相对高出约2%要注意2%的相对提升在转化率中已经算很高了但是由于差异没有显著性所以这个提升的偶然性很大并不意味着算法a比算法b更好。
如果需要你可以在网上相关的统计资料里查找到完整的F检验临界值表。
使用Python代码进行验证
除了手动的计算我们还可以用一些Python的代码来验证手动计算是不是准确。
首先我们要确保自己安装了Python的扩展包statsmodels。如果没有安装你可以在命令行中输入下面这行
pip install -U statsmodels
我们可以把下列数据输入一个oneway.csv文件。
algo,ratio
a,0.29
a,0.36
a,0.32
a,0.29
a,0.34
a,0.24
a,0.27
a,0.29
a,0.31
a,0.27
b,0.29
b,0.33
b,0.31
b,0.30
b,0.31
b,0.26
b,0.25
b,0.30
b,0.28
b,0.29
安装完了statsmodels并建立了数据文件oneway.csv我们就可以运行下面这段Python代码来进行F检验了。
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
import scipy.stats as ss
# 读取数据d1对应于算法ad2对应于算法b
df = pd.read_csv("/Users/shenhuang/Data/oneway.csv") #设置为你自己的文件路径
d1 = df[df['algo'] == 'a']['ratio']
d2 = df[df['algo'] == 'b']['ratio']
# 检测两个水平的正态性
print(ss.normaltest(d1))
print(ss.normaltest(d2))
# 检测两个水平的方差齐性
args = [d1, d2]
print(ss.levene(*args))
# F检验的第一种方法
print(ss.f_oneway(*args))
# F检验的第二种方法
model = ols('ratio ~ algo', df).fit()
anovat = anova_lm(model)
print(ano
我们假设用于A/B测试的两个算法是相互独立且随机的所以这里只检测了正态分布性和方差齐性。
其中ss.normaltest分别测试了两个水平的正态分布性两次结果如下
NormaltestResult(statistic=0.16280747339563784, pvalue=0.9218214431590781)
NormaltestResult(statistic=0.4189199849120419, pvalue=0.8110220857858036)
ss.normaltest的原假设是数据符合正态分布两次检验P值都是远远大于0.05的,所以原假设成立,这两者都符合正态分布。
而ss.levene分析了两者的方差齐性同样P值都是远远大于0.05,因此符合方差齐的前提。
LeveneResult(statistic=0.7944827586206901, pvalue=0.38450823419725666)
ss.f_oneway和anova_lm都可以进行F检验。ss.f_oneway给出的结果比较简洁。
F_onewayResult(statistic=0.19612590799031476, pvalue=0.663142430745588)
而anova_lm提供了更多的信息但是两种F检验函数都证明了我们之前的手动推算结果是正确的。
df sum_sq mean_sq F PR(>F)
algo 1.0 0.00018 0.000180 0.196126 0.663142
Residual 18.0 0.01652 0.000918 NaN NaN
总结
方差分析可以帮助我们检测差异的显著性,它分析的内容是受一个或多个因素影响的因变量在不同水平分组的差异。不过单因素的方差分析要求因变量属于正态分布总体,并具有方差齐性。如果因变量的分布明显的是非正态,或者方差的差异很显著,那么我们就不能直接使用这种方法。对于方差不齐的情况,我们可以选择适当的函数,例如对数、倒数等等,对原始数据进行转换,直到方差齐性变得显著,或者剔除明显属于“均值±标准差”之外的数据。
当然对于非正态分布的数据我们也可以使用非参数的分析。非参数检验是在总体的方差知道很少的情况下利用样本数据对总体分布形态等进行推断的方法。名字中的“非参数”的由来就是因为这种检验方法在推断过程中不涉及有关总体分布的参数而只是进行分布位置、分布形状之间的比较因此不受总体分布的限定适用范围比较广。常见的非参数检验包括二项分布检验、K-S检验、卡方检验等等。
思考题
请尝试使用Python语言实现你自己的方差分析函数然后通过测试数据来比较你实现的函数和Python扩展包里的函数例如statsmodels.stats.anova.anova_lm或scipy.stats.f_oneway
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,105 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
32 概率统计篇答疑和总结:为什么会有欠拟合和过拟合?
你好,我是黄申。
在概率统计这个模块中,我们讲了很多监督式机器学习相关的概念。你可能对朴素贝叶斯、决策树、线性回归这类监督式算法中的一些概念还是不太清楚。比如说,为什么要使用大量的文档集合或者语料库来训练一个朴素贝叶斯模型呢?这个过程最后得到的结果是什么?为什么训练后的结果可以用于预测新的数据?这里面其实涉及了很多模型拟合的知识。
为了帮助你更好地理解这些内容,今天我就来说说监督式学习中几个很重要的概念:拟合、欠拟合和过拟合,以及如何处理欠拟合和过拟合。
拟合、欠拟合和过拟合
每种学习模型都有自己的假设和参数。虽然朴素贝叶斯和决策树都属于分类算法,但是它们各自的假设和参数都不相同。朴素贝叶斯的假设是贝叶斯定理和变量之间的独立性,而决策树的假设是集合的纯净程度或者混乱程度。我们这里所说的参数,是指根据模型假设和训练样本推导出来的数据,例如朴素贝叶斯中的参数是各种先验概率和条件概率,而决策树的参数是各个树结点以及结点上的决策条件。
了解了什么是模型的假设和参数我们来看看什么是模型的拟合Model Fitting。在监督式学习中我们经常提到“训练一个模型”其实更学术的说法应该是“拟合一个模型”。
拟合模型其实就是指通过模型的假设和训练样本,推导出具体参数的过程。有了这些参数,我们就能对新的数据进行预测。这样说有些抽象,我画了张一元回归的图来帮助你理解。假设我们的数据点分布在一个二维空间。
其中黑色的点表示训练数据所对应的点x轴表示唯一的自变量y轴表示因变量。根据这些训练数据拟合回归模型之后所得到的模型结果是一条黑色的曲线。
有了这条曲线我们就能根据测试数据的x轴取值如图中的x来获取y轴的取值如图中的y也就是根据自变量的值来获取因变量的值达到预测的效果。这种情况就是适度拟合right fitting
可是有的时候拟合得到的模型过于简单和训练样本之间的误差非常大这种情况就是欠拟合Under Fitting。比如下面这根黑色的曲线和第一根曲线相比它离数据点的距离更大。这种拟合模型和训练样本之间的差异我们就称为偏差Bias
欠拟合说明模型还不能很好地表示训练样本所以在测试样本上的表现通常也不好。例如图中预测的值y和测试数据x对应的真实值y相差很大。
相对于欠拟合另一种情况是拟合得到的模型非常精细和复杂和训练样本之间的误差非常小我们称这种情况为过拟合Over Fitting。比如下面这根黑色的曲线和第一根曲线相比离数据点的距离更近也就是说偏差更小。
初学者通常都会觉得过拟合很好,其实并不是这样。过拟合的模型虽然在训练样本中表现得非常优越,但是在测试样本中可能表现不理想。为什么会这样呢?这主要是因为,有的时候,训练样本和测试样本不太一致。
比如用于训练的数据都是苹果和甜橙但是用于测试的数据都是西瓜。在上图中测试数据x所对应的y值应该是y而不是预测的y。这种训练样本和测试样本之间存在的差异我们称为方差Variance。在过拟合的时候我们认为模型缺乏泛化的能力无法很好地处理新的数据。
类似地,我以二维空间里的分类为例,展示了适度拟合、欠拟合和过度拟合的情况。仍然假设训练数据的点分布在一个二维空间,我们需要拟合出一个用于区分两个类的分界线。我分别用三张图展示了这三种情况下的分界线。
首先,第一张是适度拟合的情况。
这张图中蓝色的点表示分类1的训练数据点红色的点表示分类2的训练数据点。在适度拟合的时候分界线比较好地区分了蓝色和红色的点。
在欠拟合的时候,模型过于简单,分界线区分训练样本中蓝色和红色点的能力比较弱,存在比较多的错误分类。
在过拟合的时候,模型过于复杂,分界线区分训练样本中蓝色和红色点的能力近乎完美,基本上没有错误的分类。但是,如果测试样本和这个训练样本不太一样,那么这个模型就会产生比较大的误差。
在常见的监督式学习过程中,适度拟合、欠拟合和过拟合,这三种状态是逐步演变的。我也用一张图来解释这个过程。
在这个图中x轴表示模型的复杂程度y轴表示预测的误差。蓝色曲线表示模型在训练样本上的表现它和x轴之间的距离表示了偏差。而红色曲线表示模型在测试样本上的表现它和蓝色曲线之间的距离表示了方差。
从图的左侧往右侧看,模型的复杂度由简单逐渐复杂。越复杂的模型,越近似训练样本,所以偏差就不断下降。可是,由于过于近似训练样本,模型和测试样本的差距就会加大,因此在模型复杂度达到一定程度之后,在训练样本上的预测误差反而会开始增加,这样就会导致训练和测试样本之间的方差不断增大。
在这个图中,最左边是高偏差、低方差,就是我们所说的欠拟合,最右边是低偏差、高方差,就是我们所说的过拟合。在靠近中间的位置,我们希望能找到一个偏差和方差都比较均衡的区域,也就是适度拟合的情况。
如何处理欠拟合和过拟合?
解释了什么是模型拟合、欠拟合和过拟合,我们下面来说说,有哪些常见的处理过拟合和欠拟合的方法。
想要解决一个问题,我们先要搞清楚产生这个问题的原因。欠拟合问题,产生的主要原因是特征维度过少,拟合的模型不够复杂,无法满足训练样本,最终导致误差较大。因此,我们就可以增加特征维度,让输入的训练样本具有更强的表达能力。
之前讲解朴素贝叶斯的时候,我提到“任何两个变量是相互独立的假设”,这种假设和马尔科夫假设中的一元文法的作用一致,是为了降低数据稀疏程度、节省计算资源所采取的措施。可是,这种假设在现实中往往不成立,所以朴素贝叶斯模型的表达能力是非常有限的。当我们拥有足够的计算资源,而且希望建模效果更好的时候,我们就需要更加精细、更加复杂的模型,朴素贝叶斯可能就不再适用了。
比如在最近非常火的电影《流浪地球》中计算机系统莫斯拥有全人类文明的数字资料库。假设我们手头也有一个庞大的资料库也有莫斯那么强大的计算能力那么使用一元文法来处理数据就有点大材小用了。我们完全可以放弃朴素贝叶斯中关于变量独立性的假设而使用二元、三元甚至更大的N元文法来处理这些数据。这就是典型的通过增加更多的特征来提升模型的复杂度让它从欠拟合阶段往适度拟合阶段靠拢。
相对应的,过拟合问题产生的主要原因则是特征维度过多,导致拟合的模型过于完美地符合训练样本,但是无法适应测试样本或者说新的数据。所以我们可以减少特征的维度。之前在介绍决策树的时候,我提到了这类算法比较容易过拟合,可以使用剪枝和随机森林来缓解这个问题。
剪枝,顾名思义,就是删掉决策树中一些不是很重要的结点及对应的边,这其实就是在减少特征对模型的影响。虽然去掉一些结点和边之后,决策树对训练样本的区分能力变弱,但是可以更好地应对新数据的变化,具有更好的泛化能力。至于去掉哪些结点和边,我们可以使用前面介绍的特征选择方法来进行。
随机森林的构建过程更为复杂一些。“森林”表示有很多决策树可是训练样本就一套那这些树都是怎么来的呢随机森林算法采用了统计里常用的可重复采样法每次从全部n个样本中取出m个m然后构建一个决策树。重复这种采样并构建决策树的过程若干次我们就能获得多个决策树。对于新的数据每个决策树都会有自己的判断结果我们取大多数决策树的意见作为最终结果。由于每次采样都是不完整的训练集合而且有一定的随机性所以每个决策树的过拟合程度都会降低。
从另一个角度来看过拟合表示模型太复杂而相对的训练数据量太少。因此我们也可以增加训练样本的数据量并尽量保持训练数据和测试数据分布的一致性。如果我们手头上有大量的训练数据则可以使用交叉验证Cross Validation的划分方式来保持训练数据和测试数据的一致性。其核心思想是在每一轮中拿出大部分数据实例进行建模然后用建立的模型对留下的小部分实例进行预测最终对本次预测结果进行评估。这个过程反复进行若干轮直到所有的标注样本都被预测了一次而且仅一次。如果模型所接受的数据总是在变化那么我们就需要定期更新训练样本重新拟合模型。
总结
第二模块中,我介绍了很多概率统计中常用的概念。随机变量和它的概率分布体现了事物发生的不确定性。而条件概率、联合概率和边缘概率体现了多个随机变量之间的关系以及是不是相互独立,通过这三者的关系,我们可以推导出贝叶斯定理。在贝叶斯定理和变量独立性假设的基础之上,我讲了朴素贝叶斯算法中的公式推导,以及如何使用先验概率来预测后验概率。由于朴素贝叶斯假定多个变量之间相互独立,因此特别适合特征维度很多、特征向量和矩阵很稀疏的场景。基于词包方法的文本分类就是个非常典型的例子。
文本分类涉及了词与词之间相互独立的假设,然后延伸出多元文法,而多元文法也广泛应用在概率语言模型中。语言模型是马尔科夫模型的一种,而隐马尔科夫模型在马尔科夫模型的基础之上,提出了两层的结构,解决了我们无法直接观测到转移状态的问题。
由概率知识派生而来的信息论,也能帮助我们设计机器学习的算法,比如决策树和特征选择。统计中的数据分布可以让特征值转换更合理,而假设检验可以告诉我们哪些结论是更可靠的。
由于很多监督式学习都是基于概率统计的,所以我使用了一些学习算法来进行讲解。你会发现,概率和统计可以帮助这些算法学习训练样本中的特征,并可以对新的数据进行预测,这就是模型拟合的过程。
思考题
学习完了概率和统计模块,你觉得自己最大的收获和感触是什么?
欢迎留言和我分享。你可以把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,123 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
33 线性代数:线性代数到底都讲了些什么?
你好,我是黄申。
通过第二模块的学习,我想你对概率统计在编程领域,特别是机器学习算法中的应用,已经有了一定理解。概率统计关注的是随机变量及其概率分布,以及如何通过观测数据来推断这些分布。可是,在解决很多问题的时候,我们不仅要关心单个变量之间的关系,还要进一步研究多个变量之间的关系,最典型的例子就是基于多个特征的信息检索和机器学习。
在信息检索中,我们需要考虑多个关键词特征对最终相关性的影响,而在机器学习中,无论是监督式还是非监督式学习,我们都需要考虑多个特征对模型拟合的影响。在研究多个变量之间关系的时候,线性代数成为了解决这类问题的有力工具。
另一方面在我们日常生活和工作中很多问题都可以线性化小到计算两个地点之间的距离大到计算互联网中全部网页的PageRank。所以为了使用编程来解决相应的问题我们也必须掌握一些必要的线性代数基础知识。因此我会从线性代数的基本概念出发结合信息检索和机器学习领域的知识详细讲解线性代数的运用。
关于线性代数,究竟都需要掌握哪些方面的知识呢?我们今天就来看一看,让你对之后一段时间所要学习的知识有个大体的了解。
向量和向量空间
我们之前所谈到的变量都属于标量Scalar。它只是一个单独的数字而且不能表示方向。从计算机数据结构的角度来看标量就是编程中最基本的变量。这个很好理解你可以回想一下刚开始学习编程时接触到的标量类型的变量。
和标量对应的概念就是线性代数中最常用、也最重要的概念向量Vector也可以叫做矢量。它代表一组数字并且这些数字是有序排列的。我们用数据结构的视角来看向量可以用数组或者链表来表达。
后面的文章里,我会用加粗的小写字母表示一个向量,例如\(x\),而\(x\_{1}x\_{2}x\_{3}x\_{n}\)等等来表示向量中的每个元素这里面的n就是向量的维。
向量和标量最大的区别在于,向量除了拥有数值的大小,还拥有方向。向量或者矢量中的“向”和“矢”这两个字,都表明它们是有方向的。你可能会问,为什么这一串数字能表示方向呢?
这是因为,如果我们把某个向量中的元素看作坐标轴上的坐标,那么这个向量就可以看作空间中的一个点。以原点为起点,以向量代表的点为终点,就能形成一条有向直线。而这样的处理其实已经给向量赋予了代数的含义,使得计算的过程中更加直观。在后面讨论向量空间、向量夹角、矩阵特征值等概念的时候,我会进一步展示给你看。
由于一个向量包含了很多个元素因此我们自然地就可以把它运用在机器学习的领域。上一个模块我讲过如何把自然界里物体的属性转换为能够用数字表达的特征。由于特征有很多维因此我们可以使用向量来表示某个物体的特征。其中向量的每个元素就代表一维特征而元素的值代表了相应特征的值我们称这类向量为特征向量Feature Vector
需要注意的是这个特征向量和矩阵的特征向量Eigenvector是两码事。那么矩阵的特征向量是什么意思呢矩阵的几何意义是坐标的变换。如果一个矩阵存在特征向量和特征值那么这个矩阵的特征向量就表示了它在空间中最主要的运动方向。如果你对这几个概念还不太理解也不用担心在介绍矩阵的时候我会详细说说什么是矩阵的特征向量。
向量的运算
标量和向量之间可以进行运算,比如标量和向量相加或者相乘时,我们直接把标量和向量中的每个元素相加或者相乘就行了,这个很好理解。可是,向量和向量之间的加法或乘法应该如何进行呢?我们需要先定义向量空间。向量空间理论上的定义比较繁琐,不过二维或者三维的坐标空间可以很好地帮助你来理解。这些空间主要有几个特性:
空间由无穷多个的位置点组成;
这些点之间存在相对的关系;
可以在空间中定义任意两点之间的长度,以及任意两个向量之间的角度;
这个空间的点可以进行移动。
有了这些特点,我们就可以定义向量之间的加法、乘法(或点乘)、距离和夹角等等。
两个向量之间的加法,首先它们需要维度相同,然后是对应的元素相加。
所以说,向量的加法实际上就是把几何问题转化成了代数问题,然后用代数的方法实现了几何的运算。我下面画了一张图,来解释二维空间里,两个向量的相加,看完你就能理解了。
在这张图中有两个向量x和y它们的长度分别是x和y它们的相加结果是x+y这个结果所对应的点相当于x向量沿着y向量的方向移动y或者是y向量沿着x向量的方向移动x
向量之间的乘法默认是点乘向量x和y的点乘是这么定义的
点乘的作用是把相乘的两个向量转换成了标量它有具体的几何含义。我们会用点乘来计算向量的长度以及两个向量间的夹角所以一般情况下我们会默认向量间的乘法是点乘。至于向量之间的夹角和距离它们在向量空间模型Vector Space Model中发挥了重要的作用。信息检索和机器学习等领域充分利用了向量空间模型计算不同对象之间的相似程度。在之后的专栏里我会通过向量空间模型详细介绍向量点乘以及向量间夹角和距离的计算。
矩阵的运算
矩阵由多个长度相等的向量组成其中的每列或者每行就是一个向量。因此我们把向量延伸一下就能得到矩阵Matrix
从数据结构的角度看向量是一维数组那矩阵就是一个二维数组。如果二维数组里绝大多数元素都是0或者不存在的值那么我们就称这个矩阵很稀疏Sparse。对于稀疏矩阵我们可以使用哈希表的链地址法来表示。所以矩阵中的每个元素有两个索引。
我用加粗的斜体大写字母表示一个矩阵,例如\(X\),而\(X\_{12}X\_{22}X\_{nm}\)等等表示矩阵中的每个元素而这里面的n和m分别表示矩阵的行维数和列维数。
我们换个角度来看向量其实也是一种特殊的矩阵。如果一个矩阵是n × m维那么一个n × 1的矩阵也可以称作一个n维列向量而一个1 × m矩阵也称为一个m维行向量。
同样,我们也可以定义标量和矩阵之间的加法和乘法,我们只需要把标量和矩阵中的每个元素相加或相乘就可以了。剩下的问题就是,矩阵和矩阵之间是如何进行加法和乘法的呢?矩阵加法比较简单,只要保证参与操作的两个矩阵具有相同的行维度和列维度,我们就可以把对应的元素两两相加。而乘法略微繁琐一些,如果写成公式就是这种形式:
其中,矩阵\(Z\)为矩阵\(X\)和\(Y\)的乘积,\(X\)是形状为i x k的矩阵而\(Y\)是形状为k × j的矩阵。\(X\)的列数k必须和\(Y\)的行数k相等两者才可以进行这样的乘法。
我们可以把这个过程看作矩阵\(X\)的行向量和矩阵\(Y\)的列向量两两进行点乘,我这里画了张图,你理解了这张图就不难记住这个公式了。
两个矩阵中对应元素进行相乘这种操作也是存在的我们称它为元素对应乘积或者Hadamard乘积。但是这种乘法咱们用得比较少所以你只要知道有这个概念就可以了。
除了加法和乘法,矩阵还有一些其他重要的操作,包括转置、求逆矩阵、求特征值和求奇异值等等。
转置Transposition是指矩阵内的元素行索引和纵索引互换例如\(X\_{ij}\)就变为\(X\_{ji}\)相应的矩阵的形状由转置前的n × m变为转置后的m × n。从几何的角度来说矩阵的转置就是原矩阵以对角线为轴进行翻转后的结果。下面这张图展示了矩阵\(X\)转置之后的矩阵\(X\)
除了转置矩阵另一个重要的概念是逆矩阵。为了理解逆矩阵或矩阵逆Matrix Inversion我们首先要理解单位矩阵Identity Matrix。单位矩阵中所有沿主对角线的元素都是1而其他位置的所有元素都是0。通常我们只考虑单位矩阵为方阵的情况也就是行数和列数相等我们把它记作\(I\_{n}\)\(n\)表示维数。我这里给出一个\(I\_{5}\)的示例。
如果有矩阵\(X\),我们把它的逆矩阵记做\(X^{-1}\),两者相乘的结果是单位矩阵,写成公式就是这种形式:
特征值和奇异值的概念以及求解比较复杂,从大体上来理解,它们可以帮助我们找到矩阵最主要的特点。通过这些操作,我们就可以在机器学习算法中降低特征向量的维度,达到特征选择和变换的目的。我会在后面的专栏,结合案例给你详细讲解。
总结
相对于概率统计,线性代数中的基本概念和知识点可能没有那么多。但是对于刚入门的初学者,这些内容理解起来会比较费力。在这一节里,我进行了大致的梳理,帮助你学习。
标量和向量的区别,标量只是单独的一个数,而向量是一组数。矩阵是向量的扩展,就是一个二维数组。我们可以使用哈希表的链地址法表示稀疏矩阵。
标量和向量或矩阵的加法、乘法比较简单,就是把这个标量和向量或矩阵中所有的元素轮流进行相加或相乘。向量之间的加法和矩阵之间的加法,是把两者对应的元素相加。向量之间的相乘分为叉乘和点乘,我在专栏里默认向量乘法为点乘。而矩阵的乘法默认为左矩阵的行向量和右矩阵的列向量两两点乘。
说到这里,你可能还是不太理解线性代数对于编程有什么用处。在这个模块之后的内容中,我会详细介绍向量空间模型、线性方程组、矩阵求特征值和奇异值分解等,在信息检索和机器学习领域中,有怎样的应用场景。
思考题
之前你对线性代数的认识是什么样的呢?对这块内容,你觉得最难的是什么?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,165 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
34 向量空间模型:如何让计算机理解现实事物之间的关系?
你好,我是黄申。
之前我们讲过如何让计算机理解现实世界中的事物,方法是把事物的各种特性转为机器所能理解的数据字段。而这些数据字段,在机器学习里通常被称为特征。有了特征,我们不仅可以刻画事物本身,还能刻画不同事物之间的关系。
上一个模块我们只是了解了监督式学习,重点考察了特征和分类标签之间的关系。但是在信息检索和非监督式学习中,我们更关注的是不同事物之间的相似程度。这就需要用到线性代数中的向量空间模型了。
提到向量空间模型,你可能对其中的概念有点陌生,所以我会从向量空间的基本概念开始说起,讲到向量空间模型的相关知识,最后再讲讲它是如何应用在不同的编程中的。
什么是向量空间?
上一节,我讲到了向量和向量空间的一些基本概念。为了帮助你更好地理解向量空间模型,我这里给出向量和向量空间的严格定义。
首先假设有一个数的集合\(F\),它满足“\(F\)中任意两个数的加减乘除法(除数不为零)的结果仍然在这个\(F\)中”,我们就可以称\(F\)为一个“域”。我们处理的数据通常都是实数,所以这里我只考虑实数域。而如果域\(F\)里的元素都为实数,那么\(F\)就是实数域。
如果\(x\_{1}x\_{2}……x\_{n}∈F\),那么\(F\)上的\(n\)维向量就是:
或者写成转置的形式:
向量中第\(i\)个元素,也称为第\(i\)个分量。\(F\_{n}\)是由\(F\)上所有\(n\)维向量构成的集合。
我们已经介绍过向量之间的加法,以及标量和向量的乘法。这里我们使用这两个操作来定义向量空间。
假设\(V\)是\(F\_{n}\)的非零子集,如果对任意的向量\(x\)、向量\(y∈V\),都有\((x+y)∈V\),我们称为\(V\)对向量的加法封闭;对任意的标量\(k∈V\),向量\(x∈V\),都有\(kx\)属于\(V\),我们称\(V\)对标量与向量的乘法封闭。
如果\(V\)满足向量的加法和乘法封闭性,我们就称\(V\)是\(F\)上的向量空间。向量空间除了满足这两个封闭性,还满足基本运算法则,比如交换律、结合律、分配律等等。这里介绍的定义和法则有点多,不过你可以不用都死记硬背下来。只要用的时候,知道有这些东西就可以了。
向量空间的几个重要概念
有了刚才的铺垫,接下来我们来看几个重要的概念:向量的长度、向量之间的距离和夹角。
向量之间的距离
有了向量空间我们就可以定义向量之间的各种距离。我们之前说过可以把一个向量想象为n维空间中的一个点。而向量空间中两个向量的距离就是这两个向量所对应的点之间的距离。距离通常都是大于0的这里我介绍几种常用的距离包括曼哈顿距离、欧氏距离、切比雪夫距离和闵可夫斯基距离。
曼哈顿距离Manhattan Distance
这个距离度量的名字由来非常有趣。你可以想象一下,在美国人口稠密的曼哈顿地区,从一个十字路口开车到另外一个十字路口,驾驶距离是多少呢?当然不是两点之间的直线距离,因为你无法穿越挡在其中的高楼大厦。你只能驾车绕过这些建筑物,实际的驾驶距离就叫作曼哈顿距离。由于这些建筑物的排列都是规整划一的,形成了一个个的街区,所以我们也可以形象地称它为“城市街区”距离。我这里画了张图方便你理解这种距离。
从图中可以看出从A点到B点有多条路径但是无论哪条曼哈顿距离都是一样的。
在二维空间中,两个点(实际上就是二维向量)\(x(x\_{1},x\_{2})\)与\(y(y\_{1},y\_{2})\)间的曼哈顿距离是:
推广到\(n\)维空间,曼哈顿距离的计算公式为:
其中\(n\)表示向量维度,\(x\_{i}\)表示第一个向量的第\(i\)维元素的值,\(y\_{i}\)表示第二个向量的第\(i\)维元素的值。
欧氏距离Euclidean Distance
欧氏距离其实就是欧几里得距离。欧氏距离是一个常用的距离定义指在n维空间中两个点之间的真实距离在二维空间中两个点\(x(x\_{1},x\_{2})\)与\(y(y\_{1},y\_{2})\)间的欧氏距离是:
推广到n维空间欧氏距离的计算公式为
切比雪夫距离Chebyshev Distance
切比雪夫其实是在模拟国际象棋里国王的走法。国王可以走临近8个格子里的任何一个那么国王从格子\((x\_{1},x\_{2})\)走到格子\((y\_{1},y\_{2})\)最少需要多少步呢?其实就是二维空间里的切比雪夫距离。
一开始为了走尽量少的步数国王走的一定是斜线所以横轴和纵轴方向都会减1直到国王的位置和目标位置在某个轴上没有差距这个时候就改为沿另一个轴每次减1。所以国王走的最少格子数是\(|x\_{1}-y\_{1}|\)和\(|x\_{2}-y\_{2}|\)这两者的较大者。所以,在二维空间中,两个点\(x(x\_{1},x\_{2})\)与\(y(y\_{1},y\_{2})\)间的切比雪夫距离是:
推广到n维空间切比雪夫距离的计算公式为
上述三种距离,都可以用一种通用的形式表示,那就是闵可夫斯基距离,也叫闵氏距离。在二维空间中,两个点\(x(x\_{1},x\_{2})\)与\(y(y\_{1},y\_{2})\)间的闵氏距离是:
两个\(n\)维变量\(x(x\_{1},x\_{2},…,x\_{n})\)与\(y(y\_{1},y\_{2},…,y\_{n})\)间的闵氏距离的定义为:
其中\(p\)是一个变参数尝试不同的p取值你就会发现
当\(p=1\)时,就是曼哈顿距离;
当\(p=2\)时,就是欧氏距离;
当\(p\)趋近于无穷大的时候,就是切比雪夫距离。这是因为当\(p\)趋近于无穷大的时候,最大的\(|x\_{i}-y\_{i}|\)会占到全部的权重。
距离可以描述不同向量在向量空间中的差异,所以可以用于描述向量所代表的事物之差异(或相似)程度。
向量的长度
有了向量距离的定义,向量的长度就很容易理解了。向量的长度,也叫向量的模,是向量所对应的点到空间原点的距离。通常我们使用欧氏距离来表示向量的长度。
当然,我们也可以使用其他类型的距离。说到这里,我也提一下“范数”的概念。范数满足非负性、齐次性、和三角不等式。你可以不用深究这三点的含义,不过你需要知道范数常常被用来衡量某个向量空间中向量的大小或者长度。
\(L\_{1}\)范数\(||x||\) ,它是为\(x\)向量各个元素绝对值之和,对应于向量\(x\)和原点之间的曼哈顿距离。
\(L\_{2}\)范数\(||x||\_{2}\) ,它是\(x\)向量各个元素平方和的\(\\frac{1}{2}\)次方,对应于向量\(x\)和原点之间的欧氏距离。
\(L\_{p}\)范数\(||x||\_{p}\) ,为\(x\)向量各个元素绝对值\(p\)次方和的1/p次方对应于向量\(x\)和原点之间的闵氏距离。
\(L\_{∞}\)范数\(||x||\_{∞}\) ,为\(x\)向量各个元素绝对值最大那个元素的绝对值,对应于向量\(x\)和原点之间的切比雪夫距离。
所以在讨论向量的长度时我们需要弄清楚是L几范数。
向量之间的夹角
在理解了向量间的距离和向量的长度之后,我们就可以引出向量夹角的余弦,它计算了空间中两个向量所形成夹角的余弦值,具体的计算公式我列在了下面:
从公式可以看出分子是两个向量的点乘而分母是两者长度或L2范数的乘积而L2范数可以使用向量点乘自身的转置来实现。夹角余弦的取值范围在[-1,1]当两个向量的方向重合时夹角余弦取最大值1当两个向量的方向完全相反夹角余弦取最小值-1。值越大说明夹角越小两点相距就越近值越小说明夹角越大两点相距就越远。
向量空间模型
理解了向量间距离和夹角余弦这两个概念你再来看向量空间模型Vector Space Model就不难了。
向量空间模型假设所有的对象都可以转化为向量,然后使用向量间的距离(通常是欧氏距离)或者是向量间的夹角余弦来表示两个对象之间的相似程度。我使用下图来展示空间中向量之间的距离和夹角。
由于夹角余弦的取值范围已经在-1到1之间而且越大表示越相似所以可以直接作为相似度的取值。相对于夹角余弦欧氏距离ED的取值范围可能很大而且和相似度呈现反比关系所以通常要进行1/(ED+1)这种归一化。
当ED为0的时候变化后的值就是1表示相似度为1完全相同。当ED趋向于无穷大的时候变化后的值就是0表示相似度为0完全不同。所以这个变化后的值取值范围是0到1之间而且和相似度呈现正比关系。
早在上世纪的70年代人们把向量空间模型运用于信息检索领域。由于向量空间可以很形象地表示数据点之间的相似程度因此现在我们也常常把这个模型运用在基于相似度的一些机器学习算法中例如K近邻KNN分类、K均值K-Means聚类等等。
总结
为了让计算机理解现实世界中的事物,我们会把事物的特点转换成为数据,并使用多维度的特征来表示某个具体的对象。多个维度的特征很容易构成向量,因此我们就可以充分利用向量和向量空间,来刻画事物以及它们之间的关系。
我们可以在向量空间中定义多种类型的向量长度和向量间距离,用于衡量向量之间的差异或者说相似程度。此外,夹角余弦也是常用的相似度衡量指标。和距离相比,夹角余弦的取值已经控制在[-1, 1]的范围内,不会因为异常点所产生的过大距离而受到干扰。
向量空间模型充分利用了空间中向量的距离和夹角特性,来描述文档和查询之间的相似程度,或者说相关性。虽然向量空间模型来自信息检索领域,但是也被广泛运用在机器学习领域中。在接下来的文章里,我会结合具体的案例,分别来说说如何在这些领域使用向量空间模型。
思考题
假设在三维空间中有两个点,它们的坐标分别是(3, -1, 8)和(-2, 3, -6),请计算这两个点之间的欧氏距离和夹角余弦。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,117 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
35 文本检索:如何让计算机处理自然语言?
你好,我是黄申。
上一节,我详细解释了向量空间和向量空间模型。你也许觉得理论上的内容还是过于抽象,不太好理解。别急,今天我就来具体演示一下如何使用这个模型。由于学者们最初是在信息检索领域使用这个模型的,所以我会结合文本信息检索领域的知识,阐述如何在这个领域使用向量空间模型。
什么是信息检索?
首先,我们先来看一下,什么是信息检索,以及最基本的排序模型有哪些。这样,你就能理解为什么我们需要使用向量空间模型了。
现在的信息检索技术已经相当成熟,并影响我们日常生活的方方面面。搜索引擎就是这项技术的最佳体现,人们输入一个查询,然后系统就能返回相关的信息。
笼统地说信息检索就是让计算机根据用户信息需求从大规模、非结构化的数据中找出相关的资料。这里的“非结构化”其实是针对经典的关系型数据库Relation Database而言的比如DB2、Oracle DB、MySQL等等。
数据库里的记录都有严格的字段定义Schema是“结构化”数据的典型代表。相反“非结构化”没有这种严格的定义互联网世界里所存储的海量文本就是“非结构化“数据的典型代表。因为这些文章如果没有经过我们的分析对于其描述的主题、写作日期、作者等信息我们是一无所知的。自然我们也就无法将其中的内容和已经定义好的数据库字段进行匹配所以这也是数据库在处理非结构化数据时非常乏力的原因。这时候就需要采用信息检索的技术来帮助我们。
在信息检索中,相关性是个永恒的话题。“这篇文章是否和体育相关?”当被问及这个问题,我们要大致看一下文章的内容,才能做出正确的判断。可是,迄今为止,计算机尚无法真正懂得人类的语言,它们该如何判定呢?好在科学家们设计了很多模型,帮助计算机处理基于文本的相关性。
最简单的模型是布尔模型它借助了逻辑布尔代数的基本思想。如果我想看一篇文章是否关于体育最简单的方法莫过于看看其中是否提到和体育相关的关键词比如“足球”“NBA”“奥运会”等等。如果有就相当于返回值为“真”我就认为这篇文章就是相关的。如果没有就相当于返回值为“假”我就认为这篇文章不相关。这就是布尔模型的核心思想。
这里我列出了要求全部关键词都出现的查询条件。
当然我们可以根据具体的需求在查询条件中加入“OR”允许进行部分关键词的匹配。
和布尔模型相比向量空间模型更为复杂也更为合理。如我之前介绍的此模型的重点是将文档转换为向量然后比较向量之间的距离或者相似程度。在转换的时候我们通常会使用词包Bag Of Word的方式忽略了单词在文章中出现的顺序简化计算复杂度。类似地这个模型也会把用户输入的查询转换为向量。如此一来相关性问题就转化为计算查询向量和文档向量之间的距离或者相似度了。距离越小或者说相似度越高那么我们就认为相关度越高。
相对于标准的布尔数学模型,向量空间模型的主要优势在于,允许文档和查询之间的部分匹配
连续的相似程度、以及基于这些的的排序。结果不再局限于布尔模型的“真”“假”值。此外单词或词组的权重可以不再是二元的而是可以使用例如tf-idfterm frequencyinverse document frequency的机制。
上面我简要地说明了为什么在信息检索领域,向量空间模型相比布尔模型更具优势。接下来,我来详细讲解如何在一个文档集合上,使用向量空间模型,查找和给定查询相关的文档。
信息检索中的向量空间模型
整个方法从大体上来说,可以分为四个主要步骤。
第一步,把文档集合都转换成向量的形式。
第二步,把用户输入的查询转换成向量的形式,然后把这个查询的向量和所有文档的向量,进行比对,计算出基于距离或者夹角余弦的相似度。
第三步,根据查询和每个文档的相似度,找出相似度最高的文档,认为它们是和指定查询最相关的。
第四步,评估查询结果的相关性。
这一节,我主要侧重讲解和向量空间模型最相关的前两步。
把文档转为特征向量
任何向量都有两个主要的构成要素:维度和取值。这里的维度表示向量有多少维分量、每个分量的含义是什么,而取值表示每个分量的数值是多少。而原始的文本和向量差别很大,我们需要经过若干预处理的步骤。
我们首先来看看如何为文本创建向量的维度。简单地说,我们要把文章中唯一的单词或者词组,作为向量的一个维度。
在概率统计的模块中我说过如何基于词包Bag of Word的方式来预处理文本包括针对中文等语系的分词操作、针对英文等拉丁语系的词干Stemming和归一化Normalization处理以及所有语言都会碰到的停用词Stopword、同义词和扩展词处理。完成了前面这些预处理我们就可以获得每篇文档出现的单词和词组。而通过对所有文档中的单词和词组进行去重我们就可以构建整个文档集合的词典Vocabulary。向量空间模型把词典中的每个词条作为向量的一个维度。
有了向量的维度我们再来考虑每个维度需要取什么值。最简单的方法是用“1”表示这个词条出现在文档中“0”表示没有出现。不过这种方法没有考虑每个词的权重。有些词经常出现它更能表达文章的主要思想对于计算机的分析能起到更大的作用。对于这点有两种常见的改进方法分别是使用词频和词频x逆文档频率来实现的。
我们先来看基于词频的方法。假设我们有一个文档集合cd表示c中的一个文档t表示一个单词那么我们使用tf表示词频Term Frequency也就是一个词t在文档d中出现的次数。这种方法的假设是如果某个词在文档中的tf越高那么这个词对于这个文档来说就越重要。
另一种改进方法不仅考虑了tf还考虑了idf。这里idf表示逆文档频率Inverse Document Frequency
首先df表示文档频率Document Frequency也就是文档集合c中出现某个词t的文档数量。一般的假设是某个词t在文档集合c中出现在越多的文档中那么其重要性越低反之则越高。刚开始可能感觉有点困惑但是仔细想想不难理解。
在讨论体育的文档集合中“体育”一词可能会出现在上万篇文章中它的出现并不能使得某篇文档变得和“体育”这个主题更相关。相反如果只有3篇文章讨论到中国足球那么这3篇文章和中国足球的相关性就远远高于其他文章。“中国足球”这个词组在文档集合中就应该拥有更高的权重用户检索“中国足球”时这3篇文档应该排在更前面。所以我们通常用df的反比例指标idf来表示这种重要程度基本公式如下
其中N是整个文档集合中文章数量log是为了确保idf分值不要远远高于tf而埋没tf的贡献。这样一来单词t的df越低其idf越高t的重要性越高。那么综合起来tf-idf的基本公式表示如下
一旦完成了从原始文档到向量的转换我们就可以接受用户的查询Query
查询和文档的匹配
在计算查询和文档的相似度之前,我们还需要把查询转换成向量。由于用户的查询也是由自然语言组成,所以这个转换的流程和文档的转换流程是基本一致的。不过,查询也有它的特殊性,因此需要注意下面几个问题。
第一查询和文档长度不一致。人们输入的查询通常都很短甚至都不是一个句子而只是几个关键词。这种情况下你可能会觉得两个向量的维度不同无法计算它们之间的距离或夹角余弦。对于这种情况我们可以使用文档字典中所有的词条来构建向量。如果某维分量所对应的词条出现在文档或者查询中就取1、tf或tf-idf值如果没有就取0。这样文档向量和查询向量的维度就相同了只是查询向量更稀疏、拥有多维度的0。
第二,查询里出现了文档集合里没有的词。简单的做法是直接去除这维分量,也可以使用相对于其他维度来说极小的一个数值,这和分类中的平滑技术类似。
第三查询里词条的idf该如何计算。如果我们使用tf-idf机制来计算向量中每个维度的取值那么就要考虑这个问题。由于查询本身并不存在文档集合的概念所以也就不存在df和idf。对于这种情况我们可以借用文档集合里对应词条的idf。
把查询转换成向量之后,我们就可以把这个查询的向量和所有文档的向量依次对比,看看查询和哪些文档更相似。我们可以结合上一节所说的,计算向量之间的距离或者夹角余弦。由于夹角余弦不用进行归一化,所以这种方法更为流行。需要注意的是,信息检索里,夹角余弦的取值范围通常是[0,1],而不再是[-1,1]。这是因为在进行文本处理的时候我们根据单词的出现与否设置0、1/tf/tf-idf因此向量每个分量的取值都是正的。
在概率统计模块中,我介绍过特征选择和特征值的转换。由于文本向量往往是非常稀疏的,我们也可能需要对转换后的文档和查询向量,进行这两项操作。
排序和评估
完成了前两步,后面的排序和评估就很直观了。我们按照和输入查询的相似程度,对所有文档进行相似度由高到低的排序,然后取出前面的若干个文档,作为相关的信息返回。当然,这里你需要注意,这里所说的“相关性”是从向量空间模型的角度出发,不代表所返回的信息一定满足用户的需求。因此,我们还需要设计各种离线或者在线的评估,来衡量向量空间模型的效果。由于这些内容不是线性代数的关注点,我就不展开了。如果你有兴趣,可以自己去研究一下。
总结
今天我从文本的信息检索出发,介绍如何使用向量空间模型。在使用这个模型之前,很重要的处理步骤,就是要把原始数据转换成向量。这里所说的数据类型是文本,所以我们要进行分词等操作,然后构建文档的字典,并使用字典的词条来构建向量。如果是其他类型的数据,我们则需要提取相应的特征,并利用这些特征来构建向量。
如果我们把查询也转换成向量,那么就可以计算查询向量和文档向量之间的相似度。通过这种相似度,我们就能对所有的文档进行排序,找出向量空间模型认为“最相关”的文章。
不过,我今天介绍的计算相似度并排序的过程,只是最基本的实现,而这种实现并没有考虑效率的问题。我们这里可以简单分析一下时间复杂度。
假设查询的平均长度或词条数量远远小于文档的平均长度我们把查询的平均长度记做m那么对于每次计算查询向量和文档向量的相似度时间复杂度都是O(m)。假设文档集中文档的数量平均是n那么根据时间复杂度的四则运算法则把查询和所有文档比较的时间复杂度是O(m*n)。
其实在第17讲我曾经提到过了倒排索引的案例我们可以把倒排索引和向量空间模型相结合。倒排索引可以快速找到包含查询词的候选文档这样就避免了不必要的向量计算。更多具体的内容我会在之后的实战模块为你详细讲解。
思考题
假设你使用了tf-idf的机制来构造向量那么当文档集合中新增了文档之后你是不是只需要为新增文档构建向量原有文档的向量是否需要更新
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,177 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
36 文本聚类:如何过滤冗余的新闻?
你好,我是黄申。
前两节,我讲了向量空间模型,以及如何在信息检索领域中运用向量空间模型。向量空间模型提供了衡量向量之间的距离或者相似度的机制,而这种机制可以衡量查询和被查询数据之间的相似程度,而对于文本检索来说,查询和文档之间的相似程度可作为文档的相关性。
实际上,除了文档的相关性,距离或者相似度还可以用在机器学习的算法中。今天,我们就来聊聊如何在聚类算法中使用向量空间模型,并最终实现过滤重复文章。
聚类算法
在概率统计模块中我们介绍了分类Classification/Categorization和回归Regression这两种监督式学习Supervised Learning。监督式学习通过训练资料学习并建立一个模型并依此模型对新的实例进行预测。
不过在实际场景中我们常常会遇到另一种更为复杂的情况。这时候不存在任何关于样本的先验知识而是需要机器在没人指导的情形下去将很多东西进行归类。由于缺乏训练样本这种学习被称为“非监督学习”Unsupervised Learning也就是我们通常所说的聚类Clustering。在这种学习体系中系统必须通过一种有效的方法发现样本的内在相似性并把数据对象以群组Cluster的形式进行划分。
谈到相似性,你可能已经想到了利用特征向量和向量空间模型,这确实是可行的方法。不过,为了让你全面了解在整个非监督式学习中,如何运用向量空间,让我先从一个具体的聚类算法开始。
这个算法的名称是K均值K-Means聚类算法它让我们可以在一个任意多的数据上得到一个事先定好群组数量K的聚类结果。这种算法的中心思想是尽量最大化总的群组内相似度同时尽量最小化群组之间的相似度。群组内或群组间的相似度是通过各个成员和群组质心相比较来确定的。想法很简单但是在样本数量达到一定规模后希望通过排列组合所有的群组划分来找到最大总群组内的相似度几乎是不可能的。于是人们提出如下的求近似解的方法。
从N个数据对象中随机选取k个对象作为质心这里每个群组的质心定义是群组内所有成员对象的平均值。因为是第一轮所以第i个群组的质心就是第i个对象而且这时候我们只有这一个组员。
对剩余的对象,测量它和每个质心的相似度,并把它归到最近的质心所属的群组。这里我们可以说距离,也可以说相似度,只是两者呈现反比关系。
重新计算已经得到的各个群组的质心。这里质心的计算是关键,如果使用特征向量来表示的数据对象,那么最基本的方法是取群组内成员的特征向量,将它们的平均值作为质心的向量表示。
迭代上面的第2步和第3步直至新的质心与原质心相等或相差之值小于指定阈值算法结束。
我以二维空间为例子,画张图来展示一下数据对象聚类的过程。
在这张图中,( a )、( b )、( c )三步分别展示了质心和群组逐步调整的过程。我们一一来看。(a)步骤是选择初始质心质心用不同颜色的x表示( b )步骤开始进行聚类,把点分配到最近的质心所在的组;( c )步骤重新计算每个群组的质心你会发现x的位置发生了改变。之后就是如此重复进入下一轮聚类。
总的来说K均值算法是通过不断迭代、调整K个聚类质心的算法。而质心或者群组的中心点是通过求群组所包含的成员之平均值来计算的。
使用向量空间进行聚类
明白了K均值聚类算法的核心思想再来理解向量空间模型在其中的运用就不难了。我还是以文本聚类为例讲讲如何使用向量空间模型和聚类算法去除重复的新闻。
我们在看新闻的时候一般都希望不断看到新的内容。可是由于现在的报道渠道非常丰富经常会出现热点新闻霸占版面的情况。假如我们不想总是看到重复的新闻应该怎么办呢有一种做法就是对新闻进行聚类那么内容非常类似的文章就会被聚到同一个分组然后对每个分组我们只选择1到2篇显示就够了。
基本思路确定后,我们可以把整个方法分为三个主要步骤。
第一步,把文档集合都转换成向量的形式。这块我上一节讲过了,你要是不记得了,可以自己回去复习一下。
第二步使用K均值算法对文档集合进行聚类。这个算法的关键是如何确定数据对象和分组质心之间的相似度。针对这点我们有两个点需要关注。
使用向量空间中的距离或者夹角余弦度量,计算两个向量的相似度。
计算质心的向量。K均值里质心是分组里成员的平均值。所以我们需要求分组里所有文档向量的平均值。求法非常直观就是分别为每维分量求平均值我把具体的计算公式列在这里
其中,\(x\_{i}\)表示向量的第i个分量\(x\_{ij}\)表示第j个向量的第\(i\)个分量,而\(j=1,2,…,n\)表示属于某个分组的所有向量。
第三步,在每个分类中,选出和质心最接近的几篇文章作为代表。而其他的文章作为冗余的内容过滤掉。
下面我使用Python里的sklearn库来展示使用欧氏距离的K均值算法。
Python中的K均值算法
在尝试下面的代码之前你需要看看自己的机器上是不是已经安装了scikit-learn。Scikit-learn是Python常用的机器学习库它提供了大量的机器学习算法的实现和相关的文档甚至还内置了一些公开数据集是我们实践机器学习算法的好帮手。
首先我使用sklearn库中的CountVectorizer对一个测试的文档集合构建特征也就是词典。这个测试集合有7句话2句关于篮球2句关于电影还有3句关于游戏。具体代码如下
from sklearn.feature_extraction.text import CountVectorizer
#模拟文档集合
corpus = ['I like great basketball game',
'This video game is the best action game I have ever played',
'I really really like basketball',
'How about this movie? Is the plot great?',
'Do you like RPG game?',
'You can try this FPS game',
'The movie is really great, so great! I enjoy the plot']
#把文本中的词语转换为词典和相应的向量
vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(corpus)
#输出所有的词条(所有维度的特征)
print('所有的词条(所有维度的特征)')
print(vectorizer.get_feature_names())
print('\n')
#输出(文章ID, 词条ID) 词频
print('(文章ID, 词条ID) 词频')
print(vectors)
print('\n')
从运行的结果中,你可以看到,整个词典里包含了哪些词,以及每个词在每个文档里的词频。
这里我们希望使用比词频tf更好的tf-idf机制TfidfTransformer可以帮助我们做到这点代码和注释如下
from sklearn.feature_extraction.text import TfidfTransformer
#构建tfidf的值
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
# 输出每个文档的向量
tfidf_array = tfidf.toarray()
words = vectorizer.get_feature_names()
for i in range(len(tfidf_array)):
print ("*********第", i + 1, "个文档中所有词语的tf-idf*********")
# 输出向量中每个维度的取值
for j in range(len(words)):
print(words[j], ' ', tfidf_array[i][j])
print('\n')
运行的结果展示了每个文档中每个词的tfidf权重你可以自己手动验算一下。
最后我们就可以进行K均值聚类了。由于有篮球、电影和游戏3个类别我选择的K是3并在KMeans的构造函数中设置n_clusters为3。
from sklearn.cluster import KMeans
#进行聚类,在我这个版本里默认使用的是欧氏距离
clusters = KMeans(n_clusters=3)
s = clusters.fit(tfidf_array)
#输出所有质心点,可以看到质心点的向量是组内成员向量的平均值
print('所有质心点的向量')
print(clusters.cluster_centers_)
print('\n')
#输出每个文档所属的分组
print('每个文档所属的分组')
print(clusters.labels_)
#输出每个分组内的文档
dict = {}
for i in range(len(clusters.labels_)):
label = clusters.labels_[i]
if label not in dict.keys():
dict[label] = []
dict[label].append(corpus[i])
else:
dict[label].append(corpus[i])
print(dict)
为了帮助你的理解我输出了每个群组的质心也就是其中成员向量的平均值。最后我也输出了3个群组中所包含的句子。在我机器上的运行结果显示系统可以把属于3个话题的句子区分开来。如下所示
{2: ['I like great basketball game', 'I really really like basketball'], 0: ['This video game is the best action game I have ever played', 'Do you like RPG game?', 'You can try this FPS game'], 1: ['How about this movie? Is the plot great?', 'The movie is really great, so great! I enjoy the plot']}
不过由于KMeans具体的实现可能不一样而且初始质心的选择也有一定随机性所以你看到的结果可能稍有不同。
总结
这一节,我介绍了如何在机器学习的聚类算法中,使用向量空间模型。在聚类中,数据对象之间的相似度是很关键的。如果我们把样本转换为向量,然后使用向量空间中的距离或者夹角余弦,就很自然的能获得这种相似度,所以向量空间模型和聚类算法可以很容易的结合在一起。
为了给你加深印象我介绍了一个具体的K均值算法以及向量空间模型在其中所起到的作用并通过Python的sklearn代码演示了几个关键的步骤。
向量空间模型和K均值算法的结合虽然简单易懂但是一开始怎样选择这个群组的数量是个关键问题。我今天演示的测试数据很小而且主题划分的也非常明显。所以我选择聚类的数量为3。
可是在实际项目中对于一个新的数据集合选择多少比较合适呢如果这个K值取得太大群组可能切分太细每个之间区别不大。如果K值取得太小群组的粒度又太粗造成群组内差异比较明显。对非监督式的学习来说这个参数确实难以得到准确预估。我们可以事先在一个较小的数据集合上进行尝试然后根据结果和应用场景确定一个经验值。
思考题
今天我使用的是sklearn里的KMeans包它使用了向量间的欧氏距离来进行聚类。你可以尝试实现自己的K均值聚类并使用向量间的夹角余弦作为相似度的度量。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,154 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
37 矩阵如何使用矩阵操作进行PageRank计算
你好,我是黄申。今天我来说说矩阵。
前面我说过,矩阵由多个长度相等的向量组成,其中的每列或者每行就是一个向量。从数据结构的角度来看,我们可以把向量看作一维数组,把矩阵看作二维数组。
具有了二维数组的特性矩阵就可以表达二元关系了例如图中结点的邻接关系或者是用户对物品的评分关系。而通过矩阵上的各种运算操作我们就可以挖掘这些二元关系在不同的应用场景下达到不同的目的。今天我就从图的邻接矩阵出发展示如何使用矩阵计算来实现PageRank算法。
回顾PageRank链接分析算法
在讲马尔科夫模型的时候我已经介绍了PageRank链接分析算法。所以在展示这个算法和矩阵操作的关系之前我们快速回顾一下它的核心思想。
PageRank是基于马尔科夫链的。它假设了一个“随机冲浪者”模型冲浪者从某张网页出发根据Web图中的链接关系随机访问。在每个步骤中冲浪者都会从当前网页的链出网页中随机选取一张作为下一步访问的目标。此外PageRank还引入了随机的跳转操作这意味着冲浪者不是按Web图的拓扑结构走下去只是随机挑选了一张网页进行跳转。
基于之前的假设PageRank的公式定义如下
其中,\(p\_{i}\)表示第\(i\)张网页,\(M\_{i}\)是\(p\_{i}\)的入链接集合,\(p\_{j}\)是\(M\_{i}\)集合中的第\(j\)张网页。\(PR\_{(p\_{j})}\)表示网页\(p\_{j}\)的PageRank得分\(L\_{(p\_{j})}\)表示网页\(p\_{j}\)的出链接数量,\(\\frac{1}{L\_{(p\_{j})}}\)就表示从网页\(p\_{j}\)跳转到\(p\_{i}\)的概率。\(α\)是用户不进行随机跳转的概率,\(N\)表示所有网页的数量。
PageRank的计算是采用迭代法实现的一开始所有网页结点的初始PageRank值都可以设置为某个相同的数例如1然后我们通过上面这个公式得到每个结点新的PageRank值。每当一张网页的PageRank发生了改变它也会影响它的出链接所指向的网页因此我们可以再次使用这个公式循环地修正每个网页结点的值。由于这是一个马尔科夫过程所以我们能从理论上证明所有网页的PageRank最终会达到一个稳定的数值。整个证明过程很复杂这里我们只需要知道这个迭代计算的过程就行了。
简化PageRank公式
那么这个计算公式和矩阵操作又有什么联系呢为了把问题简化我们暂时不考虑随机跳转的情况而只考虑用户按照网页间链接进行随机冲浪。那么PageRank的公式就简化为
这个公式只包含了原公式中的\(Σ\\frac{PR\_{(p\_{j})}}{L\_{(p\_{j})})}\)部分。我们再来对比看看矩阵点乘的计算公式。
以上两个公式在形式上是基本一致的。因此,我们可以把\(Σ\\frac{PR\_{(p\_{j})}}{L\_{(p\_{j})})}\)的计算分解为两个矩阵的点乘。一个矩阵是当前每张网页的PageRank得分另一个矩阵就是邻接矩阵。所谓邻接矩阵其实就是表示图结点相邻关系的矩阵。
假设\(x\_{i,j}\)是矩阵中第\(i\)行、第\(j\)列的元素,那么我们就可以使用\(x\_{i,j}\)表示从结点\(i\)到结点\(j\)的连接放到PageRank的应用场景\(x\_{i,j}\)就表示网页\(p\_{i}\)到网页\(p\_{j}\)的链接。最原始的邻接矩阵所包含的元素是0或10表示没有链接而1表示有链接。
考虑到PageRank里乘积是\(\\frac{1}{L\_{(p\_{j})}}\)我们可以对邻接矩阵的每一行进行归一化用原始的值0或1除以\(L\_{(p\_{j})}\),而\(L\_{(p\_{j})}\)表示有某张网页\(p\_{j}\)的出链接,正好是矩阵中\(p\_{j}\)这一行的和。所以,我们可以对原始的邻接矩阵,进行基于行的归一化,这样就能得到每个元素为\(\\frac{1}{L\_{(p\_{j})}}\)的矩阵,其中\(j\)表示矩阵的第\(j\)行。注意这里的归一化是指让所有元素加起来的和为1。
为了方便你理解,我用下面这个拓扑图作为例子给你详细解释。
基于上面这个图,原始矩阵为:
其中第i行、第j列的元素值表示从结点i到j是不是存在链接。如果是那么这个值为1否则就为0。
按照每一行的和,分别对每一行进行归一化之后的矩阵就变为:
有了上述这个邻接矩阵我们就可以开始最简单的PageRank计算。PageRank的计算是采用迭代法实现的。这里我把初始值都设为1并把第一次计算的结果列在这里。
好了,我们已经成功迈出了第一步,但是还需要考虑随机跳转的可能性。
考虑随机跳转
经过上面的步骤,我们已经求得\(Σ\\frac{PR\_{(p\_{j})}}{L\_{(p\_{j})})}\)部分。不过PageRank引入了随机跳转的机制。这一部分其实也是可以通过矩阵的点乘来实现的。我们把\(Σ\\frac{PR\_{(p\_{j})}}{L\_{(p\_{j})})}\)部分用\(A\)表示那么完整的PageRank公式就可以表示为
\(PR\_{(P\_{i})}=αA+\\frac{1-α}{N}\)
于是,我们可以把上述公式分解为如下两个矩阵的点乘:
我们仍然使用前面的例子来看看经过随机跳转之后PageRank值变成了多少。这里\(α\)取0.9。
我们前面提到PageRank算法需要迭代式计算。为了避免计算后的数值越来越大甚至溢出我们可以进行归一化处理保证所有结点的数值之和为1。经过这个处理之后我们得到第一轮的PageRank数值也就是下面这个行向量
[0.37027027 0.24864865 0.37027027 0.00540541 0.00540541]
接下来,我们只需要再重复之前的步骤,直到每个结点的值趋于稳定就可以了。
使用Python进行实现
说到这里我已经把如何把整个PageRank的计算转换成多个矩阵的点乘这个过程讲完了。这样一来我们就可以利用Python等科学计算语言提供的库来完成基于PageRank的链接分析。为了展示具体的代码我以之前的拓扑图为例给你详细讲述每一步。
首先,我们要进行一些初始化工作,包括设置结点数量、确定随机跳转概率的\(α\)、代表拓扑图的邻接矩阵以及存放所有结点PageRank值的数组。下面是一段示例代码在代码中我提供了注释供你参考。
import numpy as np
# 设置确定随机跳转概率的alpha、网页结点数
alpha = 0.9
N = 5
# 初始化随机跳转概率的矩阵
jump = np.full([2,1], [[alpha], [1-alpha]], dtype=float)
# 邻接矩阵的构建
adj = np.full([N,N], [[0,0,1,0,0],[1,0,1,0,0],[1,0,0,0,0],[0,0,0,0,0],[0,1,0,0,0]], dtype=float)
# 对邻接矩阵进行归一化
row_sums = adj.sum(axis=1) # 对每一行求和
row_sums[row_sums == 0] = 0.1 # 防止由于分母出现0而导致的Nan
adj = adj / row_sums[:, np.newaxis] # 除以每行之和的归一化
# 初始的PageRank值通常是设置所有值为1.0
pr = np.full([1,N], 1, dtype=float)
之后我们就能采用迭代法来计算PageRank值。一般我们通过比较每个结点最近两次计算的值是否足够接近来确定数值是不是已经稳定以及是不是需要结束迭代。这里为简便起见我使用了固定次数的循环来实现。如果你的拓扑图比较复杂需要更多次迭代我把示例代码和注释列在这里。
# PageRank算法本身是采用迭代方式进行的当最终的取值趋于稳定后结束。
for i in range(0, 20):
# 进行点乘,计算Σ(PR(pj)/L(pj))
pr = np.dot(pr, adj)
# 转置保存Σ(PR(pj)/L(pj))结果的矩阵并增加长度为N的列向量其中每个元素的值为1/N便于下一步的点乘。
pr_jump = np.full([N, 2], [[0, 1/N]])
pr_jump[:,:-1] = pr.transpose()
# 进行点乘,计算α(Σ(PR(pj)/L(pj))) + (1-α)/N)
pr = np.dot(pr_jump, jump)
# 归一化PageRank得分
pr = pr.transpose()
pr = pr / pr.sum()
print("round", i + 1, pr)
如果成功运行了上述两段代码你就能看到每个结点最终获得的PageRank分数是多少。
Python中还有一些很不错的库提供了直接构建拓扑图和计算PageRank的功能例如networkxhttps://networkx.github.io/。你可以尝试使用这种库构建样例拓扑图并计算每个结点的PageRank得分最后和上述代码所计算的PageRank得分进行比较验证一下上述代码的结果是不是合理。
总结
我们可以把向量看作一维数组,把矩阵看作二维数组。矩阵的点乘,是由若干个向量的点乘组成的,所以我们可以通过矩阵的点乘操作,挖掘多组向量两两之间的关系。
今天我们讲了矩阵的点乘操作在PageRank算法中的应用。通过表示网页的邻接二元关系我们可以使用矩阵来计算PageRank的得分。在这个应用场景下矩阵点乘体现了多个马尔科夫过程中的状态转移。
矩阵点乘和其他运算操作还可以运用在很多其他的领域。例如我在上一节介绍K均值聚类算法时就提到了需要计算某个数据点向量、其他数据点向量之间的距离或者相似度以及使用多个数据点向量的平均值来获得质心点的向量这些都可以通过矩阵操作来完成。
另外,在协同过滤的推荐中,我们可以使用矩阵点乘,来实现多个用户或者物品之间的相似程度,以及聚集后的相似程度所导致的最终推荐结果。下一节,我会使用矩阵来表示用户和物品的二元关系,并通过矩阵来计算协同过滤的结果。
思考题
在介绍PageRank算法时我提到了它的计算是一个迭代的过程。这一节我使用了固定次数的循环来实现这一点。请尝试使用计算前后两次PageRank数值的差来判断是否需要结束迭代。提示你可以使用矩阵元素对应的减法以及在第3讲和加餐2中提到的相对误差。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,131 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
38 矩阵(下):如何使用矩阵操作进行协同过滤推荐?
你好,我是黄申。今天我们来聊聊矩阵操作和推荐算法的关系。
我这里说的推荐,是指为用户提供可靠的建议、并协助用户挑选物品的一种技术。一个好的推荐系统需要建立在海量数据挖掘基础之上,并根据用户所处的情景和兴趣特点,向用户推荐可能感兴趣的信息和商品。
协同过滤Collaborative Filtering是经典的推荐算法之一它充分利用了用户和物品之间已知的关系为用户提供新的推荐内容。我会从这种二元关系出发给你讲讲如何使用矩阵计算来实现协同过滤推荐算法。
用矩阵实现推荐系统的核心思想
矩阵中的二维关系,除了可以表达图的邻接关系,还可以表达推荐系统中用户和物品的关系。如果你不懂推荐系统,不用急,我这里先给你简单讲讲它的核心思想。
简单地理解就是推荐系统会根据用户所处的场景和个人喜好推荐他们可能感兴趣的信息和商品。比如你在阅读一部电影的影评时系统给你推荐了其他“你可能也感兴趣的电影”。可以看出来推荐系统中至少有2个重要的角色用户和物品。用户是系统的使用者物品就是将要被推荐的候选对象。
例如,亚马逊网站的顾客就是用户,网站所销售的商品就是物品。需要注意的是,除了用户角色都是现实中的自然人,某些场景下被推荐的物品可能也是现实中的自然人。例如,一个招聘网站会给企业雇主推荐合适的人才,这时候应聘者承担的是物品角色。
而一个好的推荐算法,需要充分挖掘用户和物品之间的关系。我们可以通过矩阵来表示这种二元关系。我这里有一个例子,我们用矩阵\(X\)来表示用户对物品喜好程度。
其中第\(i\)行是第\(i\)个用户的数据而第j列是用户对第j个物品的喜好程度。我们用\(x\_{i,j}\)表示这个数值。这里的喜好程度可以是用户购买商品的次数、对书籍的评分等等。
假设我们用一个0到1之间的小数表示。有了这种矩阵我们就可以通过矩阵的操作充分挖掘用户和物品之间的关系。下面我会使用经典的协同过滤算法来讲解矩阵在其中的运用。
在此之前,我们先来看什么是协同过滤。你可以把它理解为最直观的“口口相传”。假设我们愿意接受他人的建议,尤其是很多人都向你建议的时候。其主要思路就是利用已有用户群过去的行为或意见,预测当前用户最可能喜欢哪些东西。根据推荐依据和传播的路径,又可以进一步细分为基于用户的过滤和基于物品的过滤。
基于用户的过滤
首先,我们来看基于用户的协同过滤。它是指给定一个用户访问(我们假设有访问就表示有兴趣)物品的数据集合,找出和当前用户历史行为有相似偏好的其他用户,将这些用户组成“近邻”,对于当前用户没有访问过的物品,利用其近邻的访问记录来预测。我画了一张图方便你理解。
根据这张图的访问关系来看用户A访问了物品A和C用户B访问了物品B用户C访问了物品AC和D。我们计算出来用户C是A的近邻而B不是。因此系统会更多地向用户A推荐用户C访问的物品D。
理解了这个算法的基本概念我们来看看如何使用公式来表述它。假设有m个用户n个物品那么我们就能使用一个m×n维的矩阵\(X\)来表示用户对物品喜好的二元关系。基于这个二元关系,我们可以列出下面这两个公式:
其中,第一个公式比较容易理解,它的核心思想是计算用户和用户之间的相似度。完成了这一步我们就能找到给定用户的“近邻”。
我们可以使用向量空间模型中的距离或者是夹角余弦来处理,在这里我使用了夹角余弦,其中\(us\_{i1}\),\(i2\)表示用户\(i1\)和\(i2\)的相似度,而\(X\_{i1}\),表示矩阵中第\(i1\)行的行向量,\(X\_{i2}\),表示矩阵中第\(i2\)行的行向量。分子是两个表示用户的行向量之点乘,而分母是这两个行向量\(L2\)范数的乘积。
第二个公式利用第一个公式所计算的用户间相似度,以及用户对物品的喜好度,预测任一个用户对任一个物品的喜好度。其中\(p\_{i,j}\)表示第\(i\)用户对第\(j\)个物品的喜好度,\(us\_{i,k}\)表示用户\(i\)和\(k\)之间的相似度,\(x\_{k,j}\)表示用户\(k\)对物品\(j\)的喜好度。注意这里最终需要除以\(Σus\_{i,k}\),是为了进行归一化。
从这个公式可以看出,如果\(us\_{i,k}\)越大,\(x\_{k,j}\)对最终\(p\_{i,j}\)的影响越大,反之如果\(us\_{i,k}\)越小,\(x\_{k,j}\)对最终\(p\_{i,j}\)的影响越小,充分体现了“基于相似用户”的推荐。
如果你无法理解如何把这两个公式对应为矩阵操作,没关系,我下面会通过之前介绍的喜好度矩阵\(X\)的示例,把这两个公式逐步拆解,并对应到矩阵上的操作,你一看就能明白了。
首先,我们来看第一个关于夹角余弦的公式。
在介绍向量空间模型的时候,我提到夹角余弦可以通过向量的点乘来实现。这对矩阵同样适用,我们可以采用矩阵点乘自身的转置来实现,也就是\(XX\)。矩阵\(X\)的每一行是某个用户的行向量,每个分量表示用户对某个物品的喜好程度。而矩阵\(X\)的每一列是某个用户的列向量,每个分量表示用户对某个物品的喜好程度。
我们假设\(XX\)的结果为矩阵\(Y\),那么\(y\_{i,j}\)就表示用户\(i\)和用户\(j\)这两者喜好度向量的点乘结果,它就是夹角余弦公式中的分子。如果\(i\)等于\(j\),那么这个计算值也是夹角余弦公式分母的一部分。从矩阵的角度来看,\(Y\)中任何一个元素都可能用于夹角余弦公式的分子,而对角线上的值会用于夹角余弦公式的分母。这里我们仍然使用之前的喜好度矩阵示例,来计算矩阵\(Y\)和矩阵\(US\)。
首先我们来看\(Y\)的计算。
然后我们使用\(Y\)来计算\(US\)。我用下面这张图表示矩阵中的元素和夹角余弦计算的对应关系。
明白了上面这个对应关系,我们就可以利用矩阵\(Y\)获得任意两个用户之间的相似度并得到一个m×m维的相似度矩阵\(US\)。矩阵\(US\)中\(us\_{i,j}\)的取值为第\(i\)个用户与第\(j\)个用户的相似度。这个矩阵是一个沿对角线对称的矩阵。根据夹角余弦的定义,\(us\_{i,j}\)和\(us\_{j,i}\)是相等的。通过示例的矩阵\(Y\),我们可以计算矩阵\(US\)。我把相应的结果列在了下方。
接下来,我们再来看第二个公式。
从矩阵的角度来看,现在我们已经得到用户相似度矩阵\(US\),再加上用户对物品的喜好度矩阵\(X\),现在需要计算任意用户对任意物品的喜好度推荐矩阵\(P\)。
为了实现上面这个公式的分子部分,我们可以使用\(US\)和\(X\)的点乘。我们假设点乘后的结果矩阵为\(USP\)。这里我列出了根据示例计算得到的矩阵\(USP\)。
分母部分可以使用\(US\)矩阵的按行求和来实现。我们假设按行求和的矩阵为\(USR\)。根据示例计算就可以得到\(USR\)。
最终,我们使用\(USP\)和*\(USR\)的元素对应除法,就可以求得矩阵\(P\)。
既然已经有\(X\)这个喜好度矩阵了,为什么还要计算\(P\)这个喜好度矩阵呢?实际上,\(X\)是已知的、有限的喜好度。例如用户已经看过的、购买过的、或评过分的物品。而\(P\)是我们使用推荐算法预测出来的喜好度。
即使一个用户对某个物品从未看过、买过、或评过分,我们依然可以通过矩阵\(P\),知道这位用户对这个物品大致的喜好程度,从而根据这个预估的分数进行物品的推荐,这也是协同过滤的基本思想。从根据示例计算的结果也可以看出这点,在原始矩阵\(X\)中第1个用户对第3个物品的喜好度为0。可是在最终的喜好度推荐矩阵P中第1个用户对第3个物品的喜好度为0.278已经明显大于0了因此我们就可以把物品3推荐给用户1。
上面这种基于用户的协同过滤有个问题,那就是没有考虑到用户的喜好程度是不是具有可比性。假设用户的喜好是根据对商品的评分来决定的,有些用户比较宽容,给所有的商品都打了很高的分,而有些用户比较严苛,给所有商品的打分都很低。分数没有可比性,这就会影响相似用户查找的效果,最终影响推荐结果。这个时候我们可以采用之前介绍的特征值变化,对于原始的喜好度矩阵,按照用户的维度对用户所有的喜好度进行归一化或者标准化处理,然后再进行基于用户的协同过滤。
基于物品的过滤
基于物品的协同过滤是指利用物品相似度,而不是用户间的相似度来计算预测值。我同样用图来帮助你理解。
在这张图中物品A和C因为都被用户A和B同时访问因此它们被认为相似度更高。当用户C访问过物品A后系统会更多地向用户推荐物品C而不是其他物品。
基于物品的协同过滤同样有两个公式,你可以看一下。
如果你弄明白了基于用户的过滤,那么这两个公式也就不难理解了。第一个公式的核心思想是计算物品和物品之间的相似度,在这里我仍然使用夹角余弦。其中\(is\_{j1}\),\(j2\)表示物品\(j1\)和\(j2\)的相似度,而\(X\_{j1}\)表示了\(X\)中第\(j1\)列的列向量,而\(X\_{j2}\)表示了\(X\)中第\(j2\)列的列向量。分子是两个表示物品的列向量之点乘,而分母是这两个列向量\(L2\)范数的乘积。
第二个公式利用第一个公式所计算的物品间相似度,和用户对物品的喜好度,预测任一个用户对任一个物品的喜好度。其中\(p\_{i,j}\)表示第\(i\)用户对第\(j\)个物品的喜好度,\(x\_{i,k}\)表示用户\(i\)对物品\(k\)的喜好度,\(is\_{k,j}\)表示物品\(k\)和\(j\)之间的相似度,注意这里除以\(Σis\_{k,j}\)是为了进行归一化。从这个公式可以看出,如果\(is\_{k,j}\)越大,\(x\_{i,k}\)对最终\(p\_{i,j}\)的影响越大,反之如果\(is\_{k,j}\)越小,\(x\_{i,k}\)对最终\(p\_{i,j}\)的影响越小,充分体现了“基于相似物品”的推荐。
类似地,用户喜好程度的不一致性,同样会影响相似物品查找的效果,并最终影响推荐结果。我们也需要对于原始的喜好度矩阵,按照用户的维度对用户的所有喜好度,进行归一化或者标准化处理。
总结
今天我首先简要地介绍了推荐系统的概念和主要思想。为了给用户提供可靠的结果,推荐系统需要充分挖掘历史数据中,用户和物品之间的关系。协同过滤的推荐算法就很好地体现了这一点。
一旦涉及用户和物品的这种二元关系,矩阵就有用武之地了。我通过矩阵来表示用户和物品的关系,并通过矩阵计算来获得协同过滤的结果。协同过滤分为基于用户的过滤和基于物品的过滤两种,它们的核心思想都是相同的,因此矩阵操作也是类似的。在这两个应用场景下,矩阵点乘体现了多个用户或者物品之间的相似程度,以及聚集后的相似程度所导致的最终推荐结果。
当然,基于用户和物品间关系的推荐算法有很多,对矩阵的操作也远远不止点乘、按行求和、元素对应乘除法。我后面会介绍如何使用矩阵的主成分分析或奇异值分解,来进行物品的推荐。
思考题
我在介绍推荐算法时,提到了基于物品的协同过滤。请参照基于用户的协同过滤,写出相应的矩阵操作步骤。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,208 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
39 线性回归(上):如何使用高斯消元求解线性方程组?
你好,我是黄申。
之前我使用Boston Housing的数据阐述了如何使用多元线性回归。可是计算机系统究竟是如何根据观测到的数据来拟合线性回归模型呢这两节我就从最简单的线性方程组出发来说说如何求解线性回归的问题。
在第29讲中我讲过机器学习中两类很重要的方法回归分析以及线性回归。回归分析属于监督式学习算法主要研究一个或多个随机变量\(y\_1\)\(y\_2\),…,\(y\_i\)与另一些变量\(x\_{1}\)\(x\_{2}\),…,\(x\_{k}\)之间的关系。其中,我们将\(y\_{1}y\_{2}、…y\_{i}\)称为因变量,\(x\_1x\_2x\_k\)称为自变量。按照不同的维度,我们可以把回归分为三种。
按照自变量数量,当自变量\(x\)的个数大于1时就是多元回归。
按照因变量数量,当因变量\(y\)个数大于1时就是多重回归。
按照模型种类,如果因变量和自变量为线性关系时,就是线性回归模型;如果因变量和自变量为非线性关系时,就是非线性回归分析模型。
高斯消元法
对于回归分析来说,最简单的情形是只有一个自变量和一个因变量,且它们大体上是有线性关系的,这就是一元线性回归。对应的模型很简单,就是\(Y=a+bX+ε\)。这里的\(X\)是自变量,\(Y\)是因变量,\(a\)是截距b是自变量的系数。前面这些你估计都很熟悉最后还有个\(ε\),这表示随机误差,只不过我们通常假定随机误差的均值为\(0\)。进一步来说如果我们暂时不考虑a和ε把它扩展为多元的形式那么就可以得到类似下面这种形式的方程
\(b\_1·x\_1+b\_2·x\_2+…+b\_{n-1}·x\_{n-1} +b\_n·x\_n=y\)
假设我们有多个这样的方程,就能构成线性方程组,我这里列出一个例子。
\(2x\_1+x\_2+x\_3=0\)-
\(4x\_1+2x\_2+x\_3=56\)-
\(2x\_1-x\_2+4x\_3=4\)
对于上面这个方程组,如果存在至少一组\(x\_1、x\_2\)和\(x\_3\)使得三个方程都成立,那么就叫方程有解;如果没有,那么我们就说方程无解。如果方程有解,那么解可能是唯一,也可能是多个。我们通常关心的是,方程组是不是有解,以及\(x\_1\)一直到\(x\_n\)分别是多少。
为了实现这个目的,人们想了很多方法来求解方程组,这些方法看起来多种多样,其实主要就是两大类,直接法和迭代法。
直接法就是通过有限次的算术运算计算精确解。而迭代法我们在第3讲就提到过它是一种不断用变量的旧值递推新值的过程。我们可以用迭代法不断地逼近方程的精确解。
这里,我就从上面这个方程组的例子出发,阐述最常见的高斯消元法,以及如何使用矩阵操作来实现它。
高斯消元法主要分为两步消元Forward Elimination和回代Back Substitution。所谓消元就是要减少某些方程中元的数量。如果某个方程中的元只剩一个\(x\_m\)了,那么这个自变量\(x\_m\)的解就能知道了。所谓的回代,就是把已知的解\(x\_m\)代入到方程式中,求出其他未知的解。
我们先从消元开始,来看这个方程组。
\(2x\_1+x\_2+x\_3=0\)-
\(4x\_1+2x\_2+x\_3=56\)-
\(2x\_1-x\_2+4x\_3=4\)
首先保持第一个方程不变,然后消除第二个和第三个方程中的\(x\_1\)。对于第二个方程,方法是让第二个方程式减去第一个方程式的两倍,方程的左侧为:
\((4x\_1+2x\_2+x\_3)-2(2x\_1+x\_2+x\_3)=-x\_3\)
方程的右侧变为:
\(56-2·0=56\)
所以第二个方程变为:
\(-x\_3=56\)
这样三个方程式就变为:
\(2x\_1+x\_2+x\_3=0\)-
\(-x\_3=56\)-
\(2x\_1-x\_2+4x\_3=4\)
对于第三个方程同样如此,我们需要去掉其中的\(x\_1\)。方法是让第三个方程减去第一个方程,之后三个方程式变为:
\(2x\_1+x\_2+x\_3=0\)-
\(-x\_3=56\)-
\(-2x\_2+3x\_3=4\)
至此,我们使用第一个方程式作为参照,消除了第二个和第三个方程式中的\(x\_1\),我们称这里的第一个方程式为“主元行”。
接下来,我们要把第二个方程式作为“主元行”,来消除第三个方程中的\(x\_2\)。你应该能发现,第二个方程中的\(x\_2\)已经没有了,失去了参照,这个时候我们需要把第二个方程和第三个方程互换,变为:
\(2x\_1+x\_2+x\_3=0\)-
\(-2x\_2+3x\_3=4\)-
\(-x\_3=56\)
到了这个时候,由于第三个方程已经没有\(x\_2\)了,所以无需再消元。如果还有\(x\_2\),那么就需要参照第二个方程式来消除第三个方程中的\(x\_2\)。
观察一下现在的方程组第一个方程有3个自变量第二个方程有2个自变量第三个方程只有1个自变量。这个时候我们就可以从第三个方程开始开始回代的过程了。通过第三个方程显然我们可以得到\(x\_3=-56\),然后把这个值代入第二个方程,就可以得到\(x\_2 = -86\)。最后把\(x\_2\)和\(x\_3\)的值代入第一个方程式,我们可以得到\(x\_1=71\)。
使用矩阵实现高斯消元法
如果方程和元的数量很小,那么高斯消元法并不难理解。可是如果方程和元的数量很多,整个过程就变得比较繁琐了。实际上,我们可以把高斯消元法转为矩阵的操作,便于自己的理解和记忆。
为了进行矩阵操作,首先我们要把方程中的系数\(b\_i\)转成矩阵,我们把这个矩阵记作\(B\)。对于上面的方程组示例,系数矩阵为:
那么最终我们通过消元把系数矩阵B变为
从此可以看出,消元的过程就是把原始的系数矩阵变为上三角矩阵。这里的上三角矩阵表示,矩阵中只有主对角线以及主对角线以上的三角部分里有数字。我们用\(U\)表示上三角矩阵。
而回代呢,我们最终得到的结果是:
\(x\_1=71\)-
\(x\_2=-86\)-
\(x\_3=-56\)
我们可以把这几个结果看作:
\(1·x\_1+0·x\_2+0·x\_3=71\)-
\(0·x\_1+1·x\_2+0·x\_3=-86\)-
\(0·x\_1+0·x\_2+1·x\_3=-56\)
再把系数写成矩阵的形式,就是:
发现没?这其实就是单位矩阵。所以说,回代的过程是把上三角矩阵变为单位矩阵的过程。
为了便于后面的回代计算,我们也可以把方程式等号右边的值加入到系数矩阵,我们称这个新的矩阵为增广矩阵,我把这个矩阵记为\(A\)。
好,现在让我们来观察一下这个增广矩阵\(A\)。
对于这个矩阵,我们的最终目标是,把除了最后一列之外的部分,变成单位矩阵,而此时最后一列中的每个值,就是每个自变量所对应的解了。
之前我已经讲过矩阵相乘在向量空间模型、PageRank算法和协同过滤推荐中的应用。这里我们同样可以使用这种操作来进行消元。为了方便你理解我们可以遵循之前消元的步骤一步步来看。
还记得这个方程组消元的第一步吗?对,首先保持第一个方程不变,然后消除第二个和第三个方程中的\(x\_1\)。这就意味着要把\(A\_{2,1}\)和\(A\_{3,1}\)变为\(0\)。
对于第一个方程式,如果要保持它不变,我们可以让向量\(\[1, 0, 0\]\)左乘\(A\)。对于第二个方程,具体操作是让第二个方程式减去第一个方程式的两倍,达到消除\(x\_1\)的目的。我们可以让向量\(\[-2, 1, 0\]\)左乘\(A\)。对于第三个方程式,具体操作是让第三个方程式减去第一个方程式,达到消除\(x\_1\)的目的。我们可以让向量\(\[-1, 0, 1\]\)左乘\(A\)。我们使用这三个行向量组成一个矩阵\(E1\)。
因此,我们可使用下面这个矩阵\(E1\)和\(A\)的点乘,来实现消除第二个和第三个方程式中\(x\_1\)的目的。
你会发现,由于使用了增广矩阵,矩阵中最右边的一列,也就是方程等号右边的数值也会随之发生改变。
下一步是消除第三个方程中的\(x\_2\)。依照之前的经验,我们要把第二个方程式作为“主元行”,来消除第三个方程中的\(x\_2\)。可是第二个方程中的\(x\_2\)已经没有了,失去了参照,这个时候我们需要把第二个方程和第三个方程互换。这种互换的操作如何使用矩阵来实现呢?其实不难,例如使用下面这个矩阵\(E2\)左乘增广矩阵\(A\)。
上面这个矩阵第一行\(\[1 0 0\]\)的意思就是我们只取第一行的方程,而第二行\(\[0 0 1\]\)的意思是只取第三个方程,而第三行\(\[0 1 0\]\)表示只取第二个方程。
我们先让\(E1\)左乘\(A\),然后再让\(E2\)左乘\(E1A\)的结果,就能得到消元后的系数矩阵。
我们把\(E1\)点乘\(E2\)的结果记作\(E3\),并把\(E3\)称为消元矩阵。
对于目前的结果矩阵来说,除了最后一列,它已经变成了一个上三角矩阵,也就是说消元步骤完成。接下来,我们要使得最后一列之外的部分变成一个单位矩阵,就能得到最终的方程组解。和消元不同的是,我们将从最后一行开始。对于最后一个方程,我们只需要把所有系数取反就行了,所以会使用下面这个矩阵\(S1\)实现。
接下来要去掉第二个方程中的\(x\_3\)我们要把第二个方程减去3倍的第三个方程然后除以-2。首先是减去3倍的第三个方程。
然后把第二个方程除以-2。
最后对于第一个方程我们要把第一个方程减去第二个和第三个方程最后除以2我把这几步合并了并列在下方。
最终,结果矩阵的最后一列就是方程组的解。我们把回代部分的矩阵,都点乘起来。
而消元矩阵\(E3\)为:
我们可以让矩阵\(S\)左乘矩阵\(E3\),就会得到下面的结果。
我们把这个矩阵记作\(SE\),把乘以最初的系数矩阵\(B\),就得到了一个单位矩阵。根据逆矩阵的定义,\(SE\)就是\(B\)的逆矩阵。换个角度来思考,使用消元法进行线性方程组求解的过程,就是在找系数矩阵的逆矩阵的过程。
总结
今天我们一起探讨了求解线性方程组最常见的方法之一,高斯消元法。这个方法主要包含了消元和回代两个步骤。这些步骤都可以使用矩阵的操作来进行。从矩阵的角度来说,消元就是把系数矩阵变为上三角矩阵,而回代是把这个上三角矩阵变为单位矩阵。我们可以直接把用于消元和回代的矩阵,用于由系数和因变量值组成的增广矩阵,并获得最终的方程解。
线性方程组的概念,也是线性回归分析的基础。在线性回归时,我们也能获得由很多观测数据值所组成的方程组。但是,在进行线性回归分析时,方程组的处理方式和普通的方程组求解有一些不同。其中有两个最主要的区别。
第一个区别是,在线性回归分析中,样本数据会告诉我们自变量和因变量的值,要求的是系数。而在线性方程组中,我们已知系数和因变量的值,要求的是自变量的值。
第二个区别是在线性回归分析中方程的数量要远远大于自变量的数量而且我们不要求每个方程式都是完全成立。这里不要求完全成立的意思是拟合出来的因变量值可以和样本数据给定的因变量值存在差异也就允许模型拟合存在误差。模型拟合的概念我在上一模块的总结篇中重点讲解了所以你应该能理解模型的拟合不可能100%完美,这和我们求解线性方程组精确解的概念是不同的。
正是因为这两点差异,我们无法直接使用消元法来求解线性回归。下一节,我会来详细解释,如何使用最小二乘法来解决线性回归的问题。
思考题
请分别写出下面这个方程组的消元矩阵和回代矩阵,并求出最终的解。
\(x\_1-2x\_2+x\_3-4x\_4=4\)-
\(x\_2-x\_3+x\_4=-3\)-
\(x\_1+3x\_2+x\_4=1\)-
\(-7x\_2+3x\_3+x\_4=-3\)
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,208 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
40 线性回归(中):如何使用最小二乘法进行直线拟合?
你好,我是黄申。
上一节,我提到了,求解线性回归和普通的线性方程组最大的不同在于误差ε。在求解线性方程组的时候,我们并不考虑误差的存在,因此存在无解的可能。而线性回归允许误差ε的存在,我们要做的就是尽量把ε最小化,并控制在一定范围之内。这样我们就可以求方程的近似解。而这种近似解对于海量的大数据分析来说是非常重要的。
但是现实中的数据一定存在由于各种各样原因所导致的误差因此即使自变量和因变量之间存在线性关系也基本上不可能完美符合这种线性关系。总的来说线性回归分析并不一定需要100%精确,而误差ε的存在可以帮助我们降低对精度的要求。通常,多元线性回归会写作:
\(y=b\_0+b\_1·x\_1+b\_2·x\_2+…+\)-
\(b\_{n-1}·x\_{n-1}+b\_n·x\_n+ε\)
这里的\(x\_1x\_2x\_n\)是自变量,\(y\)是因变量,\(b\_0\)是截距,\(b\_1\)\(b\_2\),…,\(b\_n\)是自变量的系数,\(ε\)是随机误差。
在线性回归中,为了实现最小化\(ε\)的目标,我们可以使用最小二乘法进行直线的拟合。最小二乘法通过最小化误差的平方和,来寻找和观测数据匹配的最佳函数。由于这些内容有些抽象,下面我会结合一些例子来解释最小二乘法的核心思想,以及如何使用这种方法进行求解。
使用观测值拟合
在详细阐述最小二乘法之前我们先来回顾一下第32讲介绍的模型拟合。在监督式学习中拟合模型其实是指通过模型的假设和训练样本推导出具体参数的过程。有了这些参数我们就能对新的数据进行预测。而在线性回归中我们需要找到观测数据之间的线性关系。
假设我们有两个观测数据,对应于二维空间中的两个点,这两个点可以确定唯一的一条直线,两者呈现线性关系。你可以参考下面这张图。
之后,我们又加入了一个点。这个点不在原来的那条直线上。
这个时候,从线性方程的角度来看,就不存在精确解了。因为没有哪条直线能同时穿过这三个点。这张图片也体现了线性回归分析和求解线性方程组是不一样的,线性回归并不需要求精确解。
如果我们加入更多的观察点,就更是如此了。比如下面这张图。
从上图中你应该可以看出,这根直线不是完全精准地穿过这些点,而只是经过了其中两个,大部分点和这根直线有一定距离。这个时候,线性回归就有用武之地了。
由于我们假设ε的存在,因此在线性回归中,我们允许某条直线只穿过其中少量的点。不过,既然我们允许这种情况发生,那么就存在无穷多这样的直线。比如下面我随便画了几条,都是可以的。
当然,我们从直觉出发,一定不会选取那些远离这些点的直线,而是会选取尽可能靠近这些点的那些线。比如下面这张图里展示的这两条。
好了,既然这样,我们就需要定义哪根线是最优的,以及在给出了最优的定义之后,如何能求解出这条最优的直线呢?最小二乘法可以回答这两个问题,下面我们具体来看。
最小二乘法
最小二乘法的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小。我们可以使用下面这个公式来描述。
其中,\(y\_i\)表示来自数据样本的观测值,而\(y\)^是假设的函数的理论值,\(ε\)就是我们之前提到的误差,在机器学习中也常被称为损失函数,它是观测值和真实值之差的平方和。最小二乘法里的“二乘”就是指的平方操作。有了这个公式,我们的目标就很清楚了,就是要发现使ε最小化时候的参数。
那么最小二乘法是如何利用最小化\(ε\)的这个条件来求解的呢?让我们从矩阵的角度出发来理解整个过程。
有了上面的定义之后,我们就可以写出最小二乘问题的矩阵形式。
\(min||XB-Y||\_{2}^{2}\)
其中\(B\)为系数矩阵,\(X\)为自变量矩阵,\(Y\)为因变量矩阵。换句话说,我们要在向量空间中,找到一个\(B\),使向量\(XB\)与\(Y\)之间欧氏距离的平方数最小的\(B\)。
结合之前所讲的矩阵点乘知识,我们把上述式子改写为:
\(||XB-Y||\_{2}^{2}=tr((XB-Y)'(XB-Y))\)
其中\((XB-Y)'\)表示矩阵\((XB-Y)\)的转置。而\(tr()\)函数表示取对角线上所有元素的和,对于某个矩阵\(A\)来说,\(tr(A)\)的值计算如下:
进一步,根据矩阵的运算法则,我们有:
\(tr((XB-Y)(XB-Y))\)-
\(=tr(BX-Y)(XB-Y)\)-
\(=tr(BXXB-BXY-YXB+YY)\)
因此我们可以得到:
\(||XB-Y||\_{2}^{2}\)-
\(=tr((XB-Y)(XB-Y))\)-
\(=tr(BX-Y)(XB-Y)\)-
\(=tr(BXXB-BXY-YXB+YY)\)
我们知道求最极值问题直接对应的就是导数为0因此我对上述的矩阵形式进行求导得到如下的式子
\(\\frac{d||XB-Y||\_{2}^{2}}{dB}\)-
\(=\\frac{d(tr(BXXB-BXY-YXB+YY))}{dB}\)-
\(=XXB+XXB-XY-XY\)-
\(=2XXB-2XY\)
如果要\(||XB-Y||\_{2}^{2}\)最小,就要满足两个条件。
第一个条件是\(\\frac{d||XB-Y||\_{2}^{2}}{dB}\)为0也就是\(2XXB-2XY=0\)。
第二个条件是\(\\frac{d(2XXB-2XY)}{dB}>0\)。
由于\(\\frac{d(2XXB-2XY)}{dB}=2XX>0\),所以,第二个条件是满足的。只要\(2XXB=2XY\)。
我们就能获得\(ε\)的最小值。从这个条件出发,我们就能求出矩阵\(B\)
\(2XXB=2XY\)-
\(XXB=XY\)-
\((XX)^{-1}XXB=(XX)^{-1}XY\)-
\(IB=(XX)^{-1}XY\)-
\(B=(XX)^{-1}XY\)
其中\(I\)为单位矩阵。而\((XX)^{-1}\)表示\(XX\)的逆矩阵。所以,最终系数矩阵为:
\(B=(XX)^{-1}XY\)
补充证明和解释
为了保持推导的连贯性,在上述的推导过程中,我跳过了几个步骤的证明。下面我会给出详细的解释,供你更深入的学习和研究。
步骤a
\((XB)=BX\)
证明:
对于\(XB\)中的每个元素\(xb\_{i,j}\),有:
而对于\((XB)\)中的每个元素\(xb\_{i,j}\),有:
对于\(B\)中的每个元素有:
\(b_{i,k}=b_{k,i}\)
\(X\)中的每个元素有:
\(x_{k,j}=x_{j,k}\)
那么,对于\(BX\)中的每个元素\(bx\_{i,j}\),就有:
所以有\((XB) = BX\)。
步骤b
\((XB-Y)=BX-Y\)
证明:
和步骤a类似对于\(XB-Y\)中的每个元素 \(xb-y\_{i,j}\)有:
步骤c
\(\\frac{d(tr(BXY))}{dB}=XY\)
证明:
同理,可以证明:
\(\\frac{d(tr(YXB))}{dB}=(YX)'=XY\)
步骤d
\(\\frac{d(tr(BXXB))}{dB}=2XXB\)
证明:
\(\\frac{d(tr(BXXB))}{dB}\)-
\(=\\frac{d(tr(B(XXB)))}{dB}+\\frac{d(tr((BXX)B))}{dB}\)-
\(=(XXB)+(BXX)'\)-
\(=XXB+XXB\)-
\(=2XXB\)
步骤e
常量对于变量求导为0例如
\(\\frac{d(YY)}{dB}=0\)
好了,弄明白了这些细节上的证明,你就能更好地理解最小二乘法中的推导步骤。不过,你可能还是会奇怪,为什么最终要对矩阵求导数来求ε的最小值。最后,我们就聊聊如何使用求导获取极小值。
极值是一个函数的极大值或极小值。如果一个函数在一点的某个邻域内每个地方都有确定的值,而该点所对应的值是最大(小)的,那么这函数在该点的值就是一个极大(小)值。而函数的极值可以通过它的一阶和二阶导数来确定。
对于一元可微函数\(f(x)\),它在某点\(x\_0\)有极值的充分必要条件是\(f(x)\)在\(x\_0\)的邻域上一阶可导,在\(x\_0\)处二阶可导,且一阶导数\(f(x\_0)=0\),二阶导数\(f(x\_0)≠0\)。其中\(f\)和\(f'\)分别表示一阶导数和二阶导数。
在一阶导数\(f(x0)=0\)的情况下,如果\(f(x0)<0\)\(f\)\(x\_0\)取得极大值如果\(f'(x0)>0\),则\(f\)在\(x\_0\)取得极小值。这就是为什么在求矩阵\(B\)的时候,我们要求\(2XXB-2XY\)为\(0\),并且\(2XXB-2XY\)的导数要大于\(0\),这样我们才能确保求得极小值。
总结
今天我们探讨了为什么简单的线性方程组无法满足线性函数拟合的需求,最主要的原因就是现实的观测数据往往不是精确的线性关系,存在一定的误差。我们所要做的就是,在允许一定范围的误差前提下,找到一种线性关系,尽量的满足观察数据,使得我们所定义的误差最小。
最小二乘法通过向量空间的欧氏距离之平方,定义了预测值和真实值之间的误差。在给定自变量和因变量的观测值之后,最小二乘法可以帮助我们推导出所有自变量的系数,并最小化误差。我使用矩阵的形式,为你推导了整个过程。
不过到目前为止我们都只是从理论上理解最小二乘法可能你还没有太深的感触。下一节我会通过一个具体的例子来逐步进行演算并使用Python代码对最终的结果进行验证。
思考题
还记得在29讲的线性回归案例吗我们使用了Boston Housing的数据拟合出了十多个自变量的系数。请使用这些系数计算train.csv中所有样本因变量预测值和真实值之间的误差。你可以使用Python代码来实现一下。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,194 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
41 线性回归(下):如何使用最小二乘法进行效果验证?
你好,我是黄申。
上一节我们已经解释了最小二乘法的核心思想和具体推导过程。今天我们就用实际的数据操练一下,这样你的印象就会更加深刻。我会使用几个具体的例子,演示一下如何使用最小二乘法的结论,通过观测到的自变量和因变量值,来推算系数,并使用这个系数来进行新的预测。
基于最小二乘法的求解
假想我们手头上有一个数据集里面有3条数据记录。每条数据记录有2维特征也就是2个自变量和1个因变量。
如果我们假设这些自变量和因变量都是线性的关系,那么我们就可以使用如下这种线性方程,来表示数据集中的样本:
\(b\_1·0+b\_2·1=1.5\)-
\(b\_1·1-b\_2·1=-0.5\)-
\(b\_1·2+b\_2·8=14\)
也就是说,我们通过观察数据已知了自变量\(x\_1\)、\(x\_2\)和因变量\(y\)的值,而要求解的是\(b\_1\)和\(b\_2\)这两个系数。如果我们能求出\(b\_1\)和\(b\_2\),那么在处理新数据的时候,就能根据新的自变量\(x\_1\)和\(x\_2\)的取值,来预测\(y\)的值。
可是我们说过,由实际项目中的数据集所构成的这类方程组,在绝大多数情况下,都没有精确解。所以这个时候我们没法使用之前介绍的高斯消元法,而是要考虑最小二乘法。根据上一节的结论,我们知道对于系数矩阵\(B\),有:
\(B=(XX)^{-1}XY\)
既然有了这个公式,要求\(B\)就不难了,让我们从最基本的几个矩阵开始。
矩阵\((XX)^{-1}\)的求解稍微繁琐一点。逆矩阵的求法我还没讲解过,之前我们说过线性方程组之中,高斯消元和回代的过程,就是把系数矩阵变为单位矩阵的过程。我们可以利用这点,来求解\(X^{-1}\)。我们把原始的系数矩阵\(X\)列在左边,然后把单位矩阵列在右边,像\(\[X | I\]\)这种形式,其中\(I\)表示单位矩阵。
然后我们对左侧的矩阵进行高斯消元和回代把左边矩阵X变为单位矩阵。同时我们也把这个相应的矩阵操作运用在右侧。这样当左侧变为单位矩阵之后那么右侧的矩阵就是原始矩阵\(X\)的逆矩阵\(X^{-1}\),具体证明如下:
\(\[X | I\]\)-
\(\[X^{-1}X | X^{-1}I\]\)-
\(\[I | X^{-1}I\]\)-
\(\[I | X^{-1}\]\)
好了,给定下面的\(XX\)矩阵之后,我们使用上述方法来求\((XX)^{-1}\) 。我把具体的推导过程列在了这里。
求出\((XX)^{-1}\)之后,我们就可以使用\(B=(XX)^{-1}XY\)来计算矩阵B。
最终,我们求出系数矩阵为\(\[1 1.5\]\),也就是说\(b\_1 = 1\), \(b\_2 = 1.5\)。实际上,这两个数值是精确解。我们用高斯消元也是能获得同样结果的。接下来,让我稍微修改一下\(y\)值,让这个方程组没有精确解。
\(b\_1·0+b\_2·1=1.4\)-
\(b\_1·1-b\_2·1=-0.48\)-
\(b\_1·2+b\_2·8=13.2\)
你可以尝试高斯消元法对这个方程组求解,你会发现只要两个方程就能求出解,但是无论是哪两个方程求出的解,都无法满足第三个方程。
那么通过最小二乘法我们能不能求导一个近似解保证_ε_足够小呢下面让我们遵循之前求解\((XX)^{-1}XY\)的过程,来计算\(B\)。
计算完毕之后,你会发现两个系数的值分别变为\(b\_1 = 0.938, b\_2 = 1.415\)。由于这不是精确解,所以让我们看看有了这系数矩阵\(B\)之后,原有的观测数据中,真实值和预测值的差别。
首先我们通过系数矩阵\(B\)和自变量矩阵\(X\)计算出来预测值。
然后是样本数据中的观测值。这里我们假设这些值是真实值。
根据误差\(ε\)的定义,我们可以得到:
说到这里,你可能会怀疑,通过最小二乘法所求得的系数\(b\_1 = 0.949\)和\(b\_2 = 1.415\),是不是能让\(ε\)最小呢?这里,我们随机的修改一下这两个系数,变为\(b\_1 = 0.95\)和\(b\_2 = 1.42\),然后我们再次计算预测的\(y\)值和\(ε\)。
很明显0.064是大于之前的0.0158。
这两次计算预测值_y_的过程其实也是我们使用线性回归对新的数据进行预测的过程。简短地总结一下线性回归模型根据大量的训练样本推算出系数矩阵\(B\),然后根据新数据的自变量\(X\)向量或者矩阵,计算出因变量的值,作为新数据的预测。
Python代码实现
这一部分我们使用Python的代码来验证一下之前的推算结果是不是正确并看看最小二乘法和Python sklearn库中的线性回归这两种结果的对比。
首先我们使用Python numpy库中的矩阵操作来实现最小二乘法。主要的函数操作涉及矩阵的转置、点乘和求逆。具体的代码和注释我列在了下方。
from numpy import *
x = mat([[0,1],[1,-1],[2,8]])
y = mat([[1.4],[-0.48],[13.2]])
# 分别求出矩阵X'、X'X、(X'X)的逆
# 注意这里的I表示逆矩阵而不是单位矩阵
print("X矩阵的转置X'\n", x.transpose())
print("\nX'点乘X\n", x.transpose().dot(x))
print("\nX'X矩阵的逆\n", (x.transpose().dot(x)).I)
print("\nX'X矩阵的逆点乘X'\n", (x.transpose().dot(x)).I.dot(x.transpose()))
print("\n系数矩阵B\n", (x.transpose().dot(x)).I.dot(x.transpose()).dot(y))
通过上述代码,你可以看到每一步的结果,以及最终的矩阵\(B\)。你可以把输出结果和之前手动推算的结果进行对比,看看是不是一致。
除此之外我们还可把最小二乘法的线性拟合结果和sklearn库中的LinearRegression().fit()函数的结果相比较,具体的代码和注释我也放在了这里。
import pandas as pd
from sklearn.linear_model import LinearRegression
df = pd.read_csv("/Users/shenhuang/Data/test.csv")
df_features = df.drop(['y'], axis=1) #Dataframe中除了最后一列,其余列都是特征,或者说自变量
df_targets = df['y'] #Dataframe最后一列是目标变量,或者说因变量
print(df_features, df_targets)
regression = LinearRegression().fit(df_features, df_targets) #使用特征和目标数据,拟合线性回归模型
print(regression.score(df_features, df_targets)) #拟合程度的好坏
print(regression.intercept_)
print(regression.coef_) #各个特征所对应的系数
其中test.csv文件的内容我也列在了这里。
\(x\_1,x\_2,y\)-
\(0,1,1.4\)-
\(1,-1,-0.48\)-
\(2,8,13.2\)
这样写是为了方便我们使用pandas读取csv文件并加载为dataframe。
在最终的结果中1.0表示拟合程度非常好,而-0.014545454545452863表示一个截距,[0.94909091 1.41454545]表示系数\(b\_1\)和\(b\_2\)的值。这个结果和我们最小二乘法的结果有所差别主要原因是LinearRegression().fit()默认考虑了有线性函数存在截距的情况。那么我们使用最小二乘法是不是也可以考虑有截距的情况呢?答案是肯定的,不过我们首先要略微修改一下方程组和矩阵\(X\)。如果我们假设有截距存在,那么线性回归方程就要改写为:
\(b\_0+b\_1·x\_1+b\_2·x\_2+…+b\_{n-1}·x\_{n-1}+b\_n·x\_n=y\)
其中,\(b\_0\)表示截距,而我们这里的方程组用例就要改写为:
\(b\_0+b\_1·0+b\_2·1=1.4\)-
\(b\_0+b\_1·1-b\_2·1=-0.48\)-
\(b\_0+b\_1·2+b\_2·8=13.2\)
而矩阵\(X\)要改写为:
然后我们再执行下面这段代码。
from numpy import *
x = mat([[1,0,1],[1,1,-1],[1,2,8]])
y = mat([[1.4],[-0.48],[13.2]])
print("\n系数矩阵B\n", (x.transpose().dot(x)).I.dot(x.transpose()).dot(y))
你就会得到:
系数矩阵B
[[-0.01454545]
[ 0.94909091]
[ 1.41454545]]
这个结果和LinearRegression().fit()的结果就一致了。
需要注意的是,使用线性回归的时候,我们都有一个前提假设,那就是数据的自变量和因变量之间呈现线性关系。如果不是线性关系,那么使用线性模型来拟合的效果一定不好。比如,之前在解释欠拟合的时候,我用过下面这个例子。
上面这张图的数据分布并没有表达线性关系,所以我们需要对原始的数据进行非线性的变换,或者是使用非线性的模型来拟合。
那么我们如何判断一个数据集是不是能用线性模型表示呢在线性回归中我们可以使用决定系数R2。这个统计指标使用了回归平方和与总平方和之比是反映模型拟合度的重要指标。它的取值在0到1之间越接近于1表示拟合的程度越好、数据分布越接近线性关系。随着自变量个数的增加R2将不断增大因此我们还需要考虑方程所包含的自变量个数对R2的影响这个时候可使用校正的决定系数Rc2。所以在使用各种科学计算库进行线性回归时你需要关注R2或者Rc2来看看是不是一个好的线性拟合。在之前的代码实践中我们提到的regression.score函数其实就是返回了线性回归的R2。
总结
今天我们使用了具体的案例来推导最小二乘法的计算过程并用Python代码进行了验证。通过最近3节的讲解相信你对线性方程组求精确解、求近似解、以及如何在线性回归中运用这些方法有了更加深入的理解。
实际上,从广义上来说,最小二乘法不仅可以用于线性回归,还可以用于非线性的回归。其主要思想还是要确保误差ε最小,但是由于现在的函数是非线性的,所以不能使用求多元方程求解的办法来得到参数估计值,而需要采用迭代的优化算法来求解,比如梯度下降法、随机梯度下降法和牛顿法。
思考题
我这里给出一个新的方程组,请通过最小二乘法推算出系数的近似解,并使用你熟悉的语言进行验证。
\(b\_1+b\_2·3+b\_3·(-7)=-7.5\)-
\(b\_1·2+b\_2·5+b\_3·4=5.2\)-
\(b\_1·(-3)+b\_2·(-7)+b\_3·(-2)=-7.5\)-
\(b\_1·1+b\_2·4+b\_3·(-12)=-15\)
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,141 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
42 PCA主成分分析如何利用协方差矩阵来降维
你好,我是黄申。
在概率统计模块我详细讲解了如何使用各种统计指标来进行特征的选择降低用于监督式学习的特征之维度。接下来的几节我会阐述两种针对数值型特征更为通用的降维方法它们是主成分分析PCAPrincipal Component Analysis和奇异值分解SVDSingular Value Decomposition。这两种方法是从矩阵分析的角度出发找出数据分布之间的关系从而达到降低维度的目的因此并不需要监督式学习中样本标签和特征之间的关系。
PCA分析法的主要步骤
我们先从主成分分析PCA开始看。
在解释这个方法之前,我先带你快速回顾一下什么是特征的降维。在机器学习领域中,我们要进行大量的特征工程,把物品的特征转换成计算机所能处理的各种数据。通常,我们增加物品的特征,就有可能提升机器学习的效果。可是,随着特征数量不断的增加,特征向量的维度也会不断上升。这不仅会加大机器学习的难度,还会影响最终的准确度。针对这种情形,我们需要过滤掉一些不重要的特征,或者是把某些相关的特征合并起来,最终达到在减少特征维度的同时,尽量保留原始数据所包含的信息。
了解了这些我们再来看今天要讲解的PCA方法。它的主要步骤其实并不复杂我一说你就能明白但是为什么要这么做你可能并不理解。咱们学习一个概念或者方法不仅要知道它是什么还要明白是怎么来的这样你就能知其然知其所以然明白背后的逻辑达到灵活运用。因此我先从它的运算步骤入手给你讲清楚每一步然后再解释方法背后的核心思想。
和线性回归的案例一样我们使用一个矩阵来表示数据集。我们假设数据集中有m个样本、n维特征而这些特征都是数值型的那么这个集合可以按照如下的方式来展示。
那么这个样本集的矩阵形式就是这样的:
这个矩阵是m×n维的其中每一行表示一个样本而每一列表示一维特征。让我们把这个矩阵称作样本矩阵现在我们的问题是能不能通过某种方法找到一种变换可以降低这个矩阵的列数也就是特征的维数并且尽可能的保留原始数据中有用的信息
针对这个问题PCA分析法提出了一种可行的解决方案。它包括了下面这样几个主要的步骤
标准化样本矩阵中的原始数据;
获取标准化数据的协方差矩阵;
计算协方差矩阵的特征值和特征向量;
依照特征值的大小,挑选主要的特征向量;
生成新的特征。
下面,我们一步步来看。
1.标准化原始数据
之前我们已经介绍过特征标准化,这里我们需要进行同样的处理,才能让每维特征的重要性具有可比性。为了便于你回顾,我把标准化的公式列在了这里。
\(x=\\frac{x-μ}{σ}\)
其中\(x\)为原始值,\(u\)为均值,\(σ\)为标准差,\(x\)是变换后的值。需要注意的是,这里标准化的数据是针对同一种特征,也是在同一个特征维度之内。不同维度的特征不能放在一起进行标准化。
2.获取协方差矩阵
首先我们来看一下什么是协方差Covariance以及协方差矩阵。协方差是用于衡量两个变量的总体误差。假设两个变量分别是\(x\)和\(y\),而它们的采样数量都是\(m\),那么协方差的计算公式就是如下这种形式:
其中\(x\_k\)表示变量\(x\)的第\(k\)个采样数据,\(\\bar{x}\)表示这\(k\)个采样的平均值。而当两个变量是相同时,协方差就变成了方差。
那么,这里的协方差矩阵又是什么呢?我们刚刚提到了样本矩阵,假设\(X\_{,1}\)表示样本矩阵\(X\)的第\(1\)列,\(X\_{,2}\)表示样本矩阵\(X\)的第\(2\)列,依次类推。而\(cov(X\_{,1},X\_{,1})\)表示第1列向量和自己的协方差而\(cov(X\_{,1},X\_{,2})\)表示第1列向量和第2列向量之间的协方差。结合之前协方差的定义我们可以得知
其中,\(x\_{k,i}\)表示矩阵中第\(k\)行,第\(i\)列的元素。 \(\\bar{X\_{,i}}\)表示第\(i\)列的平均值。
有了这些符号表示,我们就可以生成下面这种协方差矩阵。
从协方差的定义可以看出,\(cov(X\_{,i},X\_{,j})=cov(X\_{,j},X\_{,i})\),所以\(COV\)是个对称矩阵。另外,我们刚刚提到,对于\(cov(X\_{,i},X\_{,j})\),如果\(i=j\),那么\(cov(X\_{,i},X\_{,j})\)也就是\(X\_{,j}\)这组数的方差。所以这个对称矩阵的主对角线上的值就是各维特征的方差。
3.计算协方差矩阵的特征值和特征向量
需要注意的是这里所说的矩阵的特征向量和机器学习中的特征向量Feature Vector完全是两回事。矩阵的特征值和特征向量是线性代数中两个非常重要的概念。对于一个矩阵\(X\),如果能找到向量\(v\)和标量\(λ\),使得下面这个式子成立。
\(Xv=λv\)
那么,我们就说\(v\)是矩阵\(X\)的特征向量,而\(λ\)是矩阵\(X\)的特征值。矩阵的特征向量和特征值可能不止一个。说到这里,你可能会好奇,特征向量和特征值表示什么意思呢?我们为什么要关心这两个概念呢?简单的来说,我们可以把向量\(v\)左乘一个矩阵\(X\)看做对\(v\)进行旋转或拉伸,而这种旋转和拉伸都是由于左乘矩阵\(X\)后,所产生的“运动”所导致的。特征向量\(v\)表示了矩阵\(X\)运动的方向,特征值\(λ\)表示了运动的幅度,这两者结合就能描述左乘矩阵\(X\)所带来的效果因此被看作矩阵的“特征”。在PCA中的主成分就是指特征向量而对应的特征值的大小就表示这个特征向量或者说主成分的重要程度。特征值越大重要程度越高我们要优先现在这个主成分并利用这个主成分对原始数据进行变换。
如果你还是有些困惑我会在下面一节讲解更多的细节。现在让我们先来看看给定一个矩阵如何计算它的特征值和特征向量并完成PCA分析的剩余步骤。我在下面列出了计算特征值的推导过程
\(Xv=λv\)-
\(Xv-λv=0\)-
\(Xv-λIv=0\)-
\((X-λI)v=0\)
其中I是单位矩阵。对于上面推导中的最后一步我们需要计算矩阵的行列式。
\((x\_{1,1}-λ)(x\_{2,2}-λ)…(x\_{n,n}-λ)+x\_{1,2}x\_{2,3}…x\_{n-1,n}x\_{n,1}+…)-(x\_{n,1}x\_{n-1,2}…x\_{2,n-1}x\_{1,n})=0\)
最后,通过解这个方程式,我们就能求得各种λ的解,而这些解就是特征值。计算完特征值,我们可以把不同的λ值代入\(λE-A\),来获取特征向量。
4.挑选主要的特征向量,转换原始数据
假设我们获得了k个特征值和对应的特征向量那么我们就有
\(Xv\_1=λ\_1v\_1\)-
\(Xv\_2=λ\_2v\_2\)-
\(…\)-
\(Xv\_k=λ\_kv\_k\)
按照所对应的λ数值的大小对这k组的v排序。排名靠前的v就是最重要的特征向量。
假设我们只取前k1个最重要的特征那么我们使用这k1个特征向量组成一个n×k1维的矩阵D。
把包含原始数据的m×n维矩阵X左乘矩阵D就能重新获得一个m×k1维的矩阵达到了降维的目的。
有的时候我们无法确定k1取多少合适。一种常见的做法是看前k1个特征值的和占所有特征值总和的百分比。假设一共有10个特征值总和是100最大的特征值是80那么第一大特征值占整个特征值之和的80%我们认为它能表示80%的信息量还不够多。那我们就继续看第二大的特征值它是15前两个特征值之和有95占比达到了95%如果我们认为足够了那么就可以只选前两大特征值把原始数据的特征维度从10维降到2维。
小结
这一节我首先简要地重温了为什么有时候需要进行特征的降维和基于分类标签的特征选择。随后我引出了和特征选择不同的另一种方法基于矩阵操作的PCA主成分分析。这种方法的几个主要步骤包括标准化原始数据、获得不同特征的协方差矩阵、计算协方差矩阵的特征值和特征向量、选择最重要的主成分以及通过所选择的主成分来转换原始的数据集。
要理解PCA分析法是有一定难度的主要是因为两点原因第一计算的步骤有些复杂。第二这个方法的核心思路有些抽象。这两点可能会让刚刚接触PCA的学习者感到无从下手。
为了帮助你更好的理解下一节我会使用一个示例的矩阵进行详细的推算并用两种Python代码进行结果的验证。除此之外我还会分析几个要点包括PCA为什么使用协方差矩阵这个矩阵的特征值和特征向量又表示什么为什么特征值最大的主成分涵盖最多的信息量明白了这些你就能深入理解为什么PCA分析法要有这些步骤以及每一步都代表什么含义。
思考题
给定这样一个矩阵:
假设这个矩阵的每一列表示一个特征的维度,每一行表示一个样本。请完成
按照列(也就是同一个特征维度)进行标准化。
生成这个矩阵的协方差矩阵。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,206 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
43 PCA主成分分析为什么要计算协方差矩阵的特征值和特征向量
你好我是黄申今天我们继续来聊PCA主成分分析的下半部分。
上一节我们讲解了一种特征降维的方法PCA主成分分析。这个方法主要是利用不同维度特征之间的协方差构造一个协方差矩阵然后获取这个矩阵的特征值和特征向量。根据特征值的大小我们可以选取那些更为重要的特征向量或者说主成分。最终根据这些主成分我们就可以对原始的数据矩阵进行降维。
PCA方法的操作步骤有些繁琐并且背后的理论支持也不是很直观因此对于初学者来说并不好理解。考虑到这些我今天会使用一个具体的矩阵示例详细讲解每一步操作的过程和结果并辅以基于Python的核心代码进行分析验证。除此之外我还会从多个角度出发分析PCA方法背后的理论帮助你进一步的理解和记忆。
基于Python的案例分析
这么说可能有一些抽象让我使用一个具体的案例来帮你理解。假设我们有一个样本集合包含了3个样本每个样本有3维特征\(x\_1\)\(x\_2\)和\(x\_3\)。
在标准化的时候需要注意的是我们的分母都使用m而不是m-1这是为了和之后Python中sklearn库的默认实现保持一致。
首先需要获取标准化之后的数据。
第一维特征的数据是12-3。平均值是0方差是
\(\\sqrt{\\frac{1+4+9}{3}}≈2.16\)
标准化之后第一维特征的数据是1/2.16=0.4632/2.16=0.926-32.16=-1.389。以此类推,我们可以获得第二个维度和第三个维度标准化之后的数据。
当然全部手动计算工作量不小这时可以让计算机做它擅长的事情重复性计算。下面的Python代码展示了如何对样本矩阵的数据进行标准化。
from numpy import *
from numpy import linalg as LA
from sklearn.preprocessing import scale
# 原始数据包含了3个样本和3个特征每一行表示一个样本每一列表示一维特征
x = mat([[1,3,-7],[2,5,-14],[-3,-7,2]])
# 矩阵按列进行标准化
x_s = scale(x, with_mean=True, with_std=True, axis=0)
print("标准化后的矩阵:", x_s)
其中scale函数使用了axis=0表示对列进行标准化因为目前的矩阵排列中每一列代表一个特征维度这点需要注意。如果矩阵排列中每一行代表一个特征维度那么可以使用axis=1对行进行标准化。
最终标准化之后的矩阵是这样的:
接下来是协方差的计算。对于第1维向量的方差
\(\\frac{0.463^2 +0.926^2+(-1.389^2)}{2}≈1.5\)
第1维和第2维向量之间的协方差是
\(\\frac{0.463×0.508+0.926×0.889+(-1.389)×(-1.397)}{2}≈1.5\)
以此类推我们就可以获得完整的协方差矩阵。同样的为了减少推算的工作量我们可以使用Python代码获得协方差矩阵。
# 计算协方差矩阵,注意这里需要先进行转置,因为这里的函数是看行与行之间的协方差
x_cov = cov(x_s.transpose())
# 输出协方差矩阵
print("协方差矩阵:\n", x_cov, "\n")
和sklearn中的标准化函数scale有所不同numpy中的协方差函数cov除以的是(m-1)而不是m。最终完整的协方差矩阵是
然后,我们要求解协方差矩阵的特征值和特征向量。
最后化简为:
\(-λ^3+4.5λ^2=0.343λ=0\)-
\(λ(0.0777-λ)(λ-4.4223)=0\)
所以\(λ\)有3个近似解分别是0、0.0777和4.4223。
特征向量的求解过程如果手动推算比较繁琐我们还是利用Python语言直接求出特征值和对应的特征向量。
# 求协方差矩阵的特征值和特征向量
eigVals,eigVects = LA.eig(x_cov)
print("协方差矩阵的特征值:", eigVals)
print("协方差的特征向量(主成分):\n", eigVects, "\n")
我们可以得到三个特征值及它们对应的特征向量。
需要注意Python代码输出的特征向量是列向量而我表格中列出的是行向量。
我使用下面的这段代码,找出特征值最大的特征向量,也就是最重要的主成分,然后利用这个主成分,对原始的样本矩阵进行变换。
# 找到最大的特征值,及其对应的特征向量
max_eigVal = -1
max_eigVal_index = -1
for i in range(0, eigVals.size):
if (eigVals[i] > max_eigVal):
max_eigVal = eigVals[i]
max_eigVal_index = i
eigVect_with_max_eigVal = eigVects[:,max_eigVal_index]
# 输出最大的特征值及其对应的特征向量,也就是第一个主成分
print("最大的特征值:", max_eigVal)
print("最大特征值所对应的特征向量:", eigVect_with_max_eigVal)
# 输出变换后的数据矩阵。注意这里的三个值是表示三个样本而特征从3维变为1维了。
print("变换后的数据矩阵:", x_s.dot(eigVect_with_max_eigVal), "\n")
很明显最大的特征值是4.422311507725755,对应的特征向量是[-0.58077228 -0.57896098 0.57228292]。变换后的样本矩阵是:
-
它从原来的3个特征维度降为1个特征维度了。
Python的sklearn库也实现了PCA我们可以通过下面的代码来尝试一下。
from sklearn.decomposition import PCA
# 挑选前2个主成分
pca = PCA(n_components=2)
# 进行PCA分析
pca.fit(x_s)
# 输出变换后的数据矩阵。注意这里的三个值是表示三个样本而特征从3维变为1维了。
print("方差(特征值): ", pca.explained_variance_)
print("主成分(特征向量)", pca.components_)
print("变换后的样本矩阵:", pca.transform(x_s))
print("信息量: ", pca.explained_variance_ratio_)
这段代码中我把输出的主成分设置为2也就是说挑出前2个最重要的主成分。相应的变化后的样本矩阵有2个特征维度。
除了输出主成分和变换后的矩阵sklearn的PCA分析还提供了信息量的数据。
信息量: [0.98273589 0.01726411]
它是各个主成分的方差所占的比例表示第一个主成分包含了原始样本矩阵中的98.27%的信息而第二个主成分包含了原始样本矩阵中的1.73%的信息可想而知最后一个主成分提供的信息量基本为0了我们可以忽略不计了。如果我们觉得95%以上的信息量就足够了那么就可以只保留第一个主成分把原始的样本矩阵的特征维度降到1维。
当然学习的更高境界不是仅仅“知其然”还要做到“知其所以然”。即使现在你对PCA的操作步骤了如指掌可能还是有不少疑惑比如为什么我们要使用协方差矩阵这个矩阵的特征值和特征向量又表示什么为什么选择特征值最大的主成分就能涵盖最多的信息量呢不用着急接下来我会给你做出更透彻的解释让你不仅明白如何进行PCA分析同时还明白为什么要这么做。
PCA背后的核心思想
为什么要使用协方差矩阵?
首先要回答的第一个问题是为什么我们要使用样本数据中各个维度之间的协方差来构建一个新的协方差矩阵要弄清楚这一点首先要回到PCA最终的目标降维。降维就是要去除那些表达信息量少或者冗余的维度。
我们首先来看如何定义维度的信息量大小。这里我们认为样本在某个特征上的差异就越大,那么这个特征包含的信息量就越大,就越重要。相反,信息量就越小,需要被过滤掉。很自然,我们就能想到使用某维特征的方差来定义样本在这个特征维度上的差异。
另一方面我们要看如何发现冗余的信息。如果两种特征是有很高的相关性那我们可以从一个维度的值推算出另一个维度的值所表达的信息就是重复的。在概率和统计模块我介绍过多个变量间的相关性而在实际运用中我们可以使用皮尔森Pearson相关系数来描述两个变量之间的线性相关程度。这个系数的取值范围是\(\[-1,1\]\),绝对值越大,说明相关性越高,正数表示正相关,负数表示负相关。
我使用下面这张图,来表示正相关和负相关的含义。左侧\(X\)曲线和\(Y\)曲线有非常近似的变化趋势,当\(X\)上升\(Y\)往往也是上升的,\(X\)下降\(Y\)往往也下降,这表示两者有较强的正相关性。右侧\(X\)和\(Y\)两者相反,当\(X\)上升的时候,\(Y\)往往是下降的,\(X\)下降的时候,\(Y\)往往是上升,这表示两者有较强的负相关性。
皮尔森系数计算公式如下:
其中\(n\)表示向量维度,\(x\_{k,i}\)和\(x\_{k,j}\)分别为两个特征维度\(i\)和\(j\)在第\(k\)个采样上的数值。 \(\\bar{x\_{,i}}\)和\(\\bar{x\_{,j}}\)分别表示两个特征维度上所有样本的均值,\(σx\)和\(σy\)分别表示两个特征维度上所有样本的标准差。
我把皮尔森系数的公式稍加变化,你来观察一下皮尔森系数和协方差之间的关系。
你看,变换后的分子不就是协方差吗?而分母类似于标准化数据中的分母。所以在本质上,皮尔森相关系数和数据标准化后的协方差是一致的。
考虑到协方差既可以衡量信息量的大小也可以衡量不同维度之间的相关性因此我们就使用各个维度之间的协方差所构成的矩阵作为PCA分析的对象。就如前面所讲述的这个协方差矩阵主对角线上的元素是各维度上的方差也就体现了信息量而其他元素是两两维度间的协方差也就体现了相关性。
既然协方差矩阵提供了我们所需要的方差和相关性,那么下一步,我们就要考虑对这个矩阵进行怎样的操作了。
为什么要计算协方差矩阵的特征值和特征向量?
关于这点,我们可以从两个角度来理解。
第一个角度是对角矩阵。所谓对角矩阵就是说只有矩阵主对角线之上的元素有非0值而其他元素的值都为0。我们刚刚解释了协方差矩阵的主对角线上都是表示信息量的方差而其他元素都是表示相关性的协方差。既然我们希望尽可能保留大信息量的维度而去除相关的维度那么就意味着我们希望对协方差进行对角化尽可能地使得矩阵只有主对角线上有非0元素。
假如我们确实可以把矩阵尽可能地对角化,那么对角化之后的矩阵,它的主对角线上元素就是、或者接近矩阵的特征值,而特征值本身又表示了转换后的方差,也就是信息量。而此时,对应的各个特征向量之间是基本正交的,也就是相关性极低甚至没有相关性。
第二个角度是特征值和特征向量的几何意义。在向量空间中,对某个向量左乘一个矩阵,实际上是对这个向量进行了一次变换。在这个变换的过程中,被左乘的向量主要发生旋转和伸缩这两种变化。如果左乘矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,而伸缩的比例就是特征值。换句话来说,某个矩阵的特征向量表示了这个矩阵在空间中的变换方向,这些方向都是趋于正交的,而特征值表示每个方向上伸缩的比例。
如果一个特征值很大,那么说明在对应的特征向量所表示的方向上,伸缩幅度很大。这也是为什么,我们需要使用原始的数据去左乘这个特征向量,来获取降维后的新数据。因为这样做可以帮助我们找到一个方向,让它最大程度地包含原有的信息。需要注意的是,这个新的方向,往往不代表原始的特征,而是多个原始特征的组合和缩放。
小结
这两节我详细讲解了PCA主成分分析法它是一种针对数值型特征、较为通用的降维方法。和特征选择不同它并不需要监督式学习中的样本标签而是从不同维度特征之间的关系出发进行了一系列的操作和分析。主要步骤包括标准化原始的数据矩阵、构建协方差矩阵、计算这种协方差矩阵的特征值和特征向量、挑选较大特征值所对应的特征向量、进行原始特征数据的转换。如果排名靠前的特征向量或者说主成分已经包括了足够的信息量那么我们就可以通过选择较少的主成分对原始的样本矩阵进行转换从而达到降维的目的。
PCA方法一开始不是很好理解其主要的原因之一是它背后的核心思想并不是很直观。为此我详细解释了为什么PCA会从标准化和协方差入手来构建协方差矩阵。对于同类的特征来说标准化之后的协方差就是方差表示了这一维特征所包含的信息量。而对于不同类的特征来说标准化之后的协方差体现了这两维特征的相关性。鉴于这两个特性我们需要求解协方差矩阵的特征值和特征向量。如果你弄清楚了这几个关键点那么PCA方法也就不难理解了。
思考题
到目前为止我们讲解了两种特征降维的方法。第一在监督式学习中基于分类标签的特征选择第二基于特征协方差矩阵的PCA主成分分析。请尝试从你自己的理解来说说这两种降维方法各自的优缺点。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,123 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
44 奇异值分解:如何挖掘潜在的语义关系?
你好,我是黄申。
今天我们来聊另一种降维的方法SVD奇异值分解Singular Value Decomposition。它的核心思路和PCA不同。PCA是通过分析不同维度特征之间的协方差找到包含最多信息量的特征向量从而实现降维。而SVD这种方法试图通过样本矩阵本身的分解找到一些“潜在的因素”然后通过把原始的特征维度映射到较少的潜在因素之上达到降维的目的。
这个方法的思想和步骤有些复杂,它的核心是矩阵分解,首先,让我们从方阵的矩阵分解开始。
方阵的特征分解
在解释方阵的分解时,我们会用到两个你可能不太熟悉的概念:方阵和酉矩阵。为了让你更顺畅的理解整个分解的过程,我先给你解释下这两个概念。
方阵Square Matrix是一种特殊的矩阵它的行数和列数相等。如果一个矩阵的行数和列数都是n那么我们把它称作n阶方阵。
如果一个矩阵和其转置矩阵相乘得到的是单位矩阵那么它就是一个酉矩阵Unitary Matrix
\(XX=I\)
其中X表示X的转置I表示单位矩阵。换句话说矩阵X为酉矩阵的充分必要条件是X的转置矩阵和X的逆矩阵相等。
\(X=X^{-1}\)
理解这两个概念之后让我们来观察矩阵的特征值和特征向量。前两节我们介绍了对于一个n×n维的矩阵\(X\)\(n\)维向量\(v\),标量\(λ\),如果有\(Xv=λv\)。
那么我们就说\(λ\)是\(X\)的特征值,\(v\)是\(X\)的特征向量,并对应于特征值\(λ\)。
之前我们说过特征向量表示了矩阵变化的方向而特征值表示了变化的幅度。实际上通过特征值和特征矩阵我们还可以把矩阵X进行特征分解Eigendecomposition。这里矩阵的特征分解是指把矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。如果我们求出了矩阵\(X\)的\(k\)个特征值\(λ1λ2λn\),以及这\(n\)个特征值所对应的特征向量\(v1v2vn\),那么就有\(XV=VΣ\)。
其中,\(V\)是这\(n\)个特征向量所张成的n×n维矩阵而Σ为这n个特征值为主对角线的n×n维矩阵。进一步推导我们可以得到
\(XVV^{-1}=VΣV^{-1}\)-
\(XI=VΣV^{-1}\)-
\(X=VΣV^{-1}\)
如果我们会把\(V\)的这\(n\)个特征向量进行标准化处理,那么对于每个特征向量\(V\_i\),就有\(||V\_i||\_2=1\),而这表示\(V\_iV\_i=1\)此时V的n个特征向量为标准正交基满足\(VV=I\) 也就是说V为酉矩阵有\(V=V^{-1}\) 。这样一来,我们就可以把特征分解表达式写作\(X=VΣV\)。
我们以介绍PCA分析时所用的矩阵为例验证矩阵的特征分解。当时我们有一个
下面我们需要证明\(X=VΣV\)成立,我把推算的过程写在下面了。
讲到这里,相信你对矩阵的特征分解有了一定程度的认识。可是,矩阵\(X\)必须为对称方阵才能进行有实数解的特征分解。那么如果\(X\)不是方阵那么应该如何进行矩阵的分解呢这个时候就需要用到奇异值分解SVD了。
矩阵的奇异值分解
SVD分解和特征分解相比在形式上是类似的。假设矩阵\(X\)是一个m×n维的矩阵那么\(X\)的SVD为\(X=UΣV\)。
不同的地方在于SVD并不要求要分解的矩阵为方阵所以这里的\(U\)和\(V\)并不是互为逆矩阵。其中\(U\)是一个m×m维的矩阵\(V\)是一个n×n维的矩阵。而\(Σ\)是一个m×n维的矩阵对于\(Σ\)来说,只有主对角线之上的元素可以为非\(0\),其他元素都是\(0\),而主对角线上的每个元素就称为奇异值。\(U\)和\(V\)都是酉矩阵,即满足\(UU=I,VV=I\)。
现在问题来了我们应该如何求出用于SVD分解的\(U,Σ和V\)这三个矩阵呢之所以不能使用有实数解的特征分解是因为此时矩阵X不是对称的方阵。我们可以把\(X\)的转置\(X\)和\(X\)做矩阵乘法得到一个n×n维的对称方阵\(XX\)。这个时候,我们就能对\(XX\)这个对称方阵进行特征分解了,得到的特征值和特征向量满足\((XX)v\_i=λ\_iv\_i\)。
这样一来,我们就得到了矩阵\(XX\)的\(n\)个特征值和对应的\(n\)个特征向量\(v\)。通过\(XX\)的所有特征向量构造一个n×n维的矩阵\(V\)这就是上述SVD公式里面的\(V\)矩阵了。通常我们把\(V\)中的每个特征向量叫作\(X\)的右奇异向量。
同样的道理如果我们把X和X做矩阵乘法那么会得到一个m×m维的方阵XX。由于XX也是方阵因此我们同样可以对它进行特征分解得到的特征值和特征向量满足\((XX)u\_i=λ\_iu\_i\)。
类似地,我们得到了矩阵\(XX\)的m个特征值和对应的m个特征向量\(u\)。通过XX的所有特征向量构造一个m×m的矩阵\(U\)。这就是上述SVD公式里面的\(U\)矩阵了。通常我们把U中的每个特征向量叫作X的左奇异向量。
现在,包含左右奇异向量的\(U\)和\(V\)都求解出来了,只剩下奇异值矩阵\(Σ\)了。之前我提到,\(Σ\)除了对角线上是奇异值之外,其他位置的元素都是\(0\),所以我们只需要求出每个奇异值\(σ\)就可以了。这个解可以通过下面的公式推导求得:
\(X=UΣV\)-
\(XV=UΣVV\)
由于\(V\)是酉矩阵,所以\(VV=I\),就有:
\(XV=UΣI\)-
\(XV=UΣ\)-
\(Xv\_i=σ\_iu\_i\)-
\(σ\_i=\\frac{Xv\_i}{u\_i}\)
其中\(v\_i\)和\(u\_i\)都是列向量。一旦我们求出了每个奇异值\(σ\),那么就能得到奇异值矩阵\(Σ\)。
通过上述几个步骤我们就能把一个mxn维的实数矩阵分解成\(X=UΣV\)的形式。说到这里你可能会疑惑把矩阵分解成这个形式有什么用呢实际上在不同的应用中这种分解表示了不同的含义。下面我会使用潜在语义分析的案例带你看看在发掘语义关系的时候SVD分解起到了怎样的关键作用。
潜在语义分析和SVD
在讲向量空间模型的时候,我解释了文档和词条所组成的矩阵。对于一个大的文档集合,我们首先要构造字典,然后根据字典构造每篇文档的向量,最后通过所有文档的向量构造矩阵。矩阵的行和列分别表示文档和词条。基于这个矩阵、向量空间中的距离、余弦夹角等度量,我们就可以进行基于相似度的信息检索或文档聚类。
不过最简单的向量空间模型采用的是精确的词条匹配它没有办法处理词条形态的变化、同义词、近义词等情况。我们需要使用拉丁语系的取词根Stemming操作并手动建立同义词、近义词词典。这些处理方式都需要人类的语义知识也非常依赖人工的干预。另外有些词语并不是同义词或者近义词但是相互之间也是有语义关系的。例如“学生”“老师”“学校”“课程”等等。
那么我们有没有什么模型可以自动地挖掘在语义层面的信息呢当然目前的计算机还没有办法真正理解人类的自然语言它们需要通过大量的数据来找到词语之间的关系。下面我们就来看看潜在语义分析LSALatent Semantic Analysis或者叫潜在语义索引LSILatent Semantic Index这种方法是如何做到这点的。
和一般的向量空间模型有所不同LSA通过词条和文档所组成的矩阵发掘词和词之间的语义关系并过滤掉原始向量空间中存在的一些“噪音”最终提高信息检索和机器学习算法的精确度。LSA主要包括以下这些步骤。
第一步,分析文档集合,建立表示文档和词条关系的矩阵。
第二步,对文档-词条矩阵进行SVD奇异值分解。在LSA的应用场景下分解之后所得到的奇异值σ对应了一个语义上的“概念”而\(σ\)值的大小表示这个概念在整个文档集合中的重要程度。\(U\)中的左奇异值向量表示了每个文档和这些语义“概念”的关系强弱,\(V\)中的右奇异值向量表示每个词条和这些语义“概念”的关系强弱。所以说SVD分解把原来的词条-文档关系,转换成了词条-语义概念-文档关系。
我画了一张图帮助你理解这个过程。
在这张图中我们有一个7×5维的矩阵\(X\)表示7个文档和5个单词。经过SVD分解之后我们得到了两个主要的语义概念一个概念描述了计算机领域另一个概念描述了医学领域。矩阵U描述文档和这两个概念之间的关系而矩阵\(V\)描述了各个词语和这两个概念之间的关系。如果要对文档进行检索,我们可以使用\(U\)这个降维之后的矩阵找到哪些文档和计算机领域相关。同样对于聚类算法我们也可以使用U来判断哪些文档属于同一个类。
第三步对SVD分解后的矩阵进行降维这个操作和PCA主成分分析的降维操作是类似的。
第四步,使用降维后的矩阵重新构建概念-文档矩阵,新矩阵中的元素不再表示词条是不是出现在文档中,而是表示某个概念是不是出现在文档中。
总的来说LSA的分解不仅可以帮助我们找到词条之间的语义关系还可以降低向量空间的维度。在这个基础之上再运行其他的信息检索或者机器学习算法就更加有效。
总结
之前介绍的PCA主成分分析要求矩阵必须是对称的方阵因此只适用于刻画特征之间关系的协方差矩阵。但是有的时候我们需要挖掘的是样本和特征之间的关系例如文档和词条。这个时候矩阵并不是对称的方阵因此无法直接使用PCA分析。
为此SVD奇异值分解提供了一种可行的方案。它巧妙地运用了矩阵X和自己的转置相乘生成了两种对称的方阵并通过这两者的特征分解获得了SVD中的左奇异向量所组成的矩阵U和右奇异向量所组成的矩阵V并最终推导出奇异值矩阵Σ。这样SVD就可以对原始的数据矩阵进行分解并运用最终的奇异向量进行降维。
我们可以把SVD运用在很多场合中在不同的应用场景下\(UV\)和\(Σ\)代表了不同的含义。例如在LSA分析中通过对词条和文档矩阵的SVD分解我们可以利用Σ获得代表潜在语义的一些概念。而矩阵\(U\)表示了这些概念和文档之间的关系,矩阵\(V\)表示了这些概念和单个词语之间的关系。
思考题
请使用你自己熟悉的语言实现SVD分解。提示如果使用Python等科学计算语言你可以参考本节所讲述的矩阵分解步骤也可以使用一些现成的科学计算库。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,103 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
45 线性代数篇答疑和总结:矩阵乘法的几何意义是什么?
你好,我是黄申。今天是线性代数的答疑和总结。
在这个模块中我们讲了不少向量、矩阵、线性方程相关的内容。看到大家在留言区的问题今天我重点说说矩阵乘法的几何意义以及为什么SVD中\(XX\)的特征向量组成了\(V\)矩阵,而\(XX\)的特征向量组成了\(U\)矩阵。最后,我会对整个线性代数的模块做一个总结。
矩阵乘法的几何意义
首先,我们来说说矩阵乘法所代表的几何意义。
在阐述PCA主成分分析的时候我们聊过为什么这个方法要研究协方差矩阵的特征值和特征向量。其中我提到对某个向量左乘一个矩阵实际上是对这个向量进行了一次变换。某个矩阵的特征向量表示了这个矩阵在空间中的变换方向这些方向都是正交或者趋于正交的而特征值表示每个方向上伸缩的比例。今天我会继续深入这个话题结合实例给出更详细地解释。
多维的向量空间很难理解所以我们还是从最简单的二维空间开始。首先我们需要明白什么是二维空间中的正交向量。正交向量的定义非常简单只要两个向量的点乘结果为0那么它们就是正交的。在酉矩阵之中矩阵和矩阵的转置相乘为单位矩阵只有向量自己点乘自己值为1而不同向量之间点乘值为0所以不同的向量之间是正交的。
理解了正交向量之后,我们来定义一个二维空间,这个空间的横坐标为\(x\),纵坐标为\(y\),空间中的一个点坐标为\((1,2)\),对于这个点,我们可以把从原点到它的直线投影到\(x\)轴和\(y\)轴,这个直线在\(x\)轴上投影的长度为1在y轴上投影的长度为2。我使用下图来表示。
对于这个点,我们使用一个矩阵\(X\_1\)左乘这个点的坐标,你可以看看会发生什么。
我们把结果转成坐标系里的点,它的坐标是\((3, 4)\),把从原点到\((1,2)\)的直线,和从原点到\((3,4)\)的直线进行比较,你会发现直线发生了旋转,而且长度也发生了变化,这就是矩阵左乘所对应的几何意义。我们还可以对这个矩阵\(X\_1\)分析一下,看看它到底表示了什么含义,以及为什么它会导致直线的旋转和长度发生变化。
之前我讲过,要看一个矩阵的特征,需要分析它的特征向量和特征值。由于矩阵\(X\_1\)是一个对角矩阵所以特征值很容易求解分别是3和2。而对应的特征向量是\(\[1, 0\]\)和\(\[0, 1\]\)。在二维坐标中,坐标[1, 0]实际上表示的是\(x\)轴的方向,而[0, 1]实际上表示的是\(y\)轴的方向。特征值3对应特征向量[1, 0]就表明在\(x\)轴方向拉伸为原来的3倍特征值2对应特征向量[0, 1]就表明在\(y\)轴方向拉伸2倍。所以矩阵\(X\_1\)的左乘,就表示把原有向量在\(x\)轴上拉伸为原来的3倍而在\(y\)轴上拉伸为原来的2倍。我用下面这张图来展示。
我们还可以从另一个角度来验证这点,把从原点到\((3, 4)\)的直线进行分解,我们会发现这个直线在\(x\)轴上投影的长度为3为原来的3倍而在\(y\)轴上投影的长度为4为原来的2倍。
当然,矩阵的特征向量不一定是\(x\)轴和\(y\)轴,它们可以是二维空间中任何相互正交的向量。下面,我们再来看一个稍微复杂一点的例子。这次我们从两个正交的向量开始。
我使用下面这张图展示了这两个向量在空间的方向。
然后我用这两个向量构建一个矩阵\(V\)。
之所以使用这样一个例子,是因为\(V\)是一个酉矩阵,也就是说\(VV=I\),所以我们可以使用它,外加一个特征值组成的对角矩阵\(Σ\),来构建另一个用于测试的矩阵\(X\_2\)。我在SVD的那一讲介绍过对称方阵可以进行特征值分解所以我们可以通过\(V\)和\(Σ\),获得一个对称方阵\(X\_2=VΣV\)。
我们假设两个特征值分别是0.5和2所以有
根据我们之间的解释,如果让这个矩阵\(X\_2\)左乘任何一个向量,就是让向量沿\(\[\\frac{1}{\\sqrt{2}} \\frac{1}{\\sqrt{2}}\]\)方向压缩一半,而在\(\[\\frac{1}{\\sqrt{2}} \\frac{-1}{\\sqrt{2}}\]\)方向增加两倍。为了验证这一点,我们让\(X\_2\)左乘向量\((1, 2)\),获得新向量:
把这个新的坐标\((-0.25, 1.75)\)和原坐标\((1,2)\)都放到二维坐标系中,并让它们分别在\(\[\\frac{1}{\\sqrt{2}} \\frac{1}{\\sqrt{2}}\]\)和\(\[\\frac{1}{\\sqrt{2}} \\frac{-1}{\\sqrt{2}}\]\)这两个方向进行投影,然后比较一下投影的长度,你就会发现伸缩的变化了。我使用下面这张图来帮你理解。
弄清楚了矩阵左乘向量的几何意义,那么矩阵左乘矩阵的几何意义也就不难理解了。假设我们让矩阵\(X\)左乘矩阵\(Y\),那么可以把右矩阵\(Y\)看作一堆列向量的集合,而左乘矩阵\(X\)就是对每个\(Y\)中的列向量进行变换。另外,如果二维空间理解了,那么三维、四维直到\(n\)维空间就可以以此类推了。
SVD分解中的\(U\)和\(V\)矩阵
在讲解SVD奇异值分解的时候我们解释了\(XX\)的特征向量组成了SVD中的\(V\)矩阵,而\(XX\)的特征向量组成了SVD中的\(U\)矩阵。不过,我们还没有证明这两点。今天我来说说如何证明它们。首先,我们来看看\(V\)矩阵的证明。
\(X=UΣV\)-
\(X=VΣU\)-
\(XX=(VΣU)(UΣV)=VΣ(UU)ΣV=VΣ^2V)\)
其中,\((UΣV)=VΣU\)的证明,我们在最小二乘法的讲解过程中证明过。另外,\(U\)是酉矩阵,所以\(UU=I\)。\(Σ\)是对角矩阵,所以\(Σ’Σ=Σ2\),而且\(Σ2\)仍然是对角矩阵。
由于\(Σ2\)是对角矩阵,所以通过\(XX=VΣ2V\),我们可以看出\(V\)中的向量就是\(XX\)的特征向量,而特征值是\(Σ2\)对角线上的值。
同理,我们也可以证明\(U\)中的向量就是\(XX\)的特征向量。
\(X=UΣV\)-
\(X=VΣU\)-
\(XX=(UΣV)(VΣU)=UΣ(VV)ΣU=UΣ^2U)\)
从这个证明的过程我们也发现了XX或者XX特征值矩阵等于奇异值矩阵的平方也就是说我们可以通过求出XX特征值的平方根来求奇异值。
总结
回答完两个问题之后,我来总结一下线性代数这个模块。
线性代数最基本的概念包括了向量、矩阵以及对应的操作。向量表示了一组数的概念非常适合表示一个对象的多维特征因此被广泛的运用在信息检索和机器学习的领域中。而矩阵又包含了多个向量所以适合表示多个数据对象的集合。同时矩阵也可以用于表达二维关系例如网页的邻接矩阵用户对物品的喜好程度关键词在文档中的tf-idf等等。
由于向量和矩阵的特性我们可以把它们运用在很多算法和模型之中。向量空间模型定义了向量之间的距离或者余弦夹角我们可以利用这些指标来衡量数据对象之间的相似程度并把这种相似程度用于定义查询和文档之间的相关性或者是文档聚类时的归属关系。矩阵的运算体现了对多个向量同时进行的操作比如最常见的左乘就可以用在计算PageRank值协同过滤中的用户或者物品相似度等等。
当然矩阵的运用还不只计算数据对象之间的关系。最小二乘法的实现、PCA主成分的分析、SVD奇异值的分解也可以基于矩阵的运算。这些都可以帮助我们发现不同维度特征之间的关系并利用这些关系找到哪些特征更为重要选择或者创建更为重要的特征。
有的时候,线性代数涉及的公式和推导比较繁琐。在思考的过程中,我们可以把矩阵的操作简化为向量之间的操作,而把向量之间的操作简化为多个变量之间的运算。另外,我们可以多结合实际的案例,结合几何空间、动手推算,甚至可以编程实现某些关键的模块,这些都有利于理解和记忆。
思考题
我想听你说说,学习完了编程领域中常用的线性代数知识,你有哪些收获和心得?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,87 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
46 缓存系统:如何通过哈希表和队列实现高效访问?
你好,我是黄申。
经过前三大模块的学习,我带你纵览了数学在各个计算机编程领域的重要应用。离散数学是基础数据结构和编程算法的基石,而概率统计论和线性代数,是很多信息检索和机器学习算法的核心。
因此,今天开始,我会综合性地运用之前所讲解的一些知识,设计并实现一些更有实用性的核心模块或者原型系统。通过这种基于案例的讲解,我们可以融会贯通不同的数学知识,并打造更加高效、更加智能的计算机系统。首先,让我们从一个缓存系统入手,开始综合应用篇的学习。
什么是缓存系统?
缓存Cache是计算机系统里非常重要的发明之一它在编程领域中有非常非常多的应用。小到电脑的中央处理器CPU、主板、显卡等硬件大到大规模的互联网站点都在广泛使用缓存来提升速度。而在网站的架构设计中一般不会像PC电脑那样采用高速的缓存介质而是采用普通的服务器内存。但是网站架构所使用的内存容量大得多至少是数个吉字节 GB
我们可以把缓存定义为数据交换的缓冲区。它的读取速度远远高于普通存储介质,可以帮助系统更快地运行。当某个应用需要读取数据时,会优先从缓存中查找需要的内容,如果找到了则直接获取,这个效率要比读取普通存储更高。如果缓存中没有发现需要的内容,再到普通存储中寻找。
理解了缓存的概念和重要性之后,我们来看下缓存设计的几个主要考量因素。
第一个因素是硬件的性能。缓存的应用场景非常广泛,因此没有绝对的条件来定义何种性能可以达到缓存的资格,我们只要确保以高速读取介质可以充当相对低速的介质的缓冲。
第二个因素是命中率。缓存之所以能提升访问速度主要是因为能从高速介质读取这种情况我们称为“命中”Hit。但是高速介质的成本是非常昂贵的而且一般也不支持持久化存储因此放入数据的容量必须受到限制只能是全局信息的一部分。那么一定是有部分数据无法在缓存中读取而必须要到原始的存储中查找这种情况称之为“错过”Missed
我们通常使用能够在缓存中查找到数据的次数(\(|H|\)),除以整体的数据访问次数(\(|V|\))计算命中率。如果命中率高,系统能够频繁地获取已经在缓存中驻留的数据,速度会明显提升。
\(HitRatio=\\frac{|H|}{|V|}\)
接下来的问题就是,如何在缓存容量有限的情况下,尽可能的提升命中率呢?人们开始研究缓存的淘汰算法,通过某种机制将缓存中可能无用的数据剔除,然后向剔除后空余的空间中补充将来可能会访问的数据。
最基本的策略包括最少使用LFULeast Frequently Used策略和最久未用LRULeast Recently Used策略。LFU会记录每个缓存对象被使用的频率并将使用次数最少的对象剔除。LRU会记录每个缓存对象最近使用的时间并将使用时间点最久远的对象给剔除。很显然我们都希望缓存的命中率越高越好。
第三个因素是更新周期。虽然缓存处理的效率非常高,但是,被访问的数据不会一成不变,对于变化速度很快的数据,我们需要将变动主动更新到缓存中,或者让原有内容失效,否则用户将读取到过时的内容。在无法及时更新数据的情况下,高命中率反而变成了坏事,轻则影响用户交互的体验,重则会导致应用逻辑的错误。
为了方便你的理解,我使用下面这张图,来展现这几个主要因素之间的关系,以及缓存系统的工作流程。
如何设计一个缓存系统?
了解这些基本概念之后我们就可以开始设计自己的缓存系统了。今天我重点讲解如何使用哈希表和队列来设计一个基于最久未用LRU策略的缓存。
从缓存系统的工作流程可以看出首先我们需要确认某个被请求的数据是不是存在于缓存系统中。对于这个功能哈希表是非常适合的。第2讲我讲过哈希的概念我们可以通过哈希值计算快速定位加快查找的速度。不论哈希表中有多少数据读取、插入和删除操作只需要耗费接近常量的时间也就是O (1)的时间复杂度 ,这正好满足了缓存高速运作的需求。
在第18讲我讲了用数组和链表来构造哈希表。在很多编程语言中哈希表的实现采用的是链地址哈希表。这种方法的主要思想是先分配一个很大的数组空间而数组中的每一个元素都是一个链表的头部。随后我们就可以根据哈希函数算出的哈希值也叫哈希的key找到数组的某个元素及对应的链表然后把数据添加到这个链表中。之所以要这样设计是因为存在哈希冲突。所以我们要尽量找到一个合理的哈希函数减少冲突发生的机会提升检索的效率。
接下来我们来聊聊缓存淘汰的策略。这里我们使用LRU最久未用策略。在这种策略中系统会根据数据最近一次的使用时间来排序使用时间最久远的对象会被淘汰。考虑到这个特性我们可以使用队列。我在讲解广度优先搜索策略时谈到了队列。这是一种先进先出的数据结构先进入队列的元素会优先得到处理。如果充分利用队列的特点我们就很容易找到上一次使用时间最久的数据具体的实现过程如下。
第一,根据缓存的大小,设置队列的最大值。通常的做法是使用缓存里所能存放数据记录量的上限,作为队列里结点的总数的上限,两者保持一致。
第二,每次访问一个数据后,查看是不是已经存在一个队列中的结点对应于这个数据。如果不是,创造一个对应于这个数据的队列结点,加入队列尾部。如果是,把这个数据所对应的队列结点重新放入队列的尾部。需要注意,这一点是至关重要的。因为这种操作可以保证上一次访问时间最久的数据,所对应的结点永远在队列的头部。
第三,如果队列已满,我们就需要淘汰一些缓存中的数据。由于队列里的结点和缓存中的数据记录量是一致的,所以队列里的结点数达到上限值,也就意味着缓存也已经满了。刚刚提到,由于第二点的操作,我们只需要移除队列头部的结点就可以了。
综合上述关于哈希表和队列的讨论,我们可以画出下面这张框架图。
从这张图可以看到我们使用哈希表来存放需要被缓存的内容然后使用队列来实现LRU策略。每当数据请求进来的时候缓存系统首先检查数据记录是不是已经存在哈希表中。如果不存在那么就返回没有查找到不会对哈希表和队列进行任何的改变如果已经存在就直接从哈希表读取并返回。
与此同时,在队列中进行相应的操作,标记对应记录最后访问的次序。队列头部的结点,对应即将被淘汰的记录。如果缓存或者说队列已满,而我们又需要插入新的缓存数据,那么就需要移除队列头部的结点,以及它所对应的哈希表结点。
接下来我们结合这张图以请求数据记录175为例详细看看在这个框架中每一步是如何运作的。
这里的哈希表所使用的散列函数非常简单是把数据的所有位数加起来再对一个非常大的数值例如10^6求余。那么175的哈希值就是(1+7+5)/10^6=13。通过哈希值13找到对应的链表然后进行遍历找到记录175。这个时候我们已经完成了从缓存中获取数据。
不过由于使用了LRU策略来淘汰旧的数据所以还需要对保存访问状态的队列进行必要的操作。检查队列我们发现表示175的结点已经在队列之中了说明最近这条数据已经被访问过所以我们要把这个结点挪到队列的最后让它远离被淘汰的命运。
我们再来看另一个例子假设这次需要获取的是数据记录1228这条记录并不在缓存之中因此除了从低速介质返回获取的记录我们还要把这个数据记录放入缓存区并更新保存访问状态的队列。和记录175不同的是1228最近没有被访问过所以我们需要在队列的末尾增加一个表示1201的结点。这个时候队列已经满了我们需要让队列头部的结点73出队然后把相应的记录73从哈希表中删除最后把记录1228插入到哈希表中作为缓存。
总结
当今的计算机系统中缓存扮演着非常重要的角色小到CPU大到互联网站点我们都需要使用缓存来提升系统性能。基于哈希的数据结构可以帮助我们快速的获取数据所以非常适合运用在缓存系统之中。
不过缓存都需要相对昂贵的硬件来实现因此大小受到限制。所以我们需要使用不同的策略来淘汰不经常使用的内容取而代之一些更有可能被使用的内容增加缓存的命中率进而提升缓存的使用效果。为了实现这个目标人们提出了多种淘汰的策略包括LRU和LFU。
综合上面两点,我们提出一种结合哈希表和队列的缓存设计方案。哈希表负责快速的存储和更新被缓存的内容,而队列负责管理最近被访问的状态,并告知系统哪些数据是要被淘汰并从哈希表中移除。
思考题
请根据今天所讲解的设计思想尝试编码实现一个基于LRU淘汰策略的缓存。哈希表部分可以直接使用编程语言所提供的哈希类数据结构。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,93 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
47 搜索引擎(上):如何通过倒排索引和向量空间模型,打造一个简单的搜索引擎?
你好,我是黄申。
上一节,我们充分利用了哈希表时间复杂度低的特点,设计了一个简单的缓存系统。在实际项目中,哈希表或者类似的哈希数据结构,有着更为广泛的运用。比如,搜索引擎中的倒排索引,也是基于哈希表结构来设计的。这种倒排索引可以大大提升数据对象的检索效率。
除了搜索的效率,搜索引擎另一个需要考虑的问题是相关性,也就是说,我们需要保证检索出来的信息是满足用户需求的。最简单的基于倒排索引的实现,属于一种布尔排序模型,它只考虑了单词是不是出现在文档之中,如果出现了就返回相应的文档,否则就不返回,对应于布尔模型中的真假值。在这种实现中,只要出现了相关搜索词的文档都会被检索出来,因此相关性比较差。对于这点,我们可以利用向量空间模型,来衡量文档和用户查询之间的相似程度,确保两者是相关的。不过,向量空间模型需要涉及两两之间的比较,时间复杂度比较高。
考虑到上述两点,今天,我们就以文档检索为例,参照倒排索引加向量空间模型的设计思路,设计一个简单的搜索引擎。
搜索引擎的设计框架
之前在讲解向量空间模型的时候,我们介绍了信息检索的基础知识,而我们平时经常使用的搜索引擎,就是一种典型的信息检索系统。在讲解如何结合倒排索引和向量空间模型之前,我们先来看,常见的文本搜索引擎都由哪些模块组成。
文本搜索系统的框架通常包括2个重要模块离线的预处理和在线的查询。离线预处理也就是我们通常所说的“索引”阶段包括数据获取、文本预处理、词典和倒排索引的构建、相关性模型的数据统计等。数据的获取和相关性模型的数据统计这两步根据不同的应用场景必要性和处理方式有所不同。可是文本预处理和倒排索引构建这两个步骤无论在何种应用场景之中都是必不可少的所以它们是离线阶段的核心。之前我们讲过常规的文本预处理是指针对文本进行分词、移除停用词、取词干、归一化、扩充同义词和近义词等操作。
在第17讲里我讲解了如何使用倒排索引把文档集转换为从关键词到文档的这种查找关系。有了这种“倒排”的关系我们可以很高效地根据给定的单词找到出现过这个单词的文档集合。
倒排索引是典型的牺牲空间来换取时间的方法。我们假设文章总数是k每篇文章的单词数量是m查询中平均的关键词数量是l那么倒排索引可以把时间复杂度从O(k×logm)降到O(l)。但是,如果使用倒排索引,就意味着除了原始数据,我们还需要额外的存储空间来放置倒排索引。因此,如果我们的字典里,不同的词条总数为\(n\_1\),每个单词所对应的文章平均数为\(n\_2\)那么空间复杂度就是O(\(n\_1\)×\(n\_2\))。
在文本的离线处理完毕后,我们来看在线的文本查询。这个过程相对简单。
查询一般都会使用和离线模块一样的预处理,词典也是沿用离线处理的结果。当然,也可能会出现离线处理中未曾出现过的新词,我们一般会忽略或给予非常小的权重。在此基础上,系统根据用户输入的查询条件,在倒排索引中快速检出文档,并进行相关性的计算。
不同的相关性模型有不同的计算方式。最简单的布尔模型只需要计算若干匹配条件的交集向量空间模型VSM则需要计算查询向量和待查文档向量的余弦夹角而语言模型需要计算匹配条件的贝叶斯概率等等。
综合上述的介绍,我使用下面这张图来展示搜索引擎的框架设计。
倒排索引的设计
我们之前已经把倒排索引的概念讲清楚了。不过到具体设计的时候,除了从关键词到文档这种“倒排”的关系,还有其它两个要点值得考虑:第一个是倒排索引里具体存储什么内容,第二个就是多个关键词的查询结果如何取交集。我们下面一个个来看。
首先我们来聊聊倒排索引里具体存放的内容。
从倒排索引的概念我们很容易就想到使用哈希表、尤其是基于链式地址法的哈希表来实现倒排索引。哈希的键key就是文档词典的某一个词条value就是一个链表链表是出现这个词条的所有文档之集合而链表的每一个结点就表示出现过这个词条的某一篇文档。这种最简单的设计能够帮助我们判断哪些文档出现过给定的词条因此它可以用于布尔模型。但是如果我们要实现向量空间模型或者是基于概率的检索模型就需要很多额外的信息比如词频tf、词频-逆文档频率tf-idf、词条出现的条件概率等等。
另外有些搜索引擎需要返回匹配到的信息摘要nippet因此还需要记住词条出现的位置。这个时候最简单的倒排索引就无法满足我们的需求了。我们要在倒排索引中加入更多的信息。每个文档列表中存储的不仅仅是文档的ID还有其他额外的信息。我使用下面这张图展示了一个示例帮助你理解这种新的设计。
其中ID字段表示文档的IDtf字段表示词频tfidf字段表示词频-逆文档频率而prob表示这个词条在这篇文档中出现的条件概率。
好了,下面我们来看,如何确定出现所有多个关键词的文档。
由于倒排索引本身的特性,我们可以很快知道某一个词条对应的文档,也就是说查找出现某一个词条的所有文档是很容易的。可是,如果用户的查询包含多个关键词,那么该如何利用倒排索引,查找出现多个词条的所有文档呢?
还记得我讲解分治法时所提到的归并排序吗在这里我们可以借鉴其中的合并步骤。假设有两个词条a和ba对应的文档列表是Ab对应的文档列表是B而A和B这两个列表中的每一个元素都包含了文档的ID。
首先我们根据文档的ID分别对这两个列表进行从小到大的排序然后依次比较两个列表的文档ID如果当前的两个ID相等就表示这个ID所对应的文档同时包含了a和b两个关键词所以是符合要求的进行保留然后两个列表都拿出下一个ID进行之后的对比。如果列表A的当前ID小于列表B的当前ID那么表明A中的这个ID一定不符合要求跳过它然后拿出A中的下一个ID和B进行比较。同样如果是列表B的第一个ID更小那么就跳过B中的这个ID拿出B中的下一个ID和A进行比较。依次类推直到遍历完所有A和B中的ID。
我画了张图来进一步解释这个过程。
基于这种两两比较的过程,我们可以推广到比较任意多的列表。此外,在构建倒排索引的时候,我们可以事先对每个词条的文档列表进行排序,从而避免了查询时候的排序过程,达到提升搜索效率的目的。
向量空间和倒排索引的结合
有了倒排索引的高效查询,向量空间的实现就不难了。还记得之前我们讲解的向量空间模型吗?这个模型假设所有的对象都可以转化为向量,然后使用向量间的距离(通常是欧氏距离)或者是向量间的夹角余弦来表示两个对象之间的相似程度。
在文本搜索引擎中我们使用向量来表示每个文档以及用户的查询而向量的每个分量由每个词条的tf-idf构成最终用户查询和文档之间的相似度或者说相关性由文档向量和查询向量的夹角余弦确定。如果能获取这个查询和所有文档之间的相关性得分那么我们就能对文档进行排序返回最相关的那些。不过当文档集合很大的时候这个操作的复杂度会很高。你可以观察一下这个夹角余弦的公式。
如果文档中词条的平均数量是n查询中词条的平均数量是m那么计算某个查询和某个文档之间的夹角余弦时间复杂度是O(n×m)。如果整个被索引的文档集合有k个文档那么计算某个查询和所有文档之间的夹角余弦时间复杂度就变为O(n×m×k)。
实际上很多文档并没有出现查询中的关键词条所以计算出来的夹角余弦都是0而这些计算都是可以完全避免的解决方案就是倒排索引。通过倒排索引我们挑选出那些出现过查询关键词的文档并仅仅针对这些文档进行夹角余弦的计算那么计算量就会大大减少。
此外我们之前设计的倒排索引也已经保存了tf-idf这种信息因此可以直接利用从倒排索引中取出的tf-idf值计算夹角余弦公式的分子部分。至于分母部分它包含了用户查询的向量和文档向量的L2范数。通常查询向量所包含的非0分量很少L2范数计算是很快的。而每篇文档的L2范数在文档没有更新的情况下是不变的因此我们可以在索引阶段就计算好并保持在额外的数据结构之中。
小结
目前,以搜索引擎为代表的信息检索技术已经相当成熟,无论是大型的互联网系统,还是小型的手机操作系统,都支持高效率的搜索。而搜索引擎最重要的核心就是及时性和相关性。及时性确保用户可以快速找到信息,而相关性确保所找到的信息是用户真正需要的。
在文本搜索中,倒排索引通过一种称为“索引”的过程,把文档到词条的关系,转化为词条到文档的逆关系,这样对于任何给定的关键词,我们可以很快地找到哪些文档包含这个关键词条。所以,倒排索引是搜索引擎提升及时性中非常关键的一步。倒排索引非常适合使用哈希表,特别是链地址型的哈希表来实现。
向量空间模型可以作为文本搜索的相关性模型。但是,它的计算需要把查询和所有的文档进行比较,时间复杂度太高,影响了及时性。这个时候,我们可以利用倒排索引,过滤掉绝大部分不包含查询关键词的文档。
思考题
请根据今天所讲解的设计思想,使用你熟悉的编程语言,来实现一个基于倒排索引和向量空间模型的文本搜索引擎。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,136 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
48 搜索引擎(下):如何通过查询的分类,让电商平台的搜索结果更相关?
你好,我是黄申。
上一节,我给你阐述了如何使用哈希的数据结构设计倒排索引,并使用倒排索引加速向量空间模型的计算。倒排索引提升了搜索执行的速度,而向量空间提升了搜索结果的相关性。
可是,在不同的应用场景,搜索的相关性有不同的含义。无论是布尔模型、向量空间模型、概率语言模型还是其他任何更复杂的模型,都不可能“一招鲜,吃遍天”。今天,我就结合自己曾经碰到的一个真实案例,为你讲解如何利用分类技术,改善搜索引擎返回结果的相关性。
你可能会觉得奇怪,这分类技术,不是监督式机器学习中的算法吗?它和信息检索以及搜索技术有什么关系呢?且听我慢慢说来。
电商搜索的难题
我曾经参与过一个电商的商品搜索项目。有段时间,用户时常反馈这么一个问题,那就是关键词搜索的结果非常不精准。比如搜索“牛奶”,会出现很多牛奶巧克力,甚至连牛奶色的连衣裙,都跑到搜索结果的前排了,用户体验非常差。但是,巧克力和连衣裙这种商品标题里确实存在“牛奶”的字样,如果简单地把“牛奶”字眼从巧克力和服饰等商品标题里去除,又会导致搜索“牛奶巧克力”或者“牛奶连衣裙”时无法展示相关的商品,这肯定也是不行的。
这种搜索不精确的情况十分普遍,还有很多其他的例子,比如搜索“橄榄油”的时候会返回热门的“橄榄油发膜”或“橄榄油护手霜”,搜索“手机”的时候会返回热门的“手机壳”和“手机贴膜”。另外,商品的品类也在持续增加,因此也无法通过人工运营来解决。
为了解决这个问题首先我们来分析一下产生问题的主要原因。目前多数的搜索引擎实现所采用的都是类似向量空间模型的相关性模型。所以在进行相关性排序的时候系统主要考虑的因素都是关键词的tf-idf、文档的长短、查询的长短等因素。这种方式非常适合普通的文本检索在各大通用搜索引擎里也被证明是行之有效的方法之一。但是经过我们的分析这种方式并不适合电子商务的搜索平台主要原因包括这样几点
第一点,商品的标题都非常短。电商平台上的商品描述,包含的内容太多,有时还有不少广告宣传,这些不一定是针对产品特性的信息,如果进入了索引,不仅加大了系统计算的时间和空间复杂度,还会导致较低的相关性。所以,商品的标题、名称和主要的属性成为搜索索引关注的对象,而这些内容一般短小精悍,不需要考虑其长短对于相关性衡量的影响。
第二点关键词出现的位置、词频对相关性意义不大。如上所述正是由于商品搜索主要关注的是标题等信息浓缩的字段因此某个关键词出现的位置、频率对于相关性的衡量影响非常小。如果考虑了这些反而容易被别有用心的卖家利用进行不合理的关键词搜索优化SEO导致最终结果的质量变差。
第三点,用户的查询普遍比较短。在电商平台上,顾客无需太多的关键词就能定位大概所需,因此查询的字数多少对于相关性衡量也没有太大意义。
因此,电商的搜索系统不能局限于关键词的词频、出现位置等基础特征,更应该从其他方面来考虑。
既然最传统的向量空间模型无法很好地解决商品的搜索,那么我们应该使用什么方法进行改进呢?回到我们之前所发现的问题,实际上主要纠结在一个“分类”的问题上。例如,顾客搜索“牛奶”字眼的时候,系统需要清楚用户是期望找到饮用的牛奶,还是牛奶味的巧克力或饼干。从这个角度出发考虑,我们很容易就考虑到了,是不是可以首先对用户的查询,进行一个基于商品目录的分类呢?如果可以,那么我们就能知道把哪些分类的商品排在前面,从而提高返回商品的相关性。
查询的分类
说到查询的分类,我们有两种方法可以尝试。第一种方法是在商品分类的数据上,运用朴素贝叶斯模型构建分类器。第二种方法是根据用户的搜索行为构建分类器。
在第一种方法中,商品分类数据和朴素贝叶斯模型是关键。电商平台通常会使用后台工具,让运营人员构建商品的类目,并在每个类目中发布相应的商品。这个商品的类目,就是我们分类所需的类别信息。由于这些商品属于哪个类目是经过人工干预和确认的,因此数据质量通常比较高。我们可以直接使用这些数据,构造朴素贝叶斯分类器。这里我们快速回顾一下朴素贝叶斯的公式。
之前我们提到过,商品文描中噪音比较多,因此通常我们只看商品的标题和重要属性。所以,上述公式中的\(f\_1f\_2……f\_k\),表示来自商品标题和属性的关键词。
相对于第一种方法,第二种方法更加巧妙。它的核心思想是观察用户在搜词后的行为,包括点击进入的详情页、把商品加入收藏或者是添加到购物车,这样我们就能知道,顾客最为关心的是哪些类目。
举个例子当用户输入关键词“咖啡”如果经常浏览和购买的品类是国产冲饮咖啡、进口冲饮咖啡和咖啡饮料那么这3个分类就应该排在更前面然后将其它虽然包含咖啡字眼但是并不太相关的分类统统排在后面。需要注意的是这种方法可以直接获取P(C|f),而无需通过贝叶斯理论推导。
上述这两种方法各有优劣。第一种方法的优势在于有很多的人工标注作为参考,因此不愁没有可用的数据。可是分类的结果受到商品分布的影响太大。假设服饰类商品的数量很多,而且有很多服饰都用到了“牛奶”的字眼,那么根据朴素贝叶斯分类模型的计算公式,“牛奶”这个词属于服饰分类的概率还是很高。第二种方法正好相反,它的优势在于经过用户行为的反馈,我们可以很精准地定位到每个查询所期望的分类,甚至在一定程度上解决查询季节性和个性化的问题。但是这种方法过度依赖用户的使用,面临一个“冷启动”的问题,也就说在搜索系统投入使用的初期,无法收集足够的数据。
考虑到这两个方法的特点,我们可以把它们综合起来使用,最简单的就是线性加和。
\(P(C|query)=w\_1·P\_1(C|query)+w\_2·P\_2(C|query)\)
其中,\(P\_1\)和\(P\_2\)分别表示根据第一种方法和第二种方法获得的概率,而权重\(w\_1\)和\(w\_2\)分别表示第一种方法和第二种方法的权重,可以根据需要设置。通常在一个搜索系统刚刚起步的时候,可以让\(w\_1\)更大。随着用户不断的使用,我们就可以让\(w\_2\)更大,让用户的参与使得系统更智能。
查询分类和搜索引擎的结合
一旦我们可以对商品查询进行更加准确地分类,那么就可以把这个和普通的搜索引擎结合起来。我使用下面的框架图来展示整个流程。
从这张图可以看到,我们使用商品目录打造一个初始版本的查询分类器。随着用户不断的使用这个搜索引擎,我们收集用户的行为日志,并使用这个日志改善查询的分类器,让它变得更加精准,然后再进一步优化搜索引擎的相关性。
我以Elasticsearch为例讲一下如何利用分类的结果改变搜索的排序。
Elasticsearch是一个基于Lucene的搜索服务器是流行的企业级搜索引擎之一目前最新版已经更新到6.6.x。Elasticsearch是基于Lucene的架构很多要素都是一脉相承的例如文档和字段的概念、相关性的模型、各种模式的查询等。也正是这个原因Elasticsearch默认的排序也采取了类似向量空间模型的方式。如果这种默认排序并不适用于商品搜索那么我们要如何修改呢
为了充分利用查询分类的结果首先要达到这样的目标对于给定的查询所有命中的结果的得分都是相同的。至少有两种做法修改默认的Similarity类的实现或者是使用过滤查询Filter Query
统一了基本的排序得分之后,我们就可以充分利用用户的行为数据,指导搜索引擎进行有针对性的排序改变,最终提升相关性。这里需要注意的是,由于这里排序的改变依赖于用户每次输入的关键词,因此不能在索引的阶段完成。
例如在搜索“牛奶巧克力”的时候理想的是将巧克力排列在前而搜索“巧克力牛奶”的时候理想的是将牛奶排列在前所以不能简单地在索引阶段就利用文档提升Document Boosting或字段提升Field Boosting
对于Elasticsearch而言它有个强大的Boost功能这个功能可以在查询阶段根据某个字段的值动态地修改命中结果的得分。假设我们有一个用户查询“米”根据分类结果我们知道“米”属于“大米”分类的概率为0.85属于“饼干”和“巧克力”分类的概率都为0.03。根据这个分类数据下面我使用了一段伪代码展示了加入查询分类后的Elasticsearch查询。
{
"query": {
"bool": {
"must": {
"match_all": {
}
},
"should": [
{
"match": {
"category_name": {
"query": "大米",
"boost": 0.85
}
}
},
{
"match": {
"category_name": {
"query": "饼干",
"boost": 0.03
}
}
},
{
"match": {
"category_name": {
"query": "巧克力",
"boost": 0.03
}
}
}
],
"filter": {
"term": {"listing_title" : "米"}
}
}
}
}
其中最主要的部分是增加了should的查询针对最主要的3个相关分类进行了boost操作。如果使用这个查询进行搜索你就会发现属于“大米”分类的商品排到了前列更符合用户的预期而且这完全是在没有修改索引的前提下实现的。
小结
相关性模型是搜索引擎非常核心的模块,它直接影响了搜索结果是不是满足用户的需求。我们之前讲解的向量空间模型、概率语言模型等常见的模型,逐渐成为了主流的相关性模型。不过这些模型通常适用于普通的文本检索,并没有针对每个应用领域进行优化。
在电商平台上,搜索引擎是帮助用户查找商品的好帮手。可是,直接采用向量空间模型进行排序往往效果不好。这主要是因为索引的标题和属性都很短,我们无法充分利用关键词的词频、逆文档频率等信息。考虑到搜索商品的时候,商品的分类对于用户更为重要,所以我们在设计相关性排序的时候需要考虑这个信息。
为了识别用户对哪类商品更感兴趣,我们可以对用户输入的查询进行分类。用于构建分类器的数据,可以是运营人员发布的商品目录信息,也可以是用户使用之后的行为日志。我们可以根据搜索系统运行的情况,赋予它们不同的权重。
如果我们可以对查询作出更为准确的分类那么就可以使用这个分类的结果来对原有搜索结果进行重新排序。现在的开源搜索引擎例如Elasticsearch都支持动态修改排序结果为我们结合分类器和搜索引擎提供了很大的便利。
思考题
通过用户行为反馈的数据,构建查询分类的时候,我们把整个查询作为了一个单词或者词组来处理。也就是说直接获取了\(P(C|f)\)的值。如果我们把这个查询看作是多个词的组合,也就是说获取的是\(P(C|f1,f2,…,fn)\),那我们可以如何改进这个基于用户行为反馈的分类模型呢?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,161 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
49 推荐系统(上):如何实现基于相似度的协同过滤?
你好,我是黄申。
个性化推荐这种技术在各大互联网站点已经普遍使用了系统会根据用户的使用习惯主动提出一些建议帮助他们发现一些可能感兴趣的电影、书籍或者是商品等等。在这方面最经典的案例应该是美国的亚马逊电子商务网站它是全球最大的B2C电商网站之一。在公司创立之初最为出名的就是其丰富的图书品类以及相应的推荐技术。亚马逊的推荐销售占比可以达到整体销售的30%左右。可见,对于公司来说,推荐系统也是销售的绝好机会。因此,接下来的两节,我会使用一个经典的数据集,带你进行推荐系统核心模块的设计和实现。
MovieLens数据集
在开始之前我们先来认识一个知名的数据集MovieLens。你可以在它的主页查看详细的信息。这个数据集最核心的内容是多位用户对不同电影的评分此外它也包括了一些电影和用户的属性信息便于我们研究推荐结果是不是合理。因此这个数据集经常用来做推荐系统、或者其他机器学习算法的测试集。
时至今日这个数据集已经延伸出几个不同的版本有不同的数据规模和更新日期。我这里使用的是一个最新的小规模数据集包含了600位用户对于9000部电影的约10万条评分最后更新于2018年9月。你可以在这里下载http://files.grouplens.org/datasets/movielens/ml-latest-small.zip。
解压了这个zip压缩包之后你会看到readme文件和四个csv文件ratings、movies、links和tags。其中最重要的是ratings它包含了10万条评分每条记录有4个字段包括userId、movieId、rating、timestamp。userId表示每位用户的idmovieId是每部电影的IDrating是这位用户对这部电影的评分取值为0-5分。timestamp是时间戳。而movies包含了电影的主要属性信息title和genres分别表示电影的标题和类型一部电影可以属于多种类型。links和tags则包含了电影的其他属性信息。我们的实验主要使用ratings和movies里的数据。
设计的整体思路
有了用于实验的数据接下来就要开始考虑如何设计这个推荐系统。我在第38期讲解了什么是协同过滤推荐算法、基于用户的协同过滤和基于物品的协同过滤。这一节我们就以协同过滤为基础分别实现基于用户和物品的过滤。
根据协同过滤算法的核心思想,整个系统可以分为三个大的步骤。
第一步用户评分的标准化。因为有些用户的打分比较宽松而有些用户打分则比较挑剔。所以我们需要使用标准化或者归一化让不同用户的打分具有可比性这里我会使用z分数标准化。
第二步,衡量和其他用户或者物品之间的相似度。我们这里的物品就是电影。在基于用户的过滤中,我们要找到相似的用户。在基于物品的过滤中,我们要找到相似的电影。我这里列出计算用户之间相似度\(us\)和物品之间相似度\(is\)的公式。之前我们讲过,这些都可以通过矩阵操作来实现。
我们以基于用户的过滤为例。假设我们使用夹角余弦来衡量相似度,那么我们就可以采用用户评分的矩阵点乘自身的转置来计算余弦夹角。用户评分的矩阵\(X\)中,每一行是某位用户的行向量,每个分量表示这位用户对某部电影的打分。而矩阵\(X\)的每一列是某个用户的列向量,每个分量表示用户对某部电影的打分。
我们假设\(XX\)的结果为矩阵\(Y\),那么\(y\_{i,j}\)就表示用户\(i\)和用户\(j\)这两者喜好度向量的点乘结果,它就是夹角余弦公式中的分子。如果\(i\)等于\(j\),那么这个计算值也是夹角余弦公式分母的一部分。从矩阵的角度来看,\(Y\)中任何一个元素都可能用于夹角余弦公式的分子,而对角线上的值会用于夹角余弦公式的分母。因此,我们可以利用\(Y\)来计算任何两个用户之间的相似度。
之前我们使用了一个示例讲解过对于基于用户的协同过滤,如何计算矩阵\(Y\),以及如何使用\(Y\)来计算余弦夹角,我这里列出来给你参考。
第三步根据相似的用户或物品给出预测的得分p。
之前我们也解释过如何使用矩阵操作来实现这一步。还是以基于用户的过滤为例。假设通过第二步,我们已经得到用户相似度矩阵\(US\)\(US\)和评分矩阵\(X\)的点乘结果为矩阵\(USP\)。沿用前面的示例,结果就是下面这样。
然后对\(US\)按行求和,获得矩阵\(USR\)。
最终,我们使用\(USP\)和\(USR\)的元素对应除法,就可以求得任意用户对任意电影的评分矩阵\(P\)。
有了这个设计的思路下面我们就可以使用Python进行实践了。
核心Python代码
在实现上述设计的三个主要步骤之前我们还需要把解压后的csv文件加载到数组并转为矩阵。下面我列出了主要的步骤和注释。需要注意的是由于这个数据集中的用户和电影ID都是从1开始而不是从0开始所以需要减去1才能和Python数组中的索引一致。
import pandas as pd
from numpy import *
# 加载用户对电影的评分数据
df = pd.read_csv("/Users/shenhuang/Data/ml-latest-small/ratings.csv")
# 获取用户的数量和电影的数量
user_num = df["userId"].max()
movie_num = df["movieId"].max()
# 构造用户对电影的二元关系矩阵
user_rating = [[0.0] * movie_num for i in range(user_num)]
i = 0
for index, row in df.iterrows(): # 获取每行的index、row
# 由于用户和电影的ID都是从1开始为了和Python的索引一致减去1
userId = int(row["userId"]) - 1
movieId = int(row["movieId"]) - 1
# 设置用户对电影的评分
user_rating[userId][movieId] = row["rating"]
# 显示进度
i += 1
if i % 10000 == 0:
print(i)
# 把二维数组转化为矩阵
x = mat(user_rating)
print(x)
加载了数据之后,第一步就是对矩阵中的数据,以行为维度,进行标准化。
# 标准化每位用户的评分数据
from sklearn.preprocessing import scale
# 对每一行的数据,进行标准化
x_s = scale(x, with_mean=True, with_std=True, axis=1)
print("标准化后的矩阵:", x_s)
第二步是计算表示用户之间相似度的矩阵US。其中y变量保存了矩阵X左乘转置矩阵X的结果。而利用y变量中的元素我们很容易就可以得到不同向量之间的夹角余弦。
# 获取XX'
y = x_s.dot(x_s.transpose())
print("XX'的结果是'", y)
# 获得用户相似度矩阵US
us = [[0.0] * user_num for i in range(user_num)]
for userId1 in range(user_num):
for userId2 in range(user_num):
# 通过矩阵Y中的元素计算夹角余弦
us[userId1][userId2] = y[userId1][userId2] / sqrt((y[userId1][userId1] * y[userId2][userId2]))
在最后一步中,我们就可以进行基于用户的协同过滤推荐了。需要注意的是,我们还需要使用元素对应的除法来实现归一化。
# 通过用户之间的相似度计算USP矩阵
usp = mat(us).dot(x_s)
# 求用于归一化的分母
usr = [0.0] * user_num
for userId in range(user_num):
usr[userId] = sum(us[userId])
# 进行元素对应的除法,完成归一化
p = divide(usp, mat(usr).transpose())
我们可以来看一个展示推荐效果的例子。在原始的评分数据中我们看到ID为1的用户并没有对ID为2的电影进行评分。而在最终的矩阵P中我们可以看出系统对用户1给电影2的评分做出了较高的预测换句话说系统认为用户1很可能会喜好电影2。进一步研究电影的标题和类型我们会发现用户1对《玩具总动员》1995年这类冒险类和动作类的题材更感兴趣所以推荐电影2《勇敢者的游戏》1995年也是合理的。
总结
在今天的内容中,我通过一个常用的实验数据,设计并实现了最简单的基于用户的协同过滤。我们最关心的是这个数据中,用户对电影的评分。有了这种二元关系,我们就能构建矩阵,并通过矩阵的操作来发现用户或物品之间的相似度,并进行基于用户或者物品的协同过滤。对于最终的计算结果,你可以尝试分析针对不同用户的推荐,看看协同过滤推荐的效果是不是合理。
在你分析推荐结果的时候可能会参考movie.csv这个文件中所描述的电影类型。这些电影类型都是一开始人工标注好的。那么有没有可能在没有这种标注数据的情况下在一定程度上自动分析哪些电影属于同一个或者近似的类型呢如果可以有没有可能在这种自动划分电影类型的基础之上给出电影的推荐呢下一节我会通过SVD奇异值分解来进行这个方向的尝试。
思考题
今天我使用Python代码实现了基于用户的协同过滤。类似地我们也可以采用矩阵操作来实现基于物品的协同过滤请使用你擅长的语言来实现试试。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,203 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
50 推荐系统如何通过SVD分析用户和物品的矩阵
你好,我是黄申。
上一节我们讲了如何使用矩阵操作实现基于用户或者物品的协同过滤。实际上推荐系统是个很大的课题你可以尝试不同的想法。比如对于用户给电影评分的案例是不是可以使用SVD奇异值的分解来分解用户评分的矩阵并找到“潜在”的电影主题呢如果在一定程度上实现这个目标那么我们可以通过用户和主题以及电影和主题之间的关系来进行推荐。今天我们继续使用MovieLens中的一个数据集尝试Python代码中的SVD分解并分析一些结果所代表的含义。
SVD回顾以及在推荐中的应用
在实现SVD分解之前我们先来回顾一下SVD的主要概念和步骤。如果矩阵\(X\)是对称的方阵,那么我们可以求得这个矩阵的特征值和特征向量,并把矩阵\(X\)分解为特征值和特征向量的乘积。
假设我们求出了矩阵\(X\)的\(n\)个特征值\(λ\_1λ\_2λ\_n\),以及这\(n\)个特征值所对应的特征向量\(v\_1v\_2v\_n\),那么矩阵\(X\)可以表示为:
\(X=VΣV^{-1}\)
其中,\(V\)是这\(n\)个特征向量所组成的\(n×n\)维矩阵,而\(Σ\)是这\(n\)个特征值为主对角线的\(n×n\)维矩阵。这个过程就是特征分解Eigendecomposition
如果我们会把\(V\)的这\(n\)个特征向量进行标准化处理,那么对于每个特征向量\(V\_i\),就有\(||V\_{i}||\_{2}=1\),而这表示\(V\_iV\_i=1\),此时\(V\)的\(n\)个特征向量为标准正交基,满足\(VV=I\) 也就是说,\(V\)为酉矩阵,有\(V=V^{-1}\) 。这样一来,我们就可以把特征分解表达式写作:
\(X=VΣV'\)
可是,如果矩阵\(X\)不是对称的方阵那么我们不一定能得到有实数解的特征分解。但是SVD分解可以避免这个问题。
我们可以把\(X\)的转置\(X\)和\(X\)做矩阵乘法,得到一个\(n×n\)维的对称方阵\(XX\),并对这个对称方阵进行特征分解。分解的时候,我们得到了矩阵\(XX\)的\(n\)个特征值和对应的\(n\)个特征向量\(v\),其中所有的特征向量叫作\(X\)的右奇异向量。通过所有右奇异向量我们可以构造一个\(n×n\)维的矩阵\(V\)。
类似地,如果我们把\(X\)和\(X\)做矩阵乘法,那么会得到一个\(m×m\)维的对称方阵\(XX\)。由于\(XX\)也是方阵,因此我们同样可以对它进行特征分解,并得到矩阵\(XX\)的\(m\)个特征值和对应的\(m\)个特征向量\(u\),其中所有的特征向量向叫作\(X\)的左奇异向量。通过所有左奇异向量我们可以构造一个\(m×m\)的矩阵\(U\)。
现在,包含左右奇异向量的\(U\)和\(V\)都求解出来了,只剩下奇异值矩阵\(Σ\)了。\(Σ\)除了对角线上是奇异值之外其他位置的元素都是0所以我们只需要求出每个奇异值\(σ\)就可以了。之前我们已经推导过,\(σ\)可以通过两种方式获得。第一种方式是计算下面这个式子:
\(σ\_i=\\frac{X\_{v\_{i}}}{u\_{i}}\)
其中\(v\_i\)和\(u\_i\)都是列向量。一旦我们求出了每个奇异值\(σ\),那么就能得到奇异值矩阵\(Σ\)。
第二种方式是通过\(XX\)矩阵或者\(XX\)矩阵的特征值之平方根,来求奇异值。计算出每个奇异值\(σ\),那么就能得到奇异值矩阵\(Σ\)了。
通过上述几个步骤,我们就能把一个\(mxn\)维的实数矩阵,分解成\(X=UΣV\)的形式。那么这种分解对于推荐系统来说,又有怎样的意义呢?
之前我讲过在潜在语义分析LSA的应用场景下分解之后所得到的奇异值\(σ\),对应一个语义上的“概念”,而\(σ\)值的大小表示这个概念在整个文档集合中的重要程度。\(U\)中的左奇异向量表示了每个文档和这些语义“概念”的关系强弱,\(V\)中的右奇异向量表示每个词条和这些语义“概念”的关系强弱。
最终SVD分解把原来的“词条-文档”关系,转换成了“词条-语义概念-文档”的关系。而在推荐系统的应用场景下对用户评分矩阵的SVD分解能够帮助我们找到电影中潜在的“主题”比如科幻类、动作类、浪漫类、传记类等等。
分解之后所得到的奇异值\(σ\)对应了一个“主题”,\(σ\)值的大小表示这个主题在整个电影集合中的重要程度。\(U\)中的左奇异向量表示了每位用户对这些“主题”的喜好程度,\(V\)中的右奇异向量表示每部电影和这些“主题”的关系强弱。
最终SVD分解把原来的“用户-电影”关系,转换成了“用户-主题-电影”的关系。有了这种新的关系,即使我们没有人工标注的电影类型,同样可以使用更多基于电影主题的推荐方法,比如通过用户对电影主题的评分矩阵,进行基于用户或者电影的协同过滤。
接下来我会使用同样一个MovieLens的数据集一步步展示如何通过Python语言对用户评分的矩阵进行SVD分解并分析一些结果的示例。
Python中的SVD实现和结果分析
和上节的代码类似首先我们需要加载用户对电影的评分。不过由于非并行SVD分解的时间复杂度是3次方数量级而空间复杂度是2次方数量级所以对硬件资源要求很高。这里为了节省测试的时间我增加了一些语句只取大约十分之一的数据。
import pandas as pd
from numpy import *
# 加载用户对电影的评分数据
df_ratings = pd.read_csv("/Users/shenhuang/Data/ml-latest-small/ratings.csv")
# 获取用户的数量和电影的数量这里我们只取前1/10来减小数据规模
user_num = int(df_ratings["userId"].max() / 10)
movie_num = int(df_ratings["movieId"].max() / 10)
# 构造用户对电影的二元关系矩阵
user_rating = [[0.0] * movie_num for i in range(user_num)]
i = 0
for index, row in df_ratings.iterrows(): # 获取每行的index、row
# 由于用户和电影的ID都是从1开始为了和Python的索引一致减去1
userId = int(row["userId"]) - 1
movieId = int(row["movieId"]) - 1
# 我们只取前1/10来减小数据规模
if (userId >= user_num) or (movieId >= movie_num):
continue
# 设置用户对电影的评分
user_rating[userId][movieId] = row["rati
之后,二维数组转为矩阵,以及标准化矩阵的代码和之前是一致的。
# 把二维数组转化为矩阵
x = mat(user_rating)
# 标准化每位用户的评分数据
from sklearn.preprocessing import scale
# 对每一行的数据,进行标准化
x_s = scale(x, with_mean=True, with_std=True, axis=1)
print("标准化后的矩阵:", x_s
Python的numpy库已经实现了一种SVD分解我们只调用一个函数就行了。
# 进行SVD分解
from numpy import linalg as LA
u,sigma,vt = LA.svd(x_s, full_matrices=False, compute_uv=True)
print("U矩阵", u)
print("Sigma奇异值", sigma)
print("V矩阵", vt)
最后输出的Sigma奇异值大概是这样的
Sigma奇异值 [416.56942602 285.42546812 202.25724866 ... 79.26188177 76.35167406 74.96719708]
最后几个奇异值不是0说明我们没有办法完全忽略它们不过它们相比最大的几个奇异值还是很小的我们可以去掉这些值来求得近似的解。
为了验证一下SVD的效果我们还可以加载电影的元信息包括电影的标题和类型等等。我在这里使用了一个基于哈希的Python字典结构来存储电影ID到标题和类型的映射。
# 加载电影元信息
df_movies = pd.read_csv("/Users/shenhuang/Data/ml-latest-small/movies.csv")
dict_movies = {}
for index, row in df_movies.iterrows(): # 获取每行的index、row
dict_movies[row["movieId"]] = "{0},{1}".format(row["title"], row["genres"])
print(dict_movies)
我刚刚提到,分解之后所得到的奇异值\(σ\)对应了一个“主题”,\(σ\)值的大小表示这个主题在整个电影集合中的重要程度而V中的右奇异向量表示每部电影和这些“主题”的关系强弱。所以我们可以对分解后的每个奇异值通过\(V\)中的向量找找看哪些电影和这个奇异值所对应的主题更相关然后看看SVD分解所求得的电影主题是不是合理。比如我们可以使用下面的代码来查看和向量\(Vt1\),相关的电影主要有哪些。
# 输出和某个奇异值高度相关的电影,这些电影代表了一个主题
print(max(vt[1,:]))
for i in range(movie_num):
if (vt[1][i] > 0.1):
print(i + 1, vt[1][i], dict_movies[i + 1])
需要注意的是向量中的电影ID和原始的电影ID差1所以在读取dict_movies时需要使用(i + 1)。这个向量中最大的分值大约是0.173所以我把阈值设置为0.1并输出了所有分值大于0.1的电影,电影列表如下:
0.17316444479201024
260 0.14287410901699643 Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Sci-Fi
1196 0.1147295905497075 Star Wars: Episode V - The Empire Strikes Back (1980),Action|Adventure|Sci-Fi
1198 0.15453176747222075 Raiders of the Lost Ark (Indiana Jones and the Raiders of the Lost Ark) (1981),Action|Adventure
1210 0.10411193224648774 Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Sci-Fi
2571 0.17316444479201024 Matrix, The (1999),Action|Sci-Fi|Thriller
3578 0.1268370902126096 Gladiator (2000),Action|Adventure|Drama
4993 0.12445203514448012 Lord of the Rings: The Fellowship of the Ring, The (2001),Adventure|Fantasy
5952 0.12535012292041953 Lord of the Rings: The Two Towers, The (2002),Adventure|Fantasy
7153 0.10972312192709989 Lord of the Rings: The Return of the King, The (2003),Action|Adventure|Drama|Fantasy
从这个列表可以看出,这个主题是关于科幻或者奇幻类的动作冒险题材。
使用类似的代码和同样的阈值0.1,我们来看看和向量\(Vt5\),相关的电影主要有哪些。
# 输出和某个奇异值高度相关的电影,这些电影代表了一个主题
print(max(vt[5,:]))
for i in range(movie_num):
if (vt[5][i] > 0.1):
print(i + 1, vt[5][i], dict_movies[i + 1])
电影列表如下:
0.13594520920117012
21 0.13557812349701226 Get Shorty (1995),Comedy|Crime|Thriller
50 0.11870851441884082 Usual Suspects, The (1995),Crime|Mystery|Thriller
62 0.11407971751480048 Mr. Holland's Opus (1995),Drama
168 0.10295400456394468 First Knight (1995),Action|Drama|Romance
222 0.12587492482374366 Circle of Friends (1995),Drama|Romance
261 0.13594520920117012 Little Women (1994),Drama
339 0.10815473505804706 While You Were Sleeping (1995),Comedy|Romance
357 0.11108191756350501 Four Weddings and a Funeral (1994),Comedy|Romance
527 0.1305895737838763 Schindler's List (1993),Drama|War
595 0.11155774544755555 Beauty and the Beast (1991),Animation|Children|Fantasy|Musical|Romance|IMAX
从这个列表可以看出这个主题更多的是关于剧情类题材。就目前所看的两个向量来说SVD在一定程度上区分了不同的电影主题你也可以使用类似的方式查看更多的向量以及对应的电影名称和类型。
总结
在今天的内容中我们回顾了SVD奇异值分解的核心思想解释了如何通过\(XX\)和\(XX\)这两个对称矩阵的特征分解,求得分解后的\(U\)矩阵、\(V\)矩阵和\(Σ\)矩阵。另外我们也解释了在用户对电影评分的应用场景下SVD分解后的\(U\)矩阵、\(V\)矩阵和\(Σ\)矩阵各自代表的意义,其中\(Σ\)矩阵中的奇异值表示了SVD挖掘出来的电影主题\(U\)矩阵中的奇异向量表示用户对这些电影主题的评分,而\(V\)矩阵中的奇异向量表示了电影和这些主题的相关程度。
我们还通过Python代码实践了这种思想在推荐算法中的运用。从结果的奇异值和奇异向量可以看出SVD分解找到了一些MovieLens数据集上的电影主题。这样我们就可以把用户针对电影的评分转化为用户针对主题的评分。由于主题通常远远小于电影所以SVD的分解也帮助我们实现了降低特征维度的目的。
SVD分解能够找到一些“潜在的”因素例如语义上的概念、电影的主题等等。虽然这样操作可以降低特征维度去掉一些噪音信息但是由于SVD分解本身的计算量也很大所以从单次的执行效率来看SVD往往无法起到优化的作用。在这种情况下我们可以考虑把它和一些监督式的学习相结合使用一次分解的结果构建分类器提升日后的执行效率。
思考题
刚才SVD分解实验中得到的\(U\)矩阵,是用户对不同电影主题的评分矩阵。请你使用这个\(U\)矩阵,进行基于用户或者基于主题(物品)的协同过滤。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,83 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
51 综合应用篇答疑和总结:如何进行个性化用户画像的设计?
你好,我是黄申。今天是综合应用篇的答疑和总结。
在这个模块中,我们讲述了不同数学思想在系统设计和实现中的综合运用。相对于前面几个模块,综合应用的内容更注重实践,也更加有趣。大家对这些内容也提出了很多值得思考的问题。今天,我会讲解其中一个问题,如何进行个性化用户画像的设计?。最后,我也会照例对整个应用篇进行一个总结。
个性化用户画像的设计
如今是个性化的时代,互联网和人工智能技术正在把这点推向极致。无论是主动搜索还是进行浏览,用户都希望看到针对自己的结果。
举个例子A品牌的奶瓶在全网是非常畅销的可是对于一位5岁儿子的妈妈来说儿子早已过了喝奶瓶的阶段所以在她输入A品牌后返回“奶瓶”肯定不合适。同时如果她一直在购买A品牌的儿童洗衣液那么返回A品牌的洗衣液就更合理顾客体验也会更好这就是品类的个性化。
从另一个场景来看这位妈妈没有输入A品牌而是输入了“儿童洗衣液”如果是A品牌的洗衣液产品排在首页而不是她所陌生的其他品牌用户体验也会更好这就是品牌的个性化。
在进行个性化设计之前,最关键的问题是,如何收集和运用顾客的行为数据。
第48节我在讲解查询分类的时候介绍了如何利用用户的搜索行为。而实践中用户个人的行为涉及面更为广泛需要更多细致的分析。通常我们将相应的工程称为“用户画像”。为了让你更好地理解这里我给出一个较为全面的设计概述。
如何通过数据生成用户标签?
开发用户画像,首先要解决的问题是:哪些用户数据可以收集,以及如何通过这些数据生成用户标签。
最基本的原始数据包括网站浏览、购物、位置、气候、设备等信息。除了这些原始的数据,我们还可以结合人工的运营,生成一些包含语义的用户标签。这里的用户标签,或者说属性标签,是一个具有语义的标签,用于描述一组用户的行为特征。例如,“美食达人”“数码玩家”“白领丽人”“理财专家”等。对于标签的定义,按照概率统计篇和线性代数篇所介绍的机器学习方法论,既可以考虑采用监督式的分类方法,也可以采用非监督式的聚类方法。
分类的好处在于,可以让人工运营向计算机系统输入更多的先验知识,也可以让标签的制定和归类更为精准。从操作的层面考虑,又可以细分为基于人工规则和基于标注数据。人工规则是指由运营人员指定分类的主要规则。
例如运营人员指定最近1个月至少购买过2次以上母婴产品消费额在500元以上的为“辣妈”标签。这里规则就相当于直接产生类似决策树的分类模型它的优势在于具有很强的可读性便于人们的理解和沟通。但是如果用户的行为特征过于繁多运营人员往往很难甄别出哪些具有代表性。这时如果仍然使用规则那么就不容易确定规则的覆盖面或者是精准度。
另一种方法是使用标注数据通过训练样本来构建分类器。例如通过运营人员挑选一些有代表性的用户对他们的特征进行人工标注然后输入给系统。之后让系统根据分类技术来学习模型可以使用决策树、朴素贝叶斯NBNaive Bayes或支持向量机SVMSupport Vector Machine等等。
不过除了决策树的模型其余模型产生的人群分组可能会缺乏可读性内容很难向业务方解释其结果。一种缓解的办法是让系统根据数据挖掘中的特征选择技术包括我们之前讲解的信息增益IGInformation Gain、开方检验CHI等来确定这组人群应该有怎样的特征并将其作为标签。
除了分类,我们也可以使用非监督式的聚类。这种方法中,运营人员参与最少,完全利用用户之间的相似度来确定,相似度同样可以基于各种用户的特征和向量空间模型来衡量。其问题也在于结果缺乏解释性,只能通过特征选择等技术来挑选具有代表性的标签。
如果我们比较一下分类和聚类的方法会发现分类的技术比较适合业务需求明确、运营人员充足、针对少量高端顾客的管理其精准性可以提升VIP顾客服务的品质。而聚类更适合大规模用户群体的管理甚至是进行在线的AB测试其对精准性要求不高但是数据的规模比较大对系统的数据处理能力有一定要求。
无论是哪种方法,只要我们能获取比较准确的用户标签,那么我们就可以给出用户的画像,刻画他们的主要行为特征。下面我们来看看基于用户画像,可以进行哪些个性化的服务。首先是在搜索中增加个性化因素,相比普通的搜索,个性化的搜索可以投用户之所好,增加搜索结果的点击率、商品的购买转化率等等。具体来说,我们可以在下面这几点下工夫:
第一点个性化的排序根据用户经常浏览的品类和属性对搜索结果中的项目进行个性化的排序开头提到的5岁儿子妈妈的案例体现了这点的核心思想。
第二点,个性化的搜索词推荐。例如,一位体育迷搜索“足球”的时候,我们可以给出“足球新闻”“冠军杯”等相关搜索。而在一位彩票用户搜索“足球”的时候,我们可以给出“足球彩票”等相关搜索。
第三点,个性化的搜索下拉提示。例如,经常购买儿童洗衣液的用户,输入儿童用品的品牌后,在搜索下拉框中优先提示该品牌的儿童洗衣液。
除了搜索个性化还可以运用在推荐系统、电子邮件营销EDMEmail Direct Marketing、移动App的推送等等。对于推荐系统来说在用户画像完善的前提下我们能更准确地找到相似的用户和物品从而进行效果更好的基于用户或基于物品的协同过滤。相对于传统的线下营销电子邮件营销不再受限于印刷和人力成本完全可以做到因人而异的精准化定向投放。
比如系统根据品类、品牌、节日或时令分为不同的主题进行推送。运营人员甚至只用制定模板和规则然后让系统根据用户画像的特征自动填充模板并最终生成电子邮件的内容。另外随着移动端逐渐占据互联网市场的主导地位掌上设备的App推送变成了另一个重要的营销渠道。从技术层面上看它可以采用和电子邮件营销类似的解决方案。不过内容的运营要考虑到移动设备屏幕尺寸和交互方式的特性并进行有针对性的优化。
有了上述这些设计理念和模块,我们需要一个整体的框架来整合它们。我在这里画了一张框架图,供你参考。
这种架构包括行为数据的收集和分析、聚类、分类、构建画像、缓存等几个主要模块。随着数据规模的不断扩大我们可以选择一些分布式系统来存储用户画像数据并使用缓存系统来提升数据查询的效率为前端的搜索、推荐、EDM和App推送等应用提供服务。当然我们还可以利用行为数据的跟踪进一步分析这套画像系统的质量和效果形成一个螺旋式上升的优化闭环。
综合来看,用户画像也许概念上并不复杂,可是一旦落实到技术实施,我们需要综合很多不同领域的知识。从用户标签的角度来说,可能涉及的领域包括监督式和非监督式的机器学习算法,以及相关的特征选择。从系统集成的角度来说,可能涉及的领域包括分布式、缓存、信息检索和推荐系统。这些内容我们在之前的各个模块都有介绍,今天我通过用户画像的设计进行了知识的串联。当然,我这里讲解的方案也只是一种参考,你可以结合自身的需求来做进一步的设计和实现。相信经过一定量的项目实践和经验积累,你对这些内容的综合性运用会更加得心应手。
综合应用篇总结
在综合应用篇之前,我们分别从基础模块、概率统计模块和线性代数模块出发,详细阐述了不同编程技术背后的数学知识。在综合应用这个模块,我们又从几个非常实用的案例出发,讲解了如何结合不同的编程技术,设计并架构大型的系统,最终为商业需求提供解决方案。
如今的数据系统越来越庞大系统设计时常常会用到缓存系统来提升记录查找的效率。对缓存系统的强烈需求也催生了很多开源的项目例如Memcached和Redis等等这些系统都已经相当成熟。而在这个模块我们同时使用了哈希函数和队列实现了一个最简单的缓存系统。哈希函数确保了查找的高效率而队列则实现了LRU的淘汰策略。通过这两点你就能理解缓存设计的基本原理和方法。
和缓存类似搜索引擎的倒排索引也使用了哈希表结构来提高查询效率。当然倒排索引的功能不仅限于数据对象的快速定位。它本身还能存放很多额外的信息包括词频tf、tfidf、关键词出现的位置等等。在这个模块中我展示了如何利用这些信息实现更为复杂的相关性模型例如向量空间模型、概率语言模型等等。另外倒排索引可以帮助我们过滤掉完全无关的数据大大降低这些模型的计算量。
除了基本的及时性和相关性,搜索引擎还应该按照不同应用的需求进行优化。例如,电商平台的搜索,就和通用型的搜索不一样,对于电商搜索来说,用户更加关注的是商品的品类。我讲解了如何根据商品目录和用户行为反馈,构建查询的分类器。这样,当用户进行搜索的时候,系统首先对用户输入的关键词进行分类,弄清楚用户最感兴趣的品类是哪些,然后再优化商品的排序,最终增加商品搜索结果的相关性。
和搜索引擎同样重要的是推荐引擎。有的时候用户自己不会输入想要查询的关键词而是喜好不断地浏览网页。这个时候推荐技术起到了很关键的作用它可以主动地为用户提供他们可能感兴趣的内容。在这个领域协同过滤是非常经典的算法。我通过代码的实践给你讲解了如何通过矩阵操作实现基于用户和基于物品的过滤。除此之外我们还探讨了如何使用SVD对用户和物品之间的关系进行分解帮助我们找到隐藏在用户和物品之间的潜在因素比如电影的主题。
无论是设计搜索还是推荐系统,我们都可以加入个性化的元素,而这往往是提升业务的关键。今天,我讲解了用户画像的原理、用户标签的设计和实现、以及如何使用用户画像来给搜索和推荐系统加入个性化。而这个整体方案涉及的技术面是相当广的,你可以结合之前的各期专栏,对每一个环节进行消化和理解。
思考题
对各种知识的综合应用对个人能力要求很高,却也是最重要的。我想听你说说,在平时的开发项目中,你有没有结合使用本专栏所讲的不同知识点的经历?能不能和我们说说你在这方面的心得体会?
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,127 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
导读:程序员应该怎么学数学?
你好,我是黄申。
在开篇,我详细讲了程序员为什么需要学数学。那么,怎样的学习方法才是行之有效的呢?我想你现在心里还没有一个固定的答案,而我不想一味地去讲我自己的一家之言,毕竟没有什么学习方法是最好的。
你能做的是要多看,去找适合自己的。而我能做的,就是尽量给你更多的参考,让你可以自己来选择。所以,我邀请了几位朋友,让他们来谈一谈,自己学习数学的一些心得体会,希望对你有所启发。
刘超 | 《趣谈网络协议》专栏作者:“学数学就像学一门新技术”
程序员是否需要学好数学?原本学数学分析、概率论、线性代数的时候,我也没想到数学和写程序有啥关系,但是随着研究的开源软件越来越多,我发现很多技术深入下去,本质就是数学。
程序员应该怎么学习数学呢?我不建议你将大学的数学书拿出来啃一遍,一来耗费大量时间,二来和实际应用结合不起来,往往该看的忽略了,不该看的费了半天劲用不上,过一阵又忘了。
我们了解一个新技术有三个阶段,第一阶段是,怎么使用;第二阶段是,如何实现,原理是什么;第三阶段是,为什么这样实现。学数学和学一门新技术一样,也有这样三个阶段,先用起来,了解原理,然后了解为什么。
用一句话来说,我们不能为了数学而学数学,学数学要和具体的应用结合在一起。
徐文浩 | bothub.ai创始人“先广度再深度”
随着过去几年深度学习成为程序员界的显学不少程序员开始回头复习微积分、概率论和线性代数这样的基础数学课乃至开始学习最优化、博弈论这样的应用数学课。我自己则是因为从2010年一头扎入了计算广告的大坑之后重新开始学习数学。
可以说,这次重新学习数学,为我自己推开了程序世界中另一扇门,使得我在埋头具体写代码之外,有机会重新从另一个角度,去认识和理解“程序”和“问题的解决方案”这两件事情。
我为什么要学点数学?
投入时间学习数学,于我来说主要是两个原因,一来,数学在工作中用得上;二来,学点数学很多时候是个有趣的事。
譬如说,过去几年火起来的深度学习,以及之前没那么火,但是实际上早早就在搜索、广告这些领域,应用的机器学习和推荐算法。这里面其实就是结合了微积分、线性代数、概率论之后的最优化问题。
事实上,大部分应用领域的核心解决方案,都是把应用领域的问题,形式化为一个个数学问题。在找到数学问题的“解法”之后,用写程序的方式翻译成实际应用的“算法”。而能够应用“数学”的方式来解决问题,是从一个只能套用现成方案的“码农”,向能够将新问题形式化、并找出创新解决方案的“研发工程师”迈出的第一步。
很多问题当你知道如何用数学来解决的时候,常常会有醍醐灌顶的感觉。譬如当我第一次搞明白,广告中的竞价问题,居然能够变成一个博弈论中“寻找上策均衡”的问题,并且能够通过简简单单的公式表示出来的时候,我是很有满足感的。
此外,一旦熟悉了机器学习中用到的数学知识,很多想要解决的系统问题,都能通过定义更好的数学优化目标,变成一个能够找到最优解的程序算法,最后通过写个程序,翻译成数学问题来解决,这个过程带给我巨大的身心愉悦。
我是如何学数学的?
数学整个领域很大,如果想要学点什么,我建议从工作相关的领域开始,先广度,再深度。
从工作相关的领域开始,是让自己一是能有实际用得上学到的知识的机会,二是日常工作中容易耳濡目染,相当于常常在复习。而先有广度,是让自己在心中有一个问题到解决方法的“地图”,遇到具体的问题能够对得上,容易获得正反馈;然后再有深度,具体去对一个特定的主题学习应用。
当开始深入学一个特定问题的时候最好的方式是追一门在线课程譬如Coursera、TEDx或者在极客时间上找一门课程来学习。
这是因为,在线课程有明确的节奏,通常还会提供作业和测验。通过作业和测验,让自己对自己的学习有一个联系和反馈的过程。即使实践中没有足够的应用,过一段时间有些知识没有那么熟悉了,但是也容易建立自己很快可以“捡”回来的信心,降低“复习”的启动成本。跟随在线课程的节奏,可以有效避免“三天打渔两天晒网”的恶习,让学习有始有终。
最后给你介绍一个有程序员特色的学习方法针对学习的内容写一点程序。把正在学习的问题的解法写一个算法实现出来。这是一个非常有效的练习方式。譬如学习线性代数理解仿射反复读书的效率对我来说就不如找来Coding The Matrix通过写程序让学习、理解变得更深入。
王天一 | 《人工智能基础课》《机器学习40讲》专栏作者“数学是工具而非问题是手段而非目的”
在数学的学习中,首要的问题是明确需求。作为非数学专业出身的“外行”,我们使用数学的目的不是顶天,而是立地;不是上下求索艰深的理论问题,而是将生活中的具体问题抽象化,进而加以解决。
因此,对于我们这些票友来说,学习数学的基础在于经验而非哲学,比较实际的思路是秉持功利主义的原则,用多少学多少。掌握基本的线性代数与矩阵论、概率论与数理统计知识足以应付日常的使用,盲目地好高骛远通常有害无益。理论化和公理化这些比较深邃的尝试固然让人着迷,但它们可能并没有肉眼可见的实用性,对于绝大部分计算机从业者恐怕过于阳春白雪。
其次,在学习时还要理解数学的本质。数学是工具而非问题,是手段而非目的。探索世界奥秘的学科是“格物穷理”的物理学,相形之下,数学更像是个任人打扮的小姑娘,它存在的意义就是通过合理的设计简化物理学的研究。
正因如此,在数学中存在着各种各样在现实中不可能出现的理想化模型(比如无穷小和极限的诞生),也存在着对同一个物理过程不同的建模方式(比如矩阵力学和波动力学)。充分理解数学的人造特质,可以在学习中少走很多无谓的弯路。
理解数学的工具属性就会自然而然地引出了数学学习中的另一个关键点,那就是工具设计的出发点,也就是所谓的数学思想与数学逻辑。
任何一个工具都不是平白无故地设计出来的,它必然要解决某个特定的问题,比如线性代数与矩阵论是对具体对象的抽象表示与运算,比如概率论和数理统计是对不确定性及其定型定量表示的建模。因此,在掌握每一种数学工具的微观技巧之前,理解它们的宏观目标是更加重要的。只有掌握了工具诞生的背景与目的,才有可能有效地使用它们。
在这里还要多说一句数学绝不仅仅是算术把主要精力放在计算上未免因小失大。在经典科幻《银河系漫游指南》中超级计算机告诉人们世界的终极答案是“42”——这更像是对数字主义者善意嘲讽的一个梗。但对算术的过度强调并不鲜见在相当数量的现行数学教材中讲解线性代数时开篇便给出行列式的计算方法这种编排着实让人费解。
具体到数学每个子学科的学习方法上,相关的经验教训已然汗牛充栋,很多内容都无需在此赘言。但在我看来,学习时值得突出强调的一点是举一反三的能力。同一种工具及其背后的思想可以出现在不同的场景下,解决不同的问题,但是一旦深入到本质层面,就会发现它们实际上是相通的。如何透过现象看本质,将不同场景融会贯通,才是值得锻炼的高级能力。
同一个工具存在不同应用的例子不胜枚举:
特征向量计算的是系统的不动点,在数据降维中有举足轻重的作用,但如果熟悉电子通信的话你就会知道,对线性时不变系统的分析(也就是各种变换)都是基于特征向量展开的;
在给定隐马尔可夫模型的观测序列时,可以利用维特比算法求解后验概率最大的状态序列,将这一方法应用在信道编码中,就是最经典的卷积码译码算法;
在分类问题中以类间方差最大化为标准可以推导出线性判别分析和决策树等模型应用在图像处理中类间方差最大化原理给出的就是图像分割中的Otsu方法。
凡此种种都说明,即使是不同的学科,使用的数学基础也有着千丝万缕的联系,将基本的数学概念和充分的想象力结合起来,触类旁通就变得轻而易举。
总结起来,我对数学学习的几点拙见是:把握数学的工具属性,学习具体方法时先溯因再求果,勤于思考解决相同问题的不同方法,与解决不同问题的相同方法之间的联系与区别。希望这几条建议能够在数学的学习中助你一臂之力。
好了,三位老师都分享完了自己的学习方法。其实他们有一个共同的观点,那就是数学要是“实用”的,这和我的想法如出一辙。
因此,我在这里绘制了一张“程序员的数学应用地图”,里面包含四个部分,分别是数据结构、编程语句、基础算法,以及机器学习算法。
(长按保存后可查看大图)
我们来一起看看这张图里都有什么内容。
首先我们来看最常用的数据结构和编程语句,我想你对它们应该非常熟悉。在我眼里,这些基础的内容,同样富含了数学思维。例如,数组和链表就体现了迭代和递归的思想,判断语句就是使用了逻辑(布尔)代数。
对于架构在这些数据结构和编程语句之上的算法(为了将这些算法和机器学习的算法区分,我称其为通用算法),除了迭代和递归,也体现了排列、组合和动态规划等思想。
对于机器学习的算法而言,我们更需要理解概率统计和线性代数的核心思想,包括什么是概率、贝叶斯定理、数据的统计分布、向量、矩阵、线性方程等等。
整个专栏我基本上都是从数学的角度出发,逐步推进到这些知识在计算机中的应用。不过在绘制这张应用地图的时候,我特意反其道而行之,从计算机编程的角度出发,为你展示程序员应该如何看待编程中的数学知识。
我觉得在开始学习之前,这个地图会给你一个大体的认识,告诉你计算机领域常用的数学思想有哪些。这时,你也许会产生一些疑惑,同时你可以带着自己的思考和问题去逐篇学习。等你学完整个专栏之后,再回头来看看这个地图,应该会有更深的感触。我希望这种双向打通,能够进一步加强你的学习体验。
另外,我也整理了本专栏中涉及到的所有代码,以方便你学习。
好了,听了这么多心得和方法,有没有什么地方是最触动你的呢?下一节我们就要进入正式的学习了,我想听你讲讲,你准备怎么来学习这门课呢?
欢迎留言和我分享,也欢迎点击“请朋友读”,把今天的内容分享给你的朋友,和他一起精进。

View File

@ -0,0 +1,61 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
开篇词 作为程序员,为什么你应该学好数学?
你好我是黄申目前在LinkedIn从事数据科学的工作主要负责全球领英的搜索引擎优化算法和数据架构的搭建。
2006年我博士毕业于上海交通大学计算机科学与工程专业在接下来十余年时间里我曾经在微软亚洲研究院、IBM研究院、eBay中国研发中心做机器学习方向的研究工作也负责过大润发飞牛网和1号店这两家互联网公司的核心搜索和推荐项目还写过一本书《大数据架构商业之路》。
对于数学和计算机编程的联系我之前也没有思考过。直到有一次在硅谷的一个技术交流Meetup上我听到一位嘉宾分享说“如果你只想当一个普通的程序员那么数学对你来说并不重要。但是如果你想做一个顶级程序员梦想着改变世界那么数学对你来说就很重要了。”
听完这句话我马上感受到强烈的共鸣因为就我自己的工作经历而言越是往高处走就越能发现数学的重要性。我知道数学对于我们每一个程序员来说都是最熟悉的陌生人。你从小就开始学习数学中考、高考、研究生考试还要考数学所以那些熟悉的数学定理、数学公式陪伴你至少也有10年时间了。
但是自从做了程序员你可能早就把数学抛在了脑后甚至觉得曾经为了应试而“硬学”的数学应该是彻底没什么用了终于可以和他们say goodbye了。毕竟作为一个基础学科数学肯定是没操作系统、数据结构、计算机网络这样的课程看起来“实用”。
起码我之前就是这么认为的。大学的时候,我非常喜欢编程,甚至还翘过数学课,专门在图书馆看计算机类的图书。那会儿我觉得,数学这东西,完全就是应试教育,我更喜欢计算机这样操作类的课程,不喜欢待在教室里听数学老师讲那些枯燥的理论和定理。
再到后来,我读了硕士,开始接触机器学习,猛然间才发现,机器学习表面上是“写程序”,但实际上剥去外表,本质上就是在研究数学。从那会儿开始,我对数学的认知也才逐步客观和理性起来。
再到现在,我参加了工作,写了这么多年代码,我想说,数学学得好不好,将会直接决定一个程序员有没有发展潜力。因为往大了说,数学它其实是一种思维模式,考验的是一个人归纳、总结和抽象的能力。把这个能力放到程序员的世界里,其实就是解决问题的能力。
往小了说,不管是数据结构与算法还是程序设计,其实底层很多原理或者思路都是源自数学,所以很多大公司,在招人时,也会优先考虑数学专业的毕业生,这些人他们数学基础很好,学起编程也更容易上手。
所以我觉得,如果编程语言是血肉,数学的思想和知识就是灵魂。它可以帮助你选择合适的数据结构和算法、提升系统效率、并且赋予机器智慧。尤其是在大数据和智能化的时代,更是如此。
举个例子,比如我们小学就学到的余数,其实在编程的世界里也有很多应用。你经常用到的分页功能,根据记录的总条数和每页展示的条数,最后来计算整体的页数,这里面就会有余数的思想。再难一点,奇偶校验、循环冗余检验、散列函数、密码学等等都有余数相关的知识。
遇到这些问题的时候,你能说你不懂余数吗?我想你肯定懂,只是很多时候没有想到可以用余数的思想来解决相关问题罢了。那为什么没有想到呢?我认为,本质原因还是你没有数学思维,还是你数学的基础不够好。
所以,在这个专栏里,我想和你重点聊聊数学。当然,我知道数学博大精深,所以在一开始做专栏的时候,我就和极客时间团队一起定义好了专栏的边界,用一句话来说就是“只做程序员需要学的数学知识”。
首先,我梳理了编程中最常用的数学概念,由浅入深剖析它们的本质,希望能够帮你彻底掌握这些最基础、也最核心的数学知识。其中包括那些你曾经熟悉的数学名词,比如数学归纳法、迭代法、递归、排列、组合等等。
其次,我把线性代数和概率统计中的抽象概念、公式、定理都由内而外地讲了出来,并分析它们在编程中的应用案例,帮助你提升编程的高阶能力。对于这些内容,我会从基本的概念入手,结合生活和工作中的实际案例,让你更轻松地理解概念的含义。
比如,对于朴素贝叶斯方法,我会从基本的随机现象、随机变量和概率分布等着手。随后,我会逐步深入,结合这些数学知识在编程算法中的应用进行展开。比方说,贝叶斯定理是什么,随机变量之间的独立性是什么,这些是如何构成朴素贝叶斯方法的,而最终朴素贝叶斯又是如何被运用在机器学习的分类算法之中的。
这样的讲解路线,既能让你巩固基础的概念和知识,同时也能让你明白这些基础性的内容,对计算机编程和算法究竟意味着什么。
不过话又说回来,我认为数学理论和编程实践的结合其实是“决裂”的,所以学习数学的时候,你不能太功利,觉得今天学完明天就能用得着,我觉得这个学习思路可以用在其他课程上,但放在数学里绝对不合适。
因为数学知识总是比较抽象,特别是概率统计和线性代数中的概率、数据分布、矩阵、向量等概念。它们真的很不好理解,也需要我们花时间琢磨,但是对于高级一点的程序设计而言,特别是和数据相关的算法,这些概念就非常重要了,这可都是先人总结出来的经验。
如果你能够将这些基本概念和核心理论都搞懂、搞透,那么面对系统框架设计、性能优化、准确率提升这些难题的时候,你就能从更高的角度出发去解决问题,而不只是站在一个“熟练工”的视角,去增删改查。
最后,我希望数学能够成为你的一种基础能力,希望这个专栏能帮你用数学思维来分析问题和解决问题。数学思想是启发我们思维的中枢,如果你对数学有更好的理解,遇到问题的时候就能追本溯源,快、准、稳地找到解决方案。
伽利略曾经说过,“宇宙这本书是用数学语言写成的”,数学是人类科学进步的重要基础,所以,你我都要怀着敬畏的心态去学习、思考数学。同样,我还要求我自己的孩子一定要学好数学,因为我确信,这对于他未来的发展来说,至关重要。
编程的世界远不止条件和循环语句,程序员的人生应当是创造的舞台。我希望,通过这个专栏的学习,能够让你切实感受到数学这个古老学科的活力和魅力。
好了,说了这么多,相信你已经下定决心和我一起攻克数学。重新开始就要告别过去,你可以在留言区做个“数学学习复盘”,在之前的学习过程中,你的学习状况是怎样的?你遇到的最大困难是什么?现在,你最希望学到的是什么?
Now你说我听

View File

@ -0,0 +1,97 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
数学专栏课外加餐(一) 我们为什么需要反码和补码?
你好,我是黄申。欢迎来到第一次课外加餐时间。
专栏已经更新了几讲,看到这么多人在留言区写下自己的疑惑和观点,我非常开心。很多同学在留言里提出了很多非常好的问题,所以我决定每隔一段时间,对留言里的疑问、有代表性的问题做个集中的解答,也是对我们主线内容做一个补充,希望对你有帮助。
什么是符号位?为什么要有符号位?
在第1讲里我介绍了十进制数转二进制数。这里面很多人对逻辑右移和算术右移中提到的符号位和补码有疑惑。这里面涉及了几个重要的概念包括符号位、溢出、原码、反码和补码。我详细讲一下这几个点的来龙去脉。
首先我们来看,什么是符号位,为什么要有符号位?用一句话来概括就是,符号位是有符号二进制数中的最高位,我们需要它来表示负数。
在实际的硬件系统中计算机CPU的运算器只实现了加法器而没有实现减法器。那么计算机如何做减法呢我们可以通过加上一个负数来达到这个目的。比如3-2可以看作3+(-2)。因此,负数的表示对于计算机中的二进制减法至关重要。
那么接下来的问题就是如何让计算机理解哪些是正数哪些是负数呢为此人们把二进制数分为有符号数signed和无符号数unsigned
如果是有符号数那么最高位就是符号位。当符号位为0时表示该数值为正数当符号位为1时表示该数值为负数。例如一个8位的有符号位二进制数10100010最高位是1这就表示它是一个负数。
如果是无符号数那么最高位就不是符号位而是二进制数字的一部分例如一个8位的无符号位二进制数10100010我们可以通过第1讲讲过的内容换算出它所对应的十进制数是162。由于没有表示负数的符号位所有无符号位的二进制都代表正数。
有些编程语言比如Java它所有和数字相关的数据类型都是有符号位的而有些编程语言比如C语言它有诸如unsigned int这种无符号位的数据类型。
下面我们来看,什么是溢出?
在数学的理论中,数字可以有无穷大,也有无穷小。可是,现实中的计算机系统,总有一个物理上的极限(比如说晶体管的大小和数量),因此不可能表示无穷大或者无穷小的数字。对计算机而言,无论是何种数据类型,都有一个上限和下限。
在Java中int型是32位它的最大值也就是上限是2^31-1最高位是符号位所以是2的31次方而不是32次方最小值也就是下限是-2^31。而long型是64位它的最大值也就是上限是2^63-1最小值也就是下限是-2^63。
对于n位的数字类型符号位是1后面n-1位全是0我们把这种情形表示为-2^(n-1) 而不是2^(n-1)。一旦某个数字超过了这些限定就会发生溢出。如果超出上限就叫上溢出overflow。如果超出了下限就叫下溢出underflow
那么溢出之后会发生什么呢?我以上溢出为例来给你解释。
n位数字的最大的正值其符号位为0剩下的n-1位都为1再增大一个就变为了符号位为1剩下的n-1位都为0。而符号位是1后面n-1位全是0我们已经说过这表示-2^(n-1)。
那么就是说上溢出之后又从下限开始最大的数值加1就变成了最小的数值周而复始这不就是余数和取模的概念吗下面这个图可以帮助你理解。
其中右半部分的虚线表示已经溢出的区间而为了方便你理解我将溢出后所对应的数字也标在了虚线的区间里。由此可以看到所以说计算机数据的溢出就相当于取模。而用于取模的除数就是数据类型的上限减去下限的值再加上1也就是(2^(n-1)-1)-(-2^(n-1))+1=2x2^(n-1)-1+1=2^n-1+1。
你可能会好奇这个除数为什么不直接写成2^n呢这是因为2^n已经是n+1位了已经超出了n位所能表示的范围。
二进制的原码、反码及补码
理解了符号位和溢出,我接下来说说,什么是二进制的原码、反码和补码,以及我们为什么需要它们。
原码就是我们看到的二进制的原始表示。对于有符号的二进制来说,原码的最高位是符号位,而其余的位用来表示该数字绝对值的二进制。所以+2的原码是000…010-2的的原码是100.…010。
那么我们是不是可以直接使用负数的原码来进行减法计算呢答案是否定的。我还是以3+(-2)为例。
假设我们使用Java中的32位整型来表示2它的二进制是000…010。最低的两位是10前面的高位都是0。如果我们使用-2的原码也就是100…010然后我们把3的二进制原码000…011和-2的二进制原码100…010相加会得到100…0101。具体计算你可以看我画的这张图。
二进制编码上的加减法和十进制类似只不过在加法中十进制是满10才进一位二进制加法中只要满2就进位同样在减法中二进制借位后相当于2而不是10。
相加后的结果是二进制100…0101它的最高位是1表示负数而最低的3位是101表示5所以结果就是-5的原码了而3+(-2)应该等于1两者不符。
如果负数的原码并不适用于减法操作,那该怎么办呢?这个问题的解答还要依赖计算机的溢出机制。
我刚刚介绍了溢出以及取模的特性我们可以充分利用这一点对计算机里的减法进行变换。假设有i-j其中j为正数。如果i-j加上取模的除数那么会形成溢出并正好能够获得我们想要的i-j的运算结果。如果我说的还是不太好理解你可以参考下面这张图。
我们把这个过程用表达式写出来就是i-j=(i-j)+(2^n-1+1)=i+(2^n-1-j+1)。
其中2^n-1的二进制码在不考虑符号位的情况下是n-1位的1那么2^n-1-2的结果就是下面这样的
从结果可以观察出来所谓2^n-1-j相当于对正数j的二进制原码除了符号位之外按位取反0变11变0。由于负数-j和正数j的原码除了符号位之外都是相同的所以2^n-1-j也相当于对负数-j的二进制原码除了符号位之外按位取反。我们把2^n-1-j所对应的编码称为负数-j的反码。所以-2的反码就是1111…1101。
有了反码的定义那么就可以得出i-j=i+(2^n-1-j+1)=i的原码+(-j的反码)+1。
如果我们把-j的反码加上1定义为-j的补码就可以得到i-j=i的原码+(-j的补码)。
由于正数的加法无需负数的加法这样的变换因此正数的原码、反码和补码三者都是一样的。最终我们可以得到i-j=i的补码+(-j的补码)。
换句话说计算机可以通过补码正确地运算二进制减法。我们再来用3+(-2)来验证一下。正数3的补码仍然是0000…0011-2的补码是1111…1110两者相加最后得到了正确的结果1的二进制。
可见,溢出本来是计算机数据类型的一种局限性,但在负数的加法上,它倒是可以帮我们大忙。
最后给你留一道思考题吧。理解了负数的原码、反码和补码之后你能算算看8位的有符号位二进制数10100010对应的是哪个十进制数吗
好了,关于二进制的补充内容就到这里了。欢迎你继续留言给我。你也可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。

View File

@ -0,0 +1,79 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
数学专栏课外加餐(三):程序员需要读哪些数学书?
你好,我是黄申。欢迎来到第三次加餐时间!之前很多同学问我能否推荐一些数学方面的书,今天我就来分享几本。
数学领域涉及的面很广,相关的书籍也很多。咱们这个专栏我从数学的三个主要方面,介绍程序员常用的数学知识,包括离散数学、概率和统计和线性代数。所以我还是围绕这个专栏的三大模块,来给你推荐相应的书籍。
基础思想篇推荐书籍:《离散数学及其应用》
第一模块是“基础思想篇”。这一模块我尝试用实际项目中的案例把不同的离散数学知识点串了起来并加以解释。如果你对其中某些点有更深的兴趣可以参考Kenneth H·Rosen所著的《离散数学及其应用》英文原名是\(Discrete\) \(Mathematics\) \(and\) \(Its\) \(Applications\)。
这本书是国外高校的教材,对所有离散数学的知识点介绍的比较全面。咱们讲过的同余定理、数学归纳法、递归、分治算法、排列和组合、树和树的遍历、图和最短路径、逻辑以及集合等概念,这里面都有非常详细的介绍。我看很多人对这些内容很感兴趣,可以参考这本书的相关章节,深入学习。
除此之外,这本书还有几个特点,我觉得非常好。
第一介绍了不少证明的方法。计算机算法的正确性是很重要的专栏中我在不同的地方介绍并使用了数学归纳法在解释Dijkstra算法时也用到了反证法和分情形证明的思想。数学中用于证明的方法其实还有很多这本书涉及了穷举证明、存在性证明等。相信这些证明方法可以让你更好地理解为什么有些算法是可行的有些算法是有问题的并帮助你在理解算法、学习算法甚至设计算法时保证它的正确性。
第二,介绍了不少逻辑和集合相关的知识。这些我在专栏里没有涉及太多。主要是因为程序员经常接触各种条件和查询语句,对这些内容已经很熟悉了,所以我没有花太多的篇幅。如果你想知道更多关于逻辑、集合和布尔代数这些基础内容的解释,也可以看看这本书。
第三和编程结合得非常紧密。主要体现在两个方面第一它介绍了一些基于伪代码的算法也对这些算法进行了时间和空间复杂度的分析例如常见的排序、搜索算法。第二它介绍了不少离散数学在计算机科学中的应用场景例如关系型数据库和SQL查询语言是如何设计的。另外它也提供了不少课后习题可以加深你对这些知识点的理解。所以当你读到这本书的某些章节时会发现怎么和计算机的数据结构和算法这么像啊确实离散数学和数据结构和基础算法有着紧密的联系加上这本书使用了不少计算机的语言、例子和应用自然有不少共同的内容了。
专栏的第二模块是“概率统计篇”,这本书也谈到了一些离散概率的内容。在学习第二个模块的时候,你也可以搭配这本书的内容来看,相信对你会很有帮助。
当然,这本书的某些内容讲得比较深,而且有些知识点在程序员日常编码中基本上用不到。你可以结合我专栏的主题和内容,并针对自己的日常工作,挑出一些重点来学习。
概率统计篇推荐书籍:《概率统计》
专栏第一模块已经结束了接下来的“概率统计篇”我会着重介绍概率统计及其在计算机领域中的主要应用。你可以预先阅读一些相关的书籍热热身。这里我推荐另一本国外高校的教材Morris HDeGroot和Mark JSchervish所著的《概率统计》英文原名是\(Probability\) \(and\) \(Statistics\)。本书的两位作者DeGroot和Schervish都是贝叶斯统计理论的重量级人物。
这本书包含了概率论常用的知识点,包括了随机变量及其分布、条件概率、期望值、贝叶斯理论、马尔科夫链等等。专栏的第二模块,我也会介绍这些知识点,以及它们在计算机领域,特别是机器学习中的应用。
我们再来说这本书的几个特色。
第一,这本书通常以列举非常实用的例子开始,然后详尽地讲解理论及其扩展应用。比如,一开篇解释“概率”的时候,作者使用了抛硬币的例子,分别从“频率”“经典”和“主观”的角度来解释概率,并又阐述了“概率理论”和“概率”有何不同。这样的写法会给你很多思路上的启发,让你获得更直观的认识。文章中也不乏很多来源于各个领域的案例,比如经济学和金融学等等。
第二对概念的解释非常详细。比如“充分统计量sufficient statistic”这个概念一般的书可能两句话就解释完了然后就是大堆的公式但是这本书用了差不多两页的篇幅来解释它。我觉得这点对自学者而言是非常有帮助的。
第三,这本书几乎没有任何涉及计算机算法和代码的部分,哪怕是伪代码也没有。我想作者是希望完全从概率和统计本身的角度来写,而避免过多的实现细节。不过,对于这点你也不用过于担心,因为在专栏中,我会结合一些具体的机器学习算法及其应用,给你展示这些理论知识是如何运用到实践中的。
总的来说,这是一本相当不错的概率和统计方面的专业书籍。如果你预先读读这本书的内容,对概念有了理解,再看我的专栏也会更有感触。
线性代数篇推荐书籍:《线性代数及其应用》
如今的机器学习模型除了基于概率和统计还会使用线性代数的知识本专栏的第三个模块就是“线性代数”。介绍线性代数的书籍不少我这里推荐一本David C. Lay和Steven R. Lay合著的《线性代数及其应用》英文原名\(Linear\) \(Algebra\) \(and\) \(Its\) \(Applications\)。
这本书最大的特色在于:
第一,使用通俗易懂的口吻和大量的插图来阐述概念。而且在我看来,这些概念他解释得也相当清楚,比如线性方程、向量空间、特征向量、奇异值的分解等等,这些都是在机器学习算法中常用的模型或技术。
第二,写作的逻辑也相当清晰。这本书基本上都是先提出一个实际的问题,然后对这个问题进行分析,最终才进行定理式的归纳和证明。通俗易懂的同时,不乏数学的严谨性。和前面两本推荐的书一样,这本书中也结合了很多生动的案例,特别是经济学领域的。
第三,这本书还配套了一本优秀的学习指南\(Linear\) \(Algebra\) \(and\) \(Its\) \(Applications\): \(Study\) \(Guide\)。这本指南,加上原书课后的习题,对于自学的读者巩固知识很有帮助。不过我没有找到这本指南的中文翻译版。如果哪位同学有好的练习题推荐,也可以在留言区分享出来。
入门、通识类书籍推荐
除了上述三本重量级的专业书籍,我觉得还有几本通俗的入门书也是不错的。
一套是几位日本作家写的《程序员的数学》系列,包括《程序员的数学》《程序员的数学:概率统计》《程序员的数学:线性代数》。这套书也强调了和计算机领域紧密相连的三大模块。这几位作者使用朴实的语言,把最重要的一些概念给说明白了。相比前面三本,这套书所涵盖的内容可能没有那么全面、也没有那么深入,不过对于初学者来讲,是不错的入门书籍。
最后一本书是吴军老师的《数学之美》。这本书最大的特点是和计算机领域结合得非常紧密。所有的问题和解决方案,最后都联系到了计算机中的某个应用。可以说,作者更多的是从计算机从业者的角度出发,深入探讨了背后的数学思想和知识。除此之外,吴军老师广博的学识和深刻的见解,在这本书中也体现得淋漓尽致。这本书的写作风格对我写作这个专栏也是非常有启发的。
读书在精,不在多。我选的这些书,你可能多多少少见过,但是能静下心来读完一本的人可能寥寥无几。我相信,订阅这个专栏的你,一定有颗不甘于平庸的心。你一定有你的目标和追求。开卷有益,坚持下去,学下去、读下去,相信你一定会有所收获!

View File

@ -0,0 +1,180 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
数学专栏课外加餐(二) 位操作的三个应用实例
你好,我是黄申。欢迎来到第二次课外加餐时间。
位操作的应用实例
留言里很多同学对位操作比较感兴趣,我这里通过计算机中的位操作的几个应用,来帮你理解位操作。
1.验证奇偶数
在第2节里我提到了奇偶数其实也是余数的应用。编程中我们也可以用位运算来判断奇偶数。
仔细观察你会发现偶数的二进制最后一位总是0而奇数的二进制最后一位总是1因此对于给定的某个数字我们可以把它的二进制和数字1的二进制进行按位“与”的操作取得这个数字的二进制最后一位然后再进行判断。
我这里写了一段代码比较了使用位运算和模运算的效率我统计了进行1亿次奇偶数判断使用这两种方法各花了多少毫秒。如果在你的机器上两者花费的时间差不多你可以尝试增加统计的次数。在我的机器上测试下来同样次数的奇偶判断使用位运算的方法耗时明显更低。
public class Lesson1_append1 {
public static void main(String[] args) {
int even_cnt = 0, odd_cnt = 0;
long start = 0, end = 0;
start = System.currentTimeMillis();
for (int i = 0; i < 100000000; i++) {
if((i & 1) == 0){
even_cnt ++;
}else{
odd_cnt ++;
}
}
end = System.currentTimeMillis();
System.out.println(end - start);
System.out.println(even_cnt + " " + odd_cnt);
even_cnt = 0;
odd_cnt = 0;
start = 0;
end = 0;
start = System.currentTimeMillis();
for (int i = 0; i < 100000000; i++) {
if((i % 2) == 0){
even_cnt ++;
}else{
odd_cnt ++;
}
}
end = System.currentTimeMillis();
System.out.println(end - start);
System.out.println(even_cnt + " " + odd_cnt);
}
}
2.交换两个数字
你应该知道要想在计算机中交换两个变量的值通常都需要一个中间变量来临时存放被交换的值不过利用异或的特性我们就可以避免这个中间变量具体的代码如下
x = (x ^ y);
y = x ^ y;
x = x ^ y;
把第一步代入第二步中可以得到
y = (x ^ y) ^ y = x ^ (y ^ y) = x ^ 0 = x
把第一步和第二步的结果代入第三步中可以得到
x = (x ^ y) ^ x = (x ^ x) ^ y = 0 ^ y = y
这里用到异或的两个特性第一个是两个相等的数的异或为0比如x^x= 0第二个是任何一个数和0异或之后还是这个数不变比如0^y=y。
3.集合操作
集合和逻辑的概念是紧密相连的因此集合的操作也可以通过位的逻辑操作来实现
假设我们有两个集合{1, 3, 8}{4, 8}我们先把这两个集合转为两个8位的二进制数从右往左以1到8依次来编号
如果某个数字在集合中相应的位置1否则置0那么第一个集合就可以转换为10000101第二个集合可以转换为10001000那么这两个二进制数的按位与就是10000000只有第8位是1代表了两个集合的交为{8}而这两个二进制数的按位或就是10001101第8位第4位第3位和第1位是1代表了两个集合的并为{1, 3, 4, 8}
说到这里不禁让我想起Elasticsearch的BitSet我曾经使用Elasticsearch这个开源的搜索引擎来实现电商平台的搜索
当时为了提升查询的效率我使用了Elasticsearch的Filter查询我研究了一下这个Filter查询的原理发现它并没有考虑各种文档的相关性得分因此它可以把文档匹配关键字的情况转换成了一个BitSet
你可以把BitSet想成一个巨大的位数组每一位对应了某篇文档是否和给定的关键词匹配如果匹配这一位就置1否则就置0每个关键词都可以拥有一个BitSet用于表示哪些文档和这个关键词匹配那么要查看同时命中多个关键词的文档有哪些就是对多个BitSet求交集利用上面介绍的按位与这点是很容易实现的而且效率相当之高
二分查找时的两个细节
第3节我介绍了迭代法并讲解了相关的代码实现其中有两个细节我在这里补充说明一下
第一个是关于中间值的计算我优化了两处代码分别是Lesson3_2的第16行和Lesson3_3的第22行
其中Lesson3_2的第16行由原来的
double middle = (min + max) / 2;
改为
double middle = min + (max - min) / 2;
Lesson3_3的第22行由原来的
int middle = (left + right) / 2;
改为
int middle = left + (right - left) / 2;
这两处改动的初衷都是一样的是为了避免溢出在第一篇加餐中介绍负数的加法时我已经解释了什么是溢出那这里为什么会发生溢出呢我以第二处代码为例来讲解下
从理论上来说(left+right)/2=left+(right-left)/2。可是我们之前说过计算机系统有自身的局限性无论是何种数据类型都有一个上限或者下限。一旦某个数字超过了这些限定就会发生溢出。
对于变量left和right而言在定义的时候都指定了数据类型因此不会超出范围可是left+right的和就不一定了从下图可以看出当left和right都已经很接近某个数据类型的最大值时两者的和就会超过这个最大值发生上溢出这也是为什么最好不用通过(left+right)/2来求两者的中间值
那么为什么left + (right -left)/2就不会溢出呢首先right是没有超过最大值的那么(right -left)/2自然也就没有超过范围即使left加上了(right -left)/2也不会超过right的值所以运算的整个过程都不会产生溢出
第二个是关于误差百分比和绝对误差在Lesson3_2中有这么一行
double delta = Math.abs((square / n) - 1);
这里我使用了误差的百分比也就是误差值占输入值n的比例其实绝对误差也是可以的不过我在这里考虑了n的大小比如如果n是一个很小的正整数比如个位数那么误差可能要精确到0.00001但是如果n是一个很大的数呢比如几个亿那么精确到0.00001可能没有多大必要也许精确到0.1也就可以了所以使用误差的百分比可以避免由于不同的n导致的迭代次数有过大差异
由于这里n是大于1的正整数所以可以直接拿平方值square去除以n否则我们要单独判断n为0的情况并使用绝对误差
关于迭代法数学归纳法和递归
从第3节到第6节我连续介绍了迭代法数学归纳法递归这些概念之间存在相互联系又不完全一样很多同学对此也有一些疑惑所以这里我来帮你梳理一下
迭代法和递归都是通过不断反复的步骤计算数值或进行操作的方法迭代一般适合正向思维而递归一般适合逆向思维而递归回溯的时候也体现了正向递推的思维它们本身都是抽象的流程可以有不同的编程实现
对于某些重复性的计算数学归纳法可以从理论上证明某个结论是否成立如果成立它可以大大节约迭代法中数值计算部分的时间不过在使用数学归纳法之前我们需要通过一些数学知识假设命题并证明该命题成立
对于那些无法使用数学归纳法来证明的迭代问题我们可以通过编程实现这里需要注意的是广义上来说递归也是迭代法的一种不过在计算机编程中我们所提到的迭代是一种具体的编程实现是指使用循环来实现的正向递推而递归是指使用函数的嵌套调用来实现的逆向递推当然两种实现通常是可以相互转换的
循环的实现很容易理解对硬件资源的开销比较小不过循环更适合单线剧情例如计算2^nn!1+2+3++n等等而对于存在很多分支剧情的复杂案例而言使用递归调用更加合适
利用函数的嵌套调用递归编程可以存储很多中间变量我们可以很轻松地跟踪不同的分支而所有这些对程序员基本是透明的如果这时使用循环我们不得不自己创建并保存很多中间变量当然正是由于这个特性递归比较消耗硬件资源
递归编程本身就体现了分治的思想这个思想还可以延伸到集群的分布式架构中最近几年比较主流的MapReduce框架也体现了这种思想
综合上面说的几点你可以大致遵循这样的原则
如果一个问题可以被迭代法解决而且是有关数值计算的那你就看看是否可以假设命题并优先考虑使用数学归纳法来证明
如果需要借助计算机那么优先考虑是否可以使用循环来实现如果问题本身过于复杂再考虑函数的嵌套调用是否可以通过递归将问题逐级简化
如果数据量过大可以考虑采用分治思想的分布式系统来处理
最后给你留一道思考题吧
在1到n的数字中有且只有唯一的一个数字m重复出现了其它的数字都只出现一次请把这个数字找出来提示可以充分利用异或的两个特性
好了前面6讲的补充内容就到这里了欢迎你留言给我你也可以点击请朋友读把今天的内容分享给你的好友和他一起精进

View File

@ -0,0 +1,35 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
结束语 从数学到编程,本身就是一个很长的链条
你好我是黄申。不知不觉4个多月就过去了终于到了说再见的时候。
上周编辑对我说:“黄老师,专栏正文写完啦,要写结束语啦!”我当时第一反应是,“啥?已经写完啦?这么快!”。别看我现在“依依不舍”,回想写专栏之初,真的是一波三折。
我曾经出版过两本大数据相关的书籍,而且销量和口碑都还不错,所以刚开始的时候,我感觉写专栏应该是“得心应手”的事情。可是,试写了几篇之后,在和专栏编辑的沟通中,我逐渐意识到,写专栏和写书完全是两回事。
写书的时候,往往是作者主导,想把这本书写成什么样,给谁看,这些完全由自己说了算。但是,写专栏文章是不同的,它要有明确的受众,因此就要明确每一篇的知识点深度和密度,并把一个知识点深入浅出地说清楚,确保每个人看完之后能有所收获。
很快,我就进入了状态。可是,我又遇到了第二个“波折”。
虽然大家都知道数学和编程是紧密相关的,但是到具体的知识点的时候,就没有那么直观了。对于数学和编程之间的关系,每个人都有自己的理解。我很明白,如果无法厘清这两者的关系,很难写出一个对于程序员来说,非常实用的数学专栏。所以,在写作的同时,我反复地问自己:“数学和编程究竟是什么关系?如何把这种关系的本质通过文字和代码讲解出来?”。
我不断地去思考、和编辑讨论,慢慢发现,多数人对这两者关系不清楚的主要原因是,从数学的知识体系出发,一直到具体的编程应用,整个过程本身是一个很长的链条。
要把编程领域中的数学讲清楚,我们至少要经历“数学概念-数学模型-数据结构-基础算法/机器学习算法-编码实现”这几个关键步骤。
具体来说,首先你要充分理解一个数学的概念,然后是数学的模型。在这些基础之上,我们才能把它们转换成编程领域中对应的数据结构和算法,最终才能付诸于编码实现。
经历过这些深度思考,搞明白了专栏的交付目标。每天写稿、录音到深夜,对我来说,都不是什么事情了。因为写这个专栏的过程中,我也收获了很多。总的来说,这几个月的创作充满了艰辛,但是也充满了成就感。希望这个专栏能够帮助你收获知识,以及知识之外的一些对数学的认知,那就是这个专栏最大的意义和价值。
最后,感谢极客时间这个平台给了我一个机会,能够重新梳理自己这么多年的学习心得和工作经验,更要感谢订阅专栏的你,不断给我反馈和意见。专栏虽然结束了,但是学习应该是持续进行的。非常感谢你的支持,你可以继续在留言区留下你的疑问,我也会持续不断地进行解答。
每一次结束都是另一段新旅途的开始,祝福你在工作、生活中都能不断进步!