Andrew Ng的机器学习导论将作为一次分布教育的试验

教育试验呀,教育试验,让我们成为一个教育试验的一部分吧。大家应该都知道Andrew Ng和网易公开课里面基本太监掉的翻译。2011年,Andrew Ng要公开这个课了,要弄个教育试验。这个“大胆试验性分布式教育”意味着学生们不仅仅是像以往的开放课程那样下载讲课视频和其他的材料,而是在学习中参与到提交作业和收到回馈。恩,就是远程教育呀,远程教育。我申请的时候已经31,343人申请过了。这个课要成为世界上上的人最多的课么? 阅读全文…

教育试验呀,教育试验,让我们成为一个教育试验的一部分吧。大家应该都知道Andrew Ng和网易公开课里面基本太监掉的翻译。2011年,Andrew Ng要公开这个课了,要弄个教育试验。这个“大胆试验性分布式教育”意味着学生们不仅仅是像以往的开放课程那样下载讲课视频和其他的材料,而是在学习中参与到提交作业和收到回馈。恩,就是远程教育呀,远程教育。我申请的时候已经31,343人申请过了。这个课要成为世界上上的人最多的课么? 阅读全文…
转载不能太监,转载limu童鞋的在线学习,原文在此
回顾下上次聊的专家问题,在时刻专家
的损失是
,于是这个时刻Weighted Majority(WM)损失的期望是
,是关于这
个专家的损失的一个线性组合(因为权重
关于
的和为1,所以实际上是在一个simplex上)。将专家在
时刻的损失看成是这个时候进来的数据点,于是我们便在这里使用了一个线性的损失函数。
虽然WM的理论在上个世纪完成了[Littlestone 94, Freund 99],将其理论拓展到一般的凸的函数还是在03年由Zinkevich完成的。当时Zinkevich还是CMU的学生,现在在Yahoo! Research。话说Yahoo! Research的learning相当强大,Alex Smola(kernel大佬),John Langford(有个非常著名的blog),这些年在large scale learning上工作很出色。
回到正题。我们提到在online learning中learner遭受的累计损失被记成,如果挑选
的策略集
是凸的,而且损失函数
关于
是凸的,那么我们称这个问题为Online Convex Optimization(OCP)。通常我们将
表示成一个向量
,例如WM中的维护的
专家信任度,所以这时
。
Zinkevich提出的算法很简单,在时刻做两步操作,首先利用当前得到数据对
进行一次梯度下降得到
,如果新的
不在
中,那么将其投影进来:
这里是
关于
的导数(如果导数不唯一,就用次导数),
是学习率,
是投影子,其将不在
中的向量
投影成一个与
最近的但在
中的向量(如果
已经在
中了,那就不做任何事),用公式表达就是
。此算法通常被称之为 Online Gradient Descent。
先来啰嗦几句其与离线梯度下降的区别。下图是一个区别示意图。在离线的情况下,我们知道所有数据,所以能计算得到整个目标函数的梯度,从而能朝最优解迈出坚实的一步。而在online设定下,我们只根据当前的数据来计算一个梯度,其很可能与真实目标函数的梯度有一定的偏差。我们只是减少,而对别的项是否也是减少就难说了。当然,我们一直在朝目标前进,只是可能要走点弯路。
那online的优势在哪里呢?其关键是每走一步只需要看一下当前的一个数据,所以代价很小。而offline的算法每走一个要看下所有数据来算一个真实梯度,所以代价很大。假定有100个数据,offline走10步就到最优,而online要100步才能到。但这样offline需要看1000个数据,而online只要看100个数据,所以还是online代价小。 阅读全文…
Mu.Li同学计划撰写一个系列的文章来介绍online training,这里是第一篇(LiMu你很威武啊)。原文在此,全文转载如下。
很久很久以前有一老师和一学生,每天老师让学生回答一个问题,然后老师告诉学生正确答案,学生则比较正确答案来更新自己的知识。就这样学生终成大师,与老师幸福的生活了下去。
不过,在现实的世界里,故事是另外一个版本:在网络的一头住着一挨踢男,另一头住着一小编。每天小编写一封垃圾邮件给挨踢男。苦命的挨踢男日日分析邮件设计过滤器来过滤小编的垃圾邮件。但聪明的小编如果一发现邮件没有成功的被寄送,那么就会在下一封里加上更多的甜言蜜语来忽悠挨踢男。较量一直进行下去,挨踢男是否能摆脱小编的骚扰呢?
以上两故事都属于博弈论里的重复游戏(repeated game),它是对在线学习(online learning)最贴切的刻画:数据不断前来,我们需根据当前所能得到的来调整自己的最优策略。
熟悉机器学习的稳拿可能注意到了在线学习与在机器学习(统计学习)里所讨论的(离线)学习的区别。前者认为数据的分布是可以任意的,甚至是为了破坏我们的策略而精心设计的,而后者则通常假定数据是服从独立同分布。这两种不同的假设带来不一样的设计理念和理论。
统计学习考虑算法所求得到的模型与真实模型的差距。数据由真实模型产生,如果能有无限数据、并在包含有真实模型的空间里求解,也许我们能算出真是模型。但实际上我们只有有限的有噪音的数据,这又限制我们只能使用相对简单的模型。所以,理想的算法是能够用不多的数据来得到一个不错的模型。
在线学习的一个主要限制是当前只能看到当前的和过去的数据,未来是未知,有可能完全颠覆现在的认知。因此,对在线学习而言,它追求的是知道所有数据时所能设计的最优策略。同这个最优策略的差异称之为后悔(regret):后悔没能一开始就选定最优策略。我们的希望是,时间一久,数据一多,这个差异就会变得很小。因为不对数据做任何假设,最优策略是否完美我们不关心(例如回答正确所有问题)。我们追求的是,没有后悔(no-regret)。
如果与统计学习一样对数据做独立同分布假设,那么在线学习里的最优策略就是在得知所有数据的离线学习所能得到最优解。因此在线学习可以看成是一种优化方法:随着对数据的不断访问来逐步逼近这个最优解。
很早以前优化界都在追求收敛很快的优化算法,例如牛顿迭代法。而最近一些年,learning的人发现,这类算法虽然迭代几下就能迭出一个精度很高的解,但每一步都很贵,而且数据一大根本迭不动。而向来被优化界抛弃的在线学习、随机优化算法(例如stochastic gradient descent),虽然收敛不快,不过迭代代价很低,更考虑到learning算法的解的精度要求不高,所以在实际应用中这些方法通常比传统的优化算法快很多,而且可以处理非常大的数据。
随便看看这些年ICML,NIPS,JMLR上online, stochastic关键字文章的数量就知道这类算法的大红大紫了。一个通常的规律是learning界火过的topic在computer vision,data mining等偏应用的方向上会接着火几年,所以肯定CVPR, ICCV, KDD之类会议上还会有茫茫多这类paper。因为我最早的topic(见我CVPR’10文章)关于online learning,所以想乘自己知识还新,就自己的理解来谈谈它。希望能用通俗的语言为大家介绍这个topic,为国内learning界做做贡献。
当然,相对于老地主online learning,stochastic绝对是新贵。我会接下来谈这类算法,以及他们动辄数页的convergence rate的证明。我的另外一个topic(见我ICML’10, CVPR’11文章)是大规模矩阵的低秩近似,也算大规模机器里面的一个重要问题,我想有时间也来浅出一下。
![]()
LeftNotEasy同学写了一堆机器学习的数学的相关的东西
讲到的是内容有:
回归(regression)、梯度下降(gradient descent)
线性回归,偏差、方差权衡
模型组合(Model Combining)之Boosting与Gradient Boosting
线性判别分析(LDA), 主成分分析(PCA)
来自UC Berkeley的机器学习课程。
This course introduces core statistical machine learning algorithms in a (relatively) non-mathematical way, emphasizing applied problem-solving. The prerequisites are light; some prior exposure to basic probability and to linear algebra will suffice.
资料翔实,值得收藏。
在开始正文之前,咱首先得说明一下,这篇东西偏向于理论,各位看官可以自行跳过某些部分。这方面的工作奠基人同样也是compressive sensing的大牛之一E.J Candes(Donoho的得意门生),以及Candes的学生Ben Recht,前者刚从caltech被挖到stanford,后者目前刚到wisconsin做AP。Candes大牛,stanford统计系出生,师从Donoho。Candes原来的主要工作集中在小波分析上(实际上C牛非常多产),比如著名的curvelets以及ridgelets,04年左右开始和Tao合作从事compressive sensing的理论工作,这里有他的简要介绍。
继续唠叨,上回说到借着collaborative filtering的东风,矩阵的稀疏表示受到了广泛的关注。说到矩阵的稀疏性,大部分看官可能有所误解。这个矩阵稀疏表示严格而言可以分为两种:
1. 矩阵元素的稀疏性,即矩阵非0元个数相对较少。参照向量的范数,同样可以定义矩阵的0范数,并将其松弛到矩阵的1范数的优化问题。
2. 矩阵奇异值的稀疏性,即矩阵奇异值中非0元的个数(即矩阵的秩)相对较少。仿照向量情况下0范数与1范数的关系,同样可以将其松弛的到迹范数(trace norm)的优化问题。
完全不懂的领域。转过来,同好们讨论一下。来源
总觉得即使是“浅谈”两个字,还是让这个标题有些过大了,更何况我自己也才刚刚接触这么一个领域。不过懒得想其他标题了,想起来要扯一下这个话题,也是因为和朋友聊起我自己最近在做的方向。Manifold Learning 或者仅仅 Manifold 本身通常就听起来颇有些深奥的感觉,不过如果并不是想要进行严格的理论推导的话,也可以从许多直观的例子得到一些感性的认识,正好我也就借这个机会来简单地谈一下这个话题吧,或者说至少是我到目前为止对这它的认识。
最新评论