ffmpeg小抄

平常少不了用到视频处理,借助GUI工具当然不失为一种选择,但是往往找不到趁手的家伙,virtualDub不错,但是也不够使。
ffmpeg功能极其强大,堪比图像处理的ImageMagik。下面是一些常用的命令,记下备用。

平常少不了用到视频处理,借助GUI工具当然不失为一种选择,但是往往找不到趁手的家伙,virtualDub不错,但是也不够使。
ffmpeg功能极其强大,堪比图像处理的ImageMagik。下面是一些常用的命令,记下备用。
玩了一下OpenCV2.3的python接口。有如下几个注意事项:
1:OpenCV2.3RC使用VS2005编译会提示确实DirectShow,所以最好还是升级到OpenCV2.3
2: 使用VisualStudio2008/2010的可以直接下载OpenCV2.3 Superpack,免去编译之累。
3:编译好python库之后将cv.pyd, cv2.pyd拷贝至python2.x的Lib/Sitepackage目录下。
4:cv2中的函数使用的numpy.ndarray来表示图像,所以要使用cv2.imread函数来装载图像,而不要使用cv模块中的loadImage或者loadImageM
以上事项都搞定的话,写个简单的小程序就木有问题了。下面用新的cv2模块将以前贴过的提取surf特征的代码重写一遍:
google的新闻两则:
google收购了PittPatt公司。该公司主要提供人脸检测,识别,跟踪等技术。Picasa里面不是已经有相当强大的人脸识别了么?为毛还要收购?莫非是为了专利,人才储备?这样算来google已经收购了三家CV的创业公司。(Plink,Like)
Google talk中开始采用SRI Technology的SRI 2D视频稳定技术。SRI是一家独立的非盈利的研发机构,鄙人是第一次听说,官网介绍如下:
SRI International is an independent, nonprofit research institute conducting client-sponsored research and development for government agencies, commercial businesses, foundations, and other organizations. SRI also brings its innovations to the marketplace by licensing its intellectual property and creating new ventures.
据说视频稳定技术用在手持设备上,虽然增加了计算负担,提高了功耗,但是却能在提升视频质量的同时,提高视频压缩率。
分享两个代码:
Class-Specific Hough Forests for Object Detection
最后是一个不相交集(Disjoint set)的可视化:不相交集算法是指从一坨数据中找到不相交的联通分量。典型应用包括图像的联通域查找和滑窗物体检测结果的融合。原理是将每个元素是为一个集合,之后遍历所有的边,进行融合。
洗洗睡觉。
电脑挂点了一周,换了新机,终于可以更新鸟。
最近很多奇文嘛。GE的 一个工程师Peter Tu将教授比做吸血鬼,将工业界的工程师比作狼人,妙趣横生啊。
“Vampires need blood from human donors. Professors need publications, which they extract from their grad students.” – Peter Tu
继续转载limu童鞋的在线学习漫谈,地址
《红楼梦》第三一回云:天地间都赋阴阳二气所生。世间有阴便有阳,在优化界也是如此。我们将需要最小化的目标函数称之为primal problem. 其对应就有dual problem. 例如常见的Lagrange Duality. 如果primal是凸的,那么dual便是凹的。且在常见情况下,最小化primal等价于最大化dual. 有时候直接求解primal problem很麻烦,但dual却方便很多。或是通过考察dual problem的性质能得到最优解的一些性质。一个经典的案例就是SVM.
上节我们通过子空间投影来处理罚,这里我们直接考虑最小化损失+罚的形式,既
(罚前的参数
在这里写进了
里了)。注意到罚
的存在,使得目标函数不能如前面那样自然的分成
块,从而不能直接对每块做梯度下降得到online gradient descent. 于是我们转向dual problem.
Shai Shalev-Shwartz提出可以用Fenchel Duality来研究其对偶式。Shai最近在online/stochastic界相当活跃。虽然和他不熟,不过因为他姓比较长,所以下面亲切的用Shai来称呼他。Shai 毕业于耶路撒冷希伯来大学,PHD论文便是online learning. 然后他去了online learning重地TTIC, 更是习得满身武艺,现在又回了耶路撒冷希伯来大学任教。他的数学直觉敏锐,善于将一些工具巧妙的应用到一些问题上。 阅读全文…
统计学习那些事
香港科技大学 电子与计算机工程系 eeyangc@gmail.com
在港科大拿到PhD,做的是Bioinformatics方面的东西。Bioinformatics这个领域很乱,从业者水平参差不齐,但随着相关技术(比如Microarray, Genotyping)的进步,这个领域一直风风光光。因为我本科是学计算机电子技术方面的,对这些技术本身并没有多大的兴趣,支持我一路走过来的一个重要原因是我感受到统计学习(Statistical learning)的魅力。正如本科时代看过的一本网络小说《悟空传》所写的:“你不觉得天边的晚霞很美吗?只有看着她,我才能坚持向西走。”
离校前闲来无事,觉得应该把自己的一些感受写下来,和更多的爱好者分享。
先介绍一下我是如何发现这个领域的。我本科学自动化,大四时接触到一点智能控制的东西,比如模糊系统,神经网络。研究生阶段除了做点小硬件和小软件,主要的时间花在研究模糊系统上。一个偶然的机会,发现了王立新老师的《模糊系统与模糊控制教材》。我至今依然认为这是有关模糊系统的最好的书,逻辑性非常强。它解答了我当年的很多困惑,然而真正令我心潮澎湃的是这本书的序言,读起来有一种“飞”的感觉。后来我终于有机会来到港科大,成为立新老师的PhD学生,时长一年半(因为立新老师离开港科大投身产业界了)。立新老师对我的指导很少,总结起来可能就一句话:“你应该去看一下Breiman 和Friedman的文章。”立新老师在我心目中的位置是高高在上的,于是我就忠实地执行了他的话。那一年半的时间里,我几乎把他们的文章看了好几遍。开始不怎么懂,后来才慢慢懂了,甚至有些痴迷。于是,我把与他们经常合作的一些学者的大部分文章也拿来看了,当时很傻很天真,就是瞎看,后来才知道他们的鼎鼎大名,Hastie, Tibshirani, Efron等。文章看得差不多了,就反复看他们的那本书“The Elements of Statistical learning”(以下简称ESL)。说实话,不容易看明白,也没有人指导,我只好把文章和书一起反复看,就这样来来回回折腾。比如为看懂Efron的“Least angle regression”,我一个人前前后后折腾了一年时间(个人资质太差)。当时国内还有人翻译了这本书(2006年),把名字翻译为“统计学习基础”。我的神啦,这也叫“基础”!还要不要人学啊!难道绝世武功真的要练三五十年?其实正确的翻译应该叫“精要”。在我看来,这本书所记载的是绝世武功的要义,强调的是整体的理解,联系和把握,绝世武功的细节在他们的文章里。
由于篇幅有限,我就以Lasso和Boosting为主线讲讲自己的体会。故事还得从90年代说起。我觉得90年代是这个领域发展的一个黄金年代,因为两种绝世武功都在这个时候横空出世,他们是SVM和Boosted Trees。
ORB是是ORiented Brief的简称。ORB的描述在下面文章中:
Ethan Rublee and Vincent Rabaud and Kurt Konolige and Gary Bradski, ORB: an efficient alternative to SIFT or SURF, ICCV 2011
没有加上链接是因为作者确实还没有放出论文,不过OpenCV2.3RC中已经有了实现,WillowGarage有一个talk也提到了这个算法,因此我不揣浅陋,在这里总结一下。
Brief是Binary Robust Independent Elementary Features的缩写。这个特征描述子是由EPFL的Calonder在ECCV2010上提出的。主要思路就是在特征点附近随机选取若干点对,将这些点对的灰度值的大小,组合成一个二进制串,并将这个二进制串作为该特征点的特征描述子。详细算法描述参考如下论文:
注意在BRIEF eccv2010的文章中,BRIEF描述子中的每一位是由随机选取的两个像素点做二进制比较得来的。文章同样提到,在此之前,需要选取合适的gaussian kernel对图像做平滑处理。(为什么要强调这一点,因为下述的ORB对此作了改进。)
BRIEF的优点在于速度,缺点也相当明显:
1:不具备旋转不变性。
2:对噪声敏感
3:不具备尺度不变性。
ORB就是试图解决上述缺点中的1和2.
最新评论