想认识更多朋友,请加入QQ群:135327975
鉴于加入朋友太多,请做一下简单的自我介绍。
最新评论
- 正在加载...
本站最热
- 稀疏表达:向量、矩阵与张量(上) - 18,315 views
- 稀疏表达:向量、矩阵与张量(中) - 9,587 views
- 代码 - 8,570 views
- 统计学习那些事 - 6,492 views
- 关于 - 6,238 views
- 图像增强demo - 5,996 views
- 几种深度摄像头简介 - 5,955 views
- 这次不是玩概念了,基于人脸识别的增强现实应用 — recognizr - 5,791 views
- cvpr2010奇文一篇 - 5,460 views
- 转载:稀疏表达 - 5,322 views
- 什么是ORB - 5,085 views
- Tracking-Learning-Detection - 5,022 views
- 转:卖萌的大牛你桑不起啊 ——记CVPR2011一篇极品文章 - 4,964 views
- zz:压缩感知科普文两则 - 4,904 views
- opencv2.2给力更新 - 4,577 views
3D标签云
3D 3D reconstruction android AR augmented reality augment reality computer vision cvchina cvpr cvpr2010 cvpr2011 depth camera goggles google HDR hugin ICCV kinect linkfest machine learning matlab microsoft MIT natal nvidia opencv panorama sift siggraph siggraph2010 snaptell surf 三维重建 人脸检测 全景图 全景拼接 公司介绍 图像处理 图像检索 增强现实 微软 机器学习 深度摄像头 物体识别 计算机视觉
WP Cumulus Flash tag cloud by Roy Tanck and Luke Morton requires Flash Player 9 or better.
Blogroll
Archives
- January 2012
- December 2011
- November 2011
- October 2011
- September 2011
- August 2011
- July 2011
- June 2011
- May 2011
- April 2011
- March 2011
- February 2011
- January 2011
- December 2010
- November 2010
- October 2010
- September 2010
- August 2010
- July 2010
- June 2010
- May 2010
- April 2010
- March 2010
- February 2010
- January 2010
个人很想知道这个实现当中SSE啥的对加速有多大贡献。
具体来说,求的是两个二进制串,相同位的个数。我不知道能快多少,没用过sse
二进制串的5个and,4个or…
sse是啥玩意儿啊,论文里说,x86电脑对这种and或者or会自动用sse加速…
不知道是不是我理解错了…
你看的很仔细嘛。。好好研究一下啊。
我感觉很有潜力啊。
http://zh.wikipedia.org/zh-cn/SSE2
在opencv200里面搜cvfast.
SSE是intel的指令集,如果你的程序时标准C,且不调用opencv2.0的函数的话,产生的代码是未优化的代码,也就是说,代码还是用的类似386、486时代的代码,若要充分利用cpu能力,就要使用sse指令集。现在的cpu大都支持SSE3,最新的好像是SSE4.1吧。
@fengyu
受教了。
我最近看了一下sse指令。sse是SIMD的扩展,主要是用单指令完成原先多条指令才能完成的运算,比如4个32bits float的乘法等等。msdn上有很多sse的内联函数的说明,值得看看。但是据说,如果要用sse的话,还是推荐直接内嵌汇编会更好一点。
话说回来,与其有时间折腾汇编指令,不如多想想怎么优化算法,然后让编译器完成剩下的工作,比如换IPP编译代码。
楼上说的对,但有时候算法结构优化是有局限性的,ipp的确很强大,对于学校是免费的,但对于公司是收费的(虽然费用也不贵)。msdn上的intrinsic其实比汇编要简单,直接在c语言里面调用,就像函数一样。印象中可以一次对16个字节进行加减乘法、逻辑等操作,性能提升是巨大的(你想啊,如果算法是每个cycle算一个像素,但cpu具体执行代码的时候,仍然会最少加载32bit的数据,额外浪费了很多资源)。
对于算法研发人员,最主要的还是关注于算法的实现的结果,至于运行速度,那是也未必是算法研究人员的感兴趣的地方,毕竟,脑子里成天想着intrinsic,内存对齐,还怎么开发算法啊。不过,好消息是,opencv2.0已经部分支持sse3了,算法性能的提升是数10倍!我仅仅测试了几个函数而已。
除非是特别的实现trick需要用intrinsic,一般的代码可以用icc编译,icc自动帮你生成sse以适应目标平台.
求开源。。。求实现。。。
相当惊叹的结果,准备好好读读
有没有人做到那样的效果或者正在做?