转:基于Aforge的手势字符识别
还是来自hellogv,呵呵。
Afroge我是第一次看到,孤陋寡闻了。下面是一点介绍。
AForge.NET is an open source C# framework designed for developers and researchers in the fields of Computer Vision and Artificial Intelligence – image processing, neural networks, genetic algorithms, fuzzy logic, machine learning, robotics, etc.
The framework is comprised by the set of libraries and sample applications, which demonstrate their features:
- AForge.Imaging – library with image processing routines and filters;
- AForge.Vision – computer vision library;
- AForge.Video – set of libraries for video processing;
- AForge.Neuro – neural networks computation library;
- AForge.Genetic – evolution programming library;
- AForge.Fuzzy – fuzzy computations library;
- AForge.Robotics – library providing support of some robotics kits;
- AForge.MachineLearning – machine learning library;
etc.
我实现手势识别的原理很简单:捕捉运动物体+手写识别,把运动的物体的轨迹记录下来,然后通过手写识别引擎去搜索数据中最匹配的数据,从而知道“写”的是什么。目前常见的开源手写识别引擎有zinnia,wagomu 这些,不过小弟我比较业余,只把网上的比较常见的手写识别代码改进一下,只能识别字母和数字,真想通过摄像头隔空“手写”的朋友就要多花时间玩玩上面提到的几个开源手写类库了。
本文介绍的手写识别:先在一个固定大小的画板上,用鼠标画下某图形,输入该图形对应的字母,程序把画板上的字母特征点都保存下来特征数据库(相当于学习记忆),然后再在画板上画出类似该字母的图形,程序就通过新画的特征点搜索特征数据库从而找出最类似的字母。
OpenCV WinCE/WM移植
首先声明,本文来自hellogv,很好很强大,可以围观,可以搭讪。
上次写了在C#玩OpenSURF的演示,这次就写写如何把opencv1.10移植到wince/WM。因为如果懂得裁剪opencv,那么就可以在更多设备(PC,手机,开发板)上玩更多更好玩的算法,因此,移植和裁剪opencv还是很有必要的。我已经移植到wince/WM上的opencv1.10工程可以到这里:http://www.pudn.com/downloads270/sourcecode/embed/detail1235697.html,工程只含cv和cvcore这两个核心项目,highgui与系统粘合度太大,不好移植,迟点会贴出实现部分highgui功能的例子。
本文参考:http://www.computer-vision-software.com/blog/2009/03/running-opencv-facedetect-sample-on-pocket-pc/
接下来,废话不说,直接把移植cv和cvcore的步骤贴上:
FrankenCamera(怪物相机?)
![]()
FrankenCamera是standford鼓捣出来的出来的怪物级的相机,尺寸惊人,比加了手柄的无敌兔还要大,没点肱二,三头肌估计玩不动。目标是提供一个computational photography的开放式平台(提供曝光,聚焦,快门等等控制,而不用受限于消费相机的预装软件)。(也算是open source hardware么?)
siggraph2010上有一个介绍这个巨无霸的论文。
最近该实验室放出了一个开源软件Fcam,适用与两个平台,一就是上面的FrankenCamera,另一个就是nokia第一款基于maemo的的手机N900。(为何不跟个风,搞个NexusOne版本的?)
如果我没眼花的话,下面这句话的意思是一年内可以买到FrankenCamera?
Levoy said he expects those cameras will be available within a year.
LookTel

介绍一个移动视觉搜索的应用,LookTel。该应用利用移动设备拍摄目标物体(比如说钱币,商品等),上传至云端识别,然后返回识别结果,并以语音的方式读出,目标受众是视觉有障碍的人士。市场定位很清楚的一个应用,虽然受众很小,对于视觉有障碍的人来说非常有用。如今的新鲜科技令人眼花缭乱,像这样,能真正改善人们生活的,少之又少。
LookTel不同与之前介绍的SnapTell,goggles等的一个地方是允许用户自己添加场景,制作一个个性化的数据库。这对视觉障碍人士来说很有吧。
除了自动识别以外,LookTel还允许一个辅助者远程描述当下的视频或图片里的场景。当然这跟计算机视觉就没关系啦。
得知这个应用是通过一个新闻,LookTel刚获得了今年的2010 CTIA E-Tech AWARDS。
链接大放送
幸福终点站
如果你是从3月份就关注cvchina的话,应该会看过这条新闻:vislab无人车的丝绸之路。现在,这个小面包车,长途奔袭8000英里,终于到达上海了。出发了。预计10月份到达上海。
PS:一个问题是,汽车叫做auto,那么无人汽车是叫autoauto么?额。。。
Yet Another Geture UI.
如此多的手势UI,德国Fraunhofer的手势UI也来插一脚(插一手?),特色是可以在3D空间操作的哈。
个人觉得一个好的手势UI最重要的地方就是能不能提供一个简洁的抓取动作(相当于鼠标的左键点击)。在下面的视频里,Fraunhofer的抓取动作就是直接取自自然而然的手掌抓取,前提当然是建立在五个手指准确的的姿态估计之上。
另:在来源处提到,手势的3D信息来源于3D摄像头。
Im FIT-Prototyp werden in Echtzeit Hände und Finger der Benutzter in den Bilddaten einer 3D-Kamera erkannt und die Bewegungen mitverfolgt.
假模假样
链接大放送
突然发现好几天没来更新了,这是有史以来最长的间断,下不为例。
首先是新闻两则,这次关注的是软性显示装置。第一是toshiba的flexible display,可以折来折去的当成缩放输入,demo里是用来操作google earth。第二看起来更惊人,是hp的flexible display, 不但可以折,还可以像EInk一样不用消耗电力的保持一幅图像。
然后是两个关于3D显示的XXX,一个是XXX,另一个是XXX。在公司看cvchina的不要打开了。切切。
本周的视频是一个关于视错觉的,太震撼了,人脑也是有bug的啊。让我想起了上海科技馆的鬼屋,真的是站不稳,没去过的可以去体验一下,顺便还可以去鄙视一下模式识别馆。
另外推荐两篇博文,第一是是dark channel的发明人,何恺明,现身讲述了cvpr2009 best paper的的前世今生。第二是netflix prize的来龙去脉。
本周的图片推荐,就不来全景图了。换一个data visualization,让人眼花缭乱的艰辛创业流程图。






![[SIGGRAPH2010] RepFinder: Finding Approximately Repeated Scene Elements for Image Editing](http://cg.cs.tsinghua.edu.cn/imgedt/figures/teaser.jpg)




最新评论