Kmeans based indexing and Asymmetric Distance Computation for ANN search (Binary Local Feature): part1
2012年1月13日
6 条评论
受Herve Jegou的Hamming Embedding and Weak Geometric consistency for large-scale image search以及Product quantization for nearest neighbor search的启发,将Kmeans clustering、inverted files、Asymmetric Distance Computation应用到二进制形式的局部特征的最近邻检索。
主要思路:
用Kmeans做特征的粗索引。
根据统计数据对feature进行压缩。
检索时使用非对称的方式计算索引特征与查询特征之间的距离。
算法:
训练:
- 使用Kmeans对欲索引的特征进行聚类,得到K个中心。对二进制形式的feature做聚类时,类别中心更新方式为:对于每一个bit,统计所有落在该类别的特征的对应bit上的1,0频率,并取高者。
- 对于每个cluster,统计所有落在该类别的特征的每个bit位的1,0频率,取1或者0频率靠近50%的前M个bits。(越靠近50%,熵越大)
经过训练,我们得到两组数据:
- K个特征类别中心。
- 对于每个类别中心,都有一组“M个bit位置标示符”。这些标示符构成一个对原始feature进行压缩的依据。(本文以后将其称为投影向量)
最新评论