【背景】
目前社区网站规模越来越大,一般采用分布式数据库存储即时信息,但是对于安全的备份,数据库中的数据备份最好是能转移到一个安全可靠的平台,而非将备份数据保留与本地。
【hadoop平台的利用】
在每个数据库备份完成后,将其复制到稳定的Hadoop集群中。集群对备份的数据有固定的保留时间,已确保集群被大量过时的备份吞噬。同时集群可以适当的扩展,以满足备份的需求。Hadoop的分布式特性让在数据库进行数据恢复的时候有足够的带宽。
同时非实时数据可以再Hadoop平台中得到更好的分析和挖掘,提高数据库站点的前台响应时间。
【Hadoop对文档去重】
1.对旧文档进行MD5处理,对行文档通过mapreduce进行合并到旧文档
2.计算文档的hash值,在Hbase总设置去重表,来表示文档的重复性,重文档不予存入Hbase
3.数据指纹(文档指纹)+mapreduce去重
参考: