Hadoop在网站备份中的应用

2860阅读 0评论2013-03-27 slp195
分类:大数据

【背景】
      目前社区网站规模越来越大,一般采用分布式数据库存储即时信息,但是对于安全的备份,数据库中的数据备份最好是能转移到一个安全可靠的平台,而非将备份数据保留与本地。
【hadoop平台的利用
      在每个数据库备份完成后,将其复制到稳定的Hadoop集群中。集群对备份的数据有固定的保留时间,已确保集群被大量过时的备份吞噬。同时集群可以适当的扩展,以满足备份的需求。Hadoop的分布式特性让在数据库进行数据恢复的时候有足够的带宽。
      同时非实时数据可以再Hadoop平台中得到更好的分析和挖掘,提高数据库站点的前台响应时间
【Hadoop对文档去重
        1.对旧文档进行MD5处理,对行文档通过mapreduce进行合并到旧文档
        2.计算文档的hash值,在Hbase总设置去重表,来表示文档的重复性,重文档不予存入Hbase
        3.数据指纹(文档指纹)+mapreduce去重

参考:


    

上一篇:hadoop 运行mapred程序涉及第三方jar包出现“ClassNotFound”解决办法
下一篇:WebService&Axis2&Tomcat6&Hadoop/HDFS搭建服务时遇到的一些问题