新闻搜索算法

1144阅读 0评论2011-08-01 cuichaox
分类:IT业界

互联网上各种信息泛滥,真假难辨。许多时候不是找不到信息,而是信息太多,而无法判断消息的真实可靠性,权威性。对资讯类的信息找到事件的来源,是判断其可靠性的有效办法。然而google搜索的PageRank算法,是把最大引用的排名靠前,对资讯类的信息,这是不合适的。因为许多信息的传播都多是拷贝粘贴,不一定最初发消息的地方Page的级别就会高。google+的办法也不行,因为更不一定推荐的人多的就是“原始帖”。要搜索一个资讯的根源,应该使用一个全新的搜索算法。这个新的搜索算法,要把相似说法的咨询模糊归类,考虑信息出现的最早的那一版本,要智能判断谁“复制”的谁,不能只考虑整篇的复制,考虑部分文字的引用,甚至考虑语义上的参考。
上一篇:突破创新的障碍
下一篇:我猜测通用操作系统今后会专用化