用python抓一把百度音乐的热歌榜 top500

3900阅读 0评论2014-03-10 joepayne
分类:Python/Ruby


  1. #!/usr/bin/python
  2. #filename:get_html.py
  3. #coding=utf-8

  4. import urllib2
  5. import re

  6. #item = { 'songItem': { 'sid': '(?=\d)', 'sname': '(?!\d)', 'author': '?!\d' } }
  7. item = "{ 'songItem': { (.*) } }"
  8. item2 = "'sid': '(.*)', 'sname': '(.*)', 'author': '(.*)'"
  9. myfile = file("song.txt",'w')
  10. response = urllib2.urlopen('')
  11. html = response.read()
  12. html = re.findall(item,html)
  13. i = 1
  14. for rec in html:
  15.     r = re.findall(item2,rec)
  16.     print >> myfile,i,r[0][0],r[0][1],r[0][2]
  17.     i = i+1

如下图是生成的结果文件


另有两篇不错的文章:
1. 关于Python字符串的encode与decode的比较透彻的讲解。
2.http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 很好的讲python正则表达式的。

上一篇:Python 操作 mysql-插入数据篇
下一篇:统计中分类算法总结