ユーザーのログイン

MOVONET

トップページ 音楽 MO客 グループ サッカー試合の予約 フォーラム 夜店

登録 | 新則登録| ヘルプ

グループのカテゴリ:ビジネスグループ/メディアグループ   作成者 python    成員人数:11人   グループの状態: 公開    作成日時:2006-12-31  
     # down html from zm and save html to txt # -*- coding:utf-8 -*-i mport htmllib, formatter, urllib, re website = 'http://www.nanfangdaily.com.cn/zm/' f = urllib.urlopen(website) html = f.read ().lower() i = html.find('url=') j = html.find('/',i+4 )date = html[i+4:j ]website += date f = urllib.urlopen(website) p = htmllib.HTMLParser(formatter.NullFormatter()) p.feed(f.read()) p.close() seen = set() for url in p.anchorlist: if url[-3::] == 'asp': if url in seen: continue seen.add(url) urls=list(seen)の k=len(urls) のdoc=open(u'南方週末'.encode('gb18030')+date+'.txt','a' )for l, url in enumerate(urls) :f = urllib.urlopen(website+url[1:]) html = f.read() i = html.find('#ff0000') i = html.find('>',i+7 )j = html.find('<',i+1 )doc.write(html[i+1:j]) i = html.find('content01',j+1 )i = html.find('>',i+9 )j = html.find(']*>',re.IGNORECASE) doc.write(reobj.sub('\n',content)+'\n------------\n') print l+1,'-->', kdoc.close()prin t u'ダウンロードが終わります'

MOKI-COUNT :0 | 観覧数817 | コメント1
  コメント
  • IP :
  • どのようにいじることをお聞きして、注意深くつけることができますか   
  • 2009-03-02 17:14:12

検証キーワード: 7+6=