个人资料
国产亚洲精品高清视频免费
边肖最近才开始学习爬行动物。现在她慢慢开始了。她学习越来越积极。她整天下班后不学习,总觉得自己有缺点。。。哈哈哈 最近猫眼电影的Top100信息被彻底爬出来(包括排名、图片
国产亚洲精品高清视频免费
友情连接
    国产亚洲精品高清视频免费 您当前所在位置:国产亚洲精品高清视频免费 > 国产精品 >

    
Python爬虫系列(一)_1 (2021-10-21 20:11)

边肖最近才开始学习爬行动物。现在她慢慢开始了。她学习越来越积极。她整天下班后不学习,总觉得自己有缺点。。。哈哈哈

最近猫眼电影的Top100信息被彻底爬出来(包括排名、图片、电影名称、导演、上映时间、评分等。).

一、站点分析

主要观点是:

抓取单页内容:主要利用requests得到页面HTML代码正则表达式分析:解析HTML代码,得到电影信息保存至文件:通过文件的形式将结果保存开启循环:对多页面遍历,得到所有内容二、代码实践

接下来,我们打开蜗牛爬行器。

抓取单页:

import requestsfrom requests.exceptions import RequestException

#获取页面的HTML代码。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)' +'Chrome/62.0.3202.94 Safari/537.36'}def get_one_page(url): try: res = requests.get(url,headers=headers) if res.status_code == 200: return res.text return None except RequestException: return Nonedef main(): url = 'TOP100榜 - 猫眼电影 - 一网打尽好电影' html = get_one_page(url) for item in parse_one_page(html): print(item) if __name__ == '__main__': main()

#解析页面HTML代码。

def parse_one_page(html): pattern = re.compile('.*?board-index.*?>(d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

。*?releasetime " >(。*?)

' + '.*?integer">(.*?).*?fraction">(.*?).*?', re.S) items = re.findall(pattern, html) for item in items: yield { 'index': item[0], 'image': item[1], 'title': item[2], 'actor': item[3].strip()[3:], 'time': item[4].strip()[5:], 'score': item[5] + item[6] }

#保存到文件。

def write_to_file(content): with open('result.text', 'a', encoding='utf-8') as f: f.write(json.dumps(content, ensure_ascii=False) + 'n') f.close()

#使用循环遍历获取所有信息。

def main(offert): url = 'http://maoyan.com/board/4?offset=' + str(offert) html = get_one_page(url) for item in parse_one_page(html): print(item) write_to_file(item)if __name__ == '__main__': for i in range(10): main(i * 10)

结果:

  

Powered by 国产亚洲精品高清视频免费 @2018 RSS地图 HTML地图

2013-2021 版权所有