扫码阅读
手机扫码阅读

爬虫之我与正则的甜蜜约会

11 2024-10-18

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:爬虫之我与正则的甜蜜约会
文章来源:
光荣之路
扫码关注公众号

文章主要讲述了如何使用爬虫技术获取百度搜索结果页中竞争对手网站的关键字内容,并存储到Excel文档中。此技术仅供交流学习,请谨慎使用。

为了完成领导的任务并为将来的升职加薪打下基础,作者详细介绍了创建Excel文档的过程。在Excel中,A列为网站名称,B列为搜索关键字,C列为网址关键字(用途后续解释),D列为网址。强调D列虽可为空,但为了正规性需要保留。

接着,作者展示了代码文件的结构,包括AimWebsite_and_CrawlResult目录,其中包含用于记录搜索结果的Excel文件,Util包含操作Excel和格式化时间的工具,ProjectVar包用于存储路径,Action包含核心程序文件。特别指出,Action包的文件中会多次使用正则表达式,建议读者熟悉正则表达式。

run.py作为执行文件,调用Excel.py中的类和方法来实现功能。Excel.py中的类被封装用于操作Excel,包含引用FormatTime.py的函数。作者提到Python 3.5版本要设置locale以正确处理中文。

在run.py中,首先实例化Excel.py中的Excel_r_w类,然后获取Excel的最大行数,并实例化浏览器。通过for循环遍历Excel文档的行,调用Action包下的search_keyword.py中的CrawlKW方法获取“官网”字样的搜索结果,并写入Excel。

var.py文件中定义了Excel文件路径的变量,使用相对路径以增加程序的可移植性。Action包中的search_keyword.py文件负责打开百度首页,输入关键词,点击搜索,并获取页面源码。通过正则表达式匹配含“官网”字样的内容,抓取所需关键字。

想要了解更多内容?

查看原文:爬虫之我与正则的甜蜜约会
文章来源:
光荣之路
扫码关注公众号