扫码阅读

手机扫码阅读

Python爬虫实战(5) | 爬取知网文献信息

1011 2024-07-20

div driver body .until EC.presence_of_element_located

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Python爬虫实战(5) | 爬取知网文献信息

文章来源：

咸鱼运维杂谈

扫码关注公众号

一位朋友临近毕业，需要在知网上检索大量文献来完成毕业论文，他询问是否可以编写一个爬虫来批量获取文献信息。作者回想起自己毕业论文时期的艰辛，理解这位朋友的需求。然而，知网拥有复杂的反爬虫机制，使得使用传统的请求模拟方法爬取难度较大。

初识 selenium

selenium 是一个自动化测试工具，它可以模拟浏览器操作，解决了无法执行JavaScript代码的问题。支持多种浏览器，可以通过驱动器（webdriver）来初始化浏览器对象。

声明浏览器对象

首先需要下载对应浏览器的webdriver，然后可以通过Selenium来初始化浏览器对象。

访问页面

使用get()方法可以请求一个网页，传入URL参数。

查找元素

提供了多种查找元素的方法，例如根据id、name、class name、tag name、链接文本、xpath和css选择器等。

等待页面加载完成

selenium提供了显式等待和隐式等待，显式等待等待特定条件成立，隐式等待则在设置时间内周期性检测元素是否存在。

常用浏览器操作

找到元素后可以进行点击、输入、获取文本等操作。

网页分析

针对知网，需要进入官网后点击高级搜索，输入文献信息后点击检索。通过浏览器开发者工具可以定位到高级搜索、输入框和检索图标的xpath。

代码实现

代码首先导入所需的包，创建浏览器对象。浏览器对象初始化时，可设置不加载图片等来提升速度。接着，传入关键词打开知网高级搜索页面，并执行搜索。根据搜索结果的页数进行循环，抓取指定数量的文献信息。每次点击进入文献详情页后，获取题目、作者、来源、摘要等信息，并切换回结果页继续下一个条目的获取。

结果展示

最终的结果是一个含有论文基本信息的制表符分隔的表格文件，可以用excel打开查看。

想要了解更多内容？

查看原文：Python爬虫实战(5) | 爬取知网文献信息

文章来源：

咸鱼运维杂谈

扫码关注公众号

相关推荐

知网爬虫--根据【关键词】获取文献信息

282

div 点击搜索关键词

知网爬虫系列又来啦！

关于《爬取知网文献信息》中代码的一些优化

331

driver div By.XPATH .until

关于文章《Python爬虫实战(5) | 爬取知网文献信息》中的代码优化

python 爬虫某东网商品信息 | 没想到销量最高的是

339

商品 class= 按钮 By.XPATH

简单爬虫轻松获取商品信息

依赖倒转以及为何要倒转

814

依赖逻辑数据库接口

SOLID原则里面的D，就是依赖倒转原则。我们为何要依赖倒转？在面向对象中如何利用依赖倒转？

如何不重新编译让 Spring Boot 配置文件生效？

164

。

Spring Boot+AI，有搞头没？

394

。

咸鱼运维杂谈

00后程序员，深耕 Linux 系统运维、开源软件运维、自动化运维等领域

152 篇文章

浏览 53.6K

咸鱼运维杂谈的其他文章

聊聊 JSON Web Token (JWT) 和 jwcrypto 的使用

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

07-12

杂谈推理逻辑的严密性

10-01

COSMIC规模度量案例集四：业务应用软件案例—新增用户

10-01

高成熟度的软件估算应该是什么样的？

10-01

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载