扫码阅读
手机扫码阅读
根据期刊信息获取知网文献信息 pt.1
144 2024-07-20
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:根据期刊信息获取知网文献信息 pt.1
文章来源:
咸鱼运维杂谈
扫码关注公众号
文章摘要
本文由咸鱼撰写,旨在教读者如何爬取知网上特定期刊的文献链接,并强调重点在于分析网页和定位元素。作者分享了爬虫代码的逐步制作过程,包括需求分析、元素定位,以及代码实现,以2022年的某期刊为例。
需求分析
分析了知网期刊界面的布局,指出左侧列出年份和期数,右侧是大标题及下方文献标题链接。任务是提取这些链接,最终保存在CSV文件中。作者提出,本文只涉及到获取链接,而打开链接获取文献信息的部分将在后续文章中介绍。
元素定位
通过开发者工具分析并定位年份的元素路径,详细描述了使用F12打开开发者工具,并通过鼠标悬停到相应元素获取其定位路径的方法。
代码实现
分享了完整的爬虫代码,使用Python编程语言和Selenium库实现。代码包括设定不加载图片和无界面运行的浏览器选项,以提高爬虫效率。代码的主体是CnkiSpider类,包含初始化浏览器驱动器、获取文献链接的方法,以及将结果写入CSV文件的功能。
结束语中,作者鼓励读者点赞和支持,以此作为写作的动力。
想要了解更多内容?
查看原文:根据期刊信息获取知网文献信息 pt.1
文章来源:
咸鱼运维杂谈
扫码关注公众号
咸鱼运维杂谈的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线