{"title":"selenium爬虫","date_published":"2023-01-05T17:24:31.580Z","tags":["post","spider","python"],"attributes":[{"trait_type":"xlog_slug","value":"selenium-pa-chong"}],"content":"### selenium是什么?\n>Selenium 是支持 web 浏览器自动化的一系列工具和库的综合项目。\n
它提供了扩展来模拟用户与浏览器的交互,用于扩展浏览器分配的分发服务器, 以及用于实现 [W3C WebDriver](https://www.w3.org/TR/webdriver/) 规范 的基础结构, 该 规范 允许您为所有主要 Web 浏览器编写可互换的代码。\n\npython中的selenium库是selenium的接口, 它可以模拟浏览器像人一样操作页面, 获取网页信息.\n\n
基于这个特点, selenium在爬取某些网站信息时代码逻辑更简单, **且不用逆向js加密代码**.\n
然而, 因为是模拟操作, 所以爬取效率比不上其他爬虫.\n\n为了展现selenium的强大, 我们举个例子:\n
爬取bilibili个人页面的 粉丝名字 及 粉丝的粉丝数\n\n
**注意**:爬取数据时要注意网站的 robots.txt 内的规定, 同时不要有太高的爬取频率, 以免对网站产生负担. 本文爬取的 粉丝名字 与 粉丝的粉丝数 属于公开内容.\n\n### 安装\n```shell\n$ pip install selenium\n```\n### 分析网站\n在个人空间的粉丝页面下, 粉丝信息位于`