`:\n\n![id-card](ipfs://bafkreiepcc7pmbixp3yy6wzmqyf2v3rmswecqu6o6iapfytb4qz6m6fkne)\n
粉丝的粉丝数位于`

`下的``下:\n\n![fansNum](ipfs://bafkreiaqsjkzzh6bajzgssuxsddntfgkd4igejazi2ke2tsgjqkvuazpaq)\n\n### 匹配方法\nselenium内匹配元素有很多方法:\n- xpath(最常用)\n- by id\n- by name/tag name/class name\n- by link\n- by css selector\n\nxpath之所以好用是因为xpath可以使用相对路径匹配, 并且语法简单.\n比如匹配粉丝头像可以这样写:\n```xpath\n//div[@id=\"id-card\"]\n```\n而在XML下该元素的位置:\n```XML\n\n ...\n \n ...\n

\n ...\n

\n \n\n\n```\n\n当然css selector有时也很好用:
\nXML:\n```XML\n\n \n

Site content goes here.

\n\n\n```\ncss selector:\n```css selector\np.content\n```\n### 写爬虫\n![mermaid-diagram-2023-01-06-041353.png](ipfs://bafkreidsamwfjlvrx7vi65vda77lmtgjsdsq54ora6ypoxjolgt6gng3ku)\n
\n初始化:\n```python\ndef initDriver(url):\n#设置headless浏览器\n options = webdriver.ChromeOptions()\n options.add_argument('headless')\n options.add_experimental_option('excludeSwitches', ['enable-logging'])\n\n#初始化\n driver = webdriver.Chrome(options=options)\n actions = ActionChains(driver)\n\n#打开链接\n driver.get(url)\n driver.implicitly_wait(10)\n\n return driver, actions\n```\n获取页码:\n```python\ndef getPageNum(driver):\n#通过xpath匹配底部翻页元素位置, 获取页码数\n text = driver.find_element(\"xpath\", '//ul[@class=\"be-pager\"]/span[@class=\"be-pager-total\"]')\n .get_attribute(\"textContent\")\n .split(' ')\n return text[1]\n```\n遍历所有页:\n```python\ndef spawnCards(page, driver, actions):\n #遍历所有页\n for i in range(1,int(page) + 1):\n print(f\"get data in page {i}\\n\")\n #触发ajax生成card\n spawn(driver, actions)\n if (i != int(page)):\n #翻页\n goNextPage(driver, actions)\n time.sleep(6) \n```\n生成card:\n```python\ndef spawn(driver, actions):\n #得到card list\n ulList = driver.find_elements(\"xpath\", '//ul[@class=\"relation-list\"]/li')\n #生成 card\n for li in ulList:\n getCard(li, actions)\n time.sleep(2)\n```\n```python\ndef getCard(li, actions):\n cover = li.find_element(\"xpath\", './/a[@class=\"cover\"]')\n actions.move_to_element(cover)\n actions.perform()\n actions.reset_actions()\n```\n\n获取并储存数据:\n```python\ndef writeData(driver):\n #获取 card list\n cardList = driver.find_elements(\"xpath\", '//div[@id=\"id-card\"]')\n for card in cardList:\n up_name = card.find_element(\"xpath\", './/img[@class=\"idc-avatar\"]').get_attribute(\"alt\")\n up_fansNum = card.find_elements('css selector','span.idc-meta-item')[1].get_attribute(\"textContent\")\n print(f'name:{up_name}, {up_fansNum}')\n #写入csv文件\n with open('.\\\\date.csv', mode='a', newline='', encoding='utf-8') as f:\n writer = csv.writer(f)\n writer.writerow([up_name, up_fansNum])\n```\n\n完整代码:\n```python\nfrom selenium import webdriver\nfrom selenium.webdriver.common.action_chains import ActionChains\nimport time\nimport csv\n\ndef initDriver(url):\n options = webdriver.ChromeOptions()\n options.add_argument('headless')\n options.add_experimental_option('excludeSwitches', ['enable-logging'])\n driver = webdriver.Chrome(options=options)\n actions = ActionChains(driver)\n driver.get(url)\n driver.get(url)\n driver.implicitly_wait(10)\n return driver, actions\n\ndef getPageNum(driver):\n text = driver.find_element(\"xpath\", '//ul[@class=\"be-pager\"]/span[@class=\"be-pager-total\"]').get_attribute(\"textContent\").split(' ')\n return text[1]\n\ndef goNextPage(driver, actions):\n bottom = driver.find_element(\"xpath\", '//li[@class=\"be-pager-next\"]/a')\n actions.click(bottom)\n actions.perform()\n actions.reset_actions()\n\ndef getCard(li, actions):\n cover = li.find_element(\"xpath\", './/a[@class=\"cover\"]')\n actions.move_to_element(cover)\n actions.perform()\n actions.reset_actions()\n\ndef writeData(driver):\n #get card list\n cardList = driver.find_elements(\"xpath\", '//div[@id=\"id-card\"]')\n for card in cardList:\n up_name = card.find_element(\"xpath\", './/img[@class=\"idc-avatar\"]').get_attribute(\"alt\")\n up_fansNum = card.find_elements('css selector','span.idc-meta-item')[1].get_attribute(\"textContent\")\n print(f'name:{up_name}, {up_fansNum}')\n #write info into csv file\n with open('.\\\\date.csv', mode='a', newline='', encoding='utf-8') as f:\n writer = csv.writer(f)\n writer.writerow([up_name, up_fansNum])\n\ndef spawn(driver, actions):\n #get card list\n ulList = driver.find_elements(\"xpath\", '//ul[@class=\"relation-list\"]/li')\n #spawn card\n for li in ulList:\n getCard(li, actions)\n time.sleep(2)\n \ndef spawnCards(page, driver, actions):\n for i in range(1,int(page) + 1):\n print(f\"get data in page {i}\\n\")\n spawn(driver, actions)\n if (i != int(page)):\n goNextPage(driver, actions)\n time.sleep(6) \n\ndef main():\n #init driver\n uid = input(\"bilibili uid:\")\n url = \"https://space.bilibili.com/\" + uid + \"/fans/fans\"\n driver, actions = initDriver(url)\n page = getPageNum(driver)\n\n #spawn card info(ajax)\n spawnCards(page, driver, actions)\n writeData(driver)\n\n driver.quit()\n\nif __name__ == \"__main__\":\n main()\n```\n### 结果\n\n![图片](ipfs://bafkreidu3mwjxbt5dp4dgwslyg6leeylta3kzbfz2nkznjkvs7phy3i5za)\n\n### 反思\n可以改进的地方:\n- 由于ajax异步加载, 必须等待页面加载完毕后才能进行元素定位. 而使用`time.sleep()`方法不够效率和优雅, `WebDriverWait()`方法可以解决. 它可以轮询页面状态, 当页面加载完毕返回`true`.\n- 使用了多次含重复路径的xpath表达式, 匹配占用了太多内存.\n- 完全可以并发的提取数据, 更快的获取结果. 但出于对服务器负荷的考虑, 只写了单线程版本.\n\n### References\n[selenium doc](https://selenium-python-zh.readthedocs.io/en/latest/installation.html)\n
推荐阅读:
\n[Ajax](https://developer.mozilla.org/zh-CN/docs/Web/Guide/AJAX)
\n[Xpath](https://developer.mozilla.org/zh-CN/docs/Web/XPath)","external_urls":["https://ming5ming.xlog.app/selenium-pa-chong"],"sources":["xlog"]}