700字范文 > Python+Selenium爬虫如何取得新打开页面的源码？

Python+Selenium爬虫如何取得新打开页面的源码？

时间：2020-01-29 19:50:17

我在做一个python爬虫，使用了selenium库。我在一个网页中触发了一个click事件打开了一个新的网页，并没有新开窗口，然后我用driver.page_source得到的却是原来那个网页非新打开网页的源码解决方法其实很简单，只要点击后让程序等待几秒，等到页面完全载入即可

下面介绍三种等待方式

1. 强制等待

第一种也是最简单粗暴的一种办法就是强制等待sleep(xx)，强制让闪电侠等xx时间，不管凹凸曼能不能跟上速度，还是已经提前到了，都必须等xx时间。

# -*- coding: utf-8 -*-from selenium import webdriverfrom time import sleepdriver = webdriver.Firefox()driver.get('https://huilansame.github.io')sleep(3) # 强制等待3秒再执行下一步print driver.current_urldriver.quit()

2. 隐性等待

第二种办法叫隐性等待，implicitly_wait(xx)，隐性等待的意义是：闪电侠和凹凸曼约定好，不论闪电侠去哪儿，都要等凹凸曼xx秒，如果凹凸曼在这段时间内来了，则俩人立即出发去打怪兽，如果凹凸曼在规定时间内没到，则闪电侠自己去，那自然就等着凹凸曼给你抛异常吧。

# -*- coding: utf-8 -*-from selenium import webdriverdriver = webdriver.Firefox()driver.implicitly_wait(30) # 隐性等待，最长等30秒driver.get('https://huilansame.github.io')print driver.current_urldriver.quit()

3. 显性等待

第三种办法就是显性等待，WebDriverWait，配合该类的until()和until_not()方法，就能够根据判断条件而进行灵活地等待了。它主要的意思就是：程序每隔xx秒看一眼，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException。

# -*- coding: utf-8 -*-from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom mon.by import Bydriver = webdriver.Firefox()driver.implicitly_wait(10) # 隐性等待和显性等待可以同时用，但要注意：等待的最长时间取两者之中的大者driver.get('https://huilansame.github.io')locator = (By.LINK_TEXT, 'CSDN')try:WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located(locator))print driver.find_element_by_link_text('CSDN').get_attribute('href')finally:driver.close()

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。