700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > Python+Selenium爬虫 如何取得新打开页面的源码?

Python+Selenium爬虫 如何取得新打开页面的源码?

时间:2020-01-29 19:50:17

相关推荐

Python+Selenium爬虫 如何取得新打开页面的源码?

我在做一个python爬虫,使用了selenium库。我在一个网页中触发了一个click事件打开了一个新的网页,并没有新开窗口,然后我用driver.page_source得到的却是原来那个网页非新打开网页的源码解决方法其实很简单,只要点击后让程序等待几秒,等到页面完全载入即可

下面介绍三种等待方式

1. 强制等待

第一种也是最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。

# -*- coding: utf-8 -*-from selenium import webdriverfrom time import sleepdriver = webdriver.Firefox()driver.get('https://huilansame.github.io')sleep(3) # 强制等待3秒再执行下一步print driver.current_urldriver.quit()

2. 隐性等待

第二种办法叫隐性等待,implicitly_wait(xx),隐性等待的意义是:闪电侠和凹凸曼约定好,不论闪电侠去哪儿,都要等凹凸曼xx秒,如果凹凸曼在这段时间内来了,则俩人立即出发去打怪兽,如果凹凸曼在规定时间内没到,则闪电侠自己去,那自然就等着凹凸曼给你抛异常吧。

# -*- coding: utf-8 -*-from selenium import webdriverdriver = webdriver.Firefox()driver.implicitly_wait(30) # 隐性等待,最长等30秒driver.get('https://huilansame.github.io')print driver.current_urldriver.quit()

3. 显性等待

第三种办法就是显性等待,WebDriverWait,配合该类的until()和until_not()方法,就能够根据判断条件而进行灵活地等待了。它主要的意思就是:程序每隔xx秒看一眼,如果条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间,然后抛出TimeoutException。

# -*- coding: utf-8 -*-from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom mon.by import Bydriver = webdriver.Firefox()driver.implicitly_wait(10) # 隐性等待和显性等待可以同时用,但要注意:等待的最长时间取两者之中的大者driver.get('https://huilansame.github.io')locator = (By.LINK_TEXT, 'CSDN')try:WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located(locator))print driver.find_element_by_link_text('CSDN').get_attribute('href')finally:driver.close()

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。