Python无法用requests获取网页源码的解决方法

2023-06-01 原文

最近在抓取http://skell.sketchengine.eu网页时，发现用requests无法获得网页的全部内容，所以我就用selenium先模拟浏览器打开网页，再获取网页的源代码，通过BeautifulSoup解析后拿到网页中的例句，为了能让循环持续进行，我们在循环体中加了refresh()，这样当浏览器得到新网址时通过刷新再更新网页内容，注意为了更好地获取网页内容，设定刷新后停留2秒，这样可以降低抓不到网页内容的机率。为了减少被封的可能，我们还加入了Chrome，请看以下代码：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup
import time,re
 
path = Service("D:\\MyDrivers\\chromedriver.exe")#
# 配置不显示浏览器
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
 
# 创建Chrome实例 。
 
driver = webdriver.Chrome(service=path,options=chrome_options)
lst=["happy","help","evening","great","think","adapt"]
 
for word in lst:
    url="https://skell.sketchengine.eu/#result?lang=en&query=" word "&f=concordance"
    driver.get(url)
    # 刷新网页获取新数据
    driver.refresh()
    time.sleep(2)
    # page_source——》获得页面源码
    resp=driver.page_source
    # 解析源码
    soup=BeautifulSoup(resp,"html.parser")
    table = soup.find_all("td")
    with open("eps.txt",'a ',encoding='utf-8') as f:
        f.write(f"\n{word}的例子\n")
    for i in table[0:6]:
        text=i.text
        #替换多余的空格
        new=re.sub("\s "," ",text)
        #写入txt文本
        with open("eps.txt",'a ',encoding='utf-8') as f:
            f.write(re.sub(r"^(\d \.)",r"\n\1",new))
driver.close()

1. 为了加快访问速度，我们设置不显示浏览器，通过chrome.options实现

2. 最近通过re正则表达式来清理格式。

3. 我们设置table[0:6]来获取前三个句子的内容，最后显示结果如下。

happy的例子
1. This happy mood lasted roughly until last autumn.
2. The lodging was neither convenient nor happy .
3. One big happy family "fighting communism".
help的例子
1. Applying hot moist towels may help relieve discomfort.
2. The intense light helps reproduce colors more effectively.
3. My survival route are self help books.
evening的例子
1. The evening feast costs another $10.
2. My evening hunt was pretty flat overall.
3. The area nightclubs were active during evenings .
great的例子
1. The three countries represented here are three great democracies.
2. Our three different tour guides were great .
3. Your receptionist "crew" is great !
think的例子
1. I said yes immediately without thinking everything through.
2. This book was shocking yet thought provoking.
3. He thought "disgusting" was more appropriate.
adapt的例子
1. The novel has been adapted several times.
2. There are many ways plants can adapt .
3. They must adapt quickly to changing deadlines.

补充：经过代码的优化以后，例句的爬取更加快捷，代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup
import time,re
import os
 
# 配置模拟浏览器的位置
path = Service("D:\\MyDrivers\\chromedriver.exe")#
# 配置不显示浏览器
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
 
# 创建Chrome实例 。
 
def get_wordlist():
    wordlist=[]
    with open("wordlist.txt",'r',encoding='utf-8') as f:
        lines=f.readlines()
        for line in lines:
            word=line.strip()
            wordlist.append(word)
    return wordlist
 
def main(lst):
    driver = webdriver.Chrome(service=path,options=chrome_options)
    for word in lst:
        url="https://skell.sketchengine.eu/#result?lang=en&query=" word "&f=concordance"
        driver.get(url) 
        driver.refresh()
        time.sleep(2)
        # page_source——》页面源码
        resp=driver.page_source
        # 解析源码
        soup=BeautifulSoup(resp,"html.parser")
        table = soup.find_all("td")
        with open("examples.txt",'a ',encoding='utf-8') as f:
            f.writelines(f"\n{word}的例子\n")
        for i in table[0:6]:
            text=i.text
            new=re.sub("\s "," ",text)
            with open("eps.txt",'a ',encoding='utf-8') as f:
                f.write(new)
#                 f.writelines(re.sub("(\.\s)(\d \.)","\1\n\2",new))
 
if __name__=="__main__":
    lst=get_wordlist()
    main(lst)
    os.startfile("examples.txt")

总结

到此这篇关于Python无法用requests获取网页源码的文章就介绍到这了,更多相关requests获取网页源码内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Python无法用requests获取网页源码的解决方法的更多相关文章

HTML实现代码雨源码及效果示例

这篇文章主要介绍了HTML实现代码雨源码及效果示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
源码推荐：简化Swift编写的iOS动画,iOS Material Design库

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
swift皮筋弹动发射飞机ios源码

这是一个款采用swift实现的皮筋弹动发射飞机游戏源码，游戏源码比较详细，大家可以研究学习一下吧。
swift 写的app 源码，保存一下下

http://www.topthink.com/topic/3345.htmlhttp://www.csdn.net/article/2015-01-09/2823502-swift-open-source-libs
swift 源码网站 code4app

http://code4app.com/ios/HTHorizontalSelectionList/54cb2c94933bf0883a8b4583http://123.th7.cn/code/DMPagerViewController_2522.html
OpenStack Swift源码导读：业务整体架构和Proxy进程

OpenStack的源码分析在网上已经非常多了，针对各个部分的解读亦是非常详尽。其中proxy是前端的业务接入进程。account、container和object目录分别是账户、容器和对象的业务处理逻辑进程。各个业务进程或模块之间的逻辑关系可以参考《OpenstackSwift简介》文中的架构图。在《OpenstackSwift简介》从理论上面介绍了具体的节点寻找过程。
源码推荐(7.21)：顶部滑动菜单FDSlideBar，Swift版无限循环轮播图

顶部滑动菜单FDSlideBarFDSlideBar是一个顶部滑动菜单，如常见的网易、腾讯新闻等样式。菜单间切换流畅，具有较好的体验性。测试环境：Xcode6.2，iOS6.0以上Swift版无限循环轮播图无限循环轮播图片点击代理可设置图片Url的数组Url和本地图片混合轮播测试环境：Xcode6.2，iOS7.0以上弹幕系统实现--QHDanumuDemo说明：QHDanmu文件夹下是主要的弹幕模块系统，QHDanmuSend文件夹下是简单的发射弹幕的界面。
openstack swift和wsgi源码分析1 HTTP请求处理过程

分析proxy-server代理服务的执行流程，其他的三个主要服务accountserver,containerserver，objectserver执行过程通proxyserver类似。入口函数调用run_wsgi，此函数完成以下工作：下面重点研究下process_request函数是如何把消息转化为HTTP的request对象这一过程。process_request函数，生成HttpProtocol对象，并执行init操作，注意，HttpProtocol对象自身没有init函数，所以会调用父类的父类的
fir.im Weekly - 进击的 Swift

最近Swift开源了，众开发者们欢呼雀跃。本期fir.imWeekly准备了一些关于Swift的“新鲜”干货分享，也包括一些优秀的GitHub源码、开发工具和技术文章等等。同时，苹果启用了新的官网：Swift.org，Swift的GitHub主页：https://github.com/apple/swiftSwift3API设计准则勤快的@星夜暮晨翻译了苹果Swift官方网站博客的一篇文章：Swift3APIDesignGuidelines，了解Swift3特性，希望对你有所帮助。如何在iOS中实现一个可
苹果贴放出Swift语言的源码

前一段时间苹果贴放出Swift语言的源码，宣布该语言正式开源。其中还包括Swfit核心库项目和全新的Swift包管理器项目。Swift的开源是程序开发者的又一个福音，攻城狮们可以利用SWIFT语言做更多的事情。Swift语言项目的代码分为几个开源库，全部托管在GitHub上。

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教