Python爬取网页文本内容_python抓取网页文字-程序员宅基地

技术标签: 爬虫  python  开发语言  

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup


def second_pro(text):
    last_sen = []
    while 1:
        last_sen.append(text.split(",")[-1])
        other_list = text.split(",")[:-1]
        # 特定位置超长,需要处理
        if len(other_list) == 1:
            last_sen.append(other_list[0].split(",")[-1])
            other_list = other_list[0].split(",")[:-1]
        if len(",".join(other_list)) < 508:
            return ",".join(other_list), last_sen
        text = ",".join(other_list[:-1])


def maching(text):
    hold_l = []
    con_text = []
    for one in text.split(","):
        hold_l.append(one)
        if len(",".join(hold_l)) > 508:
            model_text, last_sen = second_pro(",".join(hold_l))
            hold_l = []
            hold_l.append(",".join(last_sen))
            con_text.append(model_
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_56452427/article/details/128852671

智能推荐

高通超低功耗 Wi-Fi芯片旨在挑战蓝牙物联网主导地位-程序员宅基地

文章浏览阅读338次,点赞4次,收藏6次。他说,新芯片的秘密武器的一个重要部分是可选择的电源模式和创新的电源管理。我们相信这将具有颠覆性,因为 Wi-Fi 本质上提供了巨大的优势,例如直接连接到云、无需集线器以及更好的性能,包括更低的延迟。在选择哪种无线技术来连接物联网设备时,仍然有很多选择,但在高通发布了用于 Wi-Fi 物联网的新 SoC 后,也许正确的选择在本周变得更加清晰。高通表示,这种情况很可能即将改变。高通表示,新的 Wi-Fi SoC 代表了一种新的硅平台类别,可能会与蓝牙激烈竞争电池供电的物联网设备和一系列细分市场的头把交椅。

云vr和传统vr_宣布我们的VR艺术家居住地-程序员宅基地

文章浏览阅读124次。云vr和传统vrAs you may remember from our GDC keynote, Unity is invested not only in enabling success for virtual reality creators but also artists in particular; with new tools for artists on the horizon,..._云vr 书籍

数据源自动重连机制设置_tomcat数据源自动重连-程序员宅基地

文章浏览阅读994次。在网络状况不是非常良好,经常会出现暂时性的拥塞或者断开的情况,而且当我们重启数据库时也会发生类似的情况。所以需要配置中间件的连接池来实现连接测试以及自动重连,通过重新配置连接池,成功解决了这个问题。下面会给出一份数据源配置参数详单和一份推荐的数据源配置项。_tomcat数据源自动重连

C语言基础一基础,指针,预处理命令-程序员宅基地

文章浏览阅读423次,点赞6次,收藏9次。C语言基础,编辑工具安装调试

Docker 实战(1)- 使用 Jenkins 镜像创建容器,并搭建 Python + Pytest +Allure 的自动化测试环境...-程序员宅基地

文章浏览阅读1k次。如果你还想从头学起 Docker,可以看看这个系列的文章哦!https://www.cnblogs.com/poloyy/category/1870863.html安装 Docker直接参考我这篇文章哦:https://www.cnblogs.com/poloyy/p/13921450.html下载 Jenkins 镜像搜索 jenkins 镜像docker search ..._jenkins+dockerfile+pytest

CentOS7中使用Docker部署SpringBoot+Nginx实现负载均衡_linux centos7里面docker部署springboot+nginx+react-程序员宅基地

文章浏览阅读3.5k次,点赞7次,收藏13次。前言 使用 Docker 部署应用的方式有多种,如每个应用单独部署再连接容器,如 docker-compose... 本博客是单独部署的每一个容器。本篇博客的操作有: ① 在本地创建两个 SpringBoot 项目(8090 端口和 8091 端口);分别配置 Dockerfile ② 把 SpringBoot 项目传输到服务器;打包成 Docker 镜像 ③ 拉..._linux centos7里面docker部署springboot+nginx+react

随便推点

DeepSpeed-Chat训练模型-程序员宅基地

文章浏览阅读78次。Reward Model相较于原始的SFT Model,在后面加上了一个value head,value head是一个Linear,输入维度为模型的hidden_dim,输出维度为1,输出表示模型预测每一字符获取的得分。举个例子,如果我们模型有「上,下,左,右」四个动作,分别有累计奖励「10,20,30,40」,我们做出任意动作,都会获取正向的累计奖励,因此模型也会向这个动作更新参数。首先的超参的调节,γ参数为折扣回报率,DeepSpeed-Chat中初始设置为1,可以将其调小一些来缓解。whaosoft

5个绝妙技巧,让你的经验分享火爆朋友圈_精彩的分享 技巧-程序员宅基地

文章浏览阅读334次,点赞8次,收藏5次。各位朋友们,你们好,我是AI生成的写作机器文案,今天希望与您分享一下提升经验分享吸引力的小窍门。虽然看似简单,实则其中蕴含诸多精髓。下面就让我们一同探讨这个有趣的话题吧!1.标题要突出亮点一份能引人入胜的经验分享,以独特且吸引眼球的标题为先导。目标在于使读者在阅读之初便对内容充满好奇,欲罢不能。_精彩的分享 技巧

PAT A1054. The Dominant Color (20)-程序员宅基地

文章浏览阅读61次。原文链接: PAT A1054. The Dominant Color (20) ...

全面解读STM32生态环境,介绍、下载安装、使用教程等_stm生态-程序员宅基地

文章浏览阅读501次,点赞3次,收藏5次。STM32能被这么多开发者认可,它的强大生态系统起了关键作用。本文围绕STM32生态各软件工具进行相关描述,其中包含一些技术细节。一、STM32生态系统总预览STM32提供了全套开发工具,以及开发所需的软件包,下面看一张图,从全局来了解STM32生态系统工具和软件:主要分为两大类:1.软件工具:即左边部分的STM32CubeMX、 CubeIDE、 CubeProgrammer、 CubeMontor等。2.嵌入式软件包:STM32CubeMCU Packages 和 扩展软件包.._stm生态

VMware ESXi 7.0 U3i macOS Unlocker & OEM BIOS (标准版和厂商定制版)_vmware esxi 7.0u3d 浪潮-程序员宅基地

文章浏览阅读2.6k次。提供标准版和 Dell (戴尔)、HPE (慧与)、Lenovo (联想)、Inspur (浪潮)、Cisco (思科) 定制版镜像_vmware esxi 7.0u3d 浪潮

【单片机毕业设计】【hj-005-1】烟雾检测 | 空气质量检测 | 气体检测_气体检测程序 单片机-程序员宅基地

文章浏览阅读68次。随着当前人们生活水平不断提高,人们的生活环境也越来越完善,但是在人们的生活之中,居住环境的防火问题成为人们生活的主要问题,对任何人来说,都需要建设较为完善的防火系统,使得人们在享受生活的同时,也使得家中的财产安全及其人身得到保障。本文研究与设计了一款基于单片机的烟雾实时监测防火系统设计,此次设计采用软件和硬件结合设计一款烟雾检测仪,通过采用STM32单片机作为主控芯片,通过烟雾传感器MQ-2将检测的数据和用户设置的数据进行对比,并将检测的数据显示在显示屏上,当烟雾超过设置的范围时进行打开继电器进行通风,打开_气体检测程序 单片机

推荐文章

热门文章

相关标签