python下载微信公众号相关文章 微信软件下载公众号

时间:2021-07-15 23:04:02作者:邓大富

本内容主要为您介绍python下载微信公众号相关文章的经验知识,经过上千万码农友验证可行,为您解决python下载微信公众号相关文章的问题,下面即将揭晓答案。

本文实例为大家分享了python下载微信公众号相关文章的具体代码,供大家参考,具体内容如下

目的:从零开始学自动化测试公众号中下载“pytest"一系列文档

1、搜索微信号文章关键字搜索

2、对搜索结果前N页进行解析,获取文章标题和对应URL

主要使用的是requests和bs4中的Beautifulsoup

Weixin.py

import requests
from urllib.parse import quote
from bs4 import BeautifulSoup
import re
from WeixinSpider.HTML2doc import MyHTMLParser
class WeixinSpider(object):
 def __init__(self, gzh_name, pageno,keyword):
 self.GZH_Name = gzh_name
 self.pageno = pageno
 self.keyword = keyword.lower()
 self.page_url = []
 self.article_list = []
 self.headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
 self.timeout = 5
 # [...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
 # re+ 匹配1个或多个的表达式。
 self.pattern = r'[\\/:* " |\r\n]+'
 def get_page_url(self):
 for i in range(1,self.pageno+1):
 # https://weixin.sogou.com/weixin query=从零开始学自动化测试 _sug_type_= s_from=input _sug_=n type=2 page=2 ie=utf8
 url = "https://weixin.sogou.com/weixin query=%s _sug_type_= s_from=input _sug_=n type=2 page=%s ie=utf8" \
 % (quote(self.GZH_Name),i)
 self.page_url.append(url)
 def get_article_url(self):
 article = {}
 for url in self.page_url:
 response = requests.get(url,headers=self.headers,timeout=self.timeout)
 result = BeautifulSoup(response.text, 'html.parser')
 articles = result.select('ul[ ] li div[ ] h3 a ')
 for a in articles:
 # print(a.text)
 # print(a["href"])
 if self.keyword in a.text.lower():
 new_text=re.sub(self.pattern,"",a.text)
 article[new_text] = a["href"]
 self.article_list.append(article)

    
相关文章
  • python下载文件时显示下载进度的方法

    本文实例讲述了python下载文件时显示下载进度的方法。分享给大家供大家参考。具体分析如下: 将这段代码放入你的脚本中,类似:urllib.urlretrieve(getFile, saveFile, reporthook=report) 第三个参数如下面的函数定义report,urlretrieve下载文件时会实时回调report函数,显示下载进度 def report(count, blockSize, totalSize): percent = int(count*blockSize*100/totalSize) s

  • Python下载懒人图库JavaScript特效

    这是一个简单的Python脚本,主要从懒人图库下载JavaScript特效模板,在脚本中使用了gevent这个第三方库,使用的时候需要先安装。 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib,os,sys import gevent,re from gevent import monkey from bs4 import BeautifulSoup gevent.monkey.patch_socket() Description:Python 爬虫抓取懒人图库的JS脚本模板 Auth

  • 使用Python下载歌词并嵌入歌曲文件中的实现代码 python如何导入音乐

    使用python扫描本地音乐并下载歌词 这次这个真的是干货哦,昨晚弄了半晚上,,,,从8点吃完饭就开始写,一直到了快12点才弄好,,,新手,伤不起呀。。。。 先简单的说下吧,百度提供了一个音乐搜索的api,你想百度请求类似于 http://box.zhangmen.baidu.com/x op=12 count=1 title=最佳损友$$陈奕迅$$$$ 的地址,百度会给你返回一段xml,如下所示 This XML file does not appear to have any style i

  • Python下载指定页面上图片的方法 python载入图片

    Python下载指定页面上图片的方法  更新时间:2016年05月12日 09:12:12   作者:charles_kao   这篇文章主要介绍了Python下载指定页面上图片的方法,涉及Python的正则匹配、URL及文件操作相关技巧,需要的朋友可以参考下

  • python下载图片实现方法(超简单) 用python做一张图片

    我们有时候会需要在网上查找并下载图片,当数量比较少的时候,点击右键保存,很轻松就可以实现图片的下载,但是有些图片进行了特殊设置,点击右键没有显示保存选项,或者需要下载很多图片,这样的情况,写一段Python爬虫代码就可以轻松解决! 一、页面抓取 #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html = getHtml("https://tieba.baidu.

  • python下载文件记录黑名单的实现代码

    ftp_path = '/GBCC/' # ftp目录 local_path = "C:\F\python\pythonwangtest\wyjj2\\" #本地的目录 # 连接FTP def ftpconnect(): ftp = FTP() ftp.set_debuglevel(2) # 打开调试级别2,显示详细信息 ftp.connect(ftp_server, 21) # 连接 ftp.login(username, password) # 登录,如果匿名登录则用空串代替即可 return ftp # 获取当前的年月日时分秒 def g

  • Python下载网络小说实例代码 python爬小说代码

    #处理的字符的确是gbk的,但是其中夹杂的部分特殊字符, #是gbk编码中所没有的如果有些特殊字符是GB18030中有的,但是是gbk中没有的。 #则用gbk去解码,去所不支持的字符,也比如会出错。 #所以,此种情况,可以尝试用和当前编码(gbk)所兼容的但所包含字符更多的编码(gb18030)去解码,或许就可以了。 #allHtml = resp.read().decode('gbk')# allHtml = resp.read().decode('gb18030')# textSoup = BeautifulSoup(allHtml) #章节名 s

  • Python下载网络文本数据到本地内存的四种实现方法示例

    本文实例讲述了Python下载网络文本数据到本地内存的四种实现方法。分享给大家供大家参考,具体如下: import urllib.request import requests from io import StringIO import numpy as np import pandas as pd 下载网络文件,并导入CSV文件作为numpy的矩阵 # 网络数据文件地址 url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/p

  • 详解Python下载图片并保存本地的两种方式 python怎么把图片保存在文件夹

    一:使用Python中的urllib类中的urlretrieve()函数,直接从网上下载资源到本地,具体代码: import os,stat import urllib.request img_url="https://timgsa.baidu.com/timg image quality=80 size=b9999_10000 sec=1516371301 di=d99af0828bb301fea27c2149a7070" \ "d44 imgtype=jpg er=1 src=http%3A%2F%2Fupload.qianhuaweb.co

  • 用Python下载一个网页保存为本地的HTML文件实例 python抓取网页内容并保存

    我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。 比如我们要下载山东大学新闻网的一个页面,该网页如下: 实现代码如下: import urllib.request def getHtml(url): html = urllib.request.urlopen(url).read() return html def saveHtml(file_name, file_content): # 注意windows文件命名的禁用符,比如 / with open(file_name