Wr 博客 Wr 博客
  • 首页
  • 软件
    • 系统
      • macOS
      • Windows 10
      • Chrome OS
    • 软件
      • Mac
      • Windows
      • Linux
      • iOS
      • Android
  • 编程
    • Python
    • HTML
  • 工具
    • Hosts
  • 建站
  • 闲言碎语
  • 优惠推荐
  • 关于
    • 友情链接
  • 首页
  • 软件
    • 系统
      • macOS
      • Windows 10
      • Chrome OS
    • 软件
      • Mac
      • Windows
      • Linux
      • iOS
      • Android
  • 编程
    • Python
    • HTML
  • 工具
    • Hosts
  • 建站
  • 闲言碎语
  • 优惠推荐
  • 关于
    • 友情链接

使用 Python 爬取 WordPress.org 上所有插件json信息

_Wr_11月前
使用 Python 爬取 WordPress.org 上所有插件json信息-Wr 博客
代码下载
下载

准备

  • Python 环境
  • requests 模块
  • BeautifulSoup 4 模块

前言

最近在做 WP-China-Yes 插件商城的项目,其中就需要用 Python 爬 WordPress.org 上所有可翻译的项目。尽管还没找到如何筛选可翻译的项目...

教程

首先我们要知道,WordPress.org 所有插件的 slug (永久链接) 都可以通过 http://plugins.svn.wordpress.org/ 得到:

使用 Python 爬取 WordPress.org 上所有插件json信息-Wr 博客
import requests
#通过 requests 模块获取 http://plugins.svn.wordpress.org 这个网页上的内容
html=requests.get("http://plugins.svn.wordpress.org/").text

接着,我们又需要知道 WordPress.org 的所有插件的 json 信息都可以通过 https://api.wordpress.org/plugins/info/1.0/永久链接.json 获取

使用 Python 爬取 WordPress.org 上所有插件json信息-Wr 博客
from bs4 import BeautifulSoup
#使用 BeautifulSoup 获取 WordPress.org 插件 json 内容
soup=BeautifulSoup(html,features="lxml")
lis=soup.find_all('li')
baseurl="https://api.wordpress.org/plugins/info/1.0/"

最后一步,就需要输出内容了。但总不可能直接用 print() 函数输出吧,要输出成一个 txt 文件

with open('all_plugins_urls.txt','a') as out:
    for a in soup.find_all('a', href=True):
        out.write(baseurl+a['href'].replace('/','')+".json"+"\n")

综上所述,整个 Python 爬虫代码应该是这个样子的

import requests 
from bs4 import BeautifulSoup

html=requests.get("http://plugins.svn.wordpress.org/").text

soup=BeautifulSoup(html,features="lxml")
lis=soup.find_all('li')
baseurl="https://api.wordpress.org/plugins/info/1.0/"

with open('all_plugins_urls.txt','a') as out:
    for a in soup.find_all('a', href=True):
        out.write(baseurl+a['href'].replace('/','')+".json"+"\n")

你瞧瞧这代码,是多么的精简呐。看来人生苦短,我用Python这句话讲的多么的对啊~

#Python#WordPress#插件#教程#编程
0
分享
_Wr_ 站长
文章 100评论 59
赞赏
_Wr_
相关文章
  • Xiuno 付费插件购买分享
  • BAT 脚本仿蓝屏
  • WordPress教程:查看当天用户注册数量以及用户注册时间排序
  • Python游戏编程快速上手 第4版 中文pdf 下载
  • 去除 WordPress 管理菜单栏 WordPress logo
评论 (1)
再想想
  • _Wr_

    其实准确来说,这个脚本爬出来的是 WordPress.org 所有插件 Json 信息的 URI

    11月前
_Wr_
站长
一个热爱科技的普通人。
100文章
59评论
33获赞
热门文章
TOP1
2020 年最新 Google Hosts
1年前
TOP2
Adobe CC 2020 全家桶 破解版(Windows 和 Mac)
1年前
TOP3
如何在普通电脑上安装 Chrome OS(不是 Chromium OS)
1年前
TOP4
常用 User Agent (UA)
1年前
TOP5
如何解决 WordPress 官网 429 Too Many Requests 错误
1年前
最新文章
【限时优惠】正版 IDM 一年仅需 ¥35!
2月前
宝塔 Linux 面板 7.4.2 及 Windows 面板 6.8 phpMyAdmin 高危漏洞
8月前
极具性价比的星轮香港BGP①型 VPS 测评
8月前
Xiuno 付费插件购买分享
9月前
BAT 脚本仿蓝屏
10月前
26 5月, 2020
Rizhuti 日主题 v3.2 去授权 WordPress 主题破解版
  • 首页
  • 友情链接
  • 关于
Copyright © 2020-2021 Wr 博客.