[站长工具] 站长工具福利 - 百年刘傲天

in Python with 0 comment

爬取网站sitemap

有时候会遇到一次性只能提交10个或者一次性只能提交一个的搜索引擎,就需要去sitemap.xml很麻烦的去复制粘贴,尤其是一次性提交十个的时候没办法去一下子复制十个,所以就写了一个小工具,实现这个小功能

代码如下

需要requests和BeautifulSoup的支持

import requests
from bs4 import BeautifulSoup

URL = input("please enter sitemap URL(https/http):")
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/72.0.3626.121 Safari/537.36"}
r = requests.get(URL, headers=headers)
soup = BeautifulSoup(r.text, "html.parser")
locs = soup.find_all("loc")
count = 0
for i in locs:
    count = count+1
    if count > 20:
        f = open("sitemap.log", "a+")  #追加内容 
        f.write("\n")
        f.close()
        count = 0
    f = open("sitemap.log", "a+")  #追加内容 
    f.write(i.string)
    f.write("\n")
    f.close()
Responses