爬取116博客
import urllib.request
import re
def main():
# 循环爬取116博客的分页内容
for temp in range(9):
url = """ https://www.52pojie.cn/forum.php?mod=guide&view=newthread&page=%s """ % temp
urlopen_data = urllib.request.urlopen(url).read().decode('gbk') # 获取网页内容
# <a href="thread-808256-1-1.html" target="_blank" class="xst" >OFFICE2019免激活完全安装,还不来取?</a>
math = r"""<a href="(.+?.html)" target="_blank" class="xst" >(.+?)</a>""" # 正则
findall_url = re.findall(math, urlopen_data)
# 循环遍历 标题和地址
for url, temp in findall_url:
url_all = "%s https://www.52pojie.cn/%s" % (temp, url)
print(url_all)
while True:
cmd = input("请输入exit退出!")
if cmd == "exit":
return
if __name__ == '__main__':
main()
# 以上py源码
# 软件使用介绍
“”“
以上带代码主要是获得某特定网站的标题和链接的
主要就是没事干 写的
”“”
# 软件的使用
“”“
可将源码放到pycharm
或直接下载附件中的exe问及那直接运行即可
”“”
# 我是第一次发 具体发贴什么的不了解
# 不好的地方还请谅解