【原创】【新人】第一次发帖 获得网站链接的

4次阅读
没有评论

爬取116博客

import urllib.request
import re
def main():
# 循环爬取116博客的分页内容
for temp in range(9):
url = """ https://www.52pojie.cn/forum.php?mod=guide&view=newthread&page=%s """ % temp
urlopen_data = urllib.request.urlopen(url).read().decode('gbk') # 获取网页内容
# <a href="thread-808256-1-1.html" target="_blank" class="xst" >OFFICE2019免激活完全安装,还不来取?</a>
math = r"""<a href="(.+?.html)" target="_blank" class="xst" >(.+?)</a>""" # 正则
findall_url = re.findall(math, urlopen_data)
# 循环遍历 标题和地址
for url, temp in findall_url:
url_all = "%s https://www.52pojie.cn/%s" % (temp, url)
print(url_all)
while True:
cmd = input("请输入exit退出!")
if cmd == "exit":
return
if __name__ == '__main__':
main()

# 以上py源码

# 软件使用介绍

“”“
以上带代码主要是获得某特定网站的标题和链接的
主要就是没事干 写的
”“”

# 软件的使用
“”“
可将源码放到pycharm
或直接下载附件中的exe问及那直接运行即可

”“”

# 我是第一次发 具体发贴什么的不了解
# 不好的地方还请谅解

正文完
 0
116博客
版权声明:本篇文章由 116博客 于2024-12-28发表,共计726字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码