# python爬取高校网页新闻 **Repository Path**: liao-ruihao/pattern ## Basic Information - **Project Name**: python爬取高校网页新闻 - **Description**: 这段代码是一个网页爬虫,专门用于从深圳技术大学(sztu.edu.cn)的网站上爬取新闻内容。 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2024-11-24 - **Last Updated**: 2024-11-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # python爬取高校网页新闻 #### 介绍 这段代码是一个网页爬虫,专门用于从深圳技术大学(sztu.edu.cn)的网站上爬取新闻内容。 #### 软件架构 1. pattern.py - 导入必要的库: - requests 用于发送HTTP请求。 - BeautifulSoup 用于解析HTML文档。 - os 用于与操作系统交互,比如创建文件夹。 - 设置目标网页地址并获取响应: - utl 变量存储了目标网页的URL。 - 使用 requests.get(utl) 发送GET请求到该URL。 - 设置响应的编码为 ‘utf-8’ 以正确处理中文字符。 - 解析网页内容: - 使用 BeautifulSoup 解析响应文本,创建一个BeautifulSoup对象 soup。 - 找到所有新闻条目: - 使用 soup.find_all 方法找到所有具有 “focus-right-item” 类的 div 标签,这些标签包含了新闻条目。 - 遍历每个新闻条目: - 对于每个新闻条目,找到包含新闻网页地址的 a 标签。 - 提取新闻网页的URL(page_src)和新闻标题(page_name)。 - 获取新闻详细内容: - 发送请求到新闻详细内容的URL,并解析返回的HTML。 - 找到包含新闻正文的 div 标签。 - 保存新闻内容到文件: - 如果不存在,创建一个以新闻标题命名的文件夹。 - 打开(或创建)一个文本文件,并将新闻正文写入该文件。 - 获取并保存新闻中的图片: - 遍历新闻正文的每个段落,找到所有的 img 标签。 - 对于每张图片,提取图片的URL,发送请求获取图片内容,并将其保存为文件。 #### 安装教程 1. 运行pattern.py #### 使用说明 请注意,这个爬虫假设新闻内容包含在具有 “v_news_content” 类的 div 标签中,并且新闻中的图片通过 img 标签的 src 属性引用。如果网站的结构发生变化,代码可能需要相应的调整。此外,爬虫应该遵循网站的robots.txt规则和版权法律,不应抓取或分发版权受保护的内容。