# python爬取高校网页新闻

**Repository Path**: liao-ruihao/pattern

## Basic Information

- **Project Name**: python爬取高校网页新闻
- **Description**: 这段代码是一个网页爬虫，专门用于从深圳技术大学（sztu.edu.cn）的网站上爬取新闻内容。
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2024-11-24
- **Last Updated**: 2024-11-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# python爬取高校网页新闻

#### 介绍
这段代码是一个网页爬虫，专门用于从深圳技术大学（sztu.edu.cn）的网站上爬取新闻内容。

#### 软件架构
1.  pattern.py
    - 导入必要的库：
        - requests 用于发送HTTP请求。
        - BeautifulSoup 用于解析HTML文档。
        - os 用于与操作系统交互，比如创建文件夹。
    - 设置目标网页地址并获取响应：
        - utl 变量存储了目标网页的URL。
        - 使用 requests.get(utl) 发送GET请求到该URL。
        - 设置响应的编码为 ‘utf-8’ 以正确处理中文字符。
    - 解析网页内容：
        - 使用 BeautifulSoup 解析响应文本，创建一个BeautifulSoup对象 soup。
        - 找到所有新闻条目：
            - 使用 soup.find_all 方法找到所有具有 “focus-right-item” 类的 div 标签，这些标签包含了新闻条目。
        - 遍历每个新闻条目：
            - 对于每个新闻条目，找到包含新闻网页地址的 a 标签。
            - 提取新闻网页的URL（page_src）和新闻标题（page_name）。
        - 获取新闻详细内容：
            - 发送请求到新闻详细内容的URL，并解析返回的HTML。
            - 找到包含新闻正文的 div 标签。
        - 保存新闻内容到文件：
            - 如果不存在，创建一个以新闻标题命名的文件夹。
            - 打开（或创建）一个文本文件，并将新闻正文写入该文件。
    - 获取并保存新闻中的图片：
        - 遍历新闻正文的每个段落，找到所有的 img 标签。
        - 对于每张图片，提取图片的URL，发送请求获取图片内容，并将其保存为文件。


#### 安装教程

1.  运行pattern.py

#### 使用说明

请注意，这个爬虫假设新闻内容包含在具有 “v_news_content” 类的 div 标签中，并且新闻中的图片通过 img 标签的 src 属性引用。如果网站的结构发生变化，代码可能需要相应的调整。此外，爬虫应该遵循网站的robots.txt规则和版权法律，不应抓取或分发版权受保护的内容。