# crawl4AI_template **Repository Path**: sbdjahsd/crawl4-ai_template ## Basic Information - **Project Name**: crawl4AI_template - **Description**: crawl4AI的使用模板 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-03-02 - **Last Updated**: 2025-08-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README crawl4AI_gaokao_choices 项目是一个用于从网页中抓取高考志愿选择相关数据并将其存储到数据库中的工具。它使用异步网络爬虫来高效地抓取数据,并提供了初始化数据库和保存数据到数据库的功能。 ## 功能 - 异步抓取高考志愿选择数据 - 初始化数据库并创建表 - 将抓取的数据保存到数据库中 - 检查页面上是否存在特定的无结果消息 ## 安装 1. 克隆仓库到本地 2. 安装依赖:`pip install -r requirements.txt` ## 使用方法 1. 运行 `app.py` 来启动爬虫并抓取数据。 2. 数据将被保存到数据库中。 ## 代码结构 - `app.py`: 主程序,包含初始化数据库和启动爬虫的函数。 - `config.py`: 配置类,用于存储配置信息。 - `db/`: 数据库相关代码。 - `connection.py`: 提供数据库连接。 - `models.py`: 数据库模型定义。 - `operations.py`: 数据库操作函数。 - `schema.py`: 数据库模式定义。 - `utils/scraper_util.py`: 提供网络抓取和数据处理的实用函数。 - `utils/volunteerData_util.py`: 提供保存志愿数据到数据库的实用函数。 ## 注意事项 - 请谨慎使用 `db/operations.py` 中的 `drop_tables` 函数,因为它会删除所有表! - 在运行爬虫之前,请确保数据库配置正确。 ## 依赖 - Python 3.10 - SQLAlchemy - AsyncWebCrawler - 其他依赖请查看 `requirements.txt` 文件。