# competitions_extract **Repository Path**: bloomf/competitions_extract ## Basic Information - **Project Name**: competitions_extract - **Description**: 针对大学竞赛数量众多,采用人力采集太过耗时耗力。而且采集后,那么多的赛道,所针对的领域也很不同。这个项目通过AI驱动,自动收集网站信息,自动更新竞赛内容。目前已经收录120个竞赛,603个赛道。可以通过关键词或者标签搜索对应比赛和赛道。可以直接访问网站:http://101.33.242.194:5000/ - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-11-27 - **Last Updated**: 2025-12-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 维护方法 ## 1. 运行 ```shell python web/app.py ``` 点击打开网页: * [本地](127.0.0.1:5000) * [腾讯服务器](http://101.33.242.194:5000/) ## 2. 使用方法 ### 2.1 首页查询 #### 2.1.1 左侧过滤 点击进行过滤。如果什么都不点击就选择所有的竞赛。 每个栏目之间是与的关系,栏目内是或的关系。下面的关键词搜索是可以建立标签进行与或操作。 点击竞赛看想起。可以根据过滤结果导出竞赛结果。 #### 2.1.2 竞赛观察 根据标签过滤竞赛 ## 2.2 竞赛详情 点击竞赛可以看详情。登录后可以修改竞赛:修改竞赛赛道标签。 通过AI返回值刷新竞赛信息。这个部分需要网络搜索,太耗费token了。目前主要以手动刷新XML为主。也提供了自动刷新XML的按钮。但是刷一次要几元就算了。 ## 2.3 竞赛更新 点击竞赛管理,有两种更新方式: 1. 导入/新增竞赛 * 点击添加竞赛,批量导入竞赛名单。竞赛名单出现在“更新竞赛信息”中。 * 启动影刀,自动化完成后续的新搬运。注意:智谱(必须登录状态)的对话框必须选择“思考”+“互联网”,不然信息准确度会降低。网站也是登录状态。 * 影刀流程:https://api.winrobot360.com/redirect/robot/share?inviteKey=2700df1d83afbb02 2. 更新现有信息 * 点击竞赛编辑,使用刷新XML。需要重新编写影刀,将管理页面位置修改一下就行。 ### 2.4 类别标签更新 LLM扫描后得到的类别标签可能超过了预设的类别。需要手工核查后,将超出的映射到现有的标签,或者新增标签。 # 3. 重要设计 ## 3.1 信息自动化收集 1. 通过AI提示词模板(包括比赛名称,现有大类),使用AI进行竞赛信息收集,要求返回XML。 2. 将XML的内容抽取到数据库。分为两种: * 概要信息,抽取过程需要核查和修改。LLM是不靠谱的。修改的内容包括将一些简要信息进行归纳,比如竞赛时间段,难度等。 * 各个赛道的信息:各赛道信息单独保存,并且抽取其中的技术标签进行保存。保存的时候需要与现有技术标签进行对照。对照不上的需要进行人工匹配。(考虑到前期的分类不合理,可能需要扩展) 3. 将XML的部分内容在网站上直接呈现。 归纳流程:生成提示词模板-->AI收集内容-->XML后处理(抽取核对,还需要调用LLM)-->进入数据库 # 关于使用AI进行信息收集的思考 ## 1. 信息收集难度的问题 原本的设想难度更大,是收集各个比赛的比赛文件,然后从比赛文件中抽取出有用的信息。根据这些比赛文件动态生成网页代码。将内容可视化了。 发现就找到竞赛通知文件这件事就很难。有的比赛根本没有比赛文件,比如华为的ICT,整个网站就是关于比赛的,没有什么正式通知,甚至关于比赛的宣传通知里面五花八门乱七八糟(还有竞赛故事之类的)。有的比赛连网站都是间歇性的,都打不开,一年换个地方。 有的因为比赛赛制的问题,发的通知也很多,比如总通知,每个赛道通知,赛前赛后各种通知。就根本搞不懂哪些是相关的,需要AI去阅读的。 ## 2. 未来改进 * 增强核查: 针对AI内容的核查,包括网站是否能够打开。 * 多次提示词。现在一次收集信息有限,后续可以采用多提示词的方式,多次采集。提供更多比赛的详情。 收集比赛文件供下载。