# PaperReferenceNum **Repository Path**: xuyuntao/PaperReferenceNum ## Basic Information - **Project Name**: PaperReferenceNum - **Description**: 获取一个文件夹中所有论文的被引用数。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-01-22 - **Last Updated**: 2021-01-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 论文被引用数搜索 利用百度学术网页版来检索一个文件夹中的所有论文的被引用数量。 依赖有beautifulsoup库、regex正则表达式库。 ## 使用方法 主程序为`fileWalk.py`。 修改程序中`workPath`值为文件夹绝对路径,如程序中所示,路径中所有区分符号使用`\\`,但路径末尾没有`\\`符号。 修改文件夹中所有论文文件名为`(论文题目).pdf`的样式,前后没有其他字符。 百度会限流,一般是30篇,所以有了`update.log`文件,其中保存的是已经更新的论文的名字,如果被限流了,等待大约10分钟后再试就可以直接跳过已经被更新的,将因被限流而没被更新的论文继续更新。 这样子可以大大节省时间,还是挺方便的。 后期根据我的需要添加增加作者名和发表时间的功能。 ## 注意事项 - 文件夹中所有论文都会被修改,无论是根目录下的还是子文件夹中的 - 论文必须为pdf格式 - 文件命名为论文题目 - 文件名可以没有NTFS命名不允许的字符(:等),但不能将空格( )替换为下划线(_) - 路径必须为绝对路径,或者前面包含`'.\\'`,否则无法识别 ## 搜索有几种情况如下 如果无法看到图片可能需要修改一下DNS,github的图片展示好像不太行。 ### 搜索结果有多篇论文 包括有多篇同名论文和没有同名论文的情况。 按第一篇的被引用数取。 ![1](images/1.bmp) ### 搜索论文仅有一篇 若搜索后直接跳转到如下页面,则直接取该页面中的被引用数。 ![2](images/2.bmp) ### 检索到论文但其中没有被引用数 直接返回-1,若原本文件没有被引头,则重命名为0。 ![3](images/3.bmp) ### 没有搜索到论文 直接返回-1,重命名为0。 ![4](images/4.bmp)