# MU-GOT **Repository Path**: bobosui/MU-GOT ## Basic Information - **Project Name**: MU-GOT - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-10 - **Last Updated**: 2025-09-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 本项目基于MinerU和GOT-OCR2.0 实现pdf解析 ### 本项目仅为学习交流, 欢迎大家对不合适的地方改进 请大家关注[GOT](https://github.com/Ucas-HaoranWei/GOT-OCR2.0),[MinerU](https://github.com/opendatalab/MinerU) 🔥 2024/11/7 debug 修复了batch推理不说人话,vllm batch推理吐token的速度自测几个case可以提升数倍 + 本项目主要修改: + vllm 0.5.3版本实现了GOT加速 + 去除了MinerU的本地文件存储,直接用变量传递 - 本项目主要流程: - 基于MinerU实现了pdf到markdown的解析,这一步未进行表格识别(其自带的表格识别,但是速度太慢了) - 基于GOT进一步对每个表格进行识别,最终处理得到文本形式的 ### 运行 适当安装依赖,主要为torch 2.3.1, vllm 0.5.3, transformer
或直接安装新环境```conda env create -f environment.yml``` ### 项目安装: 进入项目根目录,执行 ```pip install -e .``` 安装, 其会自动安装MinerU和GOT-OCR2.0所依赖的库 #### 需要把PDF_parsing/magic-pdf.json的模型路径替换成你的路径,PDF_parsing/__init__.py需同样替换 #### 模型是重写了名字,所以模型权重目录中的config中的模型名称需要改为Qwen2GotForCausalLM ### 尚待改进 - ~~vllm版本的GOT 输入为batch时候生成的不说人话~~ - 最后生成的text不是纯markdown, GOT-OCR2.0将表格转为了latex, 所以最后生成的是markdown格式和latex表格的混合