# KittyDoc **Repository Path**: hzkitty/KittyDoc ## Basic Information - **Project Name**: KittyDoc - **Description**: A high-performance, open-source PDF data extraction tool. 一站式开源高性能数据提取工具,将 PDF 转换为 Markdown 和 JSON 格式,适合生产线级文档解析。 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 26 - **Forks**: 7 - **Created**: 2025-08-24 - **Last Updated**: 2025-12-30 ## Categories & Tags **Categories**: doc-tools **Tags**: None ## README # RapidDoc – 高速文档解析系统 ## 😺 项目介绍 **RapidDoc 是一个轻量级、专注于文档解析的开源框架,支持 **OCR、版面分析、公式识别、表格识别和阅读顺序恢复** 等多种功能,支持将复杂 PDF 文档转换为 Markdown、JSON、WORD、HTML 格式。** **框架基于 [Mineru](https://github.com/opendatalab/MinerU) 二次开发,移除 VLM,专注于 Pipeline 产线下的高效文档解析,在 CPU 上也能保持不错的解析速度。** **本项目所使用的核心模型主要来源于 [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) 的 [PP-StructureV3](https://www.paddleocr.ai/main/version3.x/pipeline_usage/PP-StructureV3.html) 系列(OCR、版面分析、公式识别、阅读顺序恢复,以及部分表格识别模型),并已全部转换为 ONNX 格式,支持在 CPU/GPU 上高效推理。** **KittyDoc 已经成为 RapidAI 开源家族成员** --- > ✨如果该项目对您有帮助,您的star是我不断优化的动力!!! > > - [github点击前往](https://github.com/RapidAI/RapidDoc) > - [gitee点击前往](https://gitee.com/hzkitty/KittyDoc) ## 👏 项目特点 - **OCR 识别** - 使用 [RapidOCR](https://github.com/RapidAI/RapidOCR) 支持多种推理引擎 - CPU 下默认使用 OpenVINO,GPU 下默认使用 torch - **版面识别** - 模型使用 `PP-DocLayout` 系列 ONNX 模型(v2、plus-L、L、M、S) - **PP-DocLayoutV2**:自带阅读顺序,效果最好,默认使用 - **PP-DocLayout_plus-L**:效果好运行稳定 - **PP-DocLayout-L**:速度快,效果也不错 - **PP-DocLayout-S**:速度极快,存在部分漏检 - **公式识别** - 使用 `PP-FormulaNet_plus` 系列 ONNX 模型(L、M、S) - **PP-FormulaNet_plus-L**:速度慢,支持onnx - **PP-FormulaNet_plus-M**:默认使用,支持onnx和torch - **PP-FormulaNet_plus-S**:速度最快,支持onnx,复杂公式精度不够 - 支持配置只识别行间公式 - cuda环境,默认使用torch推理,公式模型onnx gpu推理会报错,暂时无人解决 [PaddleOCR/issues/15125](https://github.com/PaddlePaddle/PaddleOCR/issues/15125), [PaddleX/issues/4238](https://github.com/PaddlePaddle/PaddleX/issues/4238), [Paddle2ONNX/issues/1593](https://github.com/PaddlePaddle/Paddle2ONNX/issues/1593) - **表格识别** - 基于 [rapid_table_self](rapid_doc/model/table/rapid_table_self) 增强,在原有基础上增强为多模型串联方案: - **表格分类**(区分有线/无线表格) - **[有线表格识别UNET](https://github.com/RapidAI/TableStructureRec)** + SLANET_plus/UNITABLE(作为无线表格识别) - **阅读顺序恢复** - 使用 PP-StructureV3 阅读顺序恢复算法,基于xycut算法和版面的结果 - 速度快效果好,支持多栏、竖排等复杂版面,和V3不开启版面子模块检测效果一致 - **推理方式** - 所有模型通过 ONNXRuntime 推理,OCR可配置其他推理引擎 - 除了 OCR 和 PP-DocLayout-M/S 模型,OpenVINO推理会报错,暂时难以解决。[PaddleOCR/issues/16277](https://github.com/PaddlePaddle/PaddleOCR/issues/16277) --- ## 基准测试结果 ### 1. OmniDocBench 以下是RapidDoc在 OmniDocBench 上的评估结果。 Pipeline 模型使用 PP-DocLayoutV2、PP-OCRv5-mobile、PP-FormulaNet_plus-M、UNET_SLANET_PLUS。
| Model Type | Methods | Size | Overall↑ | TextEdit↓ | FormulaCDM↑ | TableTEDS↑ | TableTEDS-S↑ | Read OrderEdit↓ |
|---|---|---|---|---|---|---|---|---|
| Specialized VLMs |
PaddleOCR-VL | 0.9B | 92.86 | 0.035 | 91.22 | 90.89 | 94.76 | 0.043 | MinerU2.5 | 1.2B | 90.67 | 0.047 | 88.46 | 88.22 | 92.38 | 0.044 |
| MonkeyOCR-pro-3B | 3B | 88.85 | 0.075 | 87.25 | 86.78 | 90.63 | 0.128 | |
| OCRVerse | 4B | 88.56 | 0.058 | 86.91 | 84.55 | 88.45 | 0.071 | |
| dots.ocr | 3B | 88.41 | 0.048 | 83.22 | 86.78 | 90.62 | 0.053 | |
| MonkeyOCR-3B | 3B | 87.13 | 0.075 | 87.45 | 81.39 | 85.92 | 0.129 | |
| Deepseek-OCR | 3B | 87.01 | 0.073 | 83.37 | 84.97 | 88.80 | 0.086 | |
| MonkeyOCR-pro-1.2B | 1.2B | 86.96 | 0.084 | 85.02 | 84.24 | 89.02 | 0.130 | |
| Nanonets-OCR-s | 3B | 85.59 | 0.093 | 85.90 | 80.14 | 85.57 | 0.108 | |
| MinerU2-VLM | 0.9B | 85.56 | 0.078 | 80.95 | 83.54 | 87.66 | 0.086 | |
| olmOCR | 7B | 81.79 | 0.096 | 86.04 | 68.92 | 74.77 | 0.121 | |
| Dolphin-1.5 | 0.3B | 83.21 | 0.092 | 80.78 | 78.06 | 84.10 | 0.080 | |
| POINTS-Reader | 3B | 80.98 | 0.134 | 79.20 | 77.13 | 81.66 | 0.145 | |
| Mistral OCR | - | 78.83 | 0.164 | 82.84 | 70.03 | 78.04 | 0.144 | |
| OCRFlux | 3B | 74.82 | 0.193 | 68.03 | 75.75 | 80.23 | 0.202 | |
| Dolphin | 0.3B | 74.67 | 0.125 | 67.85 | 68.70 | 77.77 | 0.124 | |
| General VLMs |
Qwen3-VL-235B-A22B-Instruct | 235B | 89.15 | 0.069 | 88.14 | 86.21 | 90.55 | 0.068 | Gemini-2.5 Pro | - | 88.03 | 0.075 | 85.82 | 85.71 | 90.29 | 0.097 |
| Qwen2.5-VL | 72B | 87.02 | 0.094 | 88.27 | 82.15 | 86.22 | 0.102 | |
| InternVL3.5 | 241B | 82.67 | 0.142 | 87.23 | 75.00 | 81.28 | 0.125 | |
| InternVL3 | 78B | 80.33 | 0.131 | 83.42 | 70.64 | 77.74 | 0.113 | |
| GPT-4o | - | 75.02 | 0.217 | 79.70 | 67.07 | 76.09 | 0.148 | |
| Pipeline Tools |
RapidDoc | - | 87.81 | 0.065 | 89.348 | 80.59 | 87.90 | 0.053 |
| PP-StructureV3 | - | 86.73 | 0.073 | 85.79 | 81.68 | 89.48 | 0.073 | |
| Mineru2-pipeline | - | 75.51 | 0.209 | 76.55 | 70.90 | 79.11 | 0.225 | |
| Marker-1.8.2 | - | 71.30 | 0.206 | 76.66 | 57.88 | 71.17 | 0.250 |