# pdfUT **Repository Path**: yaqiangy/pdfUT ## Basic Information - **Project Name**: pdfUT - **Description**: pdf工具 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-19 - **Last Updated**: 2025-09-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 银行流水PDF识别系统 基于PaddleOCR和通义千问AI模型的银行流水智能识别与分析工具。 ## 功能特点 - 支持PDF格式银行流水单识别 - 使用PaddleOCR进行高精度文字识别 - 通过通义千问AI模型进行语义理解和结构化处理 - 自动分析交易数据,生成统计报告 - 可视化展示交易趋势和分布 - Web界面支持文件上传和结果展示 ## 安装与使用 ### 环境要求 - Python 3.7+ - PaddlePaddle 2.0+ - Flask ### 安装依赖 ```bash pip install -r requirements.txt ``` ### 运行应用 ```bash python app.py ``` 应用将在 http://localhost:5000 启动。 ## 使用方法 1. 打开浏览器访问 http://localhost:5000 2. 上传银行流水PDF文件 3. 等待系统处理(包括OCR识别、AI分析等) 4. 查看分析结果和可视化报告 5. 可下载完整报告 ## 配置说明 通义千问API参数在`app.py`中配置: ```python qianwen_params = { 'api_key': 'YOUR_API_KEY', # 需要替换为实际的API密钥 'model': 'qwen-max', # 模型名称 'temperature': 0.7, # 温度参数 'max_tokens': 2000 # 最大生成token数 } ``` ## 项目结构 ``` pdfUT/ ├── app.py # 主应用入口 ├── requirements.txt # 依赖列表 ├── modules/ # 功能模块 │ ├── pdf_processor.py # PDF处理和OCR识别 │ ├── qianwen_api.py # 通义千问API调用 │ ├── data_analyzer.py # 数据分析 │ └── report_generator.py # 报告生成 ├── static/ # 静态资源 │ ├── css/ # 样式文件 │ ├── reports/ # 生成的报告 │ └── charts/ # 生成的图表 ├── templates/ # 模板文件 │ └── index.html # 主页模板 └── uploads/ # 上传文件存储 ```