# pdfUT

**Repository Path**: yaqiangy/pdfUT

## Basic Information

- **Project Name**: pdfUT
- **Description**: pdf工具
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-19
- **Last Updated**: 2025-09-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 银行流水PDF识别系统

基于PaddleOCR和通义千问AI模型的银行流水智能识别与分析工具。

## 功能特点

- 支持PDF格式银行流水单识别
- 使用PaddleOCR进行高精度文字识别
- 通过通义千问AI模型进行语义理解和结构化处理
- 自动分析交易数据，生成统计报告
- 可视化展示交易趋势和分布
- Web界面支持文件上传和结果展示

## 安装与使用

### 环境要求

- Python 3.7+
- PaddlePaddle 2.0+
- Flask

### 安装依赖

```bash
pip install -r requirements.txt
```

### 运行应用

```bash
python app.py
```

应用将在 http://localhost:5000 启动。

## 使用方法

1. 打开浏览器访问 http://localhost:5000
2. 上传银行流水PDF文件
3. 等待系统处理（包括OCR识别、AI分析等）
4. 查看分析结果和可视化报告
5. 可下载完整报告

## 配置说明

通义千问API参数在`app.py`中配置：

```python
qianwen_params = {
    'api_key': 'YOUR_API_KEY',  # 需要替换为实际的API密钥
    'model': 'qwen-max',        # 模型名称
    'temperature': 0.7,         # 温度参数
    'max_tokens': 2000          # 最大生成token数
}
```

## 项目结构

```
pdfUT/
├── app.py                  # 主应用入口
├── requirements.txt        # 依赖列表
├── modules/                # 功能模块
│   ├── pdf_processor.py    # PDF处理和OCR识别
│   ├── qianwen_api.py      # 通义千问API调用
│   ├── data_analyzer.py    # 数据分析
│   └── report_generator.py # 报告生成
├── static/                 # 静态资源
│   ├── css/                # 样式文件
│   ├── reports/            # 生成的报告
│   └── charts/             # 生成的图表
├── templates/              # 模板文件
│   └── index.html          # 主页模板
└── uploads/                # 上传文件存储
```