# vision-project

**Repository Path**: TangShixing/vision-project

## Basic Information

- **Project Name**: vision-project
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-12
- **Last Updated**: 2025-03-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Vision-Project

## 项目概述
Vision-Project 是一个基于 Vue3、Golang、Gin、Gorm 和 Doubao 多模态大模型 API 的项目，旨在通过图片识别技术，将用户上传的图片中的英文文本识别并返回其文本。项目分为前端、后端和 API 调用三部分，分别使用 Vue3、Golang 和 Doubao 多模态大模型 API 实现。

## 项目结构
```
vision-project/
├── vision-web/         # 前端项目（Vue3）
├── vision-server/      # 后端项目（Golang + Gin + Gorm）
└── vision-api/         # API 调用部分（Doubao 多模态大模型 API）
```

## 功能特点
- 图片上传：用户可以通过前端界面上传图片或使用摄像头拍摄图片
- 文本识别：后端调用 Doubao 多模态大模型 API，识别图片中的英文文本
- 发音生成：将识别出的英文文本通过 TTS 技术生成音频文件
- 结果展示：前端展示识别出的英文文本并播放生成的音频

## 安装与使用

### 前端（Vue3）
1. 进入项目目录：
   ```bash
   cd vision-web
   ```

2. 安装依赖：
   ```bash
   npm install
   ```

3. 启动开发服务器：
   ```bash
   npm run dev
   ```

### 后端（Golang + Gin + Gorm）
1. 进入项目目录：
   ```bash
   cd vision-server
   ```

2. 安装依赖：
   ```bash
   go mod tidy
   ```

3. 启动服务器：
   ```bash
   go run main.go
   ```

### API 调用（Doubao 多模态大模型 API）
1. 进入项目目录：
   ```bash
   cd vision-api
   ```

2. 配置 API 密钥和模型 ID：
   ```bash
   export API_KEY=your_api_key
   export MODEL=your_model_id
   ```

3. 调用 API：
   ```bash
   python api_call.py
   ```