# vision-project **Repository Path**: TangShixing/vision-project ## Basic Information - **Project Name**: vision-project - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-12 - **Last Updated**: 2025-03-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Vision-Project ## 项目概述 Vision-Project 是一个基于 Vue3、Golang、Gin、Gorm 和 Doubao 多模态大模型 API 的项目,旨在通过图片识别技术,将用户上传的图片中的英文文本识别并返回其文本。项目分为前端、后端和 API 调用三部分,分别使用 Vue3、Golang 和 Doubao 多模态大模型 API 实现。 ## 项目结构 ``` vision-project/ ├── vision-web/ # 前端项目(Vue3) ├── vision-server/ # 后端项目(Golang + Gin + Gorm) └── vision-api/ # API 调用部分(Doubao 多模态大模型 API) ``` ## 功能特点 - 图片上传:用户可以通过前端界面上传图片或使用摄像头拍摄图片 - 文本识别:后端调用 Doubao 多模态大模型 API,识别图片中的英文文本 - 发音生成:将识别出的英文文本通过 TTS 技术生成音频文件 - 结果展示:前端展示识别出的英文文本并播放生成的音频 ## 安装与使用 ### 前端(Vue3) 1. 进入项目目录: ```bash cd vision-web ``` 2. 安装依赖: ```bash npm install ``` 3. 启动开发服务器: ```bash npm run dev ``` ### 后端(Golang + Gin + Gorm) 1. 进入项目目录: ```bash cd vision-server ``` 2. 安装依赖: ```bash go mod tidy ``` 3. 启动服务器: ```bash go run main.go ``` ### API 调用(Doubao 多模态大模型 API) 1. 进入项目目录: ```bash cd vision-api ``` 2. 配置 API 密钥和模型 ID: ```bash export API_KEY=your_api_key export MODEL=your_model_id ``` 3. 调用 API: ```bash python api_call.py ```