TA 关注的仓库 - 张海涛 (mobilezht1)

关注的仓库(14)

Watch 张海涛/RagPreparer

以下是一个使用Java实现RAG准备工作的完整方案，包括读取指定目录下的docx文件、提取内容、分割段落、向量化处理以及存储到MariaDB数据库的功能。 ### 实现说明这个方案实现了RAG（检索增强生成）系统的数据准备工作，主要包含以下几个核心步骤： 1. **文档读取**：使用Apache Tika库读取指定目录下的所有docx文件内容。Tika是一个强大的文档解析库，能够处理多种格式的文档。 2. **内容分割**：将提取的文档内容按自然段分割，使用Jsoup处理可能的HTML格式内容，或者按空行分割纯文本内容。 3. **向量化处理**：通过Ollama API将每个段落转换为向量表示。示例中使用了all-MiniLM-L6-v2模型，你可以根据需要替换为其他模型。 4. **数据存储**：将文档信息、段落内容及其向量存储到MariaDB数据库中，创建了两个表： - `documents`：存储文档的基本信息 - `paragraphs`：存储每个段落的内容、向量及其关联的文档ID ### 使用前的准备工作 1. 确保已安装并运行MariaDB数据库，并创建名为`rag_db`的数据库 2. 启动Ollama服务并下载所需的嵌入模型（如`ollama pull all-MiniLM-L6-v2`） 3. 根据实际环境修改代码中的数据库连接信息（URL、用户名、密码） 4. 确保Java开发环境（JDK 11+）和Maven已正确配置 ### 运行方式使用Maven打包后，通过命令行运行： ``` java -jar target/rag-preparer-1.0-SNAPSHOT-jar-with-dependencies.jar /path/to/docx/files ``` 这个实现可以根据实际需求进行扩展，例如添加更多文档格式支持、优化向量生成效率或增加错误重试机制等。

最近更新: 2个月前

张海涛

Watch 张海涛/RagPreparer

Watch 张海涛/AkkaActiveObjects

Watch 张海涛/zmq0018

Watch 张海涛/pingora_demo

Watch 张海涛/hash-chain-implementation

Watch 张海涛/web0011

Watch 张海涛/live0012

Watch 张海涛/tank0012

Watch 张海涛/tank0013

Watch 张海涛/otn0016

张海涛

Watch 张海涛/RagPreparer

Watch 张海涛/AkkaActiveObjects

Watch 张海涛/zmq0018

Watch 张海涛/pingora_demo

Watch 张海涛/hash-chain-implementation

Watch 张海涛/web0011

Watch 张海涛/live0012

Watch 张海涛/tank0012

Watch 张海涛/tank0013

Watch 张海涛/otn0016

搜索帮助