# NLP_process

**Repository Path**: tmonica/NLP_process

## Basic Information

- **Project Name**: NLP_process
- **Description**: NLP的各种小项目练手
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2021-09-10
- **Last Updated**: 2022-06-11

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# NLP练习
任菜鸡写的NLP的各种小项目练手（欢迎大家用于学习等～）

TextCNN：对英文数据集进行二分类任务

BiLstim—CRF：对英文数据集进行序列标注任务

ESIM：对英文数据集实现文本蕴含任务

BERT_分类：实现BERT完成对英文数据集的二分类任务

word2vec：实现了对<<斗罗大陆>>进行word2vec，可以查询小说中人物关系等

基于知识图谱的电影问答系统：基于规则的问答系统，根据问题产生对应的查询语句，查询知识图谱后根据回答模版进行回复

词云：实现了中文词云、英文词云、不同形状的词云等

机器翻译：使用s2s+注意力机制完成中英机器翻译

文本摘要：使用s2s+指针网络完成中文文本摘要
### 项目结构描述
```
├── README.md                   // 描述文件
├── BERT_分类                   // 文本2分类
├── BiLstim—CRF                 // 序列标注
├── ESIM                        // 文本蕴含
├── TextCNN                     // 文本2分类
├── word2vec                    // 词向量
├── 词云                        // 构造词云
├── 基于知识图谱的电影问答系统  // 问答系统
├── images                      //存放仓库图片
├── 机器翻译                     //seq2seq的中英翻译
├── 文本摘要                    //seq2seq+指针网络的中文文本摘要
└── .gitignore
```


# NLP相关流程：
(个人总结，大致过程如下，可能不同人的总结不同)

## 英文文本：
### 1、分词：大多数情况下以空格进行分割
### 2、处理分词：往往缩略词还原、词性还原等（可以采用nltk库进行）
### 3、设计vocab、word2id、id2word：统计词频、排序等操作后设计vovab并建立id和word的想换转的字典
### 4、将分词结果转化为id值
### 5、截断或补全：取一个合理的长度，多则截断，少则补全（往往补0 <-> <unk>）

## 中文文本：
### 1、分词：比英文复杂一点，往往采用jieba分词等工具进行分词
### 2、处理分词：相对于英语该部分比较少
### 3、设计vocab、word2id、id2word：统计词频、排序等操作后设计vovab并建立id和word的想换转的字典
### 4、将分词结果转化为id值
### 5、截断或补全：取一个合理的长度，多则截断，少则补全（往往补0 <-> <unk>）