# Experiments

**Repository Path**: liusssyang/experiments

## Basic Information

- **Project Name**: Experiments
- **Description**: No description available
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2022-02-21
- **Last Updated**: 2022-04-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Theta - SBERT 实验


## 依赖

+ python 3.6.7
+ pytorch 1.1.0

## 数据集

+ https://bitbucket.org/franrruiz/data_20ng_largev/src/master/

## 运行
+ 所有数据预处理保存在目录data/20ng ；
+ ETM模型保存在目录ETM/results ；

① 运行下面的命令，通过SBERT将20ng所有的数据转换为语义嵌入向量
```
python sbert_vecs_data.py 
```
② 运行下面的命令，将20ng准备ETM所需训练数据
```
cd ETM
python create_data.py 
```
③ 运行下面的命令，用20ng训练ETM模型
+ 训练普通的ETM:
```
cd ETM
python main.py --mode train --dataset 20ng --data_path ../data/20ng --num_topics 50 --train_embeddings 1 --epochs 1000 --batch_size 100 --ratio_recon 1 --ratio_KL 1 --ratio_latent 1  --latent_loss 0
```
+ 训练有latent_loss的ETM：
```
cd ETM
python main.py --mode train --dataset 20ng --data_path ../data/20ng --num_topics 50 --train_embeddings 1 --epochs 1000 --latent_loss 1 --batch_size 100
```
④ 运行下面的命令，评估文档完成、主题一致性、主题多样性方面的困惑，并可视化主题/嵌入运行 ；
```
cd ETM
python main.py --mode eval --dataset 20ng --data_path ../data/20ng --num_topics 50 --train_embeddings 1 --tc 1 --td 1 --load_from CKPT_PATH
```

⑤ 更多ETM模型评估请参照 ETM/README.md