# Experiments **Repository Path**: liusssyang/experiments ## Basic Information - **Project Name**: Experiments - **Description**: No description available - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-02-21 - **Last Updated**: 2022-04-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Theta - SBERT 实验 ## 依赖 + python 3.6.7 + pytorch 1.1.0 ## 数据集 + https://bitbucket.org/franrruiz/data_20ng_largev/src/master/ ## 运行 + 所有数据预处理保存在目录data/20ng ; + ETM模型保存在目录ETM/results ; ① 运行下面的命令,通过SBERT将20ng所有的数据转换为语义嵌入向量 ``` python sbert_vecs_data.py ``` ② 运行下面的命令,将20ng准备ETM所需训练数据 ``` cd ETM python create_data.py ``` ③ 运行下面的命令,用20ng训练ETM模型 + 训练普通的ETM: ``` cd ETM python main.py --mode train --dataset 20ng --data_path ../data/20ng --num_topics 50 --train_embeddings 1 --epochs 1000 --batch_size 100 --ratio_recon 1 --ratio_KL 1 --ratio_latent 1 --latent_loss 0 ``` + 训练有latent_loss的ETM: ``` cd ETM python main.py --mode train --dataset 20ng --data_path ../data/20ng --num_topics 50 --train_embeddings 1 --epochs 1000 --latent_loss 1 --batch_size 100 ``` ④ 运行下面的命令,评估文档完成、主题一致性、主题多样性方面的困惑,并可视化主题/嵌入运行 ; ``` cd ETM python main.py --mode eval --dataset 20ng --data_path ../data/20ng --num_topics 50 --train_embeddings 1 --tc 1 --td 1 --load_from CKPT_PATH ``` ⑤ 更多ETM模型评估请参照 ETM/README.md