# cosSim **Repository Path**: zhou_long_yang/cosSim ## Basic Information - **Project Name**: cosSim - **Description**: 基于TF-IDF和余弦定理计算文本相似度 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-05-02 - **Last Updated**: 2023-12-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## cosSim 基于TF-IDF和余弦定理计算文本相似度 ### 使用 ``` python3 main.py ``` ### 计算过程 1. 对输入的两个文本分词,使用`CountVectorizer`计算词频矩阵 2. 计算TF-IDF得到weight矩阵(归一化) 3. 根据余弦定理计算两个向量的相似度 结果越接近1.0表示文本越相似(不考虑文本的词的顺序)