# LabelFast

**Repository Path**: wei311525/LabelFast

## Basic Information

- **Project Name**: LabelFast
- **Description**: No description available
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-02-25
- **Last Updated**: 2025-02-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 简单样本，交给LabelFast

LabelFast是中文世界的NLP自动标注开源工具，旨在用LLM技术，快速识别并标注简单文本数据。

使用LabelFast，人类只需关注那些少量而关键的难样本，达到降本增效的效果。

其特点如下：

1. **开箱即用**。无需微调和Prompt工程，提供 标注任务 + 样本，马上开始标注；
    
2. **诚实可信**。在提供标注结果的同时，还提供Confidence信息，以表示模型对标注结果的信心程度，便于使用者确定何时信任模型结果；
    
3. **完全开源**。LabelFast源于开源的模型和技术，因此也将回馈开源社区。  
    

## 版本说明
### **v0.2（最新）**

| 标注任务     | 支持模型 |
| ----------- | ----------- |
| CLS      | mt5、seq-gpt       |
| NER   | seq-gpt        |

1. 标注模型支持：mt5 - [finetuned mT5模型](https://modelscope.cn/models/damo/nlp_mt5_zero-shot-augment_chinese-base/summary "全任务零样本学习-mT5分类增强版-中文-base")、seq-gpt（新增） - [seqgpt-560M模型](https://modelscope.cn/models/iic/nlp_seqgpt-560m/summary);
2. 标注任务支持：CLS - 文本多分类，NER（新增） - 命名实体识别；
3. confidence estimation方法：使用First Token Prob方法。


### **v0.1**
1. 标注模型支持[finetuned mT5模型](https://modelscope.cn/models/damo/nlp_mt5_zero-shot-augment_chinese-base/summary "全任务零样本学习-mT5分类增强版-中文-base")；
2. 标注任务支持文本多分类；
3. confidence estimation使用First Token Prob方法。

## Demo地址

https://modelscope.cn/studios/duanyu/LabelFast/summary

受创空间计算资源限制，Demo**只部署了mt5模型，仅支持CLS任务标注**。

## 如何使用

### 环境依赖

+ 建议用conda新建python 3.10环境
+ 第三方库依赖

``` pip3 install modelscope ms-swift transformers torch scikit-learn sentencepiece ```

### 示例

参照```test.py```

## LabelFast的核心技术

1. **Instruction-Tuning Language Model**。以[Flan-T5](https://arxiv.org/abs/2210.11416 "Flan-T5")、[SeqGPT](https://arxiv.org/abs/2308.10529 "SeqGPT")为代表，基于预训练LLM，在庞大的instruction data（将NLP任务改写为prompt->output的格式）上进行Fine-Tuning，使得模型在NLP任务上具备较强的Zero-Shot Task Generalization能力，能够以Zero-Shot的形式执行众多NLP任务。这部分对应LabelFast中的标注模型。
2. **Confidence Estimation**。得到模型对于标注结果的置信度，目标是尽可能well-calibrated（高confidence -> 高Acc、低confidence -> 低Acc），得到confidence之后，可用于决定何时信任模型标注、何时采用人工标注。计算方法包括Prompting、Entropy、Token Prob等，方法的细节可参照refuel.ai的[这篇博文](https://www.refuel.ai/blog-posts/labeling-with-confidence "refuel.ai blog: labeling with confidence")。

## 联系作者

如果您对LabelFast有任何建议，欢迎添加作者微信进行交流~（VX：duanyu027，最好备注一声“LabelFast”）

如果这个项目对您有帮助，欢迎[Buy Me a Coffee](https://www.buymeacoffee.com/derrick.dy)