# CTC2021

**Repository Path**: noletter/CTC2021

## Basic Information

- **Project Name**: CTC2021
- **Description**: No description available
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2021-07-09
- **Last Updated**: 2021-11-04

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# CIEC-CTC 2021 (Chinese Text Correction)

## 2021.07.08
更新Baseline模型代码，方便选手复线模型。使用方法见[ctc_gector/README.md](https://github.com/destwang/CTC2021/blob/main/ctc_gector/README.md)

## 2021.07.07
对选手常见问题进行总结归纳，详见[FAQ](#FAQ)。

## 2021.07.01
开放资格赛评测，发放资格赛评测数据及Baseline。

Baseline模型使用[GECToR](https://github.com/grammarly/gector), 训练和推理代码见ctc_gector，模型将邮件发放给各参赛队伍。

## 2021.06.28
增加报名成功[队伍信息](https://github.com/destwang/CTC2021/blob/main/team_info.md)，包括队伍名和codalab账号。

## 2021.06.25
训练数据已邮件发送给通过报名审核的队伍，如未收到邮件，请联系rdg_feiying@iflytek.com。
Baseline将于资格赛开始（7月1日）发布。

## 比赛介绍
文本校对任务主要是针对文本中出现的错误进行检测和纠正，属于综合性的自然语言处理研究子方向，能够比较全面体现了自然语言处理的技术水平。过往文本校对相关评测使用的都是外国语言学习者撰写的文本，这些文本的错误大多数都是一些中文母语写作者不会犯的一些错误。对于政务公文、新闻出版等行业来说，一款针对以中文为母语的用户所使用的校对系统将会有更大的帮助。因此，本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据，从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

## 比赛网站
https://competitions.codalab.org/competitions/32702

## 训练数据及Baseline系统
训练数据、Baseline模型已邮件发送给通过报名审核的队伍，如未收到邮件，请联系rdg_feiying@iflytek.com。

## 验证集及提交数据
验证集及数据提交格式可从比赛页面(codalab)获取，获取路径为：“Participate--File--Public Data”

其中，需要注意提交数据的格式：

1. 若句子中没有错误，则直接返回"pid, -1", 如pid=0011-2, -1

2. 若句子中有错误，则所有字段之间均以英文“,”连接，所有英文逗号的个数应为 4*n+1 个。如“pid=0011-1, 20, 别字, 轮, 论, 46, 别词, 标识, 表示,”

3. 将预测结果命名为"dev.predict"，并直接压缩为zip文件，不要保留文件夹。可参考Public Data中的submit_sample.zip

比赛页面存在拥堵情况，数据提交后可能需要一段时间才能得到评测得分。


## 评测委员会

**主席**  
陈志刚 （认知智能国家重点实验室 副主任，科大讯飞研究院 副院长）

**副主席**  
车万翔（哈尔滨工业大学社会计算与信息检索研究中心 教授）  
陈竹敏（山东大学信息检索实验室 教授）  
贺瑞芳（天津大学智能与计算学部 教授）  
伍大勇（科大讯飞北京研究院 执行院长）  

**秘书长**  
王宝鑫（科大讯飞北京研究院 研究主管）

## <span id="FAQ">FAQ</span>
**Q：队员还需要发送报名邮件吗？**  
A：每队发送一封报名邮件即可，进入决赛时我们将统一收集参赛队伍信息，届时组队信息将不可再变更。

**Q: 是否需要提交训练数据集和系统代码？**  
A：不需要提交训练数据集，决赛时需要提交可运行的系统，其他阶段只需要提交预测文件。

**Q：评测指标**  
A：detection score考虑错误位置和检出的错误词，correction score考虑错误位置、检出的错误词、纠正的正确词，错误类型不影响评测结果，两个分值均使用F1指标。

**Q：是否可以使用自己训练的预训练模型？**  
A：可以使用。

**Q：是否可以自己生成伪数据？**  
A：可以生成。

**Q：是否可以自己标注？是否可以使用未公开数据？**  
A：为公平起见，不可以自己标注数据，也不可以使用未公开数据。

**Q：是否可以使用GitHub上公开的代码修改？**  
A：可以使用公开代码进行修改。

**Q：提供的伪数据生成方式？**  
A：提供的伪数据主要通过字音字形替换或随机替换，随机插入，随机删除生成；语义重复及句式杂糅使用了一些先验规则，这两类错误的占比不多。

**Q：数据集在哪里下载？**  
A：获取数据集需要在比赛页面中报名，并发送队伍相关信息至主办方邮箱，待审核通过后，我们将以邮件形式发送训练数据下载链接。

**Q：是否有讨论交流群？**  
A：没有创建。

**Q：训练数据中频繁出现字符串67。**  
A：这个问题占比不大，对模型效果影响较小，在通过资格赛后提供的训练集中，我们将修复这个问题。

**Q：分隔符使用英文逗号还是英文逗号加空格？如果更改的内容存在英文逗号怎么表示？**  
A：① 分隔符使用英文逗号或英文逗号加空格都可以。② 目前评测机中不包含带英文逗号的数据，所以理论上不存在带英文逗号的纠正，如果提交文件中存在英文逗号则无法通过提交。

**Q：句子的起始索引是0还是1？**  
A：起始索引是0。