CCKS2019-面向金融领域的事件主体抽取方法,“事件识别”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件识别”的复杂性在于事件类型和事件主体的判断,比如“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”,对于“产品出现问题”事件类型,该句中事件主体是“公司A”,而不是“公司B”或“公司C”。我们称发生特定事件类型的主体成为事件主体,本任务中事件主体范围限定为:公司和机构。事件类型范围确定为:产品出现问题、高管减持、违法违规… 本次评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。 输入:一段文本,事件类型S 输出:事件主体 示例: 样例1 输入:”公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”, “产品出现问题” 输出: “公司A” 样例2 输入:“公司A高管涉嫌违规减持”,“交易违规” 输出: “公司A”
任务一:基于机器学习的文本分类 任务二:基于深度学习的文本分类 任务三:基于注意力机制的文本匹配 任务四:基于LSTM+CRF的序列标注 任务五:基于神经网络的语言模型
西湖大学在EMNLP2019上提出了一个中文text-to-sql的数据集CSpider,主要是选择Spider作为源数据集进行了问题的翻译,并利用SyntaxSQLNet作为基线系统进行了测试,同时探索了在中文上产生的一些额外的挑战,包括中文问题对英文数据库的对应问题(question-to-DBmapping)、中文的分词问题以及一些其他的语言现象。 挑战赛链接:https://taolusi.github.io/CSpider-explorer/
HanLP作者的新书《自然语言处理入门》详细笔记!业界良心之作,书中不是枯燥无味的公式罗列,而是用白话阐述的通俗易懂的算法模型。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。