课题组:上证信息-文因互联(联合)课题组 课题主办人:上海证券交易所"/>

上证音信,一文读懂自然语言处理

日期:2019-09-16编辑作者:威尼斯在线平台

原标题:上证信息-文因互联(联合)发布:知识提取在上市公司信息披露中的应用

前言

style="font-size: 16px;">课题组:上证信息-文因互联(联合)课题组

课题主办人:上海证券交易所信息公司 赵伟 何曾樑

课题承接单位:北京文因互联科技有限公司

文因互联:张强 王丛 李卫东 丁海星 张梦迪 马新磊

上证信息:王辉 赵伟 何曾樑 王海菲 李炜 陈春燕 奚超

自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。

信息披露是资本市场的重要组成部分,是资本市场法律法规的核心内容之一,也是对市场参与者权益的有利保障。

对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。

以上市公司信息披露为例,随着市场监管的全面深化以及上市公司数量的逐年增长,各类投资者,尤其是中小投资者,面临着海量公告信息处理能力不足的困难。

早期的自然语言处理具有鲜明的经验主义色彩。如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是“手工查频”,具体说就是统计了《欧根·奥涅金》长诗中元音与辅音出现的频度;1948年香农把离散马尔科夫的概率模型应用于语言的自动机,同时采用手工方法统计英语字母的频率。

对海量公告信息制作摘要或提取有意义的结构化信息,一方面可以提高投资者的信息获取能力,同时也为市场监管及企业研究提供了基础数据支持。

然而这种经验主义到了乔姆斯基时出现了转变。

本文介绍了一种用于上市公司信息披露自动摘要的方法,本方法使用深度学习与知识规则的混合算法,首先将文档划分为句子,将句子进行标注后通过LSTM模型训练计算出关键语句,再将输出句子经过规则系统提取,从而得到一篇公告的重要实体与关系,最后重组为摘要。本方法在几类高频、重要的上市公司公告中进行了结构化提取与摘要生成的测试,并取得理想结果。本文认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。

1956年乔姆斯基借鉴香农的工作,把有限状态机用作刻画语法的工具,建立了自然语言的有限状态模型,具体来说就是用“代数”和“集合”将语言转化为符号序列,建立了一大堆有关语法的数学模型。这些工作非常伟大,为自然语言和形式语言找到了一种统一的数学描述理论,一个叫做“形式语言理论”的新领域诞生了。这个时代,“经验主义”被全盘否定,“理性主义”算是完胜。

特别鸣谢

然而在20世纪50年代末到60年代中期,经验主义东山再起了。多数学者普遍认为只有详尽的历史语料才能带来靠谱的结论。于是一些比较著名的理论与算法就诞生了,如贝叶斯方法(Bayesian Method)、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。世界上第一个联机语料库也是在那个时候的Brown University诞生的。但是总的来说,这个时代依然是基于规则的理性主义的天下,经验主义虽然取得了不俗的成就,却依然没有受到太大的重视。但是金子总会发光的。

上证所信息网络有限公司

90年代以来,基于统计的自然语言处理就开始大放异彩了。首先是在机器翻译领域取得了突破,因为引入了许多基于语料库的方法(哈钦斯,英国著名学者)。1990年在芬兰赫尔辛基举办的第13届国际计算语言学会议确定的主题是“处理大规模真实文本的理论、方法与工具”,大家的重心开始转向大规模真实文本了,传统的仅仅基于规则的自然语言处理显然力不从心了。学者们认为,大规模语料至少是对基于规则方法有效的补充。到了1994~1999年,经验主义就开始空前繁荣了。如句法剖析、词类标注、参照消解、话语处理的算法几乎把“概率”与“数据”作为标准方法,成为了自然语言处理的主流。 

文章节选自上海证券交易所与上交所技术出版的《2017证券信息技术研究发展中心研究报告》内部刊物。

总之,理性主义在自然语言处理的发展史上是有重要地位的,也辉煌了几十年,历史事物常常是此消彼长的,至于谁好谁坏,不是固定的,取决于不同时代的不同历史任务。总的来说,基于规则的理性主义在这个时代被提及得比较少,用的也比较少,主要是由于以下几个缺陷:

(一)研究背景

鲁棒性差,过于严格的规则导致对非本质错误的零容忍(这一点在最近的一些新的剖析技术上有所改善);

在我国证券市场上,信息披露是一种法规要求,各种信息披露义务人“应当真实、准确、完整、及时地披露信息”。以上市公司为例,信息披露能够使市场及时掌握公司的运营情况,评估未来盈利水平和风险情况,从而做出投资决策。

研究强度大,泛化能力差。一个研究要语言学家、语音学家和各种领域的专家配合,在当前大规模文本处理的时间、资源要求下太不划算。且机器学习的方法很难应用,难以普及;

上市公司的公告信息披露由各信息披露义务人在指定的信息披露网站发布,主要为PDF格式。以沪市上市公司为例,2016年全年披露了123732篇公告,2017年共158977篇,并且随着上市公司数量的增加这一数字将会逐年增加。每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天(2017年4月28日)发布了3571篇公告。这不但为证券交易所的合规检查带来了压力,也给投资者带来了极大的信息负载,尤其是对中小投资者。

实践性差。基于统计的经验主义方法可以根据数据集不断对参数进行优化,而基于规则的方法就不可以,这在当前数据量巨大的情况下,影响是致命的,因为前者常常可以通过增大训练集来获得更好的效果,后者则死板许多,结果往往不尽人意。

随着上市公司数量日益增多,将公告以行之有效的方式让阅读者“读薄”的工作刻不容缓,其中通过自然语言处理、知识图谱、深度学习等技术将公告信息结构化提取或许是关键所在。

但理性主义还是有很多优点的,同样经验主义也有很多缺陷,算是各有所长、各有所短。不同学科有不同学科的研究角度,只能说某些角度在某个特定的历史时期对提高生产力“更有用”,所以重视的人更多。但“有用”不代表胜利,暂时的“无用”更不能说是科学层面上的“失败”。尤其是在当前中文自然语言处理发展还不甚成熟的时期,私以为基于统计的方法在很多方面并不完美,“理性主义”的作用空间还很大,需要更多的人去关注、助力。

目前,沪深两所上市公司的信息披露内容中,部分定期公告及临时公告已经利用XBRL技术将信息结构化,其中主要包括公司半年报与年报中的基本信息、股本结构、以及资产负债表、利润表、现金流量表财务报表及附注,这些信息在上市公司撰写公告时,便通过特殊工具进行了采集[1],之后便可以直接将这些信息结构化存储和利用。然而,已经格式化处理的公告仅占全部公告的一部分,加之信息披露的要求逐年变化,对公告信息的完整格式化仍然是个挑战。中小投资者通常使用市场信息供应商来获取信息,而这些信息供应商由于关注点的不同,所提供的数据在时效性、完整性、准确性上,也有很大的提升空间。

——《统计自然语言处理》宗成庆

上市公司信息披露的种类繁多,如上交所将上市公司公告分为35大类,376个小类(上海证券交易所,2013)。目前上海证券交易所制作并免费对市场发布部分公告的摘要信息,但由于制作维护成本较高,不易扩展,并难以应对公告数量的井喷。

自然语言处理涉及的范畴如下(维基百科):

本项工作的初始目的是为了上交所的公告制作小组提供合适的自动化处理工具,减轻公告高峰期的运行压力,降低人工采编风险,控制可能增加的成本;在此基础上,考虑为周边系统甚至公众提供通用的公告自动抽取服务。

中文自动分词(Chinese word segmentation)

本项工作通过LSTM深度学习网络,首先将不同类别公告的关键语句抽取出来,抽取过程仅需公告制作小组业务专家对少量公告进行标注,期间通过Dropout等方法提供模型泛化能力。关键语句抽取后,再通过规则方法进行细粒度提取,从而将公告结构化。结构化提取与摘要生成是知识提取的两种展示形式,本工作在9类高频公告中分别对两者进行了充分测试,均取得了较为理想的结果。

词性标注(Part-of-speech tagging)

研究重点和难点

句法分析(Parsing)

本项目的初始设计目的是为了公告制作小组提供高质量的自动化处理工具。面对公告摘要这特殊类型文本,公告制作小组制定了较高的准确性要求,以至于传统(新闻)文本摘要无法完全满足准确率需要。本课题需要探索深度学习与知识提取的结合,以平衡开发成本与准确率的矛盾。这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来宝贵经验。

自然语言生成(Natural language generation)

对于不同格式的文档,文本的获取是第一步。PDF格式是目前信息披露的法定格式。PDF解析是解决公告分析的前提条件,而由于PDF转换过程中所带来的信息丢失,噪音干扰,段落结构破坏,表格结构破坏会严重影响后续分析,于是PDF解析是本课题第一个难点。对于可获取的其他格式文本,如Word或TXT,内容获取较易,没有加以特别对待;而对部分由图片转换的PDF,由于涉及到图像识别等其他专项技术,未在本项工作中加以覆盖。

文本分类(Text categorization)

深度学习模型需要平衡模型的准确率和泛化能力,同样不能采用过于复杂的模型降低运算速度,所以深度学习模型的合理搭建是第二个难点。

信息检索(Information retrieval)

事件提取是信息提取研究中最具有挑战性的任务之一,如何能够在保证泛化能力的情况下更准确的进行事件元素信息的提取是第三个难点。

信息抽取(Information extraction)

最后的难点是深度学习模型与知识提取的混合工程架构,要考虑如何能更快让开发人员扩展,非常考验工程设计者的架构能力。

文字校对(Text-proofing)

(二)预备知识 2.1 自动文本摘要任务

问答系统(Question answering)

文本摘要(Document/TextSummarization)是自然语言处理(NLP,NaturalLanguage Processing)中的一个比较难的问题。

机器翻译(Machine translation)

按照不同的数据源,可以大致分为1)新闻摘要,2)一般论文摘要,3)综述论文摘要等几个类型。

自动摘要(Automatic summarization)

  • 新闻摘要要求编辑能够从新闻事件中提取出最关键的信息点,然后重新组织语言进行描述。
  • 一般论文的摘要要求作者先表述清楚问题,对前人工作中不完善的地方进行总结,然后用更凝练的语言描述自己的工作。
  • 综述性质的论文要求作者通读大量相关领域的工作,用最概括性的语言将每份工作的贡献、创新点写出来,并对每份工作的优缺点进行比较。

本文针对其中几个主要领域的研究现状和进展,通过论文、博客等资料,结合自身的学习和实践经历进行浅显地介绍。由于个人实践经验不足,除中文分词、自动文摘、文本分类、情感分析和话题模型方面进行过实际业务的实践,其他方面经验欠缺,若有不当之处,欢迎童鞋们批评指正!

自动文本摘要是指“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要”(Radev,Hovy,McKeown,2002)。

目录

本质上,文本摘要是一种信息过滤,输出的文本比输入的文本少很多,但却包含了主要的信息,有点类似主成分分析(PCA)。从某种意义上,文本摘要与推荐系统的功能类似,都是为了提取出用户感兴趣的内容,只是使用的方法有很大不同。

一. 中文分词

按照文档数量,文本摘要可以分为单文档摘要与多文档摘要,前者是后者的基础,但后者不只是前者结果的简单叠加。前者经常应用于新闻信息的过滤,而后者,在搜索引擎中有很大的潜力,难度也随之加大。在单文档摘要系统中,一般都采取基于抽取的方法。

中文分词主要包括词的歧义切分和未登录词识别,主要可以分为基于词典和基于统计的方法,最新的方法是多种方法的混合。从目前汉语分词研究的总体水平看,F1值已经达到95%左右,主要分词错误是由新词造成的,尤其对领域的适应性较差。下面主要介绍一下中文分词存在的主要问题和分词方法。

而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。

  1. 问题

本课题根据业务需要,主要聚焦在单文档摘要的处理上。针对单个文档,对其中的内容进行抽取,并针对用户或者应用需求,将文中最重要的内容以压缩的形式呈现给用户。常见的单文档摘要技术包括基于特征的方法(文档摘要中常用的文章特征包括词频、特定段落、段落的特定句子等)、基于词汇链的方法和基于图排序的方法。

1.1 歧义切分

自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。

切分歧义处理包括两部分内容:

自动文本摘要通常可分为两类,分别是抽取式(Extractive)和生成式(Abstractive)。抽取式摘要判断原文本中重要的句子,抽取这些句子成为一篇摘要。

切分歧义的检测;

而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。历史上,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的成绩。

切分歧义的消解。

一般来说,自动文摘过程包括三个基本步骤:

这两部分在逻辑关系上可分成两个相对独立的步骤。

  • 1.文本分析过程:对原文进行分析处理,识别出冗余信息;
  • 2.文本内容的选取和泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;
  • 3.文摘的转换和生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性

切分歧义的检测。“最大匹配法”(精确的说法应该叫“最长词优先匹配法”) 是最早出现、同时也是最基本的汉语自动分词方法。依扫描句子的方向,又分正向最大匹配 MM(从左向右)和逆向最大匹配 RMM(从右向左)两种。最大匹配法实际上将切分歧义检测与消解这两个过程合二为一,对输入句子给出唯一的切分可能性,并以之为解。从最大匹配法出发导出了“双向最大匹配法”,即MM+ RMM。双向最大匹配法存在着切分歧义检测盲区。

文摘的输出形式依据文摘的用途和用户需求确定。不同的系统所采用的具体实现方法不同,因此在不同的系统中,上述几个模块所处理的问题和采用的方法也有所差异。

针对切分歧义检测,另外两个有价值的工作是“最少分词法”,这种方法歧义检测能力较双向最大匹配法要强些,产生的可能切分个数仅略有增加;和“全切分法”,这种方法穷举所有可能的切分,实现了无盲区的切分歧义检测,但代价是导致大量的切分“垃圾”。

2.2 摘要评估

切分歧义的消解。典型的方法包括句法统计和基于记忆的模型。句法统计将自动分词和基于 Markov 链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义,基于记忆的模型对伪歧义型高频交集型歧义切分,可以把它们的正确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。

评估一篇摘要的质量是一件比较困难的任务,“一千个读者,有一千个哈姆雷特”,对于一篇摘要而言,很难说有标准答案。不同的人理解一篇文档会有很大的不同,基于人工评价的方法有类似于评价开放的文科辨析题目答案一样,需要从答案中寻找一些所谓的要点,计算要点的覆盖率,打分。

1.2 未登录词识别

人工评价结果在很大程度上都是可信的,因为人可以推理、复述并使用世界知识将具有类似意思但形式不同的文本单元关联起来,更加灵活,但是时间成本高,效率低。

未登录词大致包含两大类:

不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。即使在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等标准,每个人对摘要的优劣都有自己的准绳。

新涌现的通用词或专业术语等;

自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。比较著名的会议或组织包括SUMMAC,DUC(DocumentUnderstanding Conference),TAC(TextAnalysis Conference)等。

专有名词。如中国人 名、外国译名、地名、机构名(泛指机关、团体和其它企事业单位)等。

目前,评估自动文本摘要质量主要有两种分类方法。

前一种未登录词理 论上是可预期的,能够人工预先添加到词表中(但这也只是理想状态,在真实环境下并不易 做到);后一种未登录词则完全不可预期,无论词表多么庞大,也无法囊括。真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。

第一种分类:人工评价方法和自动评价方法。这两类评价方法都需要完成以下三点:

新涌现的通用词或专业术语。对这类未登录词的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字、甚至亿字级的汉语分词语料库目前还是水月镜花,所以这个方向上现有的研究无一不以从极大规模生语料库中提炼出的 n 元汉字串之分布(n≥2)为基础。其中汉字之间的结合力通过全局统计量包括互信息、t- 测试差、卡方统计量、字串频等来表示。

  • 决定原始文本最重要的、需要保留的部分;
  • 在自动文本摘要中识别出1中的部分;
  • 基于语法和连贯性(Coherence)评价摘要的可读性(Readability)。

专有名词。对专有名词的未登录词的处理,首先依据从各类专有名词库中总结出的统计知识 (如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻上下文信息(如称谓),以及全局统计量和局部统计量(局部统计量是相对全局统计量而言的,是指从当前文章得到且其有效范围一般仅限于该文章的统计量,通常为字串频),进行进一步的鉴定。已有的工作涉及了四种常见的专有名词:中国人名的识别、外国译名的识别、中国地名的识别及机构名的识别。从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,机构名最差。而任务本身的难度实质上也是遵循这个顺序由小增大。 沈达阳、孙茂松等(1997b )特别强调了局部统计量在未登录词处理中的价值。

评估一篇摘要的好坏,最简单的方法就是邀请若干专家根据标准进行人工评定。这种方法比较接近人的阅读感受,但是耗时耗力,无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景并不符合。因此,文本摘要研究团队积极地研究自动评价方法。为了更高效地评估自动文本摘要,可以选定一个或若干指标(Metrics),基于这些指标比较生成的摘要和参考摘要(人工撰写,被认为是正确的摘要)进行自动评价。

  1. 方法

第二种分类文摘自动评估方法大致分为两类:内部评价方法和外部评价方法。

2.1 基于词典的方法

一类称作内部评价方法,与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;第二类称作外部评价方法,它是一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能。

在基于词典的方法中,对于给定的词,只有词典中存在的词语能够被识别,其中最受欢迎的方法是最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此随着新词不断出现,这种方法存在明显的缺点。

内部评价方法按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。这种评价方法来源于信息抽取技术。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率,准确率,冗余率和偏差率等几个指标。这种内部评价方法存在的主要困难是“理想摘要”的获得问题。

2.2 基于统计的方法

本课题研究中,公告信息披露这一问题场景对摘要信息的准确性有严格要求,生成式摘要技术不适用于本场景,本文主要介绍基于关键句选取、信息抽取和摘要模板生成式自动文本摘要。

基于统计的方法由于使用了概率或评分机制而非词典对文本进行分词而被广泛应用。这种方法主要有三个缺点:一是这种方法只能识别OOV(out-of-vocabulary)词而不能识别词的类型,比如只能识别为一串字符串而不能识别出是人名;二是统计方法很难将语言知识融入分词系统,因此对于不符合语言规范的结果需要额外的人工解析;三是在许多现在分词系统中,OOV词识别通常独立于分词过程。

2.3 LSTM序列标注模型

二. 词性标注

在自然语言理解中,一句话的前后顺序有着极其重要的语义信息,所以研究者在处理文本应用中大多采用 LSTM 模型。LSTM 模型是一种特殊的循环神经网络(Recurrent Neural Network,RNN) 。RNN(Graves,2012)适合解决时间序列的输入输出问题,而自然语言恰好是一个序列标注问题,在传统神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,在之前的语言模型的例子中,要预测句子的下一个单词是什么,一般需要用到前面的单词,而一个句子中前后单词并不是独立的。RNN已经被在实践中证明对NLP是非常成功的。如词向量表达、语句合法性检查、词性标注等。

词性标注是指为给定句子中的每个词赋予正确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech tag),比如,名词(noun)、动词(verb)、形容词(adjective) 等。它是自然语言处理中重要的和基础的研究课题之一,也是其他许多智能信息处理技术的基础,已被广泛的应用于机器翻译、文字识别、语音识别和信息检索等领域。

下图便可以直观的理解RNN网络结构:

词性标注对于后续的自然语言处理工作是一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。 长期以来,兼类词的词性歧义消解和未知词的词性识别一直是词性标注领域需要解决的热点问题。当兼类词的词性歧义消解变得困难时,词性的标注就出现了不确定性的问题。而对那些超出了词典收录范围的词语或者新涌现的词语的词性推测,也是一个完整的标注系统所应具备的能力。

图片 1

  1. 词性标注方法

可以把x理解为自然语言句子中逐个单词的词向量,其中隐藏层St=f(Uxt+Wst−1),Wst-1便是前一个单词所携带的语义信息。由于每一层的St都会向后一直传递,所以理论上St能够捕获到前面每一层发生的事情。然而随着层数加深,RNN最终会计算成W的连乘积形式,如果初始梯度过大或过小,便会导致连乘积很大或趋近于0,进而无法有效学习,也就是梯度爆炸和梯度消失。

词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型, 然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。

长短期记忆网络(Long Short-Term Memory,LSTM)是一种 RNN 特殊的类型,通过学习长期依赖信来避梯度爆炸和梯度消失问题。所有RNN 都具有一种循环神经网络模块的链式的形式。在标准的 RNN 中,这个循环模块只有一个非常简单的结构,例如一个 tanh 层。LSTM同样具有这样的循环模块,但更复杂,其核心是记忆单元(memory cell)。记忆单元在每一步里记住相关信息并忘掉无关信息。这样,重要的相关信息可以一直留存,从而其梯度不会变的太小。形式上来看,记忆单元可以用以下两个公式来定义:

迄今为止,词性标注主要分为基于规则的和基于统计的方法。

ct = ft ⊙ ct−1

规则方法能准确地描述词性搭配之间的确定现象,但是规则的语言覆盖面有限,庞大的规则库的编写和维护工作则显得过于繁重,并且规则之间的优先级和冲突问题也不容易得到满意的解决。

  • it ⊙ gt (1)

统计方法从宏观上考虑了词性之间的依存关系,可以覆盖大部分的语言现象,整体上具有较高的正确率和稳定性,不过其对词性搭配确定现象的描述精度却不如规则方法。针对这样的情况,如何更好地结合利用统计方法和规则处理手段,使词性标注任务既能够有效地利用语言学家总结的语言规则,又可以充分地发挥统计处理的优势成为了词性标注研究的焦点。

ht = ot ⊙ tanh(ct ) (2)

  1. 词性标注研究进展

其中⊙ 是Hadamard乘积,在上面公式里表示对两个向量里相同维度分别相乘的到一个新向量。

词性标注和句法分析联合建模:研究者们发现,由于词性标注和句法分析紧密相关,词性标注和句法分析联合建模可以同时显著提高两个任务准确率。

公式(1)是说,当前的记忆单元 ct 的状态是以下两个因素之和:

异构数据融合:汉语数据目前存在多个人工标注数据,然而不同数据遵守不同的标注规范,因此称为多源异构数据。近年来,学者们就如何利用多源异构数据提高模型准确率,提出了很多有效的方法,如基于指导特征的方法、基于双序列标注的方法、以及基于神经网络共享表示的方法。

  • 上一步的记忆单元 ct −1 ,其权重为 ft (遗忘门forget gate的当前状态)
  • 新信息 gt ,其权重为 it (输入门,input gate的当前状态)

基于深度学习的方法:传统词性标注方法的特征抽取过程主要是将固定上下文窗口的词进行人工组合,而深度学习方法能够自动利用非线性激活函数完成这一目标。进一步,如果结合循环神经网络如双向 LSTM,则抽取到的信息不再受到固定窗口的约束,而是考虑整个句子。除此之外,深度学习的另一个优势是初始词向量输入本身已经刻画了词语之间的相似度信息,这对词性标注非常重要。

遗忘门控制有多少上一步的记忆单元信息流入当前记忆单元,而输入门控制有多少新信息流入当前的记忆单元。

三. 句法分析

公式(2)是说当前的隐层状态 ht 是从当前记忆单元得到的,其又由输出门(output gate)ot 来控制。LSTM的循环模块里的输入门 it 、遗忘门 ft 、输出门 ot ,以及需要新输入的信息 gt 可以用以下公式简洁地表示:

语言语法的研究有非常悠久的历史,可以追溯到公元前语言学家的研究。不同类型的句 法分析体现在句法结构的表示形式不同,实现过程的复杂程度也有所不同。因此,科研人员 采用不同的方法构建符合各个语法特点的句法分析系统。其主要分类如下图所示:

图片 2

下文主要对句法分析技术方法和研究现状进行总结分析:

在序列问题中,不仅仅是上文对当前词有影响,下文也是,也就发展出了双向LSTM(Bidirectional Long Short-Term Memory),即正向LSTM捕获了上文的特征信息,而反向LSTM捕获了下文的特征信息,通常情况下双向LSTM的表现都会比单向LSTM要好。

  1. 依存句法分析

2.4 命名实体识别

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。一个依存关系连接两个词,分别是核心词( head)和依存词( dependent)。依存关系可以细分为不同的类型,表示两个词之间的具体句法关系。目前研究主要集中在数据驱动的依存句法分析方法,即在训练实例集合上学习得到依存句法分析器,而不涉及依存语法理论的研究。数据驱动的方法的主要优势在于给定较大规模的训练数据,不需要过多的人工干预,就可以得到比较好的模型。因此,这类方法很容易应用到新领域和新语言环境。数据驱动的依存句法分析方法主要有两种主流方法:基于图( graph-based)的分析方法和基于转移( transition-based)的分析方法。

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

2.1 基于图的依存句法分析方法

命名实体大多数具有以下的特点:

基于图的方法将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶和高阶模型。高阶模型可以使用更加复杂的子树特征,因此分析准确率更高,但是解码算法的效率也会下降。基于图的方法通常采用基于动态规划的解码算法,也有一些学者采用柱搜索(beam search)来提高效率。学习特征权重时,通常采用在线训练算法,如平均感知器( averaged perceptron)。

  • 各类命名实体的数量众多:根据对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,共有人名19,965个,而这些人名大多属于未登录词。
  • 命名实体的构成规律复杂:例如由于人名的构成规则各异,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;此外机构名的组成方式也最为复杂,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。
  • 嵌套情况复杂:一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。嵌套的现象在机构名中最为明显,机构名不仅嵌套了大量的地名,而且还嵌套了相当数量的机构名。互相嵌套的现象大大制约了复杂命名实体的识别,也注定了各类命名实体的识别并不是孤立的,而是互相交织在一起的。
  • 长度不确定:与其他类型的命名实体相比,长度和边界难以确定使得机构名更难识别。中国人名一般二至三字,最多不过四字,常用地名也多为二至四字。但是机构名长度变化范围极大,少到只有两个字的简称,多达几十字的全称。在实际语料中,由十个以上词构成的机构名占了相当一部分比例。

2.2 基于转移的依存句法分析方法

英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

基于转移的方法将依存树的构成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。早期,研究者们使用局部分类器(如支持向量机等)决定下一个动作。近年来,研究者们采用全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。特征表示方面,基于转移的方法可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似,基于转移的方法通常也采用在线训练算法学习特征权重。

命名实体识别由3个问题组成:1.识别出文本中的命名实体;2.确定该实体的类型;3.对于多个实体表示同一事物时,选择其中的一个实体作为该组实体的代表。主要有如下的几种方法进行处理。

2.3 多模型融合的依存句法分析方法

2.5 基于规则和词典的方法

基于图和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning;对多个模型的结果加权后重新解码(re-parsing);从训练语料中多次抽样训练多个模型(bagging)。 

基于规则的方法,多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

  1. 短语结构句法分析

基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

2.6 基于统计的方法

短语结构句法分析的研究基于上下文无关文法(Context Free Grammar,CFG)。上下文无关文法可以定义为四元组,其中 T 表示终结符的集合(即词的集合),N 表示非终结符的集合(即文法标注和词性标记的集合),S 表示充当句法树根节点的特殊非终结符,而 R 表示文法规则的集合,其中每条文法规则可以表示为 Ni®g ,这里的 g 表示由非终结符与终结符组成的一个序列(允许为空)。

基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。

根据文法规则的来源不同,句法分析器的构建方法总体来说可以分为两大类:

在这4种学习方法中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、

人工书写规则

全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

从数据中自动学习规则

基于统计的方法对特征选取要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。

人工书写规则受限于规则集合的规模:随着书写的规则数量的增多,规则与规则之间的冲突加剧,从而导致继续添加规则变得困难。

基于统计的方法对语料库的依赖也比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

与人工书写规模相比,自动学习规则的方法由于开发周期短和系统健壮性强等特点,加上大规模人工标注数据,比如宾州大学的多语种树库的推动作用,已经成为句法分析中的主流方法。而数据驱动的方法又推动了统计方法在句法分析领域中的大量应用。为了在句法分析中引入统计信息,需要将上下文无关文法扩展成为概率上下文无关文法(Probabilistic Context Free Grammar,PCFG),即为每条文法规则指定概率值。

2.7 混合方法

概率上下文无关文法与非概率化的上下文无关文法相同,仍然表示为四元组,区别在于概率上下文无关文法中的文法规则必须带有概率值。获得概率上下文无关文法的最简单的方法是直接从树库中读取规则,利用最大似然估计(Maximum Likelihood Estimation,MLE)计算得到每条规则的概率值。使用该方法得到的文法可以称为简单概率上下文无关文法。在解码阶段,CKY 10等解码算法就可以利用学习得到的概率上下文无关文法搜索最优句法树。

自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法:

虽然基于简单概率上下文无关文法的句法分析器的实现比较简单,但是这类分析器的性能并不能让人满意。性能不佳的主要原因在于上下文无关文法采取的独立性假设过强:一条文法规则的选择只与该规则左侧的非终结符有关,而与任何其它上下文信息无关。文法中缺乏其它信息用于规则选择的消歧。因此后继研究工作的出发点大都基于如何弱化上下文无关文法中的隐含独立性假设。

  • 统计学习方法之间或内部层叠融合。
  • 规则、词典和机器学习方法之间的融合,其核心是融合方法技术。
  • 在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。
  • 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。
  1. 总结

这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来,采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

2.8 知识提取

四. 文本分类

知识提取(KnowledgeExtraction)研究如何根据给定本体从无语义标注的信息中识别并抽取与本体匹配的事实知识。该技术既可以抽取出事实知识用于构建基于知识的服务,也能够为语义 Web 的实现提供必要的语义内容。因此知识抽取技术对于充分利用现有数据是非常必要的。

文本分类是文本挖掘的核心任务,一直以来倍受学术界和工业界的关注。文本分类(Text Classification)的任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。

知识提取按照数据源类型可分类两类。

对文档进行分类,一般需要经过两个步骤:

  • 结构化提取:在已经结构化的数据集中,如在Freebase、Wikidata等知识库中进行近一步的实体分类或关联挖掘,通常采用本体推理的方法实现。
  • 非结构化(半结构化)提取:数据以纯文本或者少量结构信息(如表格)的形式展现,需要提取关键实体(如人名,公司名),以及实体间关系(如张三-就职-A公司)。由于公告信息均是PDF文本信息,部分附带表格,故属于第二类。此类工作,一般通过NLP的句法分析,专家领域词表,正则系统,以及前沿的深度学习网络混合构建实现。
  • 对非结构化文档的知识抽取:由于非结构化文档数据丰富,对该类文档的知识抽取一直是知识抽取领域的研究重点。这类文档具有一定的模式,因此可以利用信息抽取(Information Extraction, IE)技术抽取其中的知识(或信息)。

文本表示

按照应用领域又可划分为通用领域知识提取与专业领域知识提取。前者通常在海量文本中进行自动挖掘,实体识别被抽象为序列标注问题(Sequence Labelling),其中CRF算法(条件随机场)被证明比较稳定有效。它结合了最大熵与隐马尔科夫模型的特点,是一种无向图模型,它将句子(也就是词序列)的每个词打上一个标记,一般在词的左右开一个小窗口,根据窗口里面的词和待标注词语来实现实体提取,最后通过特征组合决定归为哪类实体。

学习分类

在最近的研究中(Huang,Xu,Yu,2015),又探索出通过DNN(深度神经网络)的方法,以及将CRF与LSTM结合的BILSTM-CRF算法,准确率与召回率会有小许提高。实体关系的抽取传统采用依存关系分析的方法(Dependency Parsing),也就是句子的语法树分析,它将句子进行词性标注(POSTagging),实体识别,构建语法树,便自然构成了SPO(Subject-Predicate-Object)的三元组关系。有最新研究将关系提取抽象为知识表示学习,将句子映射到实数向量空间表示,如TransE算法(Bordes,Usunier,Garcia-Duran,Weston,Yakhnenko,2013),把实体向量化到空间,问题便表达为三元组距离的损失函数,在向量空间中优化S+P=O,即最小化S+P=O。专业领域的知识提取通常由于语料不充足或表达特殊,一般的通用算法难以直接有效应用,这是由于一般分词算法的基础词库都采用通用词库,经常把专业词错分,所以通常需要先维护一个领域词典。领域词典的构建有很多方式,一般采用先通过词性标注,TF-IDF等传统方法首先进行标注,在结合领域知识对词表进行调整。在构建好领域词典后,实体识别中可以优先采用专业词典,学习过程也可以赋予更高权重。

文本表示是指将无结构化的文本内容转化成结构化的特征向量形式,作为分类模型的输入。在得到文本对应的特征向量后,就可以采用各种分类或聚类模型,根据特征向量训练分类器或进行聚类。因此,文本分类或聚类的主要研究任务和相应关键科学问题如下:

目前在具体工业应用中,知识提取算法主要受限于语料,所以在有丰富语料的场景中会有显著效果,如文本搜索,机器翻译,机器人问答等。在专业领域中,还不存在“一本万利”的方法,算法效果需要长时间的语料标注积累。

  1. 任务

(三)摘要系统设计

1.1    构建文本特征向量

本节首先分析公告的数据特征,进而给出算法框架与具体算法说明。

构建文本特征向量的目的是将计算机无法处理的无结构文本内容转换为计算机能够处 理的特征向量形式。文本内容特征向量构建是决定文本分类和聚类性能的重要环节。为了根据文本内容生成特征向量,需要首先建立特征空间。其中典型代表是文本词袋(Bag of Words)模型,每个文档被表示为一个特征向量,其特征向量每一维代表一个词项。所有词项构成的向量长度一般可以达到几万甚至几百万的量级。

3.1 问题分析

这样高维的特征向量表示如果包含大量冗余噪音,会影响后续分类聚类模型的计算效率和效果。因此,我们往往需要进行特征选择(Feature Selection)与特征提取(Feature Extraction),选取最具有区分性和表达能力的特征建立特征空间,实现特征空间降维;或者,进行特征转换(Feature Transformation),将高维特征向量映射到低维向量空间。特征选择、提取或转换是构建有效文本特征向量的关键问题。

算法按顺序可分为如下几个关键步骤。1、公告分类;2、公告PDF解析;3、基于LSTM的关键语句提取;4、基于规则的结构化提取。

1.2 建立分类或聚类模型

由于上市公司公告类别必须按照官方要求发布,所以公告分类可以仅通过标题划分,仅需维护一些简单的特征组合即可,在此不做赘述。

在得到文本特征向量后,我们需要构建分类或聚类模型,根据文本特征向量进行分类或聚类。

通过对A股各类型公告的分析,按照知识提取的难度可分为三类,难度逐步增大。

其中,分类模型旨在学习特征向量与分类标签之间的关联关系,获得最佳的分类效果; 而聚类模型旨在根据特征向量计算文本之间语义相似度,将文本集合划分为若干子集。 分类和聚类是机器学习领域的经典研究问题。

3.1.1 基于语句的基本摘要

我们一般可以直接使用经典的模型或算法解决文本分类或聚类问题。例如,对于文本分类,我们可以选用朴素贝叶斯、决策树、k-NN、 逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine, SVM)等分类模型。 对于文本聚类,我们可以选用 k-means、层次聚类或谱聚类(spectral clustering)等聚类算法。 这些模型算法适用于不同类型的数据而不仅限于文本数据。

某一句话即包含全部关键信息。例如:业绩预告公告。“预计2016年实现归属于上市公司股东的净利润600万元—800万元,且2016年末归属于母公司的净资产为正数。”此类摘要,可以直接通过深度学习模型提取,便有较高准确率,结构化提取可以进一步规则解析。

但是,文本分类或聚类会面临许多独特的问题,例如,如何充分利用大量无标注的文本数据,如何实现面向文本的在线分类或聚类模型,如何应对短文本带来的表示稀疏问题,如何实现大规模带层次分类体系的分类功能,如何充分利用文本的序列信息和句法语义信息,如何充分利用外部语言知识库信息,等等。这些问题都是构建文本分类和聚类模型所面临的关键问题。

下面是董事辞职公告的例子:

  1. 模型

图片 3

2.1 文本分类模型

摘要为:“因个人原因,郑敏先生辞去公司第八届董事会董事及董事会专门委员会委员职务,辞职后不再担任公司任何职务。”

近年来,文本分类模型研究层出不穷,特别是随着深度学习的发展,深度神经网络模型 也在文本分类任务上取得了巨大进展。我们将文本分类模型划分为以下三类:

3.1.2 基于关键信息的简单摘要

基于规则的分类模型

关键信息在文本多个位置,但结构雷同。例如:董事会决议公告。“武汉祥龙电业股份有限公司第九届董事会第二次会议于2017年2月21日召开,会议审议通过《关于公司控股子公司签署工程合同暨关联交易的议案》、《关于公司控股子公司开展委托理财业务暨关联交易的议案》。”议案名在文章多个位置,但均在某段最左或单独作为一行,特征周围有书名号,数字序号,或通过、否决等标志。这类公告,同样可以采用深度学习,但准确率会有一定损失。

基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训 练样本里自动产生,也可以人工定义。给定一个测试样例,我们可以通过判断它是否满足某 些规则的条件,来决定其是否属于该条规则对应的类别。

下面是董事会决议的例子:

典型的基于规则的分类模型包括决策树(Decision Tree)、随机森林(Random Forest)、 RIPPER 算法等。

图片 4

基于机器学习的分类模型

摘要为:“金正大生态工程集团股份有限公司第四届董事会第一次会议于近日召开,会议审议通过《关于选举公司董事长的议案》、《关于选举公司副董事长的议案》、《关于选举公司董事会各专门委员 会委员的议案》、《关于参与认购集合资金信托 计划并对控股子公司进行增资的议案》等事项。”

典型的机器学习分类模型包括贝叶斯分类器(Naïve Bayes)、线性分类器(逻辑回归)、 支持向量机(Support Vector Machine, SVM)、最大熵分类器等。

3.1.3 基于关键信息的复杂摘要

SVM 是这些分类模型中比较有效、使用较为广泛的分类模型。它能够有效克服样本分布不均匀、特征冗余以及过拟合等问题,被广泛应用于不同的分类任务与场景。通过引入核函数,SVM 还能够解决原始特征空间线性不可分的问题。

信息在多个位置,并且表述复杂,较为随意。例如:对外担保公告。“为满足项目建设资金需求,公司全资子公司XXX有限公司拟向XXX信托有限责任公司申请14亿元信托贷款,期限2年,公司为其提供全额全程连带责任担保。”其中担保原因表述不统一,担保对象有子公司、分公司,其他公司等多种方式,担保金额与期限有时会附带累计担保信息。对此类公告,目前认为只能采用严格的规则系统开发。

除了上述单分类模型,以 Boosting 为代表的分类模型组合方法能够有效地综合多个弱分类模型的分类能力。在给定训练数据集合上同时训练这些弱分类模型,然后通过投票等机制综合多个分类器的预测结果,能够为测试样例预测更准确的类别标签。

下面是权益分派公告的例子:

基于神经网络的方法

图片 5

以人工神经网络为代表的深度学习技术已经在计算机视觉、语音识别等领域取得了巨大 成功,在自然语言处理领域,利用神经网络对自然语言文本信息进行特征学习和文本分类, 也成为文本分类的前沿技术。

摘要为:“浙江三维橡胶制品股份有限公司实施2016年年度权益分派方案为:A股每股派发现金红利0.3元(含税),以资本公积金向全体股东每股转增0.4股。股权登记日:2017/6/22。除权(息)日:2017/6/23。新增无限售条件流通股份上市日:2017/6/26。现金红利发放日:2017/6/23。”

前向神经网络:多层感知机(Multilayer Perceptron, MLP)是一种典型的前向神经网 络。它能够自动学习多层神经网络,将输入特征向量映射到对应的类别标签上。通过引入非线性激活层,该模型能够实现非线性的分类判别式。包括多层感知机在内的文本分类模型均使用了词袋模型假设,忽略了文本中词序和结构化信息。对于多层感知机模型来说,高质量的初始特征表示是实现有效分类模型的必要条件。

3.2 PDF语法解析

为了更加充分地考虑文本词序信息,利用神经网络自动特征学习的特点,研究者后续提出了卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)进行文本分类。基于 CNN 和 RNN 的文本分类模型输入均为原始的词序列,输出为该文本在所有类别上的概率分布。这里,词序列中的每个词项均以词向量的形式作为输入。

目前较为成熟的PDF转换TXT工具有基于Python的Pdfminer与基于Java的Pdfbox,两者解析效果类似,在此本工作选用Apache旗下的Pdfbox,因为其源码维护更加活跃,并且提供了下面的功能:文本的提取,即在PDF文件里面把文本内容提取出来;合并和拆分PDF文档,可以把几个PDF合并成一个PDF文件,也可以把一个PDF文件拆分成多个PDF文件;PDF的校验,根据PDF/AISO 标准校验PDF文档;打印PDF,通过Java的API去打印PDF文件;把PDF转换成图片,把PDF文件转换成图片;创建PDF文件;PDF签名。PDF表格提取目前并没有非常有效的处理工具,对此本工作进行了自主开发。

卷积神经网络(CNN):卷积神经网络文本分类模型的主要思想是,对词向量形式的文本输入进行卷积操作。CNN 最初被用于处理图像数据。与图像处理中选取二维域进行卷积操作不同,面向文本的卷积操作是针对固定滑动窗口内的词项进行的。经过卷积层、 池化层和非线性转换层后,CNN 可以得到文本特征向量用于分类学习。CNN 的优势在于在计算文本特征向量过程中有效保留有用的词序信息。针对 CNN 文本分类模型还有许多改进工作, 如基于字符级 CNN 的文本分类模型、将词位置信息加入到词向量。

目前开源的PDF解析工具主要存在如下几个方面问题。

循环神经网络(RNN):循环神经网络将文本作为字符或词语序列{

本文由威尼斯在线平台发布于威尼斯在线平台,转载请注明出处:上证音信,一文读懂自然语言处理

关键词:

智能化商业路线图,云栖科技(science and technolog

原标题:云栖科学技术评价 | AI正在变得“普通” 前几日,“互连网+”的观点已经向各行业、各使用的纵深不断渗透...

详细>>

地平线余凯这么说,2018北京车展

原标题:什么是人造智能行业生态最根本的因素?地平线余凯那样说 1月十二日至七日,2018巴黎市国际车展在中夏族...

详细>>

在太航空运输维,话宇专栏丨法兰西九天创办实

“在不久的将来,全球范围内的遥感和卫星通信业务将会呈爆发式增长,虽然目前的大多数用户都是在美国,但欧洲...

详细>>

急转时期,后台操作系统七雄乱战

那就怪不得以色列国(The State of Israel)水保30~40多家网络商铺爆发。当然RAD数据通讯公司以年营业额1.38亿法郎成为...

详细>>