定义:自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分[1]。
自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
概念和技术
信息抽取(IE)
信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究。信息抽取的主要过程有三步:首先对非结构化的数据进行自动化处理,其次是针对性的抽取文本信息,最后对抽取的信息进行结构化表示。信息抽取最基本的工作是命名实体识别,而核心在于对实体关系的抽取。
自动文摘
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语言的简短,其次要保留重要信息。
语音识别技术
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语音,其目标是将人类语音中的词汇内容转化为计算机可读的数据。要做到这些,首先必须将连续的讲话分解为词、音素等单位,还需要建立一套理解语义的规则。语音识别技术从流程上讲有前端降噪、语音切割分帧、特征提取、状态匹配几个部分。而其框架可分成声学模型、语言模型和解码三个部分。
Transformer模型
Transformer模型在2017年,由Google团队中首次提出。Transformer是一种基于注意力机制来加速深度学习算法的模型,模型由一组编码器和一组解码器组成,编码器负责处理任意长度的输入并生成其表达,解码器负责把新表达转换为目的词。Transformer模型利用注意力机制获取所有其他单词之间的关系,生成每个单词的新表示。Transformer的优点是注意力机制能够在不考虑单词位置的情况下,直接捕捉句子中所有单词之间的关系。模型抛弃之前传统的encoder-decoder模型必须结合RNN或者CNN(ConvolutionalNeuralNetworks,CNN)的固有模式,使用全Attention的结构代替了LSTM,减少计算量和提高并行效率的同时不损害最终的实验结果。但是此模型也存在缺陷。首先此模型计算量太大,其次还存在位置信息利用不明显的问题,无法捕获长距离的信息。
基于传统机器学习的自然语言处理技术
自然语言处理可将处理任务进行分类,形成多个子任务,传统的机械学习方法可利用SVM(支持向量机模型)、
Markov(马尔科夫模型)、CRF(条件随机场模型)等方法对自然语言中多个子任务进行处理,进一步提高处理结果的精度。但是,从实际应用效果上来看,仍存在着以下不足:(1)传统机器学习训练模型的性能过于依赖训练集的质量,需要人工标注训练集,降低了训练效率。(2)传统机器学习模型中的训练集在不同领域应用会出现差异较大的应用效果,削弱了训练的适用性,暴露出学习方法单一的弊端。若想让训练数据集适用于多个不同领域,则要耗费大量人力资源进行人工标注。(3)在处理更高阶、更抽象的自然语言时,机器学习无法人工标注出来这些自然语言特征,使得传统机器学习只能学习预先制定的规则,而不能学规则之外的复杂语言特征。
基于深度学习的自然语言处理技术
深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征。
图表:2019-2023年全球自然语言处理市场规模(单位:亿美元)

数据来源:中研普华整理
NLP市场规模预计将从2019年的102亿美元增长到2023年的244亿美元。随着智能设备数量增长以及行业智能化业务处理水平要求的提高,自然语言处理市场有望得到进一步拓展。2019-2023年,全球自然语言处理规模复合年均增长率达到24.3%。
专利库竞品公司:智慧芽
智慧芽(PatSnap)成立于2007年10月,是一家科技创新情报SaaS服务商,聚焦科技创新情报和知识产权信息化服务两大板块。通过机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术,为科技公司、高校和科研机构、金融机构等提供大数据情报服务。公司创始人张济徽,本科毕业于新加坡国立大学生物工程专业,2007年创办智慧芽PatSnap。旗下产品包括PatSnap全球专利数据库、Innosnap知识产权管理系统、Insights英策专利分析系统、Discovery创新情报系统、LifeScience系列数据库等。
2021年3月17日,智慧芽(PatSnap)宣布完成3亿美元的E轮融资,本轮融资由腾讯和软银愿景基金二期领投,CPE跟投,红杉中国、顺为资本和祥峰投资等老股东继续加持。指数资本担任独家财务顾问。从规模来看,该笔融资是2020年以来SaaS行业最大一笔融资,伴随此轮融资智慧芽估值也超过10亿美元。
智慧芽的自然语言处理技术
通过大数据处理和文本聚类,从专利中挖掘关键技术信息:不需要人工大量投入阅读和标引精力;对专利的引用量、PatSnap同族数、侵权诉讼量、申请人、专利价值等多个维度做聚类分析,找重点专利。
通过语义理解、向量相似度比对,降低寻找目标专利的难度:系统结合输入内容,挖掘文本的语义信息,在数据库做相似性匹配;语义相似度算法模型主要包括关键词及其扩展模型、语义向量模型和语义图谱向量模型,同时结合实践经验形成的规则。
智能的自动处理机制:利用OCR技术自动识别官文,根据文档规则触发内部和官方期限,减少用户重复作业。支持CPC一键转档、递交以及CPC来文的自动获取,并且定期对自有公开专利的著录项目、法律状态、权利要求、说明书、附图信息,利用智慧芽专利数据资源自动更新,减少手动状态维护。
欲了解更多自然语言处理市场行业的未来发展前景,可以点击查看中研普华产业院研究报告《自然语言处理市场行业深度研究报告》。”
关注公众号
免费获取更多报告节选
免费咨询行业专家

2023-2028年停车场管理系统行业深度分析及投资战略研究咨询报告
中研普华通过对停车场管理系统行业长期跟踪监测,分析停车场管理系统行业需求、供给、经营特性、获取能力、产业链和价值链等多方面的内容,整合行业、市场、企业、用户等多层面数据和信息资源,...
查看详情
互联网贷款指借助互联网的优势,可以足不出户的完成贷款申请的各项步骤,包括了解各类贷款的申请条件,准备申请材料,...
利口酒行业前景如何?中国利口酒行业内重点企业主要有-, Gruppo Campari, Luxardo, -, Beam Suntory, E and J...
曾经,书店习惯于选择在城市繁华的商业地段开设街边型书店,通过商业街的人流量为书店供给潜在消费者。随着城市规模的...
山楂行业前景如何?随着业内掀起“食养”风潮,具有食药两用价值的山楂被认为有着广阔的发展前景,全产业链布局正在改,...
电力行业前景如何?绿色电力交易是以风电、光伏等绿色电力产品为标的物,在电力中长期市场机制框架内设立的交易品种,7...
电解水技术与光解水、热化学制氢的不同特点:电解水技术成熟、设备简单、无污染,所得氢气纯度高、杂质含量少,适用于...
微信扫一扫