用于文本情感分析的深度学习方法综述(下)

文:北京大学深圳研究生院 杨余久2018年第六期

    摘要: 文本情感分析旨在对蕴涵在文本中的观点和情感进行挖掘和分析,进而可以在个性化服务、推荐系统、舆情监测和产品调研等应用方面提升性能。对于文本情感分析,从机器学习的角度,一般可以把它转化成分类问题,其中处理的关键在于文本表示、特征提取以及分类器模型建立,而传统方法中最为核心的是情感特征词典构建。近年来,深度学习方法在图像、语音等诸多领域取得了令人瞩目的进展,相比于传统的机器学习方法,该方法的最大优势就是可以从大量的数据样本中自动地学习出丰富、有效的特征,从而获得更好的效果。已有研究表明,在文本表示层面,词语向量表示方法可以获取文本的语义、语法以及自身结构信息,为情感分析研究提供坚实基础,并成为当前该领域的研究热点。本文首先介绍了文本情感分析的概念和问题分类,对深度学习在文本情感分析中的相关工作进行梳理,详细讨论了文本情感分析中的文本表示方法以及深度学习模型,介绍了当前深度学习在文本情感分析应用中存在的问题,并对未来该领域研究方向和趋势进行了展望。

(接上期)

5、文本情感分析数据集和深度学习应用讨论

5.1 典型数据集

    语料库在文本情感分析中起着至关重要作用,在当前的主流机器学习方法解决情感分析问题中,语料库越大对提升性能越有利。在此,我们对当前研究中常用的典型数据集做个简介。

    1、IMDB movie review 来自于互联网电影数据库(IMDB)的新闻组,由Bo Pang[64]整理发布。用户的评级包括星级或者具体的数值,对应于三类:正面、负面或中立。目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中,该数据集在研究领域有较多的引用和使用。

    2、Stanford Sentiment Treebank该数据集合由斯坦福的Richard Socher建设维护,也是来自于电影评论的情感标注数据集。

    3、Amazon Product Review Data该数据集主要是由伊利诺伊大学芝加哥分校(UIC)的Bing Liu从亚马逊下载的产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器等),其中他们将这些语料按句子为单元详细标注了评价主体、情感句的极性及强度等信息。

     4、公开的评测数据集。 基于公开数据集,国际文本评测社区也开展了情感分析的任务评测竞赛,著名评测包括日本主办的NTCIR,提供了中、日、英三种语言的标准语料库,从新闻报道中判读主观性信息;国内有COAE、NLPCC两个知名评测竞赛,其中前者为文本倾向性评测,分成了四个级别:词语级、句子级、要素级和篇章级,后者主要针对微博社交媒体标注进行了评测。

5.2 深度学习方法特性

    为了使得深度学习更好应用于文本情感分析中,我们需要在先总结分析以下其优点和不足。
现有研究表面,使用深度学习方法进行文本情感分析相对一般的机器学习方法的主要优势在于可以自动地学习到多层次的特征,减少或者全部代替了复杂、耗时的人工特征提取工作。由于深度网络强大的特征表达和学习能力,使用深度学习方法往往可以获得比一般机器学习方法更好的效果。但是另一方面,深度网络强大的特征表示能力在某些方面是由含有大量自由参数的复杂网络结构带来的,太多的自由参数使得网络的训练需要大量的数据样本来训练网络,因此,深度学习方法并不是适用于处理所有的问题,对于小规模数据的问题,传统的机器学习方法也许会表现更好。此外,对于如何确定网络结构(如层数、每层节点数)至今还没有完善的理论指导,多凭借研究人员的经验通过试错的方式进行。

    深度学习方法的这些特性使得该方法相对一般的机器学习方法不再关注构建怎样的数学模型、提取哪些有效特征,而是聚焦于如何将问题表示成深度网络的输入、如何将问题的解表示成网络的输出、如何确定网络结构以及如何训练网络参数这些问题上来。另外,训练深度网络的需要大量的数据,使得深度学习方法更是一种数据驱动、计算密集的方法。

    对于文本情感分析问题,前文中提及到的目前出现的很多深度学习方法都是将其作为一种文本分类问题,使用深度神经网络对文本进行建模、提取特征,然后进行分类。这些处理方式与普通的文本分类并没有太大的变化,我们认为可以从以下两个方面进行思考。

    一方面,深度网络本身具备很强的特征表达和学习能力,并且是一个可以自主学习的网络,给网络输入特定的训练数据、指定网络的输出目标,它会自动地调整网络参数的权值来使自己可以达到我们给它指定的目标。在不同问题中使用的深度网络模型和训练方法可能是一样的,但是训练完成后,解决不同问题的网络结构和参数权值一定是该问题本身特有的,而从输入到输出的函数映射关系也正是由网络结构和参数权值所确定的。也许正是这种数据驱动、自主学习的特性,使深度学习方法在很多领域和问题中都可以取得优秀的表现。

    另一方面,在文本情感分析问题有着自身特有的难点和挑战,比如语言的歧义性、多意性、情感反置等,仅仅按照一般文本分类的处理方式,这些语言特性可能难以被捕捉到,而使情感评判出现偏差。如何针对文本情感分析问题特有的难点设计合理的网络结构以及目标函数,是进一步提升深度学习进行文本情感分析效果的关键。

5.3 几种深度网络的特征与适用性

    对于不同的深度网络模型,由于网络结构的不同,有着各自的特征与适用性,应用于文本情感分析问题时有着不同的处理方式,主要体现在文本表示方式(网络的输入)、处理问题的粒度与规模以及处理问题的类型(网络的输出)等方面,下面进行简要的分析总结。

    对于FNNs网络,采用的文本初始表示一般是具有很大稀疏性的BOW和VSM模型,因此FNNs更适合处理文本长度较大的分类问题,比如较长的新闻、文档分类等,而不太适合处理语句级别以及词组级别的短文本情感。因为不论文本的长度如何,文本集的词典大小相同,这就导致短文本的初始表示过于稀疏。如果使用FNNs处理较短文本情感分析问题,应该考虑限制词典的大小,通过一些规则对词典进行过滤,尽可能利用已有的情感词典作为词典构建基础。此外,采用BOW以及VSM模型进行初始表示,使得词语之间的顺序不重要,忽略了文本的结构和上下文信息,使得后续的网络也很难获取文本的局部结构性和语境信息,这点也使FNNs更适合进行长文本分类。但是,FNNs网络的训练一般采用无监督的预训练与有监督的参数调整相结合的训练方法,可以利用大量的无标签数据,鉴于数据标记的成本高昂,这点是FNNs网络很大的优势。

    Recursive NNs采用词语向量进行文本表示,并且借助句子的词法关系逐步的学习词组以及整个语句的情感分布。由于Recursive NNs这种特定的处理方式,使得Recursive NNs很适合对句子级别的文本(如微博、商品短评)进行情感分析,并且可以获取句子中所有短语的情感分布。但不适合处理多语句、多段落的长文本情感分析问题,当文本长度过长时,会使网络的层次过大,网络过于复杂。此外,对Recursive NNs的训练是一般采用有监督或半监督的训练框架,需要较多的训练数据,特别是几乎每个词法短语都需要给予标注,使得大量训练数据的获取很困难,借助现有的情感词典进行短语辅助标注以及采用半监督学习框架下的方法可以被优先考虑。

    CNNs通常利用卷积操作将词语向量集成,从而学习句子的向量表示作为特征,这种方法也使得CNNs较适合处理语句级别的短文本情感分析问题。使用卷积操作使CNNs具有很多优势:通过分享权值减少了网络参数个数;可以利用多个通道提取更多视角的特征;可以利用多个卷积层逐层地提取更加接近语义信息的特征。此外,这种方式可以处理任意长度的句子,使用卷积操作可以方便地由词语向量得到句子向量,并且最后得到句子特征的维度可以作为超参数由人工自己指定。而CNNs的主要缺陷在于处理长文本问题时的复杂度很高,并且对CNNs的训练也需要较多的有标注数据。

    使用Recurrent NNs处理文本情感分析问题时,一般也是使用词语向量进行文本表示,含有记忆单元的特征使它很适合处理类似于文本这种带有序列特征的数据。Recurrent NNs的反馈网络也可以看作是可以自动确定网络层数的有力工具。目前这种方法虽然被尝试的不多,但是我们认为在以后的发展中,Recurrent NNs会成为解决文本情感分析等自然语言处理问题的重要工具。

6 、总结和展望

6.1 未来潜在研究方向

    使用深度学习方法进行文本情感分析现在已经取得了不错的效果,但是相对于图像和语音处理领域,深度网络和深度学习方法在文本相关问题的处理上还没有取得相应的突破性成果,在今后的一段时间内,深度学习方法在文本情感分析等文本相关问题上研究与应用依然会是热点。

    1、关于网络模型。由4.3中分析,CNNs以及Recurrent NNs更适合进行文本情感分析问题的处理。对于Recursive NNs,需要依赖较复杂的词法分析树,并且数据的标注量较大,如果可以很好的解决这两个问题,Recursive NNs也是很好的文本情感分析模型。此外,对于文本情感分析问题,本文多是指的情感分类问题,事实上文本情感分析还有情感对象、情感词语识别等重要任务,这些任务更像是词语级别的标注问题。对于该类问题,可以尝试使用Recursive NNs进行处理,由于该网络对每个词语、词组都会产生一个标签,如果将这些标签定义为情感对象、情感词语相关的标签,可以得到自动标注情感对象与情感词语的深度网络模型。而对于FNNs,是最早被人们研究和使用的深度网络,深度学习领域中的很多思想和方法都来自于FNNs的发展过程,但是FNNs在文本情感分析中的效果相对其他深度网络较差,而且目前价值最大的应用在于对微博、商品评论等短文本的情感分析上,在未来充分利用各种网络优点进行融合探索最优网络框架是主要方向之一。

    2、关于文本的表示。使用词语向量对文本进行表示仍然会是重点与热点。词语向量的主要优势在于使用低维度、非稀疏的向量来表示词语以及语句,并且这种表示可以获取到词语的语义、语法以及结构性信息。在文本情感分析等文本处理问题中使用他人基于大规模语料训练好的词向量进行初始化也会成为趋势:一方面重新训练词语向量的成本较大,另外使用训练好的词语向量进行初始化一般可以获取更好的效果。词语向量的训练方法目前也不是十分完善的,比如目前的主流方式是根据小窗口之内词语之间的关系进行词语训练,这样会使语义相反但用法相似的词语,在向量空间上成为近邻,如“这个东西很好”与“这个东西很差”,其中的“好”与“差”在很多方法训练出的词语向量中,都是近邻。因此如何获取更加符合语义、语法、上下文结构的词语向量,也将继续会是研究热点。

    3、关于深度网络的并行化。由于深度网络的结构复杂、参数众多,为了避免过拟合问题的出现,对于深度网络的训练一般都需要大量的标注数据,因此一个含有丰富情感标注的文本数据集会具有很大的学术价值。而使用大量数据对大规模深度网络的训练需要很多的计算资源,在单机上的训练时间会很长,往往会花费若干小时到若干天才可以得到一次训练结果,对于超参数的调试造成很大的影响,因此如何使用大规模集群进行并行化训练也是一个富有意义和挑战的工作。

    4、关于先验知识融合。从前面章节中的方法举例中我们可以看到,目前很多深度学习方法仅仅将文本情感分析作为一种普通的文本情感分类问题进行处理,而较少地考虑到情感分析本身的一些特征。我们知道人类情感其实是相对模糊和不精确的,同样的词语和句子在每个人看来表达的情感强度也是各不相同,并且在语言中还往往存在词义借用、褒贬转换等复杂的现象。这些都成为了文本情感分析的困难和挑战,如何利用已有的先验知识来定义这些不太精确的现象并构建出可以捕捉到这些语言现象的深度神经网络,是进一步提升深度学习方法判断情感精确度应该解决的问题。此外,对于人们对文本情感分析问题的研究也有很长的时间了,期间也积累了很多有价值的情感词典,如何将这些先验的情感词典融入深度网络模型,获取更好的情感识别效果,也是一个很有意义的研究工作。

    除以上几点,应用场景扩展也是未来主要方向之一。其中包括:

    应用场景一:多语言情感分析。当我们得到在某种语言下的情感分析模型时,我们也希望该模型可以很好的处理其他目标语言的情感分析问题。但是,目前绝大多数方法情感分析方法都是语言相关的,传统方法会利用语言的语法、结构等规则信息,一般机器学习方法也会利用相关语言的情感词典,而深度学习中的文本表示一般是从语言相关的词语级别进行。为了处理多语言情感分析问题,现在一般使用机器翻译作为中间步骤,但是这样无疑很难取得较好的效果。在2.3节中我们介绍了从字符级别进行文本表示的方法,这种表示方法对语言不敏感,如果基于这种文本表示方法进行深度网络构建,来处理多语言文本情感分析问题,也许是一个很好的尝试。

    应用场景二:结合表情符号和音视频的扩展式情感分析。为了量化我们的情绪和感情反应,使用面部表情分析技术从图像和视频中(或从语音)提取我们的情感状态。结合文本信息,给出用户主体的多维度的扩展式情感分析必将吸引更多研究人员投身其中,甚至我们可以利用社交关系来改进文本情感判断。相关技术的进步能极大促进机器人拟人化发展,给机器人的应用拓展了更为广阔空间。

6.2 热点下的一点反思

    当前,作为一个文本情感分析研究人员,你无法忽视深度学习给该领域带来的变革和推动。无论是直接地还是间接地,我们需要思考深度学习工具推动了情感分析性能改善的机理,并拥抱大数据带来并行化计算转变的变革。同时需要更辩证看来深度学习带给这个领域的冲击:从文本情感分析本身而言,文本的语言结构科学表达和人类认知理解过程是核心。我们有理由相信:深度学习中网络结构的丰富性能支持情感分析性能的进一步提升,但也不可忽视语言问题本身和认知科学研究,只有对语言于更好的理解和认知过程更深刻认识,才能更为科学的设计合理分布式表示和深度结构进行文本分析建模,把文本情感分析推到前所未有的高度。

7、附录

7.1 浅层CNN网络的训练

    这里我们以正文图9-上所示浅层C-CNN网络的训练为例,说明如何使用BP算法进行深度网络参数的训练。该网络仅含有一个卷积——Pooling层,Pooling采用Max方式并使用Rectier非线性映射函数,最后是Softmax分类器,不加全连接隐含层。首先重新梳理一些正向计算的过程,文本原始表示不再叙述,这里以一个样本的处理为例,也就是已经得到了文本的矩阵表示S∈RI*d,I是文本词语数目,d是词语向量维度。

    记ki∈Rn*d为第i个卷积核,ci∈RI-n+1为第i个卷积核与句子卷积的结果,imax∈Rm记录Max-Pooling的最大值下标,r∈Rm为Pooling后的结果,W∈Rm*o为非线性映射的结果,也是Softmax分类器的输入,b∈Ro为权值,b∈Ro为偏值,y∈Rm*o为输出。其中,n为卷积核大小,是超参数,i∈{1,2,...,m},为卷积核个数,o是超参数,是分类类别个数,由问题本身确定。

    至此,前向计算过程已经完成,对于整个C-CNN模型,需要学习的参数记为θ,ν是所有的词语向量,k表示所有的卷积核。对于词语向量,我们是先通过word2vec方法预先训练好的,如果在CNN模型训练过程中保持词语向量一直不变,则ν不作为网络参数,这种做法我们记为静态词语向量方法,记为static-vector。

     对于分类问题的求解,我们可以最小化均方误差,也可以最小化交叉熵,事实上对于softmax分类器,两种目标函数是等价的。这里我们给出交叉熵形式的损失函数:

     其中,N为全部训练样本个数,I{.}为指示函数,若内部表达式成立则取值为1,否则取值为0。Ω(θ )表示对于模型参数的正则项,主要是基于能量角度,对参数的元素值进行惩罚:

     对模型的训练就是求得使(A-6)式最小化的参数值θ,一般使用基于随机梯度下降(Stochastic Gradient Descent , SGD)的反向传播(Back-Propagation, BP)算法进行求解,首先求出L(θ)关于各参数的梯度,然后通过式(A-8)进行迭代计算,直到参数θ达到收敛。

    其中η表示学习率,一般使η为迭代周期t的非增函数,也就是随着迭代次数的增加,学习率逐渐减小。式(A-6)中的目标函数,前面一部分是交叉熵,记为E,后面一部分是正则项。对于各参数梯度的求解,我们可以分为两部分进行,并且仅考虑一个样本的情况:

    其中,惩罚项关于各参数的梯度很容易求,下面主要推导交叉熵关于各参数的偏导数。记:

    对pooling层到卷积层的误差传播,由于在前向pooling中采用了max-pooling方式,因此误差只沿着取最大值的卷积块进行传播。

    (A-18)~(A-21)式再加上正则项对各自变量的偏导即为损失函数关于各个参数变量的梯度求取公式,这里不再列出。至此,根据(A-8)式就可以对网络进行训练了。有时使用SGD会使目标函数下降的不稳定且收敛较慢,往往采用批量(Batch)梯度下降,每次训练一批数据样本,将这些样本计算得到的误差累加起来之后,再用于更新权值。

7.2 基于MPI的并行训练方法

    Message Passing Interface是一种消息传递接口标准,主要用于基于内存计算的大规模集群节点之间的通信。MPI是一个标准接口集合,主要有C和Fortran语言的实现,不同厂商也有各自的实现。对于MPI的使用只需学习接口集合的使用而不用关心各种实现的细节与不同。本文这里不再详述MPI相关知识,后续训练方法描述也不涉及具体接口函数调用,详细请参阅MPI官方教程网站。但需要明确的是,在MPI框架下以进程为基本计算单元,每个物理核会启动一个进程,不同进程即使在同一个物理节点上也不能共享内存,不同进程之间的数据只能通过通信接口函数调用进行共享。通信开销往往成为基于MPI并行计算可扩展性的瓶颈,因此要尽可能减少通信次数和通信数据量。

    我们使用主从结构来实现大规模并行计算,在MPI下很容易构建主从结构,可以方便地得到每个进程的进程编号(从0依次开始),因此可以指定0号进程为主进程,其余进程为从进程。主进程不进行计算,只负责全局的控制以及与从进程的通信。从进程只跟主进程进行通信,相互之间没有通信,不知道彼此的存在。我们用表3-5 中的三个子过程描述并行训练的主要步骤。

    可以看出,权值的更新只在主进程中进行,从进程只负责将梯度累积变化值计算出来,然后交给主进程。当增加一份权值和梯度累积变化值的存储作为缓存,使用非阻塞的通信方式,可以使主从进程的通信与从进程的计算同时进行,达到很高的计算效率。这种主从方式的好处是思路简单清晰,通信量少,运算效率高,但是需要注意的是,随着并行进程规模的提升,对于每个进程来说,批数量的大小会很大,使进程相邻两次的权值变化相对较大,可能会引起算法收敛的波动。但减少每个进程的批数量又会使通信密度增加,需要在规模与算法收敛精度之间进行平衡,尽量在不达到通信瓶颈的情况下进行并行扩展。

    对于所有进程处于对等地位的框架,相对会比较麻烦,训练过程中需要大量的同步以及通信,计算效率会很低。在表6中我们给出了一些上述并行算法的可扩展性展示,通信时采用了阻塞通信,相对前文提到的非阻塞通信性能会降低。计算环境是在广州超算中心“天河2号”,一个物理节点有24个核,我们以节点数为变化量,以一次训练迭代所耗时间为观测目标,测试规模是100000个文本评论样本,卷积核个数100,子进程batch为50。

    从表6可以看出,对本算例来讲,物理节点小于5时,扩展性能都还很好,继续扩展时,虽然仍有加速比,但性能下降明显。主要原因还是由于通信瓶颈,如果节点内的进程可以共享内存,可扩展规模会随之大大增加,每个物理节点24个核内部的通信开销就可以节省下来。

参考文献

[1] Aoki S, Uchida O. A method for automatically generating the emotional vectors of emoticons using weblog articles. 

Proc. 10th WSEAS Int. Conf. on Applied Computer and Applied Computational Science, Stevens Point, Wisconsin, USA. 2011: 132-136.

[2] Bespalov D, Bai B, Qi Y, Shokoufandeh A. Sentiment classification based on supervised latent n-gram analysis. Proceedings 

of the 20th ACM international conference on Information and knowledge management. ACM, 2011: 375-382.

[3] Bouvrie J. Notes on Convolutional Neural Networks. Neural Nets, 2006.

[4] Barbosa L, Feng J. Robust sentiment detection on twitter from biased and noisy data. Proceedings of the 23rd 

International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 36-44.

[5] Boden M. A Guide to Recurrent Neural Networks and Backpropagation. The Dallas Project Sics Technical Report T Sics, 2001.

[6] Bengio Y. Learning deep architectures for AI. Foundations and trends in Machine Learning, 2009, 2(1): 1-127.

[7] Bengio Y, Ducharme R, Vincent P, Jauvin C. A neural probabilistic language model. The Journal of Machine Learning Research, 2003, 3: 1137-1155.

[8] Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. Advances in neural information processing systems, 2007, 19: 153.

[9] Bengio Y, Senécal J S. Quick training of probabilistic neural nets by importance sampling. AISTATS Conference. 2003.

[10] Bengio Y, Thibodeau-Laufer E, Alain G, Yosinski J. Deep generative stochastic networks trainable by backprop[Online], 

available: http://arxiv.org/pdf/1306.1091.pdf. arXiv preprint,  arXiv:1306.1091, 24 May, 2013.

[1] Cohn D, Atlas L, Ladner R. Improving generalization with active learning. Machine learning, 1994, 15(2): 201-221.

[2] Chung J, Gulcehre C, Cho K, Bengio Y. Gated feedback recurrent neural networks[Online], 

available: http://arxiv.org/pdf/1502.02367.pdf. arXiv preprint, arXiv:1306.1091, 18 Feb, 2015.

[3] Carreira-Perpinan M A, Hinton G E. On contrastive divergence learning. Proceedings of the tenth international 

workshop on artificial intelligence and statistics. NP: Society for Artificial Intelligence and Statistics, 2005: 33-40.

[4] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J].

 The Journal of Machine Learning Research, 2011, 12: 2493-2537.

[5] Cavnar W B, Trenkle J M. N-gram-based text categorization. Ann Arbor MI, 1994, 48113(2): 161-175.

[6] Dugas C, Bengio Y, Bélisle F, Nadeau C, Garcia R. Incorporating second-order functional knowledge 

for better option pricing. Advances in Neural Information Processing Systems, 2001: 472-478.

[7] Deerwester S C, Dumais S T, Furnas G W, Landauer T K, Harshman R. Indexing by latent semantic analysis. 

Journal of the American Society for Information Science, 1990, 41(6): 391-407. 

[8] Dos-Santos C N, Gatti M. Deep convolutional neural networks for sentiment analysis of short texts.

 Proceedings of the 25th International Conference on Computational Linguistics (COLING), Dublin, Ireland. 2014.

[9] Dasgupta S, Ng V. Mine the easy, classify the hard: a semi-supervised approach to automatic sentiment classification. 

Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on

 Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009: 701-709.

[10] Fischer A, Igel C. An Introduction to Restricted Boltzmann Machines. Lecture Notes in Computer Science, 2012, 7441:14-36.

[11] Freund Y, Haussler D. Unsupervised learning of distributions on binary vectors using two layer networks. 

In Advances in Neural Information Processing Systems 4, SanMateo, CA. Morgan Kaufmann , 1992, p:912–919.

[12] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 2009, 1: 12.

[13] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks. 

International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2013: 6645-6649.

[14] Gao B, Bian J, Liu T Y. Wordrep: A benchmark for research on learning word representations[Online],

 available: http://arxiv.org/pdf/1407.1640.pdf. arXiv preprint,  arXiv:1407.1640, 7 Jul, 2014.

[15] Goller C, Kuchler A. Learning task-dependent distributed representations by backpropagation through structure.

 IEEE International Conference on Neural Networks, 1996. IEEE, 1996, 1: 347-352.

[16] Gers F A, Schraudolph N N, Schmidhuber J. Learning precise timing with LSTM recurrent networks. 

The Journal of Machine Learning Research, 2003, 3: 115-143.

[17] Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. 

2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2014: 580-587.

[18] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks. International Conference on Artificial Intelligence and Statistics. 2011: 315-323.

[19] Glorot X, Bordes A, Bengio Y. Domain adaptation for large-scale sentiment classification:

 A deep learning approach. Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011: 513-520.

[20] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks.

 International conference on artificial intelligence and statistics. 2010: 249-256.

[21] Ghahramani Z, Hinton G E. Variational learning for switching state-space models. Neural

[22] Comput, 12, 2000:831–864.

[23] Hinton G E. A practical guide to training restricted Boltzmann machines. Momentum, 2010, 9(1): 926.

[24] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

[25] Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R. 

Improving neural networks by preventing co-adaptation of feature detectors[Online], 

available: http://arxiv.org/pdf/1207.0580v1.pdf. arXiv preprint, arXiv:1207.0580, 3 Jul, 2012.

[26] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507.

[27] Hinton G E, Salakhutdinov R R. A better way to pretrain deep Boltzmann machines. 

Advances in Neural Information Processing Systems. 2012: 2447-2455.

[28] Hinton G E. Training products of experts by minimizing contrastive divergence. Neural computation, 2002, 14(8): 1771-1800.

[29] Hecht-Nielsen R. Theory of the backpropagation neural network. International Joint Conference on Neural Networks. IEEE, 1989: 593-605.

[30] Hochreiter S, Schmidhuber J. Long short-term memory. Neural computation, 1997, 9(8): 1735-1780.

[31] Huynh T, He Y, Rüger S. Learning Higher-Level Features with Convolutional Restricted Boltzmann Machines for Sentiment Analysis. 

Advances in Information Retrieval. Springer International Publishing, 2015: 447-452.

[32] Harris Z S. Distributional structure. Word, 1954, 10: 146-162.

[33] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. 

Advances in neural information processing systems, 2012: 1097-1105.

[34] Ku L W, Wu T H, Lee L Y,  Chen H H. Construction of an evaluation corpus for opinion extraction. Proc. of the Fifth NTCIR Wksp

. on Evaluation of Information Access Technologies: Information Retrieval, Question Answering, and Cross-Lingual Information Access, Japan, 2005: 513-520.

[35] Kamps J, Marx M, Mokken R J, De-Rijke M. Using WordNet to Measure Semantic Orientations of Adjectives. LREC. 2004, 4: 1115-1118.

[36] Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[Online],

 available: http://arxiv.org/abs/1404.2188. arXiv preprint, arXiv:1404.2188, 8 Apr, 2014.

[37] Kiros R, Zhu Y, Salakhutdinov R, Zemel R S, Torralba A, Urtasun R et al. Skip-thought vectors[Online], 

available:http://arxiv.org/pdf/1506.06726.pdf. arXiv preprint, arXiv:1506.06726, 22 Jun, 2015.

[38] Kim Y. Convolutional neural networks for sentence classification[Online],

 available: http://arxiv.org/pdf/1408.5882.pdf. arXiv preprint, arXiv:1408.5882, 3 Sep, 2014.

[39] Liu B, Zhang L. A survey of opinion mining and sentiment analysis[M]//Mining text data. Springer US, 2012: 415-463.

[40] Li C, Xu B, Wu G, He S, Tian G, Hao H. Recursive Deep Learning for Sentiment Analysis over Social Data. Proceedings of the 2014

 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and 

Intelligent Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014: 180-185.

[41] LeCun Y, Boser B, Denker J S, Henderson D, Howard R E, 

Hubbard W et al. Handwritten digit recognition with a back-propagation network. Advances in neural information processing systems. 1990.

[42] LeCun Y, Bottou L, Bengio Y, Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[43] LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 1995, 3361(10).

[44] LeCun Y, Jackel L D, Boser B, Denker J S, Graf H P, Guyon I et al. Handwritten digit recognition: 

Applications of neural network chips and automatic learning. Communications Magazine, IEEE, 1989, 27(11): 41-46.

[45] Landauer T K. An Introduction to Latent Semantic Analysis. Discourse Processes, 1998, 25(2): 259-284.

[46] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Advances in neural information processing systems. 2009: 1081-1088.

[47] Maas A L, Daly R E, Pham P T, Ng A Y, Potts C. Learning word vectors for sentiment analysis. 

Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:

 Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 142-150.

[48] Mikolov T, Chen K, Corrado G, Dean J. Efficient estimation of word representations in vector space[Online], 

available: http://arxiv.org/pdf/1301.3781.pdf. arXiv preprint, arXiv:1301.3781, 7 Sep, 2013.

[49] Mikolov T, Karafiát M, Burget L, Cernocký J, Khudanpur S. Recurrent neural network based language model.

 INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association,

 Makuhari, Chiba, Japan, September 26-30, 2010. 2010: 1045-1048.

[50] Mikolov T, Kombrink S, Burget L, Černocký J H, Khudanpur S. Extensions of recurrent neural network language model. 

2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2011: 5528-5531.

[51] Mikolov T, Sutskever I, Chen K, Corrado G S, Dean J. Distributed representations of words and phrases and their compositionality. 

Proceedings of Neural Information Processing Systems, Lake Tahoe, December 2013. 2013: 3111-3119.

[52] Mikolov T, Yih W, Zweig G. Linguistic Regularities in Continuous Space Word Representations. 

Proceedings of North American Chapter of the Association for Computational Linguistics: 

Human Language Technologies, Westin Peachtree Plaza Hotel, 9-14 June 2013, 746-751.

[53] Pak A, Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining. In proceedings of LREC, 2010. 2010, 10: 1320-1326.

[54] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques. 

Proceedings of the ACL-02 conference on Empirical methods in natural language 

processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

[55] Pollack J B. Recursive distributed representations. Artificial Intelligence, 1990, 46(1): 77-105.

[56] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation.

Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 2014, 12: 1532-1543.

[57] Pascanu R, Mikolov T, Bengio Y. On the difficulty of training recurrent neural networks.

[58] In: Proceedings of the International Conference on Machine Learning (ICML). Atlanta, GA, 2013.

[59] Picard R W. Affective computing [Online], available:  http://affect.media.mit.edu/pdfs/95.picard.pdf. MIT Technical Report #321, 1995.

[60] Plutchik R. The multifactor-analytic theory of emotion. The Journal of Psychology, 1960, 50(1): 153-171.

[61] Razavian A S, Azizpour H, Sullivan J, Carlsson S. CNN features off-the-shelf: an astounding baseline for recognition.

 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2014: 512-519.

[62] Rumelhart D E, Hintont G E, Williams RJ. Learning representations by back-propagating

[63] errors. Nature 323(6088), 1986:533–536

[64] Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 1958, 65(6): 386.

[65] Rong W, Peng B, Ouyang Y, Li C, Xiong Z. Semi-supervised Dual Recurrent Neural Network for Sentiment Analysis. 

2013 IEEE 11th International Conference on Dependable, Autonomic and Secure Computing (DASC). IEEE, 2013: 438-445.

[66] Stojanovski D, Strezoski G, Madjarov G, Dimitrovski, I. Twitter Sentiment Analysis Using Deep Convolutional Neural Network

[M]//Hybrid Artificial Intelligent Systems. Springer International Publishing, 2015: 726-737.

[67] Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(11): 613-620.

[68] Sundermeyer M, Schlüter R, Ney H. LSTM Neural Networks for Language Modeling. INTERSPEECH, 2012.

[69] Srivastava N, Salakhutdinov R R, Hinton G E. Modeling documents with deep boltzmann machines[Online], 

available: http://arxiv.org/ftp/arxiv/papers/1309/1309.6865.pdf. arXiv preprint, arXiv:1309.6865, 2013.

[70] Sharef N M, Shafazand M Y. An improved deep learning-based approach for sentiment mining. 

Fourth World Congress on Information and Communication Technologies (WICT), 2014. IEEE, 2014: 344-348.

[71] Smolensky P. Information processing in dynamical systems: Foundations of harmony theory. 1986.

[72] Sarikaya R, Hinton G E, Deoras A. Application of deep belief networks for natural language understanding. Audio,

 Speech, and Language Processing, IEEE/ACM Transactions on, 2014, 22(4): 778-784.

[73] Socher R, Huval B, Manning C D, Ng A Y. Semantic compositionality through recursive matrix-vector spaces. 

Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural 

Language Learning. Association for Computational Linguistics, 2012: 1201-1211.

[74] Socher R, Lin C C, Manning C, Ng A Y. Parsing natural scenes and natural language with recursive neural networks.

 Proceedings of the 28th international conference on machine learning (ICML-11). 2011: 129-136.

[75] Socher R, Manning C D, Ng A Y. Learning continuous phrase representations and syntactic parsing with recursive neural networks. 

Proceedings of the NIPS-2010 Deep Learning and Unsupervised Feature Learning Workshop. 2010: 1-9.

[76] Socher R, Perelygin A, Wu J Y, Chuang J, Manning C D, Ng A Y, et al. Recursive deep models for semantic compositionality over a sentiment Treebank.

 Proceedings of the conference on empirical methods in natural language processing (EMNLP). 2013, 1631: 1642.

[77] Socher R, Pennington J, Huang E H, Ng A Y, Manning C. D. Semi-supervised recursive autoencoders for predicting sentiment distributions. 

Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 151-161.

[78] Salakhutdinov R R, Hinton G E. Deep boltzmann machines. International Conference on Artificial Intelligence and Statistics. 2009: 448-455.

[79] Sun X, Li C, Xu W, Ren F. Chinese Microblog Sentiment Classification Based on Deep Belief Nets with Extended Multi-Modality Features. 

Data Mining Workshop (ICDMW), 2014 IEEE International Conference on. IEEE, 2014: 928-935.

[80] Su Z, Xu H, Zhang D, Xu Y. Chinese sentiment classification using a neural network tool—Word2vec. 

International Conference on Multisensor Fusion and Information Integration for Intelligent Systems, 2014. IEEE, 2014: 1-6.

[81] Tang D, Qin B, Liu T. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification.

 In proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 17-21 September 2015. 2015:1422–1432.

[82] Tang D Y, Wei F, Yang N, Zhou M, Liu T, Qin B. Learning sentiment-specific word embedding for twitter sentiment classification. 

Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014, 1: 1555-1565.

[83] Tian G, Zhou Y. Parallel Recursive Deep Model for Sentiment Analysis. Advances in Knowledge Discovery and Data Mining: 

19th Pacific-Asia Conference, PAKDD 2015, Ho Chi Minh City, Vietnam, May 19-22, 2015, Proceedings. Springer, 2015, 9078: 15.

[84] Tao J, Tan T. Affective computing: A review[M]//Affective computing and intelligent interaction. Springer Berlin Heidelberg, 2005: 981-995.

[85] Welling M, Rosen-Zvi M, Hinton G E. Exponential family harmoniums with an application to information retrieval. Advances in neural information processing systems. 2004: 1481-1488.

[86] Xue B, Fu C, Shaobin Z. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec.

 IEEE International Congress on Big Data (BigData Congress), 2014. IEEE, 2014: 358-363.

[87] Xie L X. Sentiment analysis of Chinese micro blog using SVM [Master dissertation], Tsinghua University, Beijing, 2011. 

[88] (谢丽星. 基于 SVM 的中文微博情感分析的研究[Master dissertation]. 北京: 清华大学, 2011.)

[89] Xia R, Zong C, Li S. Ensemble of feature sets and classification algorithms for sentiment classification. Information Sciences, 2011, 181(6): 1138-1152.

[90] Yuan B, Liu Y, Li H. Sentiment Classification in Chinese Microblogs: Lexicon-based and Learning-based Approaches. 

International Proceedings of Economics Development and Research. 2013, vol.68.1.

[91] Yu D, Deng L. Recurrent neural networks and related models[M]//Automatic Speech Recognition. Springer London, 2015: 237-266.

[92] Zhang D W, Xu H, Su Z C, Xu Y F. Chinese comments sentiment classification based on word2vec and SVMperf. 

Expert Systems with Applications, 2015, 42(4): 1857-1863.

[93] Zhang L, Liu B. Aspect and entity extraction for opinion mining[M]//Data mining and knowledge discovery for big data. 

Springer Berlin Heidelberg, 2014: 1-40.

[94] Zhang L M, Jia Y, Zhou B, et al. Microblogging sentiment analysis using emotional vector. 

Second International Conference on Cloud and Green Computing (CGC), 2012. IEEE, 2012: 430-433.

[95] Zhou S, Chen Q, Wang X. Active deep networks for semi-supervised sentiment classification. 

Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 1515-1523.

[96] Zhou S, Chen Q, Wang X. Fuzzy deep belief networks for semi-supervised sentiment classification. Neurocomputing, 2014, 131: 312-322.

[97] Zhang X, LeCun Y. Text Understanding from Scratch [Online], available: http://arxiv.org/pdf/1502.01710.pdf. arXiv preprint, arXiv: 1502.01710, 8 Sep, 2015.

[98] 胡晓林. 深度学习——人工神经网络再掀研究热潮[Online], available: http://caai.cn/contents/118/1934.html. 中国人工智能学会通讯,2013年01期. 

中传动网版权与免责声明:

凡本网注明[来源:中国传动网]的所有文字、图片、音视和视频文件,版权均为中国传动网(www.chuandong.com)独家所有。如需转载请与0755-82949061联系。任何媒体、网站或个人转载使用时须注明来源“中国传动网”,违反者本网将追究其法律责任。

本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

伺服与运动控制

关注伺服与运动控制公众号获取更多资讯

直驱与传动

关注直驱与传动公众号获取更多资讯

中国传动网

关注中国传动网公众号获取更多资讯

热搜词
  • 运动控制
  • 伺服系统
  • 机器视觉
  • 机械传动
  • 编码器
  • 直驱系统
  • 工业电源
  • 电力电子
  • 工业互联
  • 高压变频器
  • 中低压变频器
  • 传感器
  • 人机界面
  • PLC
  • 电气联接
  • 工业机器人
  • 低压电器
  • 机柜
回顶部
点赞 0
取消 0
往期杂志
  • 2025年 第1期

    2025年 第1期

    伺服与运动控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服与运动控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服与运动控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服与运动控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服与运动控制

    2023年第2期