您当前的位置 :乐平信息网 > 文化 > 基于Langid的语言识别研究
基于Langid的语言识别研究
时间:2019-05-03 03:39:44 来源:乐平信息网 作者:匿名

基于Langid的语言识别研究 作者:未知 摘要:语音识别技术发展迅速,在现实生活中发挥着越来越重要的作用。语音识别只是让计算机理解人类语音。它有两个研究领域:语言识别和说话人识别。本文侧重于语言识别。语言识别(LID)是指计算机通过理解和识别过程确定输入语音的语言。本文还通过两种不同类型的实验来检查语言识别问题,例如使用Langid工具包。语言识别在多语音语音识别系统中起着重要作用。它具有语言翻译,手写文本识别,键盘输入,信息发现和挖掘系统等应用,其开发速度非常快。 关键词:语音识别;语言识别; Langig等 中图分类号:TP391文献标识码:A 1语音识别开发概述 语音识别是一个包罗万象的学科,涉及许多不同的领域,包括语言学,声学,统计学和人工智能,也称为自动语音识别。其目标是在计算机上将人类语音中的词汇内容显示为计算机可识别的计算机可读信息。语音识别技术与其他自然语言处理技术相结合,可用于构建更复杂但更方便的应用,例如将机器翻译与语音合成相结合以进行语音翻译。 由于语音识别在各方面的重要性和巨大优势,许多公司投入了大量的人力和资源进行研究。随着siri,Google Now,百度语音,Microsoft Corrtana等相关产品的推出,以及服务提供商和设备制造商的联合推广,现在几乎所有新的移动设备都包括语音识别。 2语言识别研究的目的和意义 随着科学技术水平的提高,互联网的发展带来了巨大的语言和文本信息,网页文本的数据量日益增多。与此同时,语言也逐渐出现了各种混合现象。语言识别系统可以将大量重复劳动转移到机器上进行处理,节省人力物力,提高工作效率。语言识别研究侧重于算法和模型的改进和优化。主要方法是通过语言学和机器学习。概率方法或信息论方法也被广泛采用,并且实际的语音识别方法已经成功应用。例如,HMM,GMM等,正是由于这些方法的出现,语音识别在推动实际应用方面具有很大的作用。例如,在国际旅馆中,前端客户服务必须首先在接收来自客户的呼叫之前识别语言,然后将其分配给相应的客户服务以提高通信效率。3语言识别的研究方法 3.1语言识别的基本过程 语言识别的一般过程分为训练和识别两个阶段。如图1所示,在训练阶段,将不同语言的语音和音频输入到系统中,然后根据特定训练进行特征提取以获得一组特征向量序列。然后,算法获得一个或多个参考模型并保存它们。在识别阶段,对测试语音进行特征提取,然后将这些特征与模型库中的模型进行比较,并计算相似度得分。最后,根据决策模块的决策规则,可以使用相似性得分来获得识别的语言类型。 3.2语言识别方法 3.2.1使用LDA文本研究多语言识别 首先是伪训练过程。我们需要从互联网上获取语料库或首先使用现有的语料库。但是,这些数据源不能直接用于构建N-gram计数。在实践中,我们对语料库中的标点符号,数字,大小写和其他字符进行一些处理。保留一些有助于根据需要识别语言的符号,并删除一些与语言识别无关的符号。在获得预处理数据后,选择高度可靠的语言模型工具生成1-5元的N-gram计数文件。获取N-gram计数文件的过程是提取语料库特征的过程。然后对数据集执行折叠的吉布斯采样,直到它收敛并更新LDA模型的参数。 第二阶段是语言识别阶段。首先,还对测试文本进行特征提取工作。根据需要保留一些有助于语言识别的符号,并删除与语言识别无关的一些符号。然后,通过折叠吉布斯对提取的1-5个成员的N-gram计数文件进行采样,直到它收敛,并且获得对象分布,即语言分类结果,如图6所示。 2。 3.2.2全球背景模型(UBM) GMM-UBM已广泛用于说话人识别系统。在语言识别系统中,GMM-UBM模型是独立于语言的背景模型,其使用与语言相关的无关信息来训练语言全局背景模型。图3是基于GMM-UBM的语言识别系统块D.鉴于培训UBM模型的各种语言的数据,有几种方法可以获得最终模型。最简单的方法是使用EM算法训练UBM模型。由于培训是与语言无关的UBM模型,因此每种语言识别大约需要1小时。 4语言识别实验 4.1语言识别的理论基础 4.1.1条件概率和完全概率 4.1.2贝叶斯公式 基于条件概率和完全概率,很容易推导出贝叶斯公式: 似乎贝叶斯公式只是A的后验概率A的边缘概率的组合,因为许多实际问题是P(A | B)或难以直接观察但是P(B | A)和P(A)它是很容易测量使用贝叶斯公式可以让我们计算出许多实际的概率问题。 4.2小文本语言识别实验 用python实验。这些文本中有不同的语言。语言的概率由程序判断。例如,语言与de之间的相似度为0.4,与en的相似度为0.95。取最大值。表示文本类似,从而缩小范围。反过来,未知的概率与de的概率不同,并且与en不同的概率是0.05。还可以得出结论,该文本接近en。通过类比,可以获得语言之间的相似性或差异。未知语言减去已知语言可以获得差异的概率。如果概率最小,则已知语言是输入文本的语言。根据程序对不同的多语言进行分类。最后,您可以根据自己的想法决定格式,最后得到分类语言的排序。基于此,进行小文本语言识别的实验,并且可以根据需要获得程序中现有语言的句子或段落。缺点是实验对实验的可能性来说比较麻烦;其次,它的实验范围很窄,因为它是一个小文本实验,因此程序中可识别的语言较少,并且不可能对所有语言进行分类和识别;在许多情况下,语言被识别,文本不太准确。例如,单词可能出现在不同的语言中,但含义不同。该实验仍然是值得注意的,因为它可以在分类后指定语言的格式。4.3多语言识别实验 由于上一个实验有一些缺点,这个实验将改善缺陷,或使用Python来识别不同的语言。根据程序步骤,首先创建一个新的myfile文件,输入要识别的文本,用python打开文件,并使用Langid工具包中的classify函数来识别输入文本的语言。该程序逐行读取输入数据。直接在另一个文件夹中表达所需的语言。 Langid工具包广泛用于语言识别。该工具包可以识别97种语言。 classify函数可以将输入文本与Langig标记的97种语言进行比较,然后使用具有最高相似度的语言标记作为输入。文字的语言。举一个简单的例子,例如,字符串字符串是“Hello world!”,然后调用classify(string)将输入文本的语言识别为英语。 结论 本文的研究工作主要集中在如何使用python来分类和识别多种语言的语言。首先,详细阐述了多项式贝叶斯分类模型以及条件概率和全概率公式,为构建多语言识别系统奠定了坚实的理论基础。根据不同的任务要求,使用适当的语言识别系统对不同材料进行实验。其次,通过两组实验,选择Langig工具构建多语言分类模型,对实验结果进行详细分析,最后得出结论。 本课题的研究需要大量阅读国内外文献,研究公式法背后的意义,同时也需要注意总结和归纳。将实验中的想法转化为程序允许计算机取代我来处理大规模数据的学习和识别任务。还进行了大量实验来比较测试分析。这些任务使我在遇到问题时更加耐心和谨慎,并会仔细考虑工作中可能出现的各种问题。通过不断的操作,我对Python的操作变得更加熟悉,为今后的工作奠定了基础。引用 [1]江冰。语言识别深度学习方法研究[D]。中国科学技术大学,2015。 [2]贾小茹。基于LDA的多语言识别研究[D]。中国海洋大学,2014。 [3]索宏斌,李明,卢平,等。基于并行音节解码器和语言模型的语言识别系统[C] //国家网络与信息安全技术研讨会,2007。 [4]王伟,李思书,邓三红。基于N-Gram的文本语言识别研究[J]。现代图书情报学,2013(4):54-61。

中关村在线

热门推荐
copyleft © 1999 - 2018 乐平信息网( www.czsuyuan.com)
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
常年法律顾问:上海金茂律师事务所