语音识别是什么语音识别声学特征介绍语音识别技术百度百科

2023-08-25 03:32:46 来源 :

语音识别,什么是语音识别

(资料图片仅供参考)

语音识别

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

通过语音控制各种设备、与电脑进行直接的交流是人类长期以来的梦想。在许多描述未来世界的电影、小说中，语音识别几乎成为了人工智能的代名词。从上世纪四十年代开始，随着数字技术尤其是电脑的飞速发展，语音识别技术成为了科学研究的热点。到八十年代，语音识别技术开始了从实验室到产品的转移。

东芝在语音识别技术领域的研发，开始于上世纪七十年代，目前已经形成了以东京-剑桥-北京为中心的全球研发体系，开发出了包括中、日、英、法、德等十四种以上语言的语音识别系统。东芝中国研发中心，从二零零一年成立以来，致力于中文(包含粤语及各种方言)语音识别技术的研发，开发了高性能的中文语音识别引擎，

语音识别技术支持不同层次的系统要求：

1. 高鲁棒性嵌入式语音识别引擎，可以应用到各种电子设备，从而利用语音来完成电子设备的自动控制等。特别在车载环境下，利用语音来控制各种设备的"hand-free"模式已经成为语音识别技术最重要的应用之一。

东芝的嵌入式语音识别引擎结合了高性能语音端点检测技术、语音增强技术和特征补偿技术，并采用了噪声免疫训练，可以在各种噪声环境下工作;特别针对汽车背景噪声优化，在极低信噪比环境下仍可使用。该引擎无需特别训练即可供不同说话人使用，并特别针对不同地方口音进行优化，可以同时支持不同口音的说话人。除了可以完成高精度的命令词识别，东芝的嵌入式语音识别引擎支持大词汇量的地址识别，结合在线文法生成功能和语音标签功能，使得声控的汽车导航成为现实。此外，该引擎还支持中文数字串识别和人名识别等，可以轻松完成声控拨号/定位任务。引擎采用了高效的搜索算法和声学模型压缩等技术，可以在资源十分有限的条件下工作，目前已经应用到多款汽车导航系统中。

2. 语音对话系统和翻译系统中的语音听写引擎。结合语音识别/合成和机器翻译技术，不同语言间的自动语音翻译已经成为可能。

东芝的语音翻译系统，目前已经支持中、英、日三国语言的互译。作为其中重要的模块之一，我们开发了高性能的中文语音听写引擎(大词表连续语音识别系统)。该系统采用了噪声鲁棒性技术，可以应用到不同环境中。声学模型训练中采用了区分性训练，并针对不同地方口音进行了优化;高性能的自适应技术，可以在无监督的模式下有效提高对不同口音和环境的适应能力。该引擎支持大词汇量的语音听写，并提供了用户词典功能;具有高可移植性，可以为不同领域快速定制识别引擎。

常用的一些声学特征

* 线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。

* 倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP)，在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。

* Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。

标签：

中国船舶租赁公布2023年中期业绩：期内溢利涨超20%，年化平均净资产回报率达18.4%，「一体两翼」助力业绩高速发展
2023-08-25
华兰生物2023中报解读：业绩下滑，现金流量净额大幅上升，财务状况引人关注
2023-08-25
上海书展丨法医秦明：我写作初衷和立身根本都是法医这个职业
2023-08-25
狠抓廉政建设筑牢思想防线
2023-08-25
武大学子赴恩施调研当地中药材种植和加工产业
2023-08-25
郭施亮：公募基金券商出手自购，能否有效提振市场信心？
2023-08-25
天猫超市鲜松茸“持证”上新，“断头”赔一半“开伞”赔全部
2023-08-25
大学化学专业就业率怎么样中国农业大学化学专业就业前景怎么样
2023-08-25
小可爱v1.9.1 小可爱v270免费版
2023-08-25
8月24日教育行业八大熊股一览
2023-08-25
新增多地！2023年卫生、护士资格【合格证书】领取通知汇总！
2023-08-25
最新 | 5死3重伤！大巴车隧道内撞墙！山西通报！
2023-08-25
8月24日紫光国微涨停分析：DRAM（内存），无线充电，汽车芯片概念热股
2023-08-25
马斯克据报向美国防部透露，曾与普京私下通话
2023-08-25
ST浩源（002700）8月24日主力资金净卖出357.67万元
2023-08-25
国网聊城市茌平区供电公司开展“七彩暑假青春自护”公益课堂活动
2023-08-25
典当行典当黄金价格大概多少典当行回收黄金的价格
2023-08-25
东亚银行公布2023财年中期权益分配方案
2023-08-25
盘江股份：上半年归母净利润6.19亿元，同比减少50.23%，自产精煤价格较同期下降415.81元/吨
2023-08-25
《冲呀饼干人王国》竞技场角色强度介绍
2023-08-25
机器人行业市场前景分析：我国机器人产业发展水平稳步提升
2023-08-25
【财经分析】信用债阶段表现强势 “资产荒”行情料将延续
2023-08-25
万能的网友们：面对无耻下作的日本核污水排海，你有何良策？
2023-08-25
燕麦科技（688312）8月24日主力资金净卖出13.14万元
2023-08-25
8月24－26日宁夏有“降雨+降温”天气
2023-08-25
里夫斯：带着任务来到国家队，招募球员是真的！首选哈利！
2023-08-25
山东移动山亭分公司全力做好汛期安全防范工作
2023-08-25
语音识别是什么语音识别声学特征介绍语音识别技术百度百科
2023-08-25
最高涨幅6.67%！硅片价格全线上涨
2023-08-25
鸿富瀚：8月21日融资买入51.32万元，融资融券余额4227.74万元
2023-08-25
第一上海证券：给予哔哩哔哩-W(09626.HK)“增持”评级目标价172.45港元
2023-08-25
开学在即！云南省消防救援总队发布消防安全提示
2023-08-25
历时4年，50万台整车下线，长城炮究竟有多火？
2023-08-25
财政部：加强涉企收费管理严禁乱收费、乱罚款、乱摊派
2023-08-25
《深圳经济特区消防条例》11月1日起施行，有十大重要创新
2023-08-25
昆仑巨犀奇迹泰坦……今年手机厂商怎么全去磕玻璃了？
2023-08-25
2023年服贸会将全面展示教育服务新技术新成果
2023-08-25
处暑 | 一叶知光阴最美处暑秋，告别可爱的夏天，酝酿了一个浪漫的秋！
2023-08-25
商洛市商州区疾病预防控制中心原主任李新智被查
2023-08-25
国家文物局：规范博物馆社会讲解，纠正歪曲史实等行为
2023-08-25
国防科技高地论坛征集海选志愿者和Logo作品
2023-08-25
深度分析失利原因，郭艾伦召回或成中国男篮救命稻草！
2023-08-25
23国开13(增15)中标利率为2.2492%
2023-08-25
白银t+d怎么交易
2023-08-25
今日37只个股涨停主要集中在农林牧渔、传媒等行业
2023-08-25
马斯克强调Cybertruck零件精度问题：个位数微米级别
2023-08-25
医健半年报扫描｜药明生物新增项目数减少、中国区业务下滑，高速增长不再？
2023-08-25
长城全新SUV猛龙将在成都车展首发售价或在20万以下
2023-08-25
明起杭州亚运会体育比赛门票官方线下购票渠道陆续开放
2023-08-25
抖音申请蓝v企业认证步骤教程
2023-08-25

语音识别是什么 语音识别声学特征介绍 语音识别技术百度百科

语音识别是什么语音识别声学特征介绍语音识别技术百度百科