新闻中心>广东

“入行”20年手握12专利,柯登峰语音识别玩出新高度

来源:汕头特区晚报 作者: 发表时间:2019-12-31 12:46
分享到

柯登峰,澄海人,1980年出生。中科院语音识别专家,九四智能首席科学家,阿凡题、京师讯飞、博晖创新等企业首席科学家,方亚投资集团顾问,北京语言大学语言智能研究院和北京林业大学人工智能研究所的客座教授,自动化学报深度学习专刊负责人,海淀高层次人才发展促进会特邀专家,北京潮创会常务理事。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。近年来,语音识别技术更是进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,尤其是移动终端上的应用非常火热,语音对话机器人、语音助手、互动工具等层出不穷。语音识别技术让原本科幻电影般的人机对话成为现实,世界亦呈现日新月异的变化。

中科院语音识别专家、九四智能首席科学家柯登峰,从2001年开始进入语音识别领域,正好陪伴语音识别行业走过飞速发展的近二十年,并成为这一领域的拔尖人才,目前他手握12项国家专利,成为该领域的见证者和深耕者。

声纹识别撑起安全“保护伞”

有时候,未来在你面前打开一扇门,而你要做的就是相信直觉并迈进去走下去。对于柯登峰来说,就是如此。1999年他告别读了六年的澄海中学,来到中山大学读本科。仅为计算机系的大一新生,柯登峰就通过了一个颇有难度的全国高级程序员认证(即现在的系统分析师考试),于是机缘巧合被学校老师拉着加入和水晶球一起给广东省公安厅做的声纹识别项目。

据柯登峰介绍,当时做的声纹识别项目是通过录入犯罪嫌疑人或罪犯的声纹,对其实现监控记录的这么一种系统。他们从2001年提出构思,2003年就完成系统,并且凭此在2005年获得广东省优秀科技奖。2001年,就成为柯登峰迈入语音识别行业的“元年”。

 2005年至2006年,他给解放军总参谋部做缅甸语语音识别系统。当时国内外局势不稳,国内对网络监控非常严格。缅甸语作为小语种,相关人才很少,全国高校来说,北京只有两所学校有缅甸语培训,而且还是每四年招生一次,只招30人。这么少人监控那么多内容,难度可想而知。所以缅甸语语音识别方案,以机器代替人工,监控网络电话,起到非常重要和积极的作用。

这两个项目均为社会安定撑起科技的“保护伞”,虽然柯登峰不无惋惜地说,后来想推荐把声纹做进身份证,可惜没有成功,但是沉甸甸的社会责任感,再加品尝到胜利果实的甜蜜,让他更坚定自己的方向,他继续研究各种各样的相关技术,逐渐向语音识别领域深耕。

语音识别引领未来智能生活

2009年,国内语音识别行业迎来发展的节点,深度学习成为语音识别开始大力创新的契机。深度学习的概念源于人工神经网络的研究。它模仿人脑的机制来解释数据,例如图像,声音和文本。“深度学习技术从2009年开始,国内外基本同步,技术上大家从同一起跑线开始,都是从无到有走出来的路。国内爆发出很多不错的原创性思路。特别最近几年,大家都觉得这是人工智能,特别火爆。”柯登峰说。

人工智能火了,而搭载人工智能语音识别的产品,也被科技巨头们视为是开启智能家居风口的钥匙。亚马逊、微软、谷歌、苹果、百度、暴风、小米等等国内外巨头都开始推出搭载智能语音识别产品,抢占智能家居入口。

看似遥不可及的语音识别技术正一步步通过产业化走进我们的生活。10年里,柯登峰的成绩亦斐然,比NUS所做系统识别率高15%的新加坡政府马来语音识别系统、国家民族汉考办使用的汉语自动识别系统和作文自动评分系统、全国音乐基础考试自动评分系统、江苏省中考英语口语自动评分系统……他与团队建立的语音识别系统无处不在,其技术使用人群已超过一亿人次。柯登峰认为语音识别行业拥有广阔的前景。

2017年,他和团队提出的DGC型的对抗生成网络,获得IEEE的最佳论文奖。他们设计的对抗生成网络,输入的是带噪录音,让生成器生成纯净语音,从而解决的噪声环境下识别率不好的问题。最近,他们还提出一种梯度反向学习技术,在语音识别时,网络能分辨不同的声母韵母,挤掉个人口音特征、性别特征、年龄特征等,这在以前是不可能的。

阿凡题等企业首席科学家、自动化学报深度学习专刊负责人、国际潮籍博士联合会北京区执行委员会、海淀高层次人才发展促进会特邀专家、方亚投资集团顾问……加载在柯登峰身上这些荣誉的背后是无数的实验,是漫漫科研道路上的稳扎稳打、上下求索。

传道授业探索无限可能性

柯登峰所在的中科院自动化研究拥有全国最优秀的语音识别团队。早在2005年,他刚到北京中科院读博士时,他们的团队就获得全国863语音识别比赛第一名。此后一直走在语音识别领域的前端。2008年,又获全球哼唱检索比赛第一名。在老师的带领下进入语音识别行业的柯登峰始终十分看重团队。他认为,对于学生来说最重要的是找到一个好的行业和好的平台,要有好的团队和导师带领,不然自己随意摸索要出成果特别慢,一个人是无法完成那么多东西。

除了自己的团队,柯登峰同时也是北京语言大学语言智能研究院和北京林业大学人工智能研究所的客座教授,致力于为语音识别这个迅速发展的行业培养更多优秀的人才。

教学中,他非常注重因材施教,他对学生要求很严,甚至苛刻。别人一门编程语言要学一个学期,他只给学生一个星期学习。但上他的课又很自由,可以随时上台观摩或发表观点。他想要培养的是具有强大学习能力、分析能力和解决问题能力的人才队伍。当对抗生成技术出来时,他引导学生去想是否可以把带噪语音生成为纯净语音,最后学生刘斌的论文获得IEEE最佳学生论文奖。

柯登峰眼中的科学,广阔、丰富、无限,决不囿于一方实验室,更不困于术业专攻。“语音识别是文科、理科、工科三大学科的综合,又是一个交叉领域,要求编程好、需要学习信号处理、概率学、语音学、心理和声学感知相关知识,要求你学习能力好并且有兴趣,才能从三大学科抽出有用的东西。”他鼓励分享,如果看到好的最新技术,都会第一时间发到群里给大家看,“几十人每个人贡献出一个知识点,把大家都说懂了,相当于每人每天能学到别人用几十天的时间才能学到的东西。”

很多人都知道“一个人可以走得很快,一群人可以走得更远”这个道理,而在柯登峰的“麾下”,一群人不仅可以走得很远,也可以走得很快。

心声

  • 灵感的开启不是专门去想怎么开,而是分析别人的方法,妙处在哪里,有没有更好的改进空间,在这个过程中自然而然诞生出来的,有时候是大家七嘴八舌讨论出来的。

  • 很多时候,你不需要什么都懂,也不可能什么都懂,吾生也有涯,而知也无涯,以有限的生命去学习无穷的知识,必定会精神疲惫而一无所得。一定要现学现用才有价值,也才有意思。

  • 做每件事情之前,要先看看别人都做了哪些,是怎么做,把别人分析透了,复现最好的算法,然后才谈改进。

采访手记:

愿意投入时间的人

隐马尔可夫模型、声道归一化、共振峰……采访中谈起语音识别,柯登峰滔滔不绝,专业名词艰涩难懂,不过,我却记住了他在说起教学时的一句话:“我们第一步要选人,需要选择对这个领域方向有感觉并且愿意投入时间的人。”我想,这是他们选人的首要标准,同样的,他自己也首先是这样的人。这句话的重点在“愿意投入时间”、“对这个领域方向有感觉”,这是科研人员的优秀品质,很多人只看到柯登峰的顺理成章、机缘巧合,却忽略了他“愿意投入时间”而铸就的过硬能力以及其中的坚定信念。

2016年,有人提出“技术商人”这一新颖概念。这是科研和产业高度结合的结果。它要求科研人员引领选择,具有坚实的基础知识和解决问题的能力,还需要不会枯竭的想象力,不会泯灭的好奇心和不会冷却的热情。“对这个领域方向有感觉”,才有想象力、好奇心以及作选择时的直觉;“愿意投入时间”,才有坚实的基础知识、解决问题的能力和不会冷却的热情,这不正好是柯登峰那句话的注解吗?

记者:陈珊娜

编辑:笑云 方超

版权声明:版权归汕头经济特区报社所有,未经许可,严禁擅自转载、复制、改编本社记者新闻作品,违者将追究侵权者法律责任。

编辑:
  • 旅游
  • 汽车
  • 科技
  • 文化
  • 美食

跟着《极端感受》感受极地

  • “南孔圣地·衢州有礼”唱响在羊城 2019-12-31
  • 国内篇‖选个孩子最憧憬的目的地 2019-12-31
  • 寒假继续出发,选个孩子最憧憬的目的地 2019-12-31
  • 冬到贵州,我在《陈情令》拍摄地等你 2019-12-26
  • 出境旅游“泡靓汤” 这个冬天有点暖 2019-12-26
  • 新年去新加坡旅游一定要去看“大丽花之梦”花卉展 2019-12-25
  • Airbnb爱彼迎发布中国房东社区报告 2019-12-25
  • 2019“龙门阵”聚焦康养旅游,群贤毕至解读“龙门密码” 2019-12-24

​ 试驾全新一代五菱宏光PLUS:实用性更强

  • ​命名全新一代瑞虎7/瑞虎7 PRO 奇瑞全新SUV官图曝光 2019-12-23
  • 斯柯达全新昕锐、全新昕动设计图发布 更加年轻动感 2019-12-23
  • 【新车】系出名门 威兰达将成为广汽丰田新的爆款 2019-12-23
  • 吉利公布吉利icon银河限量版指导价:132020元 2019-12-23
  • ​广汽本田全新皓影BREEZE试驾在惠州举行 2019-12-20
  • 爱驰U5上市并启动交付 补贴后售价19.79万-29.21万 2019-12-20
  • 试驾上汽大众Tharu途岳2020款:实力爆款 2019-12-16
  • 【导购】新哈弗H6 Coupe智联版PK长安CS55 PLUS 2019-12-13

换个角度看华为前员工事件!到底是谁的错

  • 财富飙升25%!全球最富有的500人年赚1.2万亿美元 2019-12-30
  • 还在买抢票加速包?专家称12306已屏蔽多个抢票软件 2019-12-30
  • 通信存储合一!5G超级SIM卡正式上市,容量最高达128GB 2019-12-26
  • 商标酷似李小龙被诉侵权 真功夫回应:用了15年没被判侵权 2019-12-26
  • 王思聪限制消费令被撤销, 可以安心过年啦?! 2019-12-26
  • 一年赚170亿美元!亚洲首富净身价达到610亿美元 2019-12-25
  • 苹果提醒电池接近老化极限,你的iPhone X续航还好吗? 2019-12-24
  • 靓号惹的祸!男子携号转网要交1.8万违约金,电信客服这样回应 2019-12-23

《中国有故事》系列微纪录片的幕后故事

  • 乾隆皇帝:画画,我不要你觉得,我要我觉得 2019-12-31
  • 兵马俑类型再获细分首次出土秦军盾牌遗迹 2019-12-31
  • 故宫“剧透”紫禁城建成600年重点活动 2019-12-31
  • 2019年十大文化事件 2019-12-31
  • 藏东南发现新石器时代晚期混作农业新证据 2019-12-30
  • “高山景行——孔子文化展”亮相国家博物馆 2019-12-30
  • 庆祝新中国成立70周年70人美术作品展亮相国博 2019-12-29
  • 《是谁激活孙子兵法》在新加坡出版 2019-12-29

干杯!十月里多个德国啤酒节开锣

  • 喜欢吃日料 不懂清酒怎么行?

    ——掌握这几点,清酒小白也懂行 2019-12-02

  • 金秋吃蟹 这样吃才健康 2019-09-24
  • 炎炎夏日来份凉菜才是正经事 2019-07-10
  • 一年一度鲱鱼节来袭 就问你敢不敢吃? 2019-07-01
  • 最佳赏味期 抢鲜当造夏滋味 2019-05-31
  • 初夏五月 白芦笋相伴 2019-05-16
  • 又到海鲜季 不这么吃就白瞎了! 2019-05-06
  • 春日食游 鲜味先行 2019-04-12
金羊图库
  • 英国里士满公园晨曦静谧如童话世界
  • 世界最大跨度铁路拱桥主体建成 全长1024.2米
  • 航拍澳大利亚山火蔓延 火线大举推进
  • 新一代“火星2020”待出发 杰泽罗陨石坑为其着陆点
  • 世界上最长寿雌性黑犀牛浮士德去世 终年57岁
  • 内蒙古乌拉特后旗 大漠逐驼影沙海美如画
  • 河北邢台:挑战自我 快乐冰雪
  • 畅游冰雪世界
新闻排行榜
羊晚24小时
广州地铁发布元旦出行提醒
2019-12-31 16:28:40
今晚跨年夜广州塔、花城广场等场所实施交通管制
2019-12-31 07:37:09
广州首推"交通违法行为电子确认" 比窗口省时70%
2019-12-31 07:25:14
广州下月30日前以9折市场价投放2600吨储备猪肉
2019-12-31 07:22:58
广州抽检11款儿童电动牙刷 7款清洁能力表现一般
2019-12-31 06:15:25
返回顶部
数字报
精彩推荐 滚动 新闻 广州 广东 中国 娱乐 健康 体育 IT 财富 汽车 房产 美食 图集 生活 食安 科技 教育 军事
“入行”20年手握12专利,柯登峰语音识别玩出新高度
汕头特区晚报  作者:  2019-12-31
从2001年开始进入语音识别领域,正好陪伴语音识别行业走过飞速发展的近二十年,并成为这一领域的拔尖人才。

柯登峰,澄海人,1980年出生。中科院语音识别专家,九四智能首席科学家,阿凡题、京师讯飞、博晖创新等企业首席科学家,方亚投资集团顾问,北京语言大学语言智能研究院和北京林业大学人工智能研究所的客座教授,自动化学报深度学习专刊负责人,海淀高层次人才发展促进会特邀专家,北京潮创会常务理事。

近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。近年来,语音识别技术更是进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,尤其是移动终端上的应用非常火热,语音对话机器人、语音助手、互动工具等层出不穷。语音识别技术让原本科幻电影般的人机对话成为现实,世界亦呈现日新月异的变化。

中科院语音识别专家、九四智能首席科学家柯登峰,从2001年开始进入语音识别领域,正好陪伴语音识别行业走过飞速发展的近二十年,并成为这一领域的拔尖人才,目前他手握12项国家专利,成为该领域的见证者和深耕者。

声纹识别撑起安全“保护伞”

有时候,未来在你面前打开一扇门,而你要做的就是相信直觉并迈进去走下去。对于柯登峰来说,就是如此。1999年他告别读了六年的澄海中学,来到中山大学读本科。仅为计算机系的大一新生,柯登峰就通过了一个颇有难度的全国高级程序员认证(即现在的系统分析师考试),于是机缘巧合被学校老师拉着加入和水晶球一起给广东省公安厅做的声纹识别项目。

据柯登峰介绍,当时做的声纹识别项目是通过录入犯罪嫌疑人或罪犯的声纹,对其实现监控记录的这么一种系统。他们从2001年提出构思,2003年就完成系统,并且凭此在2005年获得广东省优秀科技奖。2001年,就成为柯登峰迈入语音识别行业的“元年”。

 2005年至2006年,他给解放军总参谋部做缅甸语语音识别系统。当时国内外局势不稳,国内对网络监控非常严格。缅甸语作为小语种,相关人才很少,全国高校来说,北京只有两所学校有缅甸语培训,而且还是每四年招生一次,只招30人。这么少人监控那么多内容,难度可想而知。所以缅甸语语音识别方案,以机器代替人工,监控网络电话,起到非常重要和积极的作用。

这两个项目均为社会安定撑起科技的“保护伞”,虽然柯登峰不无惋惜地说,后来想推荐把声纹做进身份证,可惜没有成功,但是沉甸甸的社会责任感,再加品尝到胜利果实的甜蜜,让他更坚定自己的方向,他继续研究各种各样的相关技术,逐渐向语音识别领域深耕。

语音识别引领未来智能生活

2009年,国内语音识别行业迎来发展的节点,深度学习成为语音识别开始大力创新的契机。深度学习的概念源于人工神经网络的研究。它模仿人脑的机制来解释数据,例如图像,声音和文本。“深度学习技术从2009年开始,国内外基本同步,技术上大家从同一起跑线开始,都是从无到有走出来的路。国内爆发出很多不错的原创性思路。特别最近几年,大家都觉得这是人工智能,特别火爆。”柯登峰说。

人工智能火了,而搭载人工智能语音识别的产品,也被科技巨头们视为是开启智能家居风口的钥匙。亚马逊、微软、谷歌、苹果、百度、暴风、小米等等国内外巨头都开始推出搭载智能语音识别产品,抢占智能家居入口。

看似遥不可及的语音识别技术正一步步通过产业化走进我们的生活。10年里,柯登峰的成绩亦斐然,比NUS所做系统识别率高15%的新加坡政府马来语音识别系统、国家民族汉考办使用的汉语自动识别系统和作文自动评分系统、全国音乐基础考试自动评分系统、江苏省中考英语口语自动评分系统……他与团队建立的语音识别系统无处不在,其技术使用人群已超过一亿人次。柯登峰认为语音识别行业拥有广阔的前景。

2017年,他和团队提出的DGC型的对抗生成网络,获得IEEE的最佳论文奖。他们设计的对抗生成网络,输入的是带噪录音,让生成器生成纯净语音,从而解决的噪声环境下识别率不好的问题。最近,他们还提出一种梯度反向学习技术,在语音识别时,网络能分辨不同的声母韵母,挤掉个人口音特征、性别特征、年龄特征等,这在以前是不可能的。

阿凡题等企业首席科学家、自动化学报深度学习专刊负责人、国际潮籍博士联合会北京区执行委员会、海淀高层次人才发展促进会特邀专家、方亚投资集团顾问……加载在柯登峰身上这些荣誉的背后是无数的实验,是漫漫科研道路上的稳扎稳打、上下求索。

传道授业探索无限可能性

柯登峰所在的中科院自动化研究拥有全国最优秀的语音识别团队。早在2005年,他刚到北京中科院读博士时,他们的团队就获得全国863语音识别比赛第一名。此后一直走在语音识别领域的前端。2008年,又获全球哼唱检索比赛第一名。在老师的带领下进入语音识别行业的柯登峰始终十分看重团队。他认为,对于学生来说最重要的是找到一个好的行业和好的平台,要有好的团队和导师带领,不然自己随意摸索要出成果特别慢,一个人是无法完成那么多东西。

除了自己的团队,柯登峰同时也是北京语言大学语言智能研究院和北京林业大学人工智能研究所的客座教授,致力于为语音识别这个迅速发展的行业培养更多优秀的人才。

教学中,他非常注重因材施教,他对学生要求很严,甚至苛刻。别人一门编程语言要学一个学期,他只给学生一个星期学习。但上他的课又很自由,可以随时上台观摩或发表观点。他想要培养的是具有强大学习能力、分析能力和解决问题能力的人才队伍。当对抗生成技术出来时,他引导学生去想是否可以把带噪语音生成为纯净语音,最后学生刘斌的论文获得IEEE最佳学生论文奖。

柯登峰眼中的科学,广阔、丰富、无限,决不囿于一方实验室,更不困于术业专攻。“语音识别是文科、理科、工科三大学科的综合,又是一个交叉领域,要求编程好、需要学习信号处理、概率学、语音学、心理和声学感知相关知识,要求你学习能力好并且有兴趣,才能从三大学科抽出有用的东西。”他鼓励分享,如果看到好的最新技术,都会第一时间发到群里给大家看,“几十人每个人贡献出一个知识点,把大家都说懂了,相当于每人每天能学到别人用几十天的时间才能学到的东西。”

很多人都知道“一个人可以走得很快,一群人可以走得更远”这个道理,而在柯登峰的“麾下”,一群人不仅可以走得很远,也可以走得很快。

心声

  • 灵感的开启不是专门去想怎么开,而是分析别人的方法,妙处在哪里,有没有更好的改进空间,在这个过程中自然而然诞生出来的,有时候是大家七嘴八舌讨论出来的。

  • 很多时候,你不需要什么都懂,也不可能什么都懂,吾生也有涯,而知也无涯,以有限的生命去学习无穷的知识,必定会精神疲惫而一无所得。一定要现学现用才有价值,也才有意思。

  • 做每件事情之前,要先看看别人都做了哪些,是怎么做,把别人分析透了,复现最好的算法,然后才谈改进。

采访手记:

愿意投入时间的人

隐马尔可夫模型、声道归一化、共振峰……采访中谈起语音识别,柯登峰滔滔不绝,专业名词艰涩难懂,不过,我却记住了他在说起教学时的一句话:“我们第一步要选人,需要选择对这个领域方向有感觉并且愿意投入时间的人。”我想,这是他们选人的首要标准,同样的,他自己也首先是这样的人。这句话的重点在“愿意投入时间”、“对这个领域方向有感觉”,这是科研人员的优秀品质,很多人只看到柯登峰的顺理成章、机缘巧合,却忽略了他“愿意投入时间”而铸就的过硬能力以及其中的坚定信念。

2016年,有人提出“技术商人”这一新颖概念。这是科研和产业高度结合的结果。它要求科研人员引领选择,具有坚实的基础知识和解决问题的能力,还需要不会枯竭的想象力,不会泯灭的好奇心和不会冷却的热情。“对这个领域方向有感觉”,才有想象力、好奇心以及作选择时的直觉;“愿意投入时间”,才有坚实的基础知识、解决问题的能力和不会冷却的热情,这不正好是柯登峰那句话的注解吗?

记者:陈珊娜

编辑:笑云 方超

版权声明:版权归汕头经济特区报社所有,未经许可,严禁擅自转载、复制、改编本社记者新闻作品,违者将追究侵权者法律责任。

编辑:
新闻排行榜
精彩推荐
国家主席习近平二〇二〇年新年贺词特别报道
18:26
这些话,温暖了2019
13:01
中俄两国元首互致新年贺电
11:15
广州在全国首推“交通违法行为电子确认” 比窗口办理时间减少70%
08:57
广州抽检11款儿童电动牙刷 7款清洁能力表现一般
08:54
“开心麻花”第五部大电影票房成绩平平 《半个喜剧》算不算喜剧?
08:49
三线齐发!中国高铁里程突破3.5万公里
08:49
万首新词大写广州万千气象 全民参与竞抒胸中家国情怀
08:49
广清一体化再升级 接合片区入选国家城乡融合发展试验区
08:50
深莞惠一体化进程再提速 省道S255线博罗龙桥东江大桥通车
08:56
  • 官方微信
  • 官方微博