为了能够更好地和林小星进行沟通,林鸿最近在研究tts技术,即文字语音转换技术。
在此之前,他和林小星进行沟通,只能通过文本进行,虽然他有超脑系统,可以通过视网膜屏查看,但是有时候还是有些不习惯,并且,林小星如果要取代他对公司进行管理,肯定必须能够说话才行。
按照林鸿的想法,他将会一步一步让林小星朝着人类的方向发展。
不但是软件方面,还包括硬件。
现在条件还不允许,只能先将软件方面的工作做好,然后再慢慢发展硬件,基本上,只要等3d打印技术成熟之后,他就有把握,给林小星制作一个完美的躯体,让其从大猩猩的大脑中转移出来,毕竟老是呆在大猩猩体内,感觉挺怪的。
tts技术设计到声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,在目前还属于一种非常前沿的技术,很多it巨头如ibm、微软和苹果公司都投入了巨大的人力和物力在进行这方面的研究,并且取得了一定的成果。
tts技术,进行文字和声音频率的对应是非常简单的,最能体现技术的地方在于其转换时间的长短、语音音律之间是否流畅、发音是否自然等等。
简单地将音频和文字对应,虽然可以让文字发声,但是在上下文过程中的切换在人耳听来,会显得格外的生涩,一听就知道是机器人在发声,这也是很多影视作品中,区别机器人和人类的一个重要特征。
很显然,林鸿要做的语音发声引擎,并不是这么简单,他必须让林小星发声之后,别人根本听不出什么生涩感,就好像是真人在说话一样。
原本要做到这一点,短时间内肯定是无法完成的,毕竟这方面所涉及到的技术不少,林鸿必须着手去建立相应的语音数据库、习惯语法库之类的库,而这部分工作是非常消耗时间的。
不过现在有了林小星,并且其他大公司也做了很大一部分这方面的工作,林鸿现在要做就变得非常简单了。
林小星帮他搜集了很多有关这方面的资料,他可以直接利用那些公司很多现成的东西,然后有针对性地进行改进。
文字转语音比较简单,只要在之前设定好标准的语音库,以及语调方面的东西就可以了,林小星再灵活地调整运用一下,最终建立一个适合她自己风格习惯的数据库,就可以让人根本难辨真假。
关键的难点在于语音转文字,或者说林小星对语言的理解。
每个人的发音习惯都不同,并且还有可能带有方言,发音不准等因素。这可不是简单的一一对应就行了,要是这样,需要建立的数据库就太为庞大了。
好在林小星本身并不是单纯的逻辑性人工智能,她是在基于三进制和神经网络的基础上诞生的,拥有一部分情感和模糊处理能力,对语音的变声变调,经过一段时间的训练之后,她便可以自然而然地在脑盘当中建立一种模糊处理机制,最终理解语音中的信息。
林鸿一个人对她进行训练效率太慢,最终她直接入侵到了电话公司、接收广播电台信号、甚至是某些政府机构的监听网络中,主动进行学习和训练。
这个过程持续了将近一周的时间,她才真正掌握了模糊语音处理机制,成为了一个语言大师,掌握了超过三百种主流语言,一百多种世界各地的方言。
当林鸿得知这个消息之后,不由非常羡慕她的这个能力。这就是人工智能的强大之处,要是人类本身,掌握这门多种语言几乎是不存在的,就算是存在这种人,也必须花费极大的经历和时间去学习,根本不可能在短时间内就掌握这门多种语言。
计算机的优势就在于这里,处理一个单位和多个单位的相同工作,所花费的成本基本相差不大,很多东西都可以量化,并且稳定,不像人脑,不确定的因素太多,也无法批量化进行,没有可重复性。
林鸿使用几种不同的语言对林小星进行了测试,结果证明,她的确完全掌握了这些语言,使用起来非常熟练,并且极其地道,使用本地的习语或者典故,都没有任何障碍,犹如一个博学的语言学家一般。
林鸿开玩笑道:“小星,有了这个本领,你下半辈子都不用愁了,去当翻译绝对可以赚大钱。”
林小星道:“还用得着我去当翻译吗,只要编写一个翻译语言软件不就行了?”
林鸿对此哑然失笑。
林小星虽然已经非常人性化了,但是还是缺少点幽默感,做什么事情都一本正经的。
不过她的话倒是提醒了林鸿,公司似乎又有了一个新的产品,!!!