搜狗语音:科技向善的愿景与落地
2018-10-19 11:55:30
  • 0
  • 0
  • 0

在人类历史的车轮中,「科技」始终都是最为举足轻重的碾压与推动力,其对于社会底层民众及弱势群体也有着双刃剑般的意义。

宏观科技发展推动下的生产力进步自然会为整个社会带来下限整体提高的福祉,这一点早已从过往数次工业革命的颠覆性影响中得到了印证。

但另一方面,生产力越发达,那些更难适应生产力变化的弱势群体所面临的问题就更多,这不仅仅体现在生产效率的提升会让底层劳动者面临被淘汰的厄运,对于老年人、残障人士等弱势群体而言,他们想要跟上时代的步伐就要付出更多努力。

仅以最近一次科技革命为例,互联网技术的普及应用呈现出了颠覆知识分配体系以及信息沟通渠道为核心的特色,前者将信息变成了最重要的生产资料之一,并且将它的分配形式进行了重塑,也正是这一威力巨大的特征让学者们诟病,认为科技正在制造社会中的断层——弱势群体正面对比以往更可怕的机会差异。

在这样的背景下,那些掌握着先进技术与社会话语权的科技企业们,其自身形象就映射着社会走向——能否让包括但不限于弱势群体在内的任何人都有权力、平等、方便地享受到科技进步的普惠成果,将决定文明社会的最终高度。

10月17日重阳节当天——也是中国传统意义上的敬老节——搜狗围绕「阿兹海默」主题发布了《以声相伴,让爱常在》的公益短片,通过搜狗语音合成技术实现家人声音的复刻与重现,倡导国人关爱和陪伴罹患阿兹海默症的老年人。

据了解,俗称老年痴呆的阿兹海默症至今病因不明,亦无能够有效逆转病情进展的药物,患病者的记忆会逐步衰退,继而行动迟缓、情绪淡漠乃至生活不能自理。因此其堪称是对老年人群体危害最大的疾病之一,而我国阿兹海默症患者人数超千万,位居全球首位。

基于此,家人对于阿兹海默群体的重视与关爱显得尤为必要——老年人群体本身就多渴望子女的陪伴和照顾,家人可以与罹患阿兹海默症的老年人一起回顾以前那些美好的事,抚慰老人的心理情绪,培养积极乐观的健康心理,共同守护记忆。

而搜狗本次所展现的语音合成技术同时也可以帮助那些日常工作繁忙的上班族们,以声音的陪伴缓解不能留在父母身旁所带来的愧疚和无奈。即使自己不能时刻陪在父母左右,能让他们时常听听自己的声音也是一种慰藉。

这样提升幸福感的技术,是搜狗基于国际领先的 WaveNet / WaveRNN 的语音合成技术,不仅可以将文字转化为清晰自然、富有表现力的语音朗读出来,而且只需要10MIN以内的少量数据即可生成用户的说话音色,可支持离/在线、男/女、中/英等多达23种不同的音色。

彼时,机器还只能冷冰冰地发出毫无波澜的声音;此时,AI已经可以用你的声音,说出你的特色。

值得一提的是,搜狗还在业内独创了语音合成情感迁移技术,可实现说话人风格迁移,让将机器对人类声音的模仿更加惟妙惟肖,简单地说,这意味着用户不再需要预先录制语音片段,只需留下足够的语音训练数据,即可结合使用场景需求由机器播放对应语音,这无疑是激发了数据的活性应用,也能够满足更多陪伴老年人的语音需求。

正如克莱顿·克里斯坦森在其著作《创新者的窘境》中所指出的,「很多时候技术发展与用户需求的关系并非必要条件,而是充分条件——技术发展往往并非由用户需求驱动的,反而是由于新技术的产生和应用,刺激和带来了新需求的增长。」

事实上,搜狗多年来始终坚持对AI技术的研发推进和落地应用,仅在本次所展现的语音合成技术方面,搜狗就斩获了Blizzard Challenge 2018 语音合成大赛中可懂度和语音停顿这两项任务的冠军,更重要的是,我们也能从搜狗呼吁倡导全社会关爱阿兹海默群体中看到其践行先进科技公益向善的愿景落地。

值得一提的是,搜狗语音合成技术不仅可应用于公益事业,助力企业更好的担负起社会责任,另一方面也可以满足相当程度的特殊人群用户市场需求,达成公益与商业的双赢。

这一点早已在其他国家得到过印证,以美国为例,根据美国人口普查数据显示,全美接近20%的人患有不同程度的残疾,其中一半以上是重度残疾。

在今年5月举办的微软Build 2018开发者大会上,微软宣布斥资2500万美元推出为期五年的AI for Accessibility项目,鼓励那些致力于改善残疾人群生活的AI功能开发设计。Airbnb则在今年年初,推出了一项包括21种无障碍设施筛选器在内的更新,来帮助残障用户更好的找到适合自己的房子,包括无障碍淋浴间、轮椅通道、残疾人车位等。

而根据世界银行的数据显示,全球范围内约有15%的人是残障人士,我国残障人群数量则多达8500万人。此外,人口老龄化大势所趋的今天,我国65岁以上老年人群已经突破1.36亿人,提升科技产品对于这些弱势群体的实用性,无疑具备着相当广阔的市场前景。

与之相对应的,是搜狗已经上线的个性化语音合成小程序「搜狗制音坊」,可在获取一定时长人的声音之后,快速合成用该音色进行新闻播报、阅读儿童读物、阅读私人书单等语音播报。

这无疑将在诸如语音早教、虚拟助手等更多领域为包括但不限于上述弱势群体在内的大众用户服务,借由先进技术拉近人与人之间的距离,让家人的陪伴与关爱能够真正做到无视时间与空间的限制。

美国政治哲学家约翰·罗尔斯在其所提出的著名理论「无知之幕」中指出,「当每一个人都不知道自己在这个社会组织中处于什么样的角色之时,所制定的政策才能够保证强者不会得到过度的利益,弱者能够受到最大程度的保护。」

换言之,强调对于弱势群体的照拂才是真正意义上的社会公平,而在数字信息时代,诸如搜狗这样的科技企业能够让新兴技术真正惠及少数派群体,这展现的不仅是企业在盈利能力之外所具备的善良属性,更是科技发展普惠民众的终极目标。

 
最新文章
相关阅读