给出音频AI就能生成对应演讲，Udacity想把线上课程录制自动化

信息来源：coaoo.com 时间： 2019-08-27 浏览次数：26

　　大数据文摘出品

　　作者：易琬玉

　　线上课程已经成为了终生学习者们不可或缺的学习资源，而要完成一份高质量的视频，需要耗费不少人力和资源。尤其是在包含视频处理的时候。专业的讲座视频片段处理需要的不只是工作室和设备，更重要的是转化、编辑、上传的每一节课程的原始视频素材。

　　最近，为了解决这一问题，Udacity的研究团队就尝试将视频生产这一过程自动化。他们研究了一套AI系统，希望将音频直接转化为讲座视频。

　　通过直接定位语音文件和对应视角，合成任何长度的视频

　　MOOC平台上的内容生产可以是名利双收，但是这些内容生产工作往往耗费大量时间。这就是为什么Udacity的研究开发人员采用机器学习去自动将语音旁白生成讲座视频。这一研究被发表在一篇名为LumièreNet: Lecture Video Synthesis from Audio的论文中。

　　在发表的论文中他们提到，通过直接定位语音文件和对应视角，机器学习框架LumièreNet可以合成任何长度的视频。

　　论文原文地址：

　　https://arxiv.org/pdf/1907.02253.pdf

　　根据演讲音频生成的对应视频

　　“在现行的视频制作中，AI的参与或者半参与都能大规模实现视频生产的自动化，这将为灵活的视频内容发展提供巨大价值，因为不需要再去拍摄新的视频”，论文的作者说，“我们推行一种将任意长度的讲座录音去合成讲座视频的新方法……一个简易的、模块化的、完全基于神经网络的系统。通过输入演讲音频，就能得到对应的全身演讲视频，这在之前还没有从深度学习的视角被强调过。”

　　LumièreNet的合成主要针对唇部周围的面部表情，然后通过借用其他视频去合成画面的其他部分。但是因为演讲者的情绪不只是通过面部表情传达，所以这个研究模型还有一个姿势判断组件，通过从视频框架训练数据集中提取的数据合成身体特征图像。简要来说，就是通过对身体主要几个点的探测和定位，去创造真人演讲的生动细节。还有一个模块是关于双向循环长短期记忆（BLSTM）神经网络，按正序或倒序处理数据，使得每一次输出都能反映之前的输入和输出——它会利用输入的语音特征和目的去推测它们和视觉元素之间的关系。

　　LumièreNet由三个神经网络模块组成：BLSTM，VAE解码器和SeqPix2Pix。BLSTM将提取的音频特征x与中间潜在代码z相关联；VAE解码器从z构造相应的姿势图w；最后，SeqPix2Pix根据给定的w产生最终视频。

　　缺少精细的运动细节

　　为了测试LumièreNet，研究人员拍摄了一个八小时的室内讲座视频，产出了大概四小时的视频和两段用于训练和验证的旁白。

　　研究人员报道说，通过训练的AI系统可以生成逼真的视频片段，有流畅的身体动作和写实的头发，但是这些结果在观察者眼里还是不能骗过观察者的眼睛。

　　因为这些姿态评估器不能捕捉像眼球运动、嘴唇、头发、衣物之类的细节，被合成的演讲者很少眨眼而且他们嘴巴的运动看起来有些不自然。

　　两段完整视频地址：

　　https://vimeo.com/327196551

　　https://vimeo.com/327196781

　　可以看到，在这一段合成的视频中人物的动作不够生动，尤其是缺乏眼神上的交流。虽然嘴唇的开合与叙述几乎完美同步，但是缺少更精细的运动细节。仔细看的话，会发现手指之间看起来模糊，更糟糕的是眼睛有的时候会看向不同的方向。

　　添加“Facial Keypoint”，或许能让合成变得更好

　　研究团队猜想，“面部要点”（例如，生动的细节）的添加或许能够使合成变得更好。幸运的是，他们的系统模块设计使得每一个组件都能被独立训练和验证。

　　“许多未来的方向都是可被探索的”研究人员写道，“即使最开始的时候只是用于支持灵活的视频内容发展。我们知道这项技术存在潜在的滥用行为……但是希望研究结果可以促进深度学习在商业视频生产领域的发展。”

本文首发于微信公众号：大数据文摘。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

——本信息真实性未经中国自动化网证实，仅供您参考

热门关键字：

运动平台 THK直线导轨滑块 调度台 喷油器试验台 超声波换能器 施耐德断路器 通讯模块 配电器 金属探测 电阻焊

栏目推荐

给出音频AI就能生成对应演讲，Udacity想把线上课程录制自动化

信息来源：coaoo.com 时间： 2019-08-27 浏览次数：26

热门关键字：

运动平台 THK直线导轨滑块 调度台 喷油器试验台 超声波换能器 施耐德断路器 通讯模块 配电器 金属探测 电阻焊

栏目推荐

给出音频AI就能生成对应演讲，Udacity想把线上课程录制自动化

信息来源：coaoo.com 时间： 2019-08-27 浏览次数：26

运动平台 THK直线导轨滑块调度台喷油器试验台超声波换能器施耐德断路器通讯模块配电器金属探测电阻焊