资讯专栏INFORMATION COLUMN

以假乱真,MIT基于深度学习的新算法给视频配音

mmy123456 / 1796人阅读

摘要:它们的学习过程主要来自于深度学习框架,该项目也由美国国家科学基金会资助。听音辨物为视频匹配逼真声音是音效师的主要工作领域后期制作音频向导,他们记录你在一部好莱坞电影中看到和听到的脚步声门的嘎吱声腾空横踢。

神经网络已经在玩游戏方面超过了我们,并且也应用于智能手机照片的管理以及邮件回复方面。此外,它们还能在好莱坞谋得一职。 

在 MIT 的计算机科学和人工智能实验室(CSAIL),一个由 6 位研究人员组成的小组创建了一套机器学习系统,它可以将声音效果与视频剪辑匹配。 别高兴得太早,CSAIL 的算法还不能在任何旧的视频上工作,而且它产生的声音效果也是有限的。对于该项目,CSAIL 的博士生 Andrew Owens 和研究生 Phillip Isola 将他们用鼓槌重击一堆东西录制成视频,包括树桩、桌子、椅子、水坑、楼梯扶手、枯叶,还有肮脏的地面。 

该小组将最初的 1000 个批量视频输入到它的 AI 算法中。通过分析视频中物体的物理外观,鼓槌的每次运动轨迹,还有最终的声音,计算机能够学习到物理物体和它被击中所发声音之间的联系。然后,通过“观 看”物体被鼓槌重击,轻敲和刮蹭时的不同视频,这个系统可以计算出伴随每个剪辑相应的音调、音量以及的声音听觉特性。

视频:https://youtu.be/0FW99AQmMc8 

该算法本身不产生声音——它只是从成千上万的音频剪辑数据库中获取数据。此外,声音效果也不是基于视觉匹配来选择;你可以在上面视频中1:20 处看到,该算法有自己的创意。它随着沙沙作响的塑料袋来选择声音效果,在灌木从彻底被鼓槌敲击时直接给出声音效果。 

Owens 说,研究小组使用 卷积神经网络来分析视频帧,递归神经网络来选择对应的音频。 

它们的学习过程主要来自于 Caffe 深度学习框架,该项目也由美国国家科学基金会(National Science Foundation and Shell)资助。小组的一名成员在谷歌研究院工作,Owens 则是微软研究奖学金计划的一员。 

Owens 说,“我们几乎已经把现有的深度学习技术运用到了新领域,我们的目标不是开发新的深度学习方法。” 

听音辨物 

为视频匹配逼真声音是音效师的主要工作领域——后期制作音频向导,他们记录你在一部好莱坞电影中看到(和听到)的脚步声、门的嘎吱声、腾空横踢。 

一位出色的音效师可以将声音较精确匹配给视频,让观众误以为这声音是实际捕捉到的。 

MIT 的机器人还没有这么娴熟。该研究小组进行了一项在线调查,为 4000 名参与者展示了同一视频配上原始音频和算法生成的声音版本,然后让他们选择哪个视频里的声音是真实的。有 22% 的人选择了假音频——还远不完美,但效果仍是之前版本算法的两倍。 

根据 Owens 所述,那些测试结果是一个好兆头,预示着计算机视觉算法可以检测物体的组成,以及轻敲、重击、刮蹭物体时产生的不同物理效果。不过,还是有些物体系统不能 正确处理。有些时候,系统会认为鼓槌在撞击某一物体,但实际上并没有,比起对更坚实物体产生的声音效果,更多的人更容易被对落叶和灰尘产生的声音效果愚 弄。 

这个项目不仅仅是为了产生有趣的声音效果,它背后还有更深层的原因。Owens 认为,如果该系统已经非常完善,那么计算机视觉技术就可以帮助机器人通过分析物体发出的声音来识别它的材质和物理属性。Owens 说,“我们希望这些算法通过观察这些物理相互作用以及响应来学习,你可以把它想象成婴儿那样通过敲打、跺脚和玩耍来学习世界。” 

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4389.html

相关文章

  • 图像超分辨率重建概述

    摘要:多图像超分辨率重建算法根据重建过程所在域不同可分为频域法和空域法。单图像超分辨率单图像超分辨率输入的是一幅图像,仅利用一幅图像来重建得到图像。 1. 概念:         图像分辨率是一组用于评估图像中蕴含细节信息丰富程度的性能参数,包括时间分辨率、空间分辨率及色阶分辨率等,体现了成...

    MonoLog 评论0 收藏0
  • 3 分钟带你走进视觉智能新时代 | 七牛云&美图 AI 共享日精彩语录

    摘要:月日下午,七牛云美图共享日在厦门举行,来自七牛云美图厦门大学罗普特等众位大咖齐聚一堂。七牛云美图共享日精华语录计算机识别是按照具体问题具体分析,具体场景具体分析。又称小牛汇共享日,是小牛汇举办的第一个系列活动。 时间机器、穿越星际的宇宙飞船、飞行汽车,几乎每一部科幻电影作品中都能发明点新东西。超现实技术在引起人们阵阵赞叹的同时,也在激励着人们思考如何将不可能变成可能。而在我们的生活当中...

    Jonathan Shieber 评论0 收藏0
  • 深度学习在图像超分辨率重建中的应用

    摘要:基于深度学习的,主要是基于单张低分辨率的重建方法,即。而基于深度学习的通过神经网络直接学习分辨率图像到高分辨率图像的端到端的映射函数。 超分辨率技术(Super-Resolution)是指从观测到的低分辨率图像重建出相应的高分辨率图像,在监控设备、卫星图像和医学影像等领域都有重要的应用价值。SR可分为两类:从多张低分辨率图像重建出高分辨率图像和从单张低分辨率图像重建出高分辨率图像。基于深度学...

    xinhaip 评论0 收藏0
  • 视频技术开发周刊:FFmpeg内置的一个无中生有的音视频输入数据 | 214

    摘要:在一份题为围绕特斯拉引发的注意力涣散的自然扫视行为模型的报告中表示,当车主启动功能时,注意力集中度会出现快速下降。该报告的发布一是为了帮助美国相关部门对未来年可能影响国家力量的核心科技有一个总体上的把握。 每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevi...

    i_garfileo 评论0 收藏0
  • 【转载】关于机器学习的领悟与反思

    摘要:主要从事机器学习与应用统计等领域的教学与科研工作。因此,机器学习是计算机科学和统计学的交叉学科。这本书的引言部分有一个关于统计学与机器学习非常有趣的描述。而且他正致力于机器学习和深度学习的研究和教学。工业界对机器学习领域的人才有大量的需求。 作者介绍 张志华教授 北京大学数学学院教授,北京大数据研究院高级研究员。曾在浙江大学和上海交通大学计算机系任教。主要从事机器学习与应用统计等领域...

    TANKING 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<