资讯专栏INFORMATION COLUMN

Facebook的人工智能实验室在Github发布开源的fastText工具

everfly / 2996人阅读

摘要:为了能够对文本信息进行既快速又准确的分类,人工智能研究实验室开发出了。宣布这项新的开源技术可以在分钟内用标准的多核训练超过亿个词语。还能在不超过分钟的时间内对万个句子进行超过万种分类。从文章发表之日起,的源代码可以在上自由获取。

Facebook上每天有数十亿条信息被共享。为了跟上信息增长的速度,Facebook一直在使用多种不同的文本信息归类工具。传统的分类方法,如深度神经网络,虽然能达到较高的较精确度,但对大量训练的需求是一个严重的问题。

为了能够对文本信息进行既快速又准确的分类,Facebook人工智能研究(FAIR)实验室开发出了fastText。今天Facebook公开了fastText的源代码,以供开发者随时随地使用它的代码库。

FastText不但支持文本分类,还可以通过词汇包(bag of words)和分解词语信息(subword information)等方法学习词语向量表示(word vector representation)。基于Skip-gram模型,词语以向量呈现的字母n-gram模型(假设第n个字符出现只与前n-1个字符有关的概率模型,译注)包的形式呈现。

“为了在分类繁多的数据处理中提高效率,fastText利用了层级分类器,用树状的形式组织不同的分类,而不是扁平的结构(如用二叉树结构代替列表)。”Facebook作者 Armand Joulin, Edouard Grave, Piotr Bojanowski和Tomas Mikolov在一篇帖子上说。 

对那些较低程度的人工智能来说,词汇包的方法是快速的,因为这种方法从根本上忽略了词语顺序,而专注于计算词语出现的概率。“词语”被呈现在多维空间中,利用线性代数的方法计算一组或一类词语之间的相关性。要记住,我们在电脑上输入词语时,都是从头开始的。对掌握语言的人类来说,语法是有指导作用的——我们知道词语的结构作用,知道以什么词开始、以什么词结尾。电脑虽然能处理最复杂的计算任务,但在区分“I love TechCrunch”和“Crunch Love iTech.”两句话时会遇到困难。类似词汇包这样的方法,从根本上通过增加数学运算把质量分析转化为数量分析。

这些技术能让fastText运行的比传统深度学习方法更快速。Facebook做了一个实用的对比图表,准确地展现了两种方法的对比结果。

FastText的使用不限于英语,还能用于德语、西班牙语、法语和捷克语等语言的处理。

这个月早些时候,Facebook在新闻推送服务中加入了防钓鱼算法。虽然这个算法非常复杂,可以进行行为和语言鉴别两方面的任务,但公开的fastText可以让开发者自己创建与之类似的工具。

Facebook宣布这项新的开源技术可以“在10分钟内用标准的多核CPU训练超过10亿个词语。FastText还能在不超过5分钟的时间内对50万个句子进行超过30万种分类。”这并没有自夸。

从文章发表之日起,Facebook的fastText源代码可以在Github上自由获取。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4383.html

相关文章

  • Facebook开源深度学习框架Caffe2,带来跨平台机器学习工具

    摘要:部署旨在帮助开发人员和研究人员训练大规模机器学习模型,并在移动应用中提供驱动的用户体验。现在,开发人员可以获取许多相同的工具,能够在大规模分布式场景训练模型,并为移动设备创建机器学习应用。 AI 模型的训练和部署通常与大量数据中心或超级计算机相关联,原因很简单。从大规模的图像、视频、文本和语音等各种信息中持续处理、创建和改进模型的能力不是小型计算擅长的。在移动设备上部署这些模型,使其快速轻量...

    weapon 评论0 收藏0
  • 最新Github上各DL框架Star数量大PK

    摘要:下图总结了绝大多数上的开源深度学习框架项目,根据项目在的数量来评级,数据采集于年月初。然而,近期宣布将转向作为其推荐深度学习框架因为它支持移动设备开发。该框架可以出色完成图像识别,欺诈检测和自然语言处理任务。 很多神经网络框架已开源多年,支持机器学习和人工智能的专有解决方案也有很多。多年以来,开发人员在Github上发布了一系列的可以支持图像、手写字、视频、语音识别、自然语言处理、物体检测的...

    oogh 评论0 收藏0
  • Facebook最新开源Torchnet工具包,加速人工智能研究

    摘要:昨日,研究人员开源工具包,并表示这个工具包可快速建立有效且可重复使用的学习系统,从而促进深度学习协同发展。支持机器学习与人工智能已经出现很多年,它们的大多研究进展已经被公用研究数据集和更强大的计算机所支持尤其是。 昨日,Facebook 研究人员开源 Torchnet 工具包,并表示这个工具包可快速建立有效且可重复使用的学习系统,从而促进深度学习协同发展。在发布的这篇 Blog 中,Face...

    hightopo 评论0 收藏0
  • 十个值得一试开源深度学习框架

    摘要:诞生已经有十年之久,但是真正起势得益于去年开源了大量的深度学习模块和扩展。来自一个日本的深度学习创业公司,今年月发布的一个框架。顾名思义,是的深度学习框架,也是较早的商用级别的深度学习开源库。 本周早些时候Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索...

    jokester 评论0 收藏0
  • PyTorch一周年战绩总结:是否比TensorFlow来势凶猛?

    摘要:截止到今天,已公开发行一周年。一年以来,社区中的用户不断做出贡献和优化,在此深表感谢。所以与衡量它的指标包括在机器学习研究论文中的使用。来自香港科技大学的在上推出了面向普通观众的在线课程。 Yann LeCun Twitter截止到今天,PyTorch 已公开发行一周年。一年以来,我们致力于打造一个灵活的深度学习研究平台。一年以来,PyTorch 社区中的用户不断做出贡献和优化,在此深表感谢...

    ymyang 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<