资讯专栏INFORMATION COLUMN

蚂蚁百灵大模型:多模态能力让大模型像人一样理解感知

UCloud小助手 / 65人阅读

7月5日,在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公布其自研百灵大模型最新研发进展:百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路,在国内,目前只有为数不多的大模型厂商实现了这一能力。

从大会现场的演示看到,多模态技术可以让大模型更像人一样感知和互动,支撑智能体体验升级,百灵的多模态能力已应用于“支付宝智能助理”上,未来还将支持支付宝上更多智能体升级。

据了解,百灵大模型多模态能力,在中文图文理解MMBench-CN评测集上达到GPT-4o水平,在信通院多模态安全能力评测达到优秀级(最高),具备支持规模化应用的能力,能支持AIGC、图文对话、视频理解、数字人等一系列下游任务。

多模态大模型技术能够使AI更好地理解人类世界的复杂信息,也让AI落地应用时更符合人类的交互习惯,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。

蚂蚁集团有着丰富的应用场景,百灵大模型的多模态能力,也已被应用在生活服务、搜索推荐、互动娱乐等场景。在生活服务上,蚂蚁集团使用多模态模型实现了ACT技术,让智能体具备一定规划执行能力,比如根据用户语音指定直接在星巴克小程序下单一杯咖啡,目前这一功能已在支付宝智能助理上线。在医疗领域,多模态能力为用户实现复杂任务的操作,可以对超过100多种复杂的医学检验检测报告进行识别和解读,还可以检测毛发健康和脱发情况,为治疗提供辅助。

发布现场,蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景:通过视频对话的自然形式,AI助理能为用户识别穿着打扮,给出约会的搭配建议;根据用户不同的意图,从一堆食材中搭配出不同的菜谱组合;根据用户描述的身体症状,从一批药物中,挑选出可能合适的药,并读出服用指导,供用户参考等。

基于百灵大模型多模态能力,蚂蚁集团已在探索规模应用落地产业的实践。

论坛上同时发布的“支付宝多模态医疗大模型”,便是这一探索的实践。据了解,支付宝多模态医疗大模型添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料以及千万级高质量医疗知识图谱,具备专业医学知识,在中文医疗 LLM 评测榜单promptCBLUE上,取得A榜第一、B榜第二的成绩。

基于百灵大模型多模态能力,由蚂蚁集团与武汉大学联合研发的遥感模型SkySense,也在论坛上公布了开源计划。SkySense是目前参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。

“从单一的文本语义理解,到多模态能力,是人工智能技术的关键迭代,而多模态技术催生的‘看听说写画’的应用场景,将让AI的表现更真实,更接近人类,从而也能更好地服务人类。蚂蚁会持续投入原生多模态技术的研发。”徐鹏说。

随着技术的不断进步和应用场景的不断拓展,百灵大模型有望在更多领域发挥重要作用。蚂蚁集团等研发机构将继续投入原生多模态技术的研发,推动人工智能技术的关键迭代。同时,百灵大模型的多模态能力也将为智能客服、自动驾驶、医疗诊断等领域带来更多创新应用,推动这些领域的智能化升级和发展。

综上所述,百灵大模型作为一款具有强大技术实力和广泛应用前景的生成式人工智能大模型,正在不断推动人工智能技术的发展和应用落地。


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/131127.html

相关文章

  • 蚂蚁金服智能推荐引擎解决方案与实践

    摘要:演讲中,王志勇代表蚂蚁金服首次向公众介绍了蚂蚁金服智能推荐引擎,分享了蚂蚁金服利用人工智能和大数据能力在推荐引擎上沉淀的大量经验,并介绍了结合蚂蚁自身优势打造的能够灵活适配各种业务场景的智能推荐引擎解决方案及其能力和优势。 摘要:以数字金融新原力(The New Force of Digital Finance)为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。金融智能...

    tuantuan 评论0 收藏0
  • 人工智能在财富领域的应用与探索

    摘要:财富管理专场上,蚂蚁金服财富事业群资深技术专家康宇麟做了主题为人工智能在财富领域的应用与探索的精彩分享。使用人工智能技术可以帮助蚂蚁金服决定给客户理赔的金额,这大大提升了运营的效率。 摘要: 以数字金融新原力(The New Force of Digital Finance)为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。财富管理专场上,蚂蚁金服财富事业群资深技术专家...

    n7then 评论0 收藏0
  • 超越Llama3,模态比肩GPT4V:GLM-4智能体,新一代语言处理利器

    在人工智能领域,自然语言处理技术一直备受关注。就在昨日,今年备受关注的国内AI公司北京智谱AI发布了第四代 GLM 系列开源模型:GLM-4-9B。这是一个集成了先进自然语言处理技术的创新平台,它凭借清华大学KEG实验室提出的GLM模型结构,为智能体功能的发展带来了新的突破的同时所有大模型全部保持开源,一系列商业化成果、技术突破让人眼前一亮。让我们一起揭开GLM-4的神秘面纱,探索其在代码执行、联...

    UCloud小助手 评论0 收藏0

发表评论

0条评论

阅读需要支付1元查看
<