资讯专栏INFORMATION COLUMN

大模型推理为什么4090更合适?

推荐奖励小助手 / 400076人阅读

大模型的训练用4090是不合适的,但推理(inference/serving)用4090不能说合适,而是非常香!直接上图!

通过Tensor FP32(TF32)的数据来看,H100性能是全方面碾压4090,但是顶不住H100价格太贵,推理上使用性价比极低。但在和A100的PK中,4090与A100除了在显存和通信上有差异,算力差异与显存相比并不大,而4090是A100价格的1/10,因此如果用在模型推理场景下,4090性价比完胜!(尾部附参数源文件)

image.png

从推理性能层面看,4090在推理方面的性能是比A100更强的,没开混合精度的情况下,A100的FP32向量只有19.5T远低于4090的83T。同时在渲染场景Blender和OctaneBench基准测试中,4090性能也遥遥领先。从推理性能层面看,4090在推理方面的性能是比A100更强的,没开混合精度的情况下,A100的FP32向量只有19.5T远低于4090的83T。同时在渲染场景Blender和OctaneBench基准测试中,4090性能也遥遥领先。

推理性能排行:

70B模型 推理需要多少张4090?

首先我们需要计算一下推理需要多少计算量,根据公式:2 * 输出 token 数量 * 参数数量 flops

总的存储容量很好算,推理的时候最主要占内存的就是参数、KV Cache 和当前层的中间结果。当 batch size = 8 时,中间结果所需的大小是 batch size * token length * embedding size = 8 * 4096 * 8192 * 2B = 0.5 GB,相对来说是很小的。

70B 模型的参数是 140 GB,不管 A100/H100 还是 4090 都是单卡放不下的。那么 2 张 H100 够吗?看起来 160 GB 是够了,但是剩下的 20 GB 如果用来放 KV Cache,要么把 batch size 压缩一半,要么把 token 最大长度压缩一半,听起来是不太明智。因此,至少需要 3 张 H100。

对于 4090,140 GB 参数 + 40 GB KV Cache = 180 GB,每张卡 24 GB,8 张卡刚好可以放下。要知道H100的价格是4090的20倍左右。这个时候4090就非常香了!

如果是针对AI绘画,4090和A100差距如何?

首先,软件用的是StableDiffusion,模型使用的是SDXL,出图尺寸是888x1280,迭代步数50。A100出一张图花费11.5秒,而4090则略快,只需11.4秒,两者差异较小,但A100表现稍显颓势。

在绘制八张图的情况下,A100耗时87秒,而4090仅用80秒,4090表现出色,领先A100约8%。

总体来说,虽然RTX 4090可能不适合超大规模的AI训练任务,它的强大推理能力使其在大模型的推理应用中显得更为合适。尽管在数据中心和专业级AI训练任务中,Tesla A100和H100提供了更高的专业性和适应性,但考虑到成本和可接受的性能输出,RTX 4090为研究人员和技术企业提供了一种高效且经济的解决方案。对于那些寻求在预算内实现高效AI推理的用户,RTX 4090提供了一个既实用又前瞻的选择。


附高性能NVIDIA RTX 40 系列云服务器购买:

https://www.ucloud.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo


附H100、A100、4090官网参数文档:

4090: https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

A100:https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf

H100:https://resources.nvidia.com/en


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/131081.html

相关文章

  • 模型领域GPU性能排名

    图示为GPU性能排行榜,我们可以看到所有GPU的原始相关性能图表。同时根据训练、推理能力由高到低做了排名。我们可以看到,H100 GPU的8位性能与16位性能的优化与其他GPU存在巨大差距。针对大模型训练来说,H100和A100有绝对的优势首先,从架构角度来看,A100采用了NVIDIA的Ampere架构,而H100则是基于Hopper架构。Ampere架构以其高效的图形处理性能和多任务处理能力而...

    推荐奖励小助手 评论0 收藏0
  • 什么GeForce RTX 4090成为了AI领域企业眼中的香饽饽?

    随着人工智能的持续火热,好的加速卡成为了各行业的重点关注对象,因为在AI机器学习中,通常涉及大量矩阵运算、向量运算和其他数值计算。这些计算可以通过并行处理大幅提高效率,而高端显卡的存在,使得在处理要求拥有大量算力的任务时,变得不那么难了。这篇文章大家伙聊聊RTX4090这款显卡,4090论性能不如H100,论价格不如3090,那为什么能成为众多企业、高校科研人员眼中的香饽饽?1. 强大的性能RTX...

    推荐奖励小助手 评论0 收藏0
  • Llama3来袭!如何通过4090GPU云主机快速部署?

    2024年4月18日,Meta AI正式宣布推出开源大模型Llama3,这标志着开源大型语言模型(LLM)领域的又一重大突破。Llama3以其卓越的性能和广泛的应用前景,或将推动人工智能技术快速迈进新纪元。为方便AI应用企业及个人AI开发者快速体验Llama3的超高性能,近期优刻得GPU云主机上线Llama3-8B-Instruct-Chinese镜像,一键配置,快速部署模型开发环境。为客户提供开...

    推荐奖励小助手 评论0 收藏0
  • 英伟达推出视觉语言模型:VILA,这不得拿4090试试水?

    NVIDIA和MIT的研究人员推出了一种新的视觉语言模型(VLM)预训练框架,名为VILA。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。VILA通过在大规模数据集如Coy0-700m上进行预训练,采用基于LLaVA模型的不同预训练策略进行测试。研究人员还引入了视觉指令调整方法,利用视觉语言数据集进行基于提示的指令调整来细化模型。VILA在视觉问答基准测试中...

    推荐奖励小助手 评论0 收藏0
  • 英伟达推出视觉语言模型:VILA,这不得拿4090试试水?

    NVIDIA和MIT的研究人员推出了一种新的视觉语言模型(VLM)预训练框架,名为VILA。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。VILA通过在大规模数据集如Coy0-700m上进行预训练,采用基于LLaVA模型的不同预训练策略进行测试。研究人员还引入了视觉指令调整方法,利用视觉语言数据集进行基于提示的指令调整来细化模型。VILA在视觉问答基准测试中...

    推荐奖励小助手 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<