资讯专栏INFORMATION COLUMN

Google Coral Edge TPU USB加速棒上手体验

hiyayiji / 1106人阅读

摘要:谷歌在年国际消费电子展以及今年的开发峰会上首次展示了他们的,然后于三月份发布了。树莓派上性能的局限性不幸的是,业余爱好者最喜欢树莓派无法充分发挥加速器的功能和速度。使用端口,目前的树莓派设备没有或,而只能使用速度较慢的。

Edge AI是什么?它为何如此重要?

传统意义上,AI解决方案需要强大的并行计算处理能力,长期以来,AI服务都是通过联网在线的云端基于服务器的计算来提供服务。但是具有实时性要求的AI解决方案需要在设备上进行计算 ,因此边缘人工智能(Edge AI)正在逐渐进入人们的视野。

虽然本质上AI计算可以使用基于GPU的设备,但这套设备成本高昂,并且搭配非常繁琐,比如对内存要求越来越高、能耗越来越大等。无论是从研究还是创新角度来讲,边缘人工智能推理都正在成为蓬勃发展的深度学习革命越来越重要的组成部分。

与此同时手持设备(比如手机、平板等)日益普及,每年都能卖掉几十亿台,手机已然成为日常使用最为频繁的设备,可以预测对移动AI计算的需求也正在稳步增加。 因此,移动处理器的开发已经变得越来越以人工智能为重点,这些处理器都具有用于机器学习的专用硬件,比如现在主流的手机CPU评测都会加上一项AI计算能力的跑分。

目前从消费应用到企业应用都遍布 AI 的身影。随着联网设备数量的爆发式增长,以及对隐私/机密、低延迟时间和带宽限制的需求,云端训练的 AI 模型需要在边缘运行的情况不断增加。Edge TPU 是 Google 专门为在边缘运行 AI 而打造的 ASIC,它体型小、能耗低,但性能出色,让您可以在边缘部署高精度 AI。从下图可以看出Edge TPU核心的面积仅有一美分的大概十分之一大小。

Edge TPU可以用来做什么?

可以使用Edge TPU在移动设备上训练模型,但目前仅支持通过迁移学习在设备上重新训练的分类模型,这种训练方法是在Low-Shot Learning with Imprinted Weights这篇论文中提到的imprinted weight技术,此技术为实时系统创造了许多可能性。并且,据相关评测显示,Edge TPU是同类产品中计算速度最快的设备。

市面上已经有的其他AI边缘推理硬件

虽然这是第一个Edge TPU,但这之前就已经有一些类似的AI专用硬件,例如:

英特尔基于MyriadVPU的神经计算棒,及Google Vision Kit。

基于Cuda的NVIDIA Jetson TX2。

Coral Beta版

TPU,也称张量处理单元(Tensor Processing Unit)主要供Google数据中心使用。对于普通用户,可以在Google云端平台(GCP)上使用,也可以使用Google Colab来使用免费版。

谷歌在2019年国际消费电子展(以及今年的TensorFlow开发峰会上)首次展示了他们的Edge TPU,然后于三月份发布了Coral Beta。


Beta版本包括开发板和USB加速器,以及用于生产目的的预览版PCI-E加速器和模块化系统(SOM)。

USB Accelerator

Edge TPU USB Accelerator与任何其他USB设备基本一样,跟英特尔的MyriadVPU的差不多,但功能更强大。接下来我们来一个开箱,并且稍微上手看看。

开箱


盒子中包含:

入门指南

USB加速器

Type C USB数据线

入门指南

入门指南介绍了安装步骤,你可以很快完成安装。包括模型文件在内的所有需要的文件可以随安装包一起在官网下载即可,安装过程并不需要TensorFlowOpenCV这些依赖库。

提示:必须使用Python 3.5,否则将无法完成安装。还需要将install.sh文件最后一行 
python3.5 setup.py develop - user
改为
python3 setup.py develop - user
演示程序

Coral Edge TPU API文档包括图像分类和目标检测的概述和演示程序。

Edge TPU API

在完成以下教程之前,关于Edge TPU API有以下注意事项:

需要安装Python的edgetpu模块才能在Edge TPU上运行TensorFlow Lite模型。它是一个较高层的API,包含一些简单的API以执行模型推理过程。

这些API已经预先安装在开发板上,但如果使用的是USB加速器,则需要自行下载。详细信息请参阅此设置指南。

推理过程中需要用到以下关键API:用于图像分类的ClassificationEngine、用于目标检测的DetectionEngine和用于迁移学习的ImprintingEngine

图像分类

实现图像分类的Demo非常简单,比如可以将下边的图片作为ClassificationEngine接口的输入:

目标检测

与图像分类一样,我们只需要调用一下DetectionEngine接口,就可以将输入图片中的目标检测出并用方框进行标识:

由于默认配置会产生假负例,我们可以将默认示例程序中的阈值从0.05调整到0.5,另外将矩形的宽度调整为5,可以得到以下结果:

由于Coral仍只有测试版,API文档中给出的细节不够完整,但目前给出的部分用于以上示例已经足够了。

注意事项

以上demo的所有代码、模型和标注文件都随安装包中包含的库文件一同在官网下载,根据目前已经给出的模型和输入标注文件等,我们可以完成分类和检测任务。

对于分类任务,结果返回排名前2的预测类别及对应的置信度得分;而对于目标检测任务,结果将返回置信度得分及标注方框的各顶点坐标,若输入时给出类别标注,返回结果中也包含类别名称。

树莓派上性能的局限性

不幸的是,业余爱好者最喜欢树莓派无法充分发挥USB加速器的功能和速度。USB Accelerator使用USB 3.0端口,目前的树莓派设备没有USB 3USB type-C,而只能使用速度较慢的USB 2

目前,它只在Debian Linux上运行,但预计很快就会有支持其他操作系统的方法。

深入拓展

Edge TPU的帮助下,Coral还能提供哪些产品呢?

开发板(Dev Board)

作为开发板来讲,树莓派通常是最受欢迎的选择,但谷歌却更推崇NXP i.MX 8M SOC(Quad-core Cortex-A53 与 Cortex-M4F)。有关开发版的更多信息,请参考此页面。

但是如果用于实验,尤其是仅需使用Edge TPU的情况下,我们更加推荐USB Accelerator

后续开发

若您已经使用开发板或USB Accelerator做出了不错的prototype原型机,但后续需要将同样的代码应用于大规模生产环境,该怎么办呢?

谷歌已经预先想到这一点,可以在产品列表中看到,下述模块将用于企业支持,并且已经被标记为 _即将上线_。

模块化系统(System-on-module, SOM)

这是一个完全集成的系统(包含CPU、GPU、Edge TPU、Wifi、蓝牙和安全元件),采用大小为40mm*40mm的可插拔模块。

此模块可以用于大规模生产,制造商可以按照本模块所提供的指南生产自己喜欢的IO板,甚至上文提到的已经上市的开发板(Dev Board)都包含这个可拆卸的模块,理论上只要拆下来就可以使用。

PCI-E 加速器

关于PCI-E加速器的信息很少,但顾名思义,它是一个带有PCI-E(快捷外设互联标准,Peripheral Component Interconnect Express)的模块,且有两种变体,这类似于USB加速器,不过不同之处在于将USB接口换成了PCI-E,就像内存条或者网卡那样,树莓派也有PCI-E接口的Compute Module版本。

随着各种外设模块的诞生,可以预料,一些企业级项目也将随之诞生。谷歌Coral也这么认为,在他们的网站上有以下说法:

灵活易用,精准裁剪,适用于初创公司与大型企业。
Tensorflow与Coral项目

谷歌的产品大都与Tensorflow有关,目前,Edge TPU仅支持传统的Tensorflow Lite版本的模型,Tensorflow Lite稳定版刚刚发布,参见此页面。

目前,你需要通过一个网页编译器将tflite模型转换为tflite-tpu模型。如果使用的是PyTorch或其他框架也不用担心,可以通过ONNX将模型转化为Tensorflow模型。

展望

尽管缺乏对树莓派的全面支持,以及Beta版本中文档有限,但我对Coral项目保持乐观态度。虽然无法立刻确定这种技术的发展前景,但对更强大、低能耗、高成本效益以及更具创新性的产品,我们应当报以更高的期望。

好了,本次介绍就到这里,这个系列的全文会收录在我的github目录,欢迎大家star和沟通:https://github.com/asukafighting/RaspberryPiHacker

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/20038.html

相关文章

  • 做深度学习这么多年还不会挑GPU?这儿有份选购全攻略

    摘要:深度学习是一个对算力要求很高的领域。这一早期优势与英伟达强大的社区支持相结合,迅速增加了社区的规模。对他们的深度学习软件投入很少,因此不能指望英伟达和之间的软件差距将在未来缩小。 深度学习是一个对算力要求很高的领域。GPU的选择将从根本上决定你的深度学习体验。一个好的GPU可以让你快速获得实践经验,而这些经验是正是建立专业知识的关键。如果没有这种快速的反馈,你会花费过多时间,从错误中吸取教训...

    JohnLui 评论0 收藏0
  • Jeff Dean「Hot Chips 2017」演讲:AI对计算机系统设计的影响

    摘要:谷歌也不例外,在大会中介绍了人工智能近期的发展及其对计算机系统设计的影响,同时他也对进行了详细介绍。表示,在谷歌产品中的应用已经超过了个月,用于搜索神经机器翻译的系统等。此外,学习优化更新规则也是自动机器学习趋势中的一个信号。 在刚刚结束的 2017 年国际高性能微处理器研讨会(Hot Chips 2017)上,微软、百度、英特尔等公司都发布了一系列硬件方面的新信息,比如微软的 Projec...

    explorer_ddf 评论0 收藏0
  • 让AI简单且强大:深度学习引擎OneFlow技术实践

    摘要:本文内容节选自由主办的第七届,北京一流科技有限公司首席科学家袁进辉老师木分享的让简单且强大深度学习引擎背后的技术实践实录。年创立北京一流科技有限公司,致力于打造分布式深度学习平台的事实工业标准。 本文内容节选自由msup主办的第七届TOP100summit,北京一流科技有限公司首席科学家袁进辉(老师木)分享的《让AI简单且强大:深度学习引擎OneFlow背后的技术实践》实录。 北京一流...

    chenjiang3 评论0 收藏0
  • 学习笔记TF067:TensorFlow Serving、Flod、计算加速,机器学习评测体系,公开

    摘要:生产环境灵活高性能机器学习模型服务系统。机器学习评测体系。拒识率,将指定人员误作其他人员概率。聊天机器人性能指标。人机对话过程,连续过程。平均准确性平均准确性平均。用于研究非受限情形人脸识别问题。性别年龄估计人脸检测。 TensorFlow Serving https://tensorflow.github.io/... 。 生产环境灵活、高性能机器学习模型服务系统。适合基于实际数据大...

    baukh789 评论0 收藏0
  • 学习笔记TF067:TensorFlow Serving、Flod、计算加速,机器学习评测体系,公开

    摘要:生产环境灵活高性能机器学习模型服务系统。机器学习评测体系。拒识率,将指定人员误作其他人员概率。聊天机器人性能指标。人机对话过程,连续过程。平均准确性平均准确性平均。用于研究非受限情形人脸识别问题。性别年龄估计人脸检测。 TensorFlow Serving https://tensorflow.github.io/... 。 生产环境灵活、高性能机器学习模型服务系统。适合基于实际数据大...

    lakeside 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<