警惕AI，我搭建了一个“枪枪爆头”的视觉AI自瞄程序，却引发了一场“山雨欲来”

pingink 发布于2021-09-10 10:50 / 1663人阅读

摘要：前言前段时间在网上看到警惕外挂我写了一个枪枪爆头的视觉，又亲手杀死了它这个视频，引起了我极大的兴趣。人体关节点对应序号因此如果为了自动瞄准头部实现枪枪爆头，仅需要反馈的坐标点就行了。第二个威胁就是无法被外挂程序检测的隐蔽性。

前言

前段时间在网上看到《警惕AI外挂！我写了一个枪枪爆头的视觉AI，又亲手“杀死”了它》这个视频，引起了我极大的兴趣。

视频中提到，在国外有人给使命召唤做了个AI程序来实现自动瞄准功能。它跟传统外挂不一样，该程序不需要用游戏内存数据，也不往服务器发送作弊指令，只是通过计算机视觉来分析游戏画面，定位敌人，把准星移动过去，跟人类玩家操作一模一样，因此反外挂程序无法检测到它。而且更恐怖的是这AI程序全平台通用，不管是X-box，PS4还是手机，只要能把画面接出来，把操作送进去，就可以实现“枪枪爆头”。

外网的那个开发者用的是基于方框的目标检测，但是像射击游戏需要定位人体的场景，其实有比方框检测更好的算法。up主就利用了几个小时的时间就写出来了一个效果更好，功能更夸张的AI程序，也就是利用人体关节点检测技术，通过大量真人图片训练出来的视觉AI，可以把视频和图片里人物的关节信息提取出来并给出每个部位中心点的精确像素坐标，而且虽然训练的是是真人图片，但是给它游戏里的人物，他也一样能把人体关节定位出来。

可以说由于这类AI程序的出现，现在fps游戏的形式就是山雨欲来风满楼，十分严峻啊！

下面，我们先开始介绍这个视觉AI自动瞄准的制作思路，然后再谈谈这个问题带来的影响以及如何解决这个问题。

一、核心功能设计

总体来说，我们首先需要训练好一个人体关节点检测的AI视觉模型，然后将游戏画面实时送入AI视觉模型中，再反馈出游戏人物各个部位的像素位置，然后确定瞄准点，并将鼠标移动到瞄准点位置。

拆解需求后，整理出核心功能如下：

训练人体关节点检测模型
输入视频或图片到AI视觉模型，并输出瞄准点位置。
自动操作鼠标移动到对应瞄准位置

最终想要实现的效果如下图所示：

二、核心实现步骤

1.训练人体关节点检测模型

在这一部分，我打算使用由微软亚洲研究院和中科大提出High-Resoultion Net(HRNet)来进行人体关节点检测，该模型通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络，不同网络实现多尺度融合与特征提取实现的，所以在目前的通用数据集上取得了较好的结果。

1.1 HRNet代码库安装

按照官方的install指导命令，安装十分简单。我是采用本地源代码安装方式。

git clone https://github.com/leoxiaobin/deep-high-resolution-net.pytorch.gitpython -m pip install -e deep-high-resolution-ne.pytorch

1.2 人体关键点数据集下载

首先打开COCO数据集官方下载链接。

对于Images一栏的绿色框需要下载三个大的文件，分别对应的是训练集，验证集和测试集：

2017 Train images [118K/18GB]
2017 Val images [5K/1GB]
2017 Test images [41K/6GB]

对于Annotations一栏绿色框需要下载一个标注文件：

2017 Train/Val annotations [241MB]

将文件解压后，可以得到如下目录结构：

其中的 person_keypoints_train2017.json 和 person_keypoints_val2017.json 分别对应的人体关键点检测对应的训练集和验证集标注。

annotations
├── captions_train2017.json
├── captions_val2017.json
├── instances_train2017.json
├── instances_val2017.json
├── person_keypoints_train2017.json 人体关键点检测对应的训练集标注文件
└── person_keypoints_val2017.json 人体关键点检测对应的验证集标注文件

在本地代码库datasets目录下面新建立coco目录，将上面的训练集，验证集以及标注文件放到本地代码的coco目录下面

datasets
├── coco
│ ├── annotations
│ ├── test2017
│ ├── train2017
│ └── val2017

1.3 环境配置与模型训练

核心训练代码如下：

def train(config, train_loader, model, criterion, optimizer, epoch,          output_dir, tb_log_dir, writer_dict):    batch_time = AverageMeter()    data_time = AverageMeter()    losses = AverageMeter()    acc = AverageMeter()    # switch to train mode    model.train()    end = time.time()    for i, (input, target, target_weight, meta) in enumerate(train_loader):        data_time.update(time.time() - end)        outputs = model(input)        target = target.cuda(non_blocking=True)        target_weight = target_weight.cuda(non_blocking=True)        if isinstance(outputs, list):            loss = criterion(outputs[0], target, target_weight)            for output in outputs[1:]:                loss += criterion(output, target, target_weight)        else:            output = outputs            loss = criterion(output, target, target_weight)        optimizer.zero_grad()        loss.backward()        optimizer.step()        # measure accuracy and record loss        losses.update(loss.item(), input.size(0))        _, avg_acc, cnt, pred = accuracy(output.detach().cpu().numpy(),                                         target.detach().cpu().numpy())        acc.update(avg_acc, cnt)        batch_time.update(time.time() - end)        end = time.time()        if i % config.PRINT_FREQ == 0:            msg = "Epoch: [{0}][{1}/{2}]/t" /                  "Time {batch_time.val:.3f}s ({batch_time.avg:.3f}s)/t" /                  "Speed {speed:.1f} samples/s/t" /                  "Data {data_time.val:.3f}s ({data_time.avg:.3f}s)/t" /                  "Loss {loss.val:.5f} ({loss.avg:.5f})/t" /                  "Accuracy {acc.val:.3f} ({acc.avg:.3f})".format(                      epoch, i, len(train_loader), batch_time=batch_time,                      speed=input.size(0)/batch_time.val,                      data_time=data_time, loss=losses, acc=acc)            logger.info(msg)            writer = writer_dict["writer"]            global_steps = writer_dict["train_global_steps"]            writer.add_scalar("train_loss", losses.val, global_steps)            writer.add_scalar("train_acc", acc.val, global_steps)            writer_dict["train_global_steps"] = global_steps + 1            prefix = "{}_{}".format(os.path.join(output_dir, "train"), i)            save_debug_images(config, input, meta, target, pred*4, output,                              prefix)

训练结果：

2.输入视频或图片实时反馈瞄准点坐标

2.1 实时读取屏幕画面

import pyautoguiimg = pyautogui.screenshot()

在一个 1920×1080 的屏幕上，screenshot()函数要消耗100微秒，基本达到实时传入游戏画面要求。

如果不需要截取整个屏幕，还有一个可选的region参数。你可以把截取区域的左上角XY坐标值和宽度、高度传入截取。

im = pyautogui.screenshot(region=(0, 0, 300 ,400))

2.2 读取图片反馈坐标

parser.add_argument("--keypoints", help="f:full body 17 keypoints,h:half body 11 keypoints,sh:small half body 6 keypotins")hp = PoseEstimation(config=args.keypoints, device="cuda:0")

可以选择人体关节点检测数目，包括上半身6个关键点、上半身11个关键点以及全身17个关键点，然后构建探测器。

人体关节点对应序号：

"keypoints": { 0: "nose", 1: "left_eye", 2: "right_eye", 3: "left_ear", 4: "right_ear", 5: "left_shoulder", 6: "right_shoulder", 7: "left_elbow", 8: "right_elbow", 9: "left_wrist", 10: "right_wrist", 11: "left_hip", 12: "right_hip", 13: "left_knee", 14: "right_knee", 15: "left_ankle", 16: "right_ankle" }

因此如果为了自动瞄准头部实现“枪枪爆头”，仅需要反馈 0: "nose"的坐标点就行了。

代码如下：

location=hp.detect_head(img_path, detect_person=True, waitKey=0)def detect_head(self, image_path, detect_person=True, waitKey=0):            bgr_image = cv2.imread(image_path)    kp_points, kp_scores, boxes = self.detect_image(bgr_image,                                                    threshhold=self.threshhold,                                                    detect_person=detect_person)    return kp_points[0][0]

输出结果：[701.179 493.55]

可以看到虽然训练的是真人图片，但是给它游戏里的人物，它也一样能把人体关节定位出来。

深度神经网络之所以厉害，就是因为它有一定的演绎推广能力。没见过的东西，他也能靠着层次线索分析一波，结果往往也挺准。而且游戏场景是现实场景的简化之后的结果，环境和光影都要简单的多，能把现实世界分析明白的视觉AI，对付个3D游戏更是小菜一碟了。

3.自动移动鼠标到对应的坐标点

3.1 移动鼠标

移动到指定位置：

pyautogui.moveTo(100,300,duration=1)

将鼠标移动到指定的坐标；duration 的作用是设置移动时间，所有的gui函数都有这个参数，而且都是可选参数。

获取鼠标位置:

print(pyautogui.position())   # 得到当前鼠标位置；输出：Point(x=200, y=800)

3.2 控制鼠标点击

单击鼠标:

# 点击鼠标pyautogui.click(10,10)   # 鼠标点击指定位置，默认左键pyautogui.click(10,10,button="left")  # 单击左键pyautogui.click(1000,300,button="right")  # 单击右键pyautogui.click(1000,300,button="middle")  # 单击中间

双击鼠标：

pyautogui.doubleClick(10,10)  # 指定位置，双击左键pyautogui.rightClick(10,10)   # 指定位置，双击右键pyautogui.middleClick(10,10)  # 指定位置，双击中键

点击 & 释放：

pyautogui.mouseDown()   # 鼠标按下pyautogui.mouseUp()    # 鼠标释放

至此，视觉AI自瞄程序已经基本设计完成。最终实现效果可以参见这个up主的视频。

【亦】警惕AI外挂！我写了一个枪枪爆头的视觉AI，又亲手“杀死”了它

三、引发的思考

也正如up主所说，视觉AI给FPS游戏带来的这一轮重大危机！

这类视觉AI程序目前存在三个威胁：

准确性
隐蔽性
通用性

第一个威胁就是超越人类的准确性。虽然人脑的高层次演绎归纳能力是远胜于AI的，但是在低级信息处理速度和精确度上，人类就很难比得过专精某个功能的AI了，比如在人体关节定位这件事上，给出人体每个部位的中心位置只需要几毫秒，而且精确到像素点，而同样一张图片给人类看个几毫秒，都不一定能够看清人在哪，更别说定位关节移动鼠标了。

第二个威胁就是无法被外挂程序检测的隐蔽性。和传统外挂不一样，传统外挂要操作游戏的内存数据或者文件数据，从而获取游戏世界的信息。让开挂的人打出一些正常玩家不可能实现的作弊操作。而视觉AI是完全独立于游戏数据之外的，和人一样，也是通过实时观察画面发送鼠标和键盘指令，所以传统的反外挂程序只能反个寂寞。

第三个威胁就是适用全平台的通用性。首先这个AI视觉模型是通过大量真人照片训练出来的，但是能够识别游戏中的人物，这意味着可以攻陷大部分FPS游戏。AI操作游戏和人操作游戏交互方式是没区别的，所以衍生出更大的问题，只要能把画面接入到这个模型中，就可以攻陷任意一种游戏平台，包括电脑、主机、手机等，无论你做的多封闭，生态维护的多好，在视觉AI面前众生平等。

那么我们该如何解决这个问题呢？

up主提到可以通过算法检测游戏异常操作，这也是一种思路，但是实现起来还是比较困难，毕竟可以让AI更像人类的操作。

而我想到之前比较火的deepfake，那么我们是不是可以通过对抗样本来解决这个问题呢，使得视觉AI识别错误？

说了那么多，其实也没有什么好的结论，只能说技术的发展是在不断对抗中前进以及规范。

参考：

《Deep High-Resolution Representation Learning for Human Pose Estimation》https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

2D Pose人体关键点实时检测(Python/Android /C++ Demo)

实战Detectron2— 训练人体关键点检测

PyQt5 实时获取屏幕界面图像，python3使用matplotlib

警惕AI外挂！我写了一个枪枪爆头的视觉AI，又亲手“杀死”了它

今天我们就到这里，明天继续努力！

如果该文章对您有所帮助，麻烦点赞，关注，收藏三连支持下！

创作不易，白嫖不好，各位的支持和认可，是我创作的最大动力！

如果本篇博客有任何错误，请批评指教，不胜感激！！！

idc机房托管专线服务 ai直播怎么搭建 ai人工智能平台搭建引发了 java的ai库

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/119783.html

2019 新年第一场 AI 口水仗正在 Twitter 进行

摘要：超神经新年里，人工智能领域的第一场口水战已经在打响，这次的主题是由媒体网站的一个失误所引发的。这次亲自上场撕的主人公是，虽然不如第一梯队的几位大佬著名，但她也是在机器学习领域里举足轻重的人物。 By 超神经2019 新年里，人工智能领域的第一场口水战已经在 Twitter 打响，这次的主题是由媒体网站 Venturebeat 的一个失误所引发的。这场口水战中，包括 Yann LeCun...

jay_tian 2019-06-26 18:42 评论0 收藏0
和世界上另一个你对话是种什么体验？全球首位AI人类观察者诞生

摘要：金磊发自凹非寺量子位报道公众号与世界上的另一个你对话，是种什么体验她叫，是全球首位人类观察者。在第一期节目中，与对话的首位人类，叫做高嘉丰。全球首个社交平台小冰岛上线如果说是在和人类一对一的交流中惊艳了全场。金磊发自凹非寺量子位报道 | 公众号 QbitAI 与世界上的另一个你对...

zzbo 2021-09-28 09:35 评论0 收藏0
深度学习out了？深度解读AI领域三大前瞻技术

摘要：而这种举一反三的能力在机器学习领域同样适用，科学家将其称之为迁移学习。与深度学习相比，我们技术较大优点是具有可证明的性能保证。近几年的人工智能热潮中，深度学习是最主流的技术，以及之后的成功，更是使其几乎成为的代名词。如今，人类将自己的未来放到了技术手里，无论是让人工智能更像人类思考的算法，还是让机器人大脑运转更快的芯片，都在向奇点靠近。谷歌工程总监、《奇点临近》的作者库兹韦尔认为，一旦智能...

muddyway 2019-04-25 18:27 评论0 收藏0
当小企业遇上大平台：一位华为云MVP的自述

摘要：小企业遇上了大平台即便是在人才济济的众多华为云当中，刘源仍然相当抢眼，原因之一就是他看上去实在太年轻了。而在本次华为云开放日活动上，华为云对开发者的重视更是得到了进一步的体现。华为云MVP的使命在华为云携手众多合作伙伴打造的开发者生态中，活跃着这样一群技术大咖的身影。这群技术大咖当中，既有优先体验产品权益、反馈产品优化建议的产品体验官；也有在公开活动中，分享技术经验和实战经验的技术布道者；还...

A Loity 2019-04-29 19:34 评论0 收藏0
“两种云”引发口水战中国公有云竞争白热化

摘要：李津的喊话立即在科技圈引发一场口水大战。面向未来的格局之争两种云口水战从表面上看争的是技术研发实力，实质上争的还是中国云计算市场。由于受近期国内外产业环境影响，中国高科技领域的自主可控已被空前关注，目前相关讨论已延伸至云计算领域。在日前的云栖大会·南京峰会上，阿里云副总裁李津一开场首先向听众分享中国电子信息技术年会为飞天云操作系统颁发科技进步特等奖的消息，接着话锋一转，声称在中国只有两种云，...

tracymac7 2019-04-30 17:25 评论0 收藏0