深度学习在计算机视觉领域（图像，视频，3-D点云，深度图）的应用一览计算机视觉图像处理

ztyzz 发布于2021-09-28 09:35 / 2346人阅读

摘要：现在这种天然的特征描述机制，给图像预处理提供了不错的工具，它能将图像处理和视觉预处理合二为一。前面运动估计已经用深度学习求解了，现在这两个问题自然也是。和上个问题类似，采用深度图学习做合成图像，也属于空间。

先说图像/视频处理（计算机视觉的底层，不低级）
图像处理，还有视频处理，曾经是很多工业产品的基础，现在电视，手机还有相机/摄像头等等都离不开，是技术慢慢成熟了（传统方法），经验变得比较重要，而且芯片集成度越来越高，基本上再去研究的人就少了。经典的ISP，A3，都是现成的，当然做不好的也很难和别人竞争，成本都降不下来。这是一个典型成像处理的流程图：

我整理了一份关于pytorch、python基础，图像处理opencv/自然语言处理、机器学习、数学基础等资源库，想学习人工智能或者转行到高薪资行业的，大学生都非常实用，无任何套路免费提供,，加我裙:361598961
也可以领取的内部资源，人工智能题库，大厂面试题学习大纲自学课程大纲还有200G人工智能资料大礼包免费送哦~
经典的ISP流程图如下：

图像处理，根本上讲是基于一定假设条件下的信号重建。这个重建不是我们说的3-D重建，是指恢复信号的原始信息，比如去噪声，内插。这本身是一个逆问题，所以没有约束或者假设条件是无解的，比如去噪最常见的假设就是高斯噪声，内插实际是恢复高频信号，可以假设边缘连续性和灰度相关性，著名的TV（total variation）等等。以前最成功的方法基本是信号处理，机器学习也有过，信号处理的约束条件变成了贝叶斯规则的先验知识，比如sparse coding/dictionary learning，MRF/CRF之类，现在从传统机器学习方法过渡到深度学习也正常吧。
1 去噪/去雾/去模糊/去鬼影；
先给出一个encoder-decoder network的AR-CNN模型（AR=Artifact Reduction）：

这是一个图像处理通用型的模型框架：

2 增强/超分辨率（SR）；
Bilateral filter是很有名的图像滤波器，这里先给出一个受此启发的CNN模型做图像增强的例子：

前面说过内插的目的是恢复失去的高频信息，这里一个做SR的模型就是在学习图像的高频分量：

3 修补/恢复/着色；
用于修补的基于GAN思想的Encoder-Decoder Network模型：

用于灰度图像着色（8比特的灰度空间扩展到24比特的RGB空间）的模型框架：

还有计算机视觉的预处理（2-D）

计算机视觉需要图像预处理，比如特征提取，包括特征点，边缘和轮廓之类。以前做跟踪和三维重建，首先就得提取特征。特征点以前成功的就是SIFT/SURF/FAST之类，现在完全可以通过CNN形成的特征图来定义。

边缘和轮廓的提取是一个非常tricky的工作，细节也许就会被过强的图像线条掩盖，纹理（texture）本身就是一种很弱的边缘分布模式，分级（hierarchical）表示是常用的方法，俗称尺度空间（scale space）。以前做移动端的视觉平台，有时候不得不把一些图像处理功能关掉，原因是造成了特征畸变。现在CNN这种天然的特征描述机制，给图像预处理提供了不错的工具，它能将图像处理和视觉预处理合二为一。

1 特征提取；
LIFT（Learned Invariant Feature Transform）模型，就是在模仿SIFT：

2 边缘/轮廓提取；
一个轮廓检测的encoder-decoder network模型：

3 特征匹配；

这里给出一个做匹配的模型MatchNet：

再说2.5-D计算机视觉部分（不是全3-D）

涉及到视差或者2-D运动的部分一般称为2.5-D空间。这个部分和前面的2-D问题是一样的，作为重建任务它也是逆问题，需要约束条件求解优化解，比如TV，GraphCut。一段时间（特别是Marr时代）计算机视觉的工作，就是解决约束条件下的优化问题。

后来，随机概率和贝叶斯估计大行其事，约束条件变成了先验知识（prior），计算机视觉圈里写文章要是没有 P (Probability) 和 B (Bayes)，都不好意思发。像SVM， Boosting，Graphical Model，Random Forest，BP（Belief Propagation），CRF（Conditional Random Field），Mixture of Gaussians，MCMC，Sparse Coding都曾经是计算机视觉的宠儿，现在轮到CNN出彩：）。

可以说深度学习是相当“暴力”的，以前分析的什么约束呀，先验知识呀在这里统统扔一边，只要有图像数据就可以和传统机器学习方法拼一把。

1 运动/光流估计；

传统的方法包括局部法和全局法，这里CNN取代的就是全局法。这里是一个光流估计的模型：

2 视差/深度图估计；

深度图估计和运动估计是类似问题，唯一不同的是单目可以估计深度图，而运动不行。这里是一个双目估计深度图的模型：

而这个是单目估计深度图的模型：巧妙的是这里利用双目数据做深度图估计的非监督学习

另外一个单目深度估计的模型：也是利用双目的几何约束做非监督的学习

3 视频去隔行/内插帧；

Deinterlacing和Framerate upconversion视频处理的经典问题，当年Sony和Samsung这些电视生产商这方面下了很大功夫，著名的NXP（从Philips公司spin-off）当年有个牛逼的算法在这个模块挣了不少钱。

基本传统方法都是采用运动估计和补偿的方法，俗称MEMC，所以我把它归类为2.5-D。前面运动估计已经用深度学习求解了，现在这两个问题自然也是。

首先看一个做MEMC的模型：

这是做Deinterlacing的一个模型：

这是Nvidia的Framerate Upconversion方面模型：

因为它采用optic flow方法做插帧，另外附上它的flow estimation模型：就是一个沙漏（hourglass）模式

4 新视角图像生成；刚才介绍单目估计深度图的时候，其实已经看到采用inverse warping方法做新视角生成的例子，在IBR领域这里有一个分支叫Depth Image-based Rendering （DIBR）。

和上个问题类似，采用深度图学习做合成图像，也属于2.5-D空间。在电视领域，曾经在3-D电视界采用这种方法自动从单镜头视频生成立体镜头节目。以前也用过机器学习，YouTube当年采用image search方法做深度图预测提供2D-3D的内容服务，但性能不好。现在感觉，大家好像不太热衷这个了。

这是一个产生新视角的模型：

而这个是从单镜头视频生成立体视频的模型：

有做编码/解码的，也是采用运动或者相似变换为基础，但性能不如传统方法，这里忽略。
更多人工智能精品课程欢迎加微领取哟~

私有云混合云计算机视觉、图像识别图像识别和计算机视觉计算机视觉和图像识别计算机视觉图像识别技术

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/121393.html

自动驾驶车辆在结构化场景中基于HD-Map由粗到精语义定位

摘要：最后，为了使规划模块获得更平滑的姿态，提高定位系统的鲁棒性，采用了带有滑动窗口的姿态图，优化窗口中包含跟踪良好的帧数据，如果滑动窗口的大小超过阈值，历史记录中的一帧将根据车辆状态从滑动窗口中剔除。点云PCL免费知识星球，点云论文速读。文章：Coarse-to-fine Semanti...

Honwhy 2021-09-27 13:35 评论0 收藏0
GitChat · 人工智能 | 自动驾驶的技术架构和生态发展

摘要：目前每年全球有万人死于车祸，损失，相关于很多国家的，自动驾驶可以很大效率的减少车祸，拯救生命。美国汽车工程师协会和美国高速公路安全局将自动驾驶技术进行了分级。特定场所的高度自动驾驶。这叫基于规则的一种自动驾驶，简单的。来自 GitChat 作者：刘盼更多IT技术分享，尽在微信公众号：GitChat技术杂谈进入 GitChat 阅读原文我们先以汽车在现代科技领域的演进来开始这次的ch...

X1nFLY 2019-06-26 18:16 评论0 收藏0
Learning to Recover 3D Scene Shape from a Single I

摘要：但是现有的单目深度估计方法本身无法如实的恢复准确的三维点云。单张图像形状估计，由深度预测模块和点云模块组成和两模块不同数据源上分别训练，在推理过程中相结合。注意使用点云网络分别预测位移和焦距比例因子。论文地址@inproceedings{Wei2021CVPR, title ...

honmaple 2021-09-02 15:34 评论0 收藏0
机器视觉、模式识别库汇总

摘要：十开放模式识别项目开放模式识别项目，致力于开发出一套包含图像处理计算机视觉自然语言处理模式识别机器学习和相关领域算法的函数库。一、开源生物特征识别库 OpenBROpenBR 是一个用来从照片中识别人脸的工具。还支持推算性别与年龄。使用方法：$ br -algorithm FaceRecognition -compare me.jpg you.jpg二、计算机视觉库 OpenCVOpenC...

habren 2019-04-25 18:17 评论0 收藏0
双目三维重建系统(双目标定+立体校正+双目测距+点云显示)Python

摘要：双目三维重建系统双目标定立体校正双目测距点云显示目录双目三维重建系统双目标定立体校正双目测距点云显示双目三维重建系统双目标定立体校正双目测距点云显示项目结构项目结构双目相机标定和校准双目相机标定和校准双目摄像头双目摄双目三维重建系统(双目标定+立体校正+双目测距+点云显示)Python 目...

jsdt 2021-11-17 09:33 评论0 收藏0