图像分割

发布日期：2023-11-01 来源：浏览次数：作者：NIC

计算机视觉旨在识别和理解图像中的内容，包含三大基本任务:图像分类、目标检测和图像分割，其中图像分割又可分为:语义分割和实例分割。

这三个任务对图像的理解逐步深入。假设给定一张输入图像，

图像分类旨在判断该图像所属类别。

目标检测是在图像分类的基础上，进一步判断图像中的目标具体在图像的什么位置，通常是以外包矩形(bounding box)的形式表示。

图像分割是目标检测更进阶的任务，目标检测只需要框出每个目标的包围盒，语义分割需要进一步判断图像中哪些像素属于哪个目标。但是，语义分割不区分属于相同类别的不同实例。如上图所示，当图像中有多个cube时，语义分割会将所有立方体整体的所有像素预测为“cube”这个类别。

1.1 图像分割的定义

定义:在计算机视觉领域，图像分割（Object Segmentation）指的是将数字图像细分为多个图像子区域（像素的集合）的过程，并且同一个子区域内的特征具有一定相似性，不同子区域的特征呈现较为明显的差异。

图像分割的目标就是为图像中的每个像素分类。应用领域非常的广泛:自动驾驶、医疗影像，图像美化、三维重建等等。

自动驾驶（Autonomous vehicles）:汽车需要安装必要的感知系统以了解它们的环境，这样自动驾驶汽车才能够安全地驶入现有的道路

医疗影像诊断（Medical image diagnostics）:机器在分析能力上比放射科医生更强，而且可以大大减少诊断所需时间。

图像分割是一个非常困难的问题，尤其是在深度学习之前。深度学习使得图像分割的准确率提高了很多，接下来我们主要围绕深度学习方法给大家介绍图像分割的内容。

1.2 任务类型

1.2.1 任务描述

简单来说，我们的目标是输入一个RGB彩色图片（height×width×3）（height×width×3）或者一个灰度图（height×width×1）（height×width×1），然后输出一个包含各个像素类别标签的分割图（height×width×1）（height×width×1）。

1.2.2 任务类型

目前的图像分割任务主要有两类: 语义分割和实例分割

语义分割就是把图像中每个像素赋予一个类别标签，如下图我们将图像中的像素分类为人，羊，狗，草地即可。

实例分割，相对于语义分割来讲，不仅要区分不同类别的像素，还需要对同一类别的不同个体进行区分。目前图像分割的任务主要集中在语义分割，而目前的难点也在于“语义”，表达某一语义的同一物体并不总是以相同的形象出现，如包含不同的颜色、纹理等，这对精确分割带来了很大的挑战。而且以目前的模型表现来看，在准确率上还有很大的提升空间。而实例分割的思路主要是目标检测+语义分割，即用目标检测方法将图像中的不同实例框出，再用语义分割方法在不同检测结果内进行逐像素标记。

1.3 常用的开源数据集

图像分割常用的数据集是PASCAL VOC，城市风光数据集，coco数据集等。VOC数据集共有20类数据。Cityscapes是由奔驰于2015年推出的，提供无人驾驶环境下的图像分割数据集。它包含50个城市不同场景、不同背景、不同季节的街景，提供了5000张在城市环境中驾驶场景的高质量像素级注释图像。Cityscapes是目前公认的自动驾驶领域内最具权威性和专业性的图像语义分割评测集之一，其关注真实场景下的城区道路环境理解，任务难度更高且更贴近于自动驾驶等热门需求。

1.4 评价指标

图像分割中通常使用许多标准来衡量算法的精度。

1.4.1 像素精度

Pixel Accuracy(PA，像素精度):这是最简单的度量，为预测正确的像素占总像素的比例。

对于样本不均衡的情况，例如医学图像分割中，背景与标记样本之间的比例往往严重失衡。因此并不适合使用这种方法进行度量。

1.4.2 平均交并比

平均交并比:为语义分割的标准度量，其计算两个集合的交集和并集之比，在语义分割的问题中，这两个集合为真实值和预测值。交集为预测正确的像素数，并集为预测或真实值为ii类的和减去预测正确的像素，在每个类上计算IoU，之后求平均即可。