python目标检测实现黑花屏分类任务示例

2023-05-03 原文

背景

视频帧的黑、花屏的检测是视频质量检测中比较重要的一部分，传统做法是由测试人员通过肉眼来判断视频中是否有黑、花屏的现象，这种方式不仅耗费人力且效率较低。

为了进一步节省人力、提高效率，一种自动的检测方法是大家所期待的。目前，通过分类网络模型对视频帧进行分类来自动检测是否有黑、花屏是比较可行且高效的。

然而，在项目过程中，视频帧数据的收集比较困难，数据量较少，部分花屏和正常屏之间差异不够明显，导致常用的分类算法难以满足项目对分类准确度的要求。

因此本文尝试了一种利用目标检测算法实现分类的方式，帮助改善单纯的分类的算法效果不够理想的问题。

核心技术与架构图

一般分类任务的流程如下图，首先需要收集数据，构成数据集；

并为每一类数据定义一个类型标签，例如：0、1、2；再选择一个合适的分类网络进行分类模型的训练,图像分类的网络有很多，常见的有 VggNet, ResNet，DenseNet 等；

最后用训练好的模型对新的数据进行预测,输出新数据的类别。

目标检测任务的流程不同于分类任务，其在定义类别标签的时候还需要对目标位置进行标注；

目标检测的方法也有很多，例如 Fast R-CNN, SSD，YOLO 等；

模型训练的中间过程也比分类模型要复杂，其输出一般为目标的位置、目标置信度以及分类结果。

由于分类算法依赖于一定量的数据，在项目实践中，数据量较少或图像类间差异较小时，传统分类算法效果不一定能满足项目需求。这时，不妨考虑用目标检测的方式来做 ‘分类’。

接下来以 Yolov5 为例来介绍如何将目标检测框架用于实现单纯的分类任务。

技术实现

除了分类之外，目标检测还可以从自然图像中的大量预定义类别中识别出目标实例的位置。

大家可能会考虑目标检测模型用于分类是不是过于繁琐或者用目标检测框架来做单纯的分类对代码的修改比较复杂。

这里，我们将用一种非常简单的方式直接在数据标注和输出内容上稍作修改就能实现单纯的分类了。接下来将介绍一下具体实现方法：

1.数据的标注

实现目标检测时，需要对数据中的目标进行标注，这一过程是十分繁琐的。但在用于纯粹的分类上可以将这一繁琐过程简单化，无需手动标注，直接将整张图作为我们的目标，目标中心也就是图像的中心点。

只需读取整张图像，获得其长、宽以及中心点的坐标就可以完成标注了。并定义好类别标签，正常屏为 0，花屏为：1，黑屏为 2。具体实现如下：

OBJECT_DICT = {"Normalscreen": 0, "Colorfulscreen": 1, "Blackscreen": 2}
def parse_json_file(image_path):
    imageName = os.path.basename(image_path).split('.')[0]
    img = cv2.imread(image_path)
    size = img.shape
    label = image_path.split('/')[4].split('\\')[0]
    label = OBJECT_DICT.get(label)
    imageWidth = size[0]
    imageHeight = size[1]
    label_dict = {}
    xmin, ymin = (0, 0)
    xmax, ymax = (imageWidth, imageHeight)
    xcenter = (xmin   xmax) / 2
    xcenter = xcenter / float(imageWidth)
    ycenter = (ymin   ymax) / 2
    ycenter = ycenter / float(imageHeight)
    width = ((xmax - xmin) / float(imageWidth))
    heigt = ((ymax - ymin) / float(imageHeight))
    label_dict.update({label: [str(xcenter), str(ycenter), str(width), str(heigt)]})
    label_dict = sorted(label_dict.items(), key=lambda x: x[0])
    return imageName, label_dict

2.训练过程

该过程与目标检测的训练过程一致，不需要进行大的修改，只需要根据数据集的特性对参数进行调整。

# 加载数据，获取训练集、测试集图片路径
with open(opt.data) as f:
    data_dict = yaml.load(f, Loader=yaml.FullLoader)  
    with torch_distributed_zero_first(rank):
        check_dataset(data_dict) 
train_path = data_dict['train']
test_path = data_dict['val']
Number_class, names = (1, ['item']) if opt.single_cls else (int(data_dict['nc']), data_dict['names']) 
# 创建模型
model = Model(opt.cfg, ch=3, nc=Number_class).to(device)
# 学习率的设置
lf = lambda x: ((1   math.cos(x * math.pi / epochs)) / 2) * (1 - hyp['lrf'])   hyp['lrf']  
scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=lf)
# 训练
for epoch in range(start_epoch, epochs):  
model.train()

3.损失的计算

损失由三部分组成，边框损失，目标损失，分类损失，具体如下：

def compute_loss(p, targets, model):
    device = targets.device
    loss_cls, loss_box, loss_obj = torch.zeros(1, device=device), torch.zeros(1, device=device), torch.zeros(1, device=device)
    tcls, tbox, indices, anchors = build_targets(p, targets, model) 
h = model.hyp
    # 定义损失函数
    BCEcls = nn.BCEWithLogitsLoss(pos_weight=torch.Tensor([h['cls_pw']])).to(device)
    BCEobj = nn.BCEWithLogitsLoss(pos_weight=torch.Tensor([h['obj_pw']])).to(device)
    cp, cn = smooth_BCE(eps=0.0)
    # 损失
    nt = 0  
    np = len(p) 
    balance = [4.0, 1.0, 0.4] if np == 3 else [4.0, 1.0, 0.4, 0.1] 
for i, pi in enumerate(p): 
        image, anchor, gridy, gridx = indices[i]  
        tobj = torch.zeros_like(pi[..., 0], device=device) 
        n = image.shape[0]  
        if n:
            nt  = n  # 计算目标
            ps = pi[anchor, image, gridy, gridx]
            pxy = ps[:, :2].sigmoid() * 2. - 0.5
            pwh = (ps[:, 2:4].sigmoid() * 2) ** 2 * anchors[i]
            predicted_box = torch.cat((pxy, pwh), 1).to(device)                    giou = bbox_iou(predicted_box.T, tbox[i], x1y1x2y2=False, CIoU=True)                 
       loss_box  = (1.0 - giou).mean() 
            tobj[image, anchor, gridy, gridx] = (1.0 - model.gr)   model.gr *   giou.detach().clamp(0).type(tobj.dtype) 
            if model.nc &gt; 1:
                t = torch.full_like(ps[:, 5:], cn, device=device)
                t[range(n), tcls[i]] = cp
                loss_cls  = BCEcls(ps[:, 5:], t)  
        loss_obj  = BCEobj(pi[..., 4], tobj) * balance[i]  
    s = 3 / np
    loss_box *= h['giou'] * s
    loss_obj *= h['obj'] * s * (1.4 if np == 4 else 1.)
    loss_cls *= h['cls'] * s
    bs = tobj.shape[0]
    loss = loss_box   loss_obj   loss_cls
    return loss * bs, torch.cat((loss_box, loss_obj, loss_cls, loss)).detach()

4.对输出内容的处理

进行预测时，会得到所有检测到的目标的位置（x,y,w,h），objectness 置信度和分类结果。由于最终目的是对整张图进行分类，可以忽略位置信息，重点考虑置信度和分类结果：将检测到的目标类别作为分类结果，如果同时检测出多个目标，可以将置信度最大的目标的类别作为分类结果。代码如下：

def detect(opt,img):
    out, source, weights, view_img, save_txt, imgsz = \
        opt.output, img, opt.weights, opt.view_img, opt.save_txt, opt.img_size
    device = select_device(opt.device)
    half = device.type != 'cpu'
    model = experimental.attempt_load(weights, map_location=device)
    imgsz = check_img_size(imgsz, s=model.stride.max())
    if half:
        model.half()
    img = letterbox(img)[0]
    img = img[:, :, ::-1].transpose(2, 0, 1)
    img = np.ascontiguousarray(img)
    img_warm = torch.zeros((1, 3, imgsz, imgsz), device=device)
    _ = model(img_warm.half() if half else img_warm) if device.type != 'cpu' else None 
    img = torch.from_numpy(img).to(device)
    img = img.half() if half else img.float()
    img /= 255.0
    if img.ndimension() == 3:
        img = img.unsqueeze(0)
    pred = model(img, augment=opt.augment)[0]
    # 应用非极大值抑制
    pred = non_max_suppression(pred, opt.conf_thres, opt.iou_thres, classes=opt.classes, agnostic=opt.agnostic_nms)
    # 处理检测的结果
    for i, det in enumerate(pred): 
        if det is not None and len(det):
            det[:, :4] = scale_coords(img.shape[2:], det[:, :4], img.shape).round()
            all_conf = det[:, 4]
            if len(det[:, -1]) &gt; 1:
                ind = torch.max(all_conf, 0)[1]
                c = torch.take(det[:, -1], ind)
detect_class = int(c)
            else:
                for c in det[:, -1]:
                    detect_class = int(c)
            return detect_class

效果展示

为了将视频帧进行黑、花屏分类，测试人员根据经验将屏幕分为正常屏（200 张）、花屏（200 张）和黑屏（200 张）三类，其中正常屏幕标签为 0，花屏的标签为 1，黑屏的标签为 2。

为了进一步说明该方法的有效性，我们将基于 Yolov5 的 ‘分类’ 效果与 ResNet 分类效果做了对比。根据测试人员对 ResNet 分类效果的反馈来看，ResNet 模型容易将正常屏与花屏错误分类，例如，下图被测试人员定义为正常屏：

ResNet 的分类结果为 1，即为花屏，显然，这不是我们想要的结果。

基于 Yolov5 的分类结果为 0，即为正常屏，这是我们所期待的结果。

同时，通过对一批测试数据的分类效果来看，Yolov5 的分类效果比 ResNet 的分类准确度更高，ResNet 的分类准确率为 88%，而基于 Yolov5 的分类准确率高达 97%。

总结

对于较小数据集的黑、花屏的分类问题，采用 Yolov5 来实现分类相较于 ResNet 的分类效果会更好一些。当我们在做图像分类任务时，纯粹的分类算法不能达到想要的效果时，不妨尝试一下用目标检测框架来分类吧！虽然过程稍微复杂一些，但可能会有不错的效果。

目前目标检测框架有很多，用它们完成分类任务的处理方式大致和本文所描述的类似，可以根据数据集的特征选择合适目标检测架构来实现分类。

本文主要介绍了如何将现有的目标检测框架直接用于单纯的图像分类任务，当然，为了使得结构更简洁，也可以将目标检测中的分类网络提取出来用于分类，更多关于python目标检测黑花屏分类的资料请关注Devmax其它相关文章！

python目标检测实现黑花屏分类任务示例的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
红薯因 Swift 重写开源中国失败，貌似欲改用 Python

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
你没看错：Swift可以直接调用Python函数库

上周Perfect又推出了新一轮服务器端Swift增强函数库：Perfect-Python。对，你没看错，在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用，不需要修改任何内容。以如下python脚本为例：Perfect-Python可以用下列方法封装并调用以上函数，您所需要注意的仅仅是其函数名称以及参数。
Swift中的列表解析

在Swift中完成这个的最简单的方法是什么？我在寻找类似的东西：从Swift2.x开始，有一些与你的Python样式列表解析相当的东西。(在这个意义上，它更像是Python的xrange。如果你想保持集合懒惰一路通过，只是这样说：与Python中的列表解析语法不同，Swift中的这些操作遵循与其他操作相同的语法。
swift抛出终端的python错误

每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决？
在Android上用Java嵌入Python

解决方法看看this,它适用于J2SE,你可以尝试在Android上运行.
在android studio中使用python代码构建android应用程序

我有一些python代码和它的机器人,我正在寻找一种方法来使用android项目中的那些python代码.有没有办法做到这一点！？解决方法有两种主要工具可供使用,它们彼此不同：>QPython>Kivy使用Kivy,大致相同的代码也可以部署到IOS.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教