百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

【YOLO 教程】YOLOv10:清华开源的实时端到端目标检测算法

itomcoil 2025-07-27 21:11 5 浏览

YOLOv10是清华大学最近开源的一个实时端到端的目标检测算法,继承了YOLO系列的实时端到端检测优势,解决了以往版本YOLO系列目标检测算法在后处理和模型架构方面的不足。通过消除非极大值抑制(NMS)操作和优化模型架构,YOLOv10在显著降低计算开销的同时还实现了最先进的性能。作为YOLO系列的最新版本,YOLOv10已被纳入Ultralytics的官方项目,进一步推动了端侧目标检测技术的发展。



一、引 言

实时目标检测一直是计算机视觉领域的研究重点,其目标是在低延迟下准确预测图像中目标的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶、机器人导航和物体跟踪等。近年来,研究人员集中精力设计基于CNN的物体检测器以实现实时检测。其中,YOLO因其在性能和效率之间的巧妙平衡而越来越受欢迎。 YOLO的检测流程由两部分组成:模型前处理和NMS后处理。然而,它们仍然存在缺陷,导致精度-延迟边界不理想。

在过去的几年里,由于其在计算成本和检测性能之间的有效平衡,YOLOS已经成为实时目标检测领域的主导范例。研究人员已经探索了YOLOS的架构设计、优化目标、数据增强策略等,并取得了显著进展。然而,对用于后处理的非最大抑制(NMS)的依赖妨碍了YOLOS的端到端部署,并且影响了推理延迟。此外,YOLOS中各部件的设计缺乏全面和彻底的检查,导致明显的计算冗余,限制了模型的性能。这导致次优的效率,以及相当大的性能改进潜力。

清华大学研究团队首先提出了用于YOLOs无NMS训练的持续双重分配,该方法带来了有竞争力的性能和低推理延迟。此外,还从效率和精度两个角度对YOLOS的各个组件进行了全面优化,大大降低了计算开销,增强了性能。

二、YOLOv10模型架构

YOLOv10的模型架构由以下几个部分组成:

  • 主干网络:使用增强版的CSPNet来提取图像特征,它能改善梯度流并减少计算量。
  • 颈部:采用PAN结构汇聚不同尺度的特征,有效地实现多尺度特征融合。
  • 一对多预测头:在训练过程中为每个对象生成多个预测,用来提供丰富的监督信号从而提高学习的准确性;在推理阶段不生效,从而减少计算量。
  • 一对一预测头:在推理过程中为每个对象生成一个最佳预测,无需NMS操作,从而减少延迟并提高推理效率。


三、YOLOv10的主要特点

1. 无NMS训练

YOLOv10的一大亮点是其无NMS训练。传统的YOLO模型使用NMS来过滤重叠的预测,这增加了推理延迟。YOLOv10引入了一种双重分配策略,消除了NMS的需求,从而实现了更快、更高效的目标检测。双重分配策略解释:

  • 一对多分配:在训练过程中使用,以提供丰富的监督信号。
  • 一对一分配:在推理过程中使用,以避免冗余预测。

通过使用一致的匹配度量协调这两种策略,YOLOv10在不牺牲性能的情况下实现了高效率。

2. 整体效率-准确性驱动设计

YOLOv10采用了一种全面的模型设计方法,优化了各种组件以提高效率和准确性。以下是一些关键创新:

  • 轻量化分类头:通过使用深度可分离卷积,减少分类头的计算开销,而不显著影响性能。
  • 空间-通道解耦下采样:通过分离空间缩减和通道增加操作,增强下采样效率,减少信息损失。
  • 秩引导块设计:根据模型不同阶段的内在冗余,调整构建块的复杂度,确保参数的最佳利用。

3. 大核卷积和部分自注意力

为了进一步提高准确性,YOLOv10集成了大核卷积和部分自注意力(PSA)模块。这些组件提高了模型捕捉全局信息的能力,同时保持计算效率。

  • 大核卷积:在较深阶段有选择地使用,以扩大感受野而不显著增加I/O开销。
  • PSA模块:以成本效益的方式引入自注意力,提升模型学习全局表示的能力。

性能和效率:双赢组合

实验结果表明,YOLOv10在准确性和速度方面均优于其前代和其他最新模型。例如,YOLOv10-S(一个较小的变体)比RT-DETR-R18快1.8倍,性能相似,且参数量减少了2.8倍。与YOLOv9-C相比,YOLOv10-B(一个平衡的变体)延迟减少了46%,参数量减少了25%,同时保持了相同的性能水平。

四、YOLOv10的现实应用

YOLOv10在各个行业中具有实际意义:

  1. 自动驾驶

在自动驾驶车辆中,实时目标检测对于安全导航至关重要。YOLOv10的高效性和高准确性使其能够理想地识别行人、其他车辆和障碍物,确保顺畅安全的驾驶体验。

2. 机器人

对于从事仓库管理或救援任务的机器人来说,快速准确地检测物体的能力至关重要。YOLOv10增强了这些能力,使机器人能够在动态环境中更有效地运行。

3. 监控

在安防系统中,实时检测潜在威胁可以在事件升级前预防。YOLOv10的强大性能确保了可靠的监控,使其成为提高公共安全的宝贵工具。

五、YOLOv10的安装

  1. conda建议使用虚拟环境。
conda create -n yolov10 python=3.9
conda activate yolov10
  1. 下载YOLOv10源码
git clone https://github.com/THU-MIG/yolov10.git
cd yolov10
  1. 演示
python app.py
# Please visit 127.0.0.1:7860

执行后,打开127.0.0.1:7860 即可看到以下界面


测试一:


测试二:



六、主入口app.py代码解析

import gradio as gr
import cv2
import tempfile
from ultralytics import YOLOv10

# 定义YOLOv10推理函数
def yolov10_inference(image, video, model_id, image_size, conf_threshold):
    # 从预训练模型加载YOLOv10模型
    model = YOLOv10.from_pretrained(f'jameslahm/{model_id}')
    # 如果输入是图像
    if image:
        # 对图像进行预测
        results = model.predict(source=image, imgsz=image_size, conf=conf_threshold)
        # 绘制标注框
        annotated_image = results[0].plot()
        # 返回标注后的图像和None(表示没有视频输出)
        return annotated_image[:, :, ::-1], None
    else:
        # 创建临时文件路径用于保存视频
        video_path = tempfile.mktemp(suffix=".webm")
        # 将输入视频写入临时文件
        with open(video_path, "wb") as f:
            with open(video, "rb") as g:
                f.write(g.read())

        # 打开视频文件
        cap = cv2.VideoCapture(video_path)
        # 获取视频的帧率
        fps = cap.get(cv2.CAP_PROP_FPS)
        # 获取视频的宽度和高度
        frame_width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
        frame_height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))

        # 创建输出视频的临时文件路径
        output_video_path = tempfile.mktemp(suffix=".webm")
        # 创建视频写入器
        out = cv2.VideoWriter(output_video_path, cv2.VideoWriter_fourcc(*'vp80'), fps, (frame_width, frame_height))

        # 逐帧处理视频
        while cap.isOpened():
            ret, frame = cap.read()
            if not ret:
                break

            # 对当前帧进行预测
            results = model.predict(source=frame, imgsz=image_size, conf=conf_threshold)
            # 绘制标注框
            annotated_frame = results[0].plot()
            # 将标注后的帧写入输出视频
            out.write(annotated_frame)

        # 释放视频捕获和写入器
        cap.release()
        out.release()

        # 返回None(表示没有图像输出)和标注后的视频路径
        return None, output_video_path

# 定义用于示例的YOLOv10推理函数
def yolov10_inference_for_examples(image, model_path, image_size, conf_threshold):
    # 调用YOLOv10推理函数并返回标注后的图像
    annotated_image, _ = yolov10_inference(image, None, model_path, image_size, conf_threshold)
    return annotated_image

# 定义Gradio应用
def app():
    with gr.Blocks():
        with gr.Row():
            with gr.Column():
                # 图像输入组件
                image = gr.Image(type="pil", label="Image", visible=True)
                # 视频输入组件
                video = gr.Video(label="Video", visible=False)
                # 输入类型选择组件
                input_type = gr.Radio(
                    choices=["Image", "Video"],
                    value="Image",
                    label="Input Type",
                )
                # 模型选择组件
                model_id = gr.Dropdown(
                    label="Model",
                    choices=[
                        "yolov10n",
                        "yolov10s",
                        "yolov10m",
                        "yolov10b",
                        "yolov10l",
                        "yolov10x",
                    ],
                    value="yolov10m",
                )
                # 图像尺寸选择组件
                image_size = gr.Slider(
                    label="Image Size",
                    minimum=320,
                    maximum=1280,
                    step=32,
                    value=640,
                )
                # 置信度阈值选择组件
                conf_threshold = gr.Slider(
                    label="Confidence Threshold",
                    minimum=0.0,
                    maximum=1.0,
                    step=0.05,
                    value=0.25,
                )
                # 推理按钮
                yolov10_infer = gr.Button(value="Detect Objects")

            with gr.Column():
                # 标注后的图像输出组件
                output_image = gr.Image(type="numpy", label="Annotated Image", visible=True)
                # 标注后的视频输出组件
                output_video = gr.Video(label="Annotated Video", visible=False)

        # 更新组件可见性的函数
        def update_visibility(input_type):
            image = gr.update(visible=True) if input_type == "Image" else gr.update(visible=False)
            video = gr.update(visible=False) if input_type == "Image" else gr.update(visible=True)
            output_image = gr.update(visible=True) if input_type == "Image" else gr.update(visible=False)
            output_video = gr.update(visible=False) if input_type == "Image" else gr.update(visible=True)

            return image, video, output_image, output_video

        # 输入类型改变时更新组件可见性
        input_type.change(
            fn=update_visibility,
            inputs=[input_type],
            outputs=[image, video, output_image, output_video],
        )

        # 运行推理的函数
        def run_inference(image, video, model_id, image_size, conf_threshold, input_type):
            if input_type == "Image":
                return yolov10_inference(image, None, model_id, image_size, conf_threshold)
            else:
                return yolov10_inference(None, video, model_id, image_size, conf_threshold)

        # 推理按钮点击事件
        yolov10_infer.click(
            fn=run_inference,
            inputs=[image, video, model_id, image_size, conf_threshold, input_type],
            outputs=[output_image, output_video],
        )

        # 示例数据
        gr.Examples(
            examples=[
                [
                    "ultralytics/assets/bus.jpg",
                    "yolov10s",
                    640,
                    0.25,
                ],
                [
                    "ultralytics/assets/zidane.jpg",
                    "yolov10s",
                    640,
                    0.25,
                ],
            ],
            fn=yolov10_inference_for_examples,
            inputs=[
                image,
                model_id,
                image_size,
                conf_threshold,
            ],
            outputs=[output_image],
            cache_examples='lazy',
        )

# 创建Gradio应用实例
gradio_app = gr.Blocks()
with gradio_app:
    # 应用标题
    gr.HTML(
        """
    <h1 style='text-align: center'>
    YOLOv10: Real-Time End-to-End Object Detection
    </h1>
    """)
    # 应用链接
    gr.HTML(
        """
        <h3 style='text-align: center'>
        <a href='https://arxiv.org/abs/2405.14458' target='_blank'>arXiv</a> | <a href='https://github.com/THU-MIG/yolov10' target='_blank'>github</a>
        </h3>
        """)
    with gr.Row():
        with gr.Column():
            # 调用应用函数
            app()

# 启动Gradio应用
if __name__ == '__main__':
    gradio_app.launch()

相关推荐

辣评1+1|幽默的男人运气不会太差,犯了罪的除外

一波冷空气吹来了全国大范围降温,也吹来了“年轻人不讲武德”“耗子尾汁”等爆梗。凡事有别,凡事有度。“不讲武德”换来大家津津乐道,“不讲规则”却让大家头皮发麻,更别提有些人“不通人性”“不守法律”了……...

养龟之人,不可不常备的几种龟药,必要时,可救龟命

养龟的过程中,总会出现这样那样的问题,有些新人因为不懂龟的习性或者管理不到位,容易导致自己的爱龟出问题,如果处理不及时不妥当,容易造成不必要的损失,所以,养龟的过程中,家中常备一些龟药十分必要,建议养...

宠物龟越狱摔伤了,饲主该如何正确地处理它的伤口?

昨晚有一个龟友发信息向我求救,他家的宠物龟越狱了,从高高的地方摔下来,砸在水泥板上,臀甲部位摔裂了,问我怎么处理妥当?现在就跟大家分享分享我们的实战经验:如何正确地处理宠物龟的外伤!(此处已添加圈子卡...

PS入门系列三(ps入门级教程)

PS软件基础(三)一、钢笔工具1.精细的抠图,也可以绘制精细的直线段和曲线段2.使用方法:(1)绘制直线:鼠标点击,两个点形成一条直线,按住SHIFT可绘制角度(45°的倍数)的直线。...

第一千五百一十七天:20250721(星期一.阵雨)

天是真地热啊,更加怀念东北的凉爽。即使说有新闻东北迎来了史上最热的酷署,但我依旧坚定地认为没有湖北热,至少没有湖北的闷热。上午开了一上午的会,会议室里即使有空调但可能由于人和电脑太多了,制冷效果非常一...

格力、美的、先锋和艾美特油汀取暖器拆机测试PK

人在家中坐,寒从脚底来,刷抖音的时候手脚真的是冰凉到没办法。南方的冬天,我琢磨了一下,感觉它只会慢慢折磨咱们,而且咱们南方还没集中供暖。于是就上网看了看,发现这个电热油汀可以烤袜子,好像很有用的样子,...

《photoshop教程》设计师PSD文档管理指南

这是一个重要但是容易被忽视的领域,很多设计师没有文档管理和文档规范意识。认为只有代码工作者才需要什么编码规范和版本控制系统,Photoshop作为一个应用软件,讨论这个有什么意义呢?作为工程文件,一个...

为何要坚决抵制“马保国式黑红”(抵制违规吃喝表态发言)

作者:天歌“耗子尾汁(好自为之)”“年轻人不讲武德”“我大意了啊没有闪”……最近流行的几句网络用语,都出自于马保国。然而,原本承诺退出“江湖”的他却频繁出现在公众视线,自曝拍电影、走穴参加网红活动。...

车圈父与子 看谁跟高级别车型长得更像

[爱卡汽车导购原创]故事发生在美孚小学的5W-40班。这天语文课上,老师给同学们布置作业“今天给大家布置一篇作文,题目是《长大之后我就成了你》。回去认真观察自己的父母,找出自己容貌、性格、爱好等方...

月季难养吗?药罐子、肥篓子是什么意思?养好月季连载教程(三)

大家好,我是木木。今天给大家带来月季养护系列教程的第四节(月季种植难度),这是为了给还没有入坑的花友简单介绍一下月季的种植难度,希望大家对月季的养护有一个大概的了解,不要因为感觉难度太大而望而却步,也...

Linux文件操作高频使用命令(linux文件操作高频使用命令是什么)

0.新建操作:mkdirabc#新建一个文件夹touchabc.sh#新建一个文件1.查看操作查看目录:ll#显示目录文件详细信息du-h文件/目录#查看大小pwd#显示路径查...

PS生化危机2游戏:里昂.S.肯尼迪流程攻略(里关)

浣熊镇警察局的探索克莱尔带着莎瑞逃出了浣熊镇,与和她们一起的那位警官的活跃也是分不开的,他的名字是-里昂.S.肯尼迪和克莱尔分手后一直向前跑,进警局后门停车场,先去右边值班室拿钥匙,然后打开停车场左边...

PS版在印刷过程中易出现的问题(印刷厂ps版)

PS版的任务是使图文部分尽可能精确地传到橡皮布上。图文部分亲水,非图文部分亲墨。但实际上并没有这么理想,会出现各种各样的与PS版有关的问题。下面举出一些并加以讨论。  1.版面非图文部分起脏,即非图文...

夜读|为什么我们要围观马保国?(为什么会有马保国)

张丰“打工是不可能打工的”那位去做直播了,“年轻人不讲武德”的马保国要去拍电影了。他在微博上发了条视频,解释参演原因,但网友需付费成为“真爱粉”才能看。视频中,他还推销了拳法书籍。咦?我怎么觉得,马老...

40种CAD常见问题解决方法,从此不再求人

前言:CAD软件是我们经常用到的办公软件,但是我们在用CAD软件的时候经常遇到一些棘手的问题,不知道怎么解决?这40个问题解决方法,可以收藏备用!正文:1.【Ctrl键无效之解决办法】有时我们会碰到这...