YOLOv5/v6/v8/v10/v11/v12
)、MMDetection、PaddleDetectionDeepSeek-R1-Distill-Qwen-1.5B
、Qwen2-VL-2B
等VLM/LLM端侧部署经验技术栈:目标分类(ResNet)、目标检测(YOLOv8)、旋转框检测(YOLOv8-OBB)、目标跟踪(Bot-SORT)
关键创新:
使用角度敏感损失 + 数据增强(重采样/copy-paste)
提高大货车强光灯检测效果,mAP@0.5提升12.3%
增加轨迹持续时间 + 注意力机制(CBAM模块聚焦非机动车关键区域)+ 基于运动特征的阈值过滤(过滤异常减速)
,降低非机动车闯红灯误报率至<1.5%
大货车非法加装强光灯检测子系统:大货车非法加装强光灯检测子系统
目标:实时获取海康平台Kafka流中大货车过车图片URL,检测此图片是否有非法加装的强光灯
解决方案:使用Python获取Kafka流数据,实时发送给YOLOv8 Flask集群进行检测(将Pytorch model转为OpenVINO IR部署在Intel Xeon Gold 5218R CPU@2.1GHz
上),将最后结果发送给MQTT服务器并存储MySQL
成果:程序19:00 - 5:00开启,部署于诸暨市交警机房,每日图片吞吐量为10万+,精确率97%+,召回率85%+,平均识别时间0.3秒/每张图片(原先方案使用Pytorch model为0.6秒/每张图)
非机动车闯红灯检测跟踪项目:非机动车闯红灯检测跟踪子系统
目标:根据视频流检测非机动车并跟踪,结合当前红灯情况判断是否闯红灯
解决方案:OpenCV实时获取视频RTSP流,使用YOLOv8间隔帧检测并跟踪非机动车,根据配置的左转、直行、右转红灯区域使用自定义ResNet18进行检测,保存闯红灯照片(包含轨迹),发送JSON数据给MQTT服务器并存储MySQL
成果:在3台服务器共14张NVIDIA T4上部署项目监控50路视频,红灯检测0.03秒/每帧,YOLOv8检测跟踪0.05秒/每帧,内存占用3G/每路,显存占用1.5G/每路,带宽4M/每路,准确率98.5%+,召回率85%+
任务:跌倒检测(图像/视频级) + 吸烟/玩手机检测(图像级)
技术栈:关键点检测(YOLOv8-Pose)、图卷积(STGCN)、目标检测(YOLOv8)
关键创新:
跌倒检测视频方案:YOLOv8-Pose + 时空特征模型(STGCN
),关键点轨迹分析
跌倒检测图片方案:YOLOv8检测躺着的人,与床/沙发/椅子没有交集则认为跌倒
小目标优化:引入GSConv
替换标准卷积,吸烟检测AP@0.5提升8.7%
部署:云端T4显卡TensorRT FP16模型单张图片推理时间14ms,端侧rk3588单张图片推理时间为28ms
成果:部署于云端面向C端客户,每月巡检精确率95.2%
端侧部署:
RK3588平台完成YOLOv5/v10/v8-p2/v8/RetinaFace
等模型部署(量化+零拷贝),CPU利用率降低40%
实现INT8量化校准工具链,精度损失<0.5%
大模型探索:
RK3588
Qwen-VL 2B
图文问答POC,探索VLM在工业质检的应用(onnx -> rknn(量化) -> Gradio/Flask部署)ASR/TTS模型探索:
Wav2Vec2/Whisper/Zipformer
ASR
模型量化(int8)部署,MMS_TTS/MeloTTS
TTS
模型量化(int8)部署全日制专业学位硕士 | 计算机技术 | 南华大学(统招 2019-2022) |
计算机科学与技术学士 | 计算机科学与技术 | 衡阳师范学院(统招 2015-2019) |
证书:软件设计师(中级) | 系统集成项目管理工程师(中级) | CET-6 |