计算机视觉
计算机视觉(英语:Computer Vision,缩写 CV)是人工智能的一个重要分支,研究如何使计算机从数字图像、视频或其他视觉输入中获取、处理、分析与理解信息,并据此做出决策或采取行动。其目标是让机器具备类似甚至超越人类视觉系统的感知与理解能力。作为 人工智能 与 深度学习 的核心应用领域之一,计算机视觉已广泛渗透到工业、医疗、交通、安防等众多场景。
概述
[edit]人类视觉系统能够轻松完成识别物体、判断距离、理解场景等任务,但让计算机实现这些能力却极具挑战。计算机视觉的核心问题在于:图像本质上只是像素值的数值矩阵,如何从这些低层次的数值中提取出高层次的语义信息(如"这是一只猫"或"前方有行人"),是该领域长期研究的根本难题。
早期的计算机视觉主要依赖人工设计的特征(如边缘、角点、纹理)与传统机器学习方法。自 2012 年 深度学习 在图像识别任务上取得突破以来,基于卷积神经网络(CNN)的方法逐渐成为主流,并在近年进一步扩展到 Transformer 等新型架构。
核心任务
[edit]图像分类
[edit]判断一张图像整体所属的类别,是计算机视觉中最基础的任务。经典数据集如 ImageNet 极大推动了该方向的发展。
目标检测
[edit]在图像中定位并识别出多个物体,输出每个物体的类别与位置(边界框)。代表性方法包括 R-CNN 系列、YOLO 系列等。
图像分割
[edit]将图像划分为若干具有语义意义的区域,可细分为语义分割、实例分割与全景分割,广泛应用于医学影像与自动驾驶。
目标跟踪
[edit]在视频序列中持续定位特定目标,是视频分析与监控的关键技术。
三维视觉
[edit]从二维图像中恢复三维结构,包括立体视觉、深度估计、三维重建与点云处理等。
关键技术与方法
[edit]传统方法
[edit]在深度学习兴起之前,计算机视觉主要依赖人工特征提取(如 SIFT、HOG)结合支持向量机等分类器,以及图像处理中的滤波、边缘检测、形态学操作等技术。
卷积神经网络
[edit]卷积神经网络(CNN)通过局部连接与权值共享高效提取图像的层次化特征,是现代计算机视觉的基石。经典网络包括 AlexNet、VGG、ResNet 等。
视觉 Transformer
[edit]近年来,源自 自然语言处理 的 Transformer 架构被引入视觉领域,提出了 Vision Transformer(ViT)等模型,在大规模数据上展现出强大性能。
生成模型
[edit]生成对抗网络(GAN)与扩散模型(Diffusion Model)能够生成逼真的图像,推动了图像生成、编辑与超分辨率等应用的发展。
典型应用
[edit]计算机视觉的应用已深入日常生活与各行各业。在 医疗健康 领域,它用于医学影像的病灶检测与辅助诊断;在 自动驾驶 领域,它负责环境感知、车道识别与障碍物检测;在 工业制造 领域,它用于产品质检与缺陷识别;在 安防监控 领域,它支持人脸识别与行为分析;此外,在增强现实、零售、农业等领域也有广泛应用。值得一提的是,计算机视觉与 生物信息学 的结合(如细胞图像分析、医学影像组学)正成为连接信息技术与生命科学的重要桥梁。
挑战与发展趋势
[edit]尽管计算机视觉取得了长足进步,但仍面临诸多挑战:模型对数据分布变化的鲁棒性不足、对大规模标注数据的依赖、计算资源消耗大,以及在安全敏感场景中的可解释性问题(参见 AI 伦理与安全)。未来的发展趋势包括自监督与少样本学习、多模态融合(视觉与语言结合)、轻量化模型部署,以及与具身智能的深度结合。
相关条目
[edit]参考与延伸阅读
[edit]- 计算机视觉经典教材与综述文献
- 主流模型架构(CNN、ViT、扩散模型)相关论文
- ImageNet、COCO 等公开数据集资料