计算机视觉

计算机视觉（英语：Computer Vision，缩写 CV）是人工智能的一个重要分支，研究如何使计算机从数字图像、视频或其他视觉输入中获取、处理、分析与理解信息，并据此做出决策或采取行动。其目标是让机器具备类似甚至超越人类视觉系统的感知与理解能力。作为人工智能与深度学习的核心应用领域之一，计算机视觉已广泛渗透到工业、医疗、交通、安防等众多场景。

概述

人类视觉系统能够轻松完成识别物体、判断距离、理解场景等任务，但让计算机实现这些能力却极具挑战。计算机视觉的核心问题在于：图像本质上只是像素值的数值矩阵，如何从这些低层次的数值中提取出高层次的语义信息（如"这是一只猫"或"前方有行人"），是该领域长期研究的根本难题。

早期的计算机视觉主要依赖人工设计的特征（如边缘、角点、纹理）与传统机器学习方法。自 2012 年深度学习在图像识别任务上取得突破以来，基于卷积神经网络（CNN）的方法逐渐成为主流，并在近年进一步扩展到 Transformer 等新型架构。

核心任务

图像分类

判断一张图像整体所属的类别，是计算机视觉中最基础的任务。经典数据集如 ImageNet 极大推动了该方向的发展。

目标检测

在图像中定位并识别出多个物体，输出每个物体的类别与位置（边界框）。代表性方法包括 R-CNN 系列、YOLO 系列等。

图像分割

将图像划分为若干具有语义意义的区域，可细分为语义分割、实例分割与全景分割，广泛应用于医学影像与自动驾驶。

目标跟踪

在视频序列中持续定位特定目标，是视频分析与监控的关键技术。

三维视觉

从二维图像中恢复三维结构，包括立体视觉、深度估计、三维重建与点云处理等。

关键技术与方法

传统方法

在深度学习兴起之前，计算机视觉主要依赖人工特征提取（如 SIFT、HOG）结合支持向量机等分类器，以及图像处理中的滤波、边缘检测、形态学操作等技术。

卷积神经网络

卷积神经网络（CNN）通过局部连接与权值共享高效提取图像的层次化特征，是现代计算机视觉的基石。经典网络包括 AlexNet、VGG、ResNet 等。

视觉 Transformer

近年来，源自自然语言处理的 Transformer 架构被引入视觉领域，提出了 Vision Transformer（ViT）等模型，在大规模数据上展现出强大性能。

生成模型

生成对抗网络（GAN）与扩散模型（Diffusion Model）能够生成逼真的图像，推动了图像生成、编辑与超分辨率等应用的发展。

典型应用

计算机视觉的应用已深入日常生活与各行各业。在 医疗健康 领域，它用于医学影像的病灶检测与辅助诊断；在 自动驾驶 领域，它负责环境感知、车道识别与障碍物检测；在 工业制造 领域，它用于产品质检与缺陷识别；在 安防监控 领域，它支持人脸识别与行为分析；此外，在增强现实、零售、农业等领域也有广泛应用。值得一提的是，计算机视觉与生物信息学的结合（如细胞图像分析、医学影像组学）正成为连接信息技术与生命科学的重要桥梁。

挑战与发展趋势

尽管计算机视觉取得了长足进步，但仍面临诸多挑战：模型对数据分布变化的鲁棒性不足、对大规模标注数据的依赖、计算资源消耗大，以及在安全敏感场景中的可解释性问题（参见 AI 伦理与安全）。未来的发展趋势包括自监督与少样本学习、多模态融合（视觉与语言结合）、轻量化模型部署，以及与具身智能的深度结合。

参考与延伸阅读

计算机视觉经典教材与综述文献
主流模型架构（CNN、ViT、扩散模型）相关论文
ImageNet、COCO 等公开数据集资料

分类:人工智能分类:计算机视觉分类:深度学习

概述