Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
Help about MediaWiki
Special pages
Wiki
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
计算机视觉
Page
Discussion
English
Read
Edit
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
View history
General
What links here
Related changes
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
'''计算机视觉'''(英语:'''Computer Vision''',缩写 '''CV''')是人工智能的一个重要分支,研究如何使计算机从数字图像、视频或其他视觉输入中获取、处理、分析与理解信息,并据此做出决策或采取行动。其目标是让机器具备类似甚至超越人类视觉系统的感知与理解能力。作为 [[人工智能]] 与 [[深度学习]] 的核心应用领域之一,计算机视觉已广泛渗透到工业、医疗、交通、安防等众多场景。 == 概述 == 人类视觉系统能够轻松完成识别物体、判断距离、理解场景等任务,但让计算机实现这些能力却极具挑战。计算机视觉的核心问题在于:图像本质上只是像素值的数值矩阵,如何从这些低层次的数值中提取出高层次的语义信息(如"这是一只猫"或"前方有行人"),是该领域长期研究的根本难题。 早期的计算机视觉主要依赖人工设计的特征(如边缘、角点、纹理)与传统机器学习方法。自 2012 年 [[深度学习]] 在图像识别任务上取得突破以来,基于卷积神经网络(CNN)的方法逐渐成为主流,并在近年进一步扩展到 Transformer 等新型架构。 == 核心任务 == === 图像分类 === 判断一张图像整体所属的类别,是计算机视觉中最基础的任务。经典数据集如 ImageNet 极大推动了该方向的发展。 === 目标检测 === 在图像中定位并识别出多个物体,输出每个物体的类别与位置(边界框)。代表性方法包括 R-CNN 系列、YOLO 系列等。 === 图像分割 === 将图像划分为若干具有语义意义的区域,可细分为语义分割、实例分割与全景分割,广泛应用于医学影像与自动驾驶。 === 目标跟踪 === 在视频序列中持续定位特定目标,是视频分析与监控的关键技术。 === 三维视觉 === 从二维图像中恢复三维结构,包括立体视觉、深度估计、三维重建与点云处理等。 == 关键技术与方法 == === 传统方法 === 在深度学习兴起之前,计算机视觉主要依赖人工特征提取(如 SIFT、HOG)结合支持向量机等分类器,以及图像处理中的滤波、边缘检测、形态学操作等技术。 === 卷积神经网络 === 卷积神经网络(CNN)通过局部连接与权值共享高效提取图像的层次化特征,是现代计算机视觉的基石。经典网络包括 AlexNet、VGG、ResNet 等。 === 视觉 Transformer === 近年来,源自 [[自然语言处理]] 的 Transformer 架构被引入视觉领域,提出了 Vision Transformer(ViT)等模型,在大规模数据上展现出强大性能。 === 生成模型 === 生成对抗网络(GAN)与扩散模型(Diffusion Model)能够生成逼真的图像,推动了图像生成、编辑与超分辨率等应用的发展。 == 典型应用 == 计算机视觉的应用已深入日常生活与各行各业。在 '''医疗健康''' 领域,它用于医学影像的病灶检测与辅助诊断;在 '''自动驾驶''' 领域,它负责环境感知、车道识别与障碍物检测;在 '''工业制造''' 领域,它用于产品质检与缺陷识别;在 '''安防监控''' 领域,它支持人脸识别与行为分析;此外,在增强现实、零售、农业等领域也有广泛应用。值得一提的是,计算机视觉与 [[生物信息学]] 的结合(如细胞图像分析、医学影像组学)正成为连接信息技术与生命科学的重要桥梁。 == 挑战与发展趋势 == 尽管计算机视觉取得了长足进步,但仍面临诸多挑战:模型对数据分布变化的鲁棒性不足、对大规模标注数据的依赖、计算资源消耗大,以及在安全敏感场景中的可解释性问题(参见 [[AI 伦理与安全]])。未来的发展趋势包括自监督与少样本学习、多模态融合(视觉与语言结合)、轻量化模型部署,以及与具身智能的深度结合。 == 相关条目 == * [[人工智能]] * [[机器学习]] * [[深度学习]] * [[自然语言处理]] * [[AI 伦理与安全]] == 参考与延伸阅读 == * 计算机视觉经典教材与综述文献 * 主流模型架构(CNN、ViT、扩散模型)相关论文 * ImageNet、COCO 等公开数据集资料 [[分类:人工智能]] [[分类:计算机视觉]] [[分类:深度学习]]
Summary:
Please note that all contributions to Wiki may be edited, altered, or removed by other contributors. If you do not want your writing to be edited mercilessly, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource (see
Wiki:Copyrights
for details).
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)
Search
Search
Editing
计算机视觉
Add topic