今天是19年11月29日,从今天开始,我将在三周内完成由李飞飞的CS231n课程。
——因为时间安排太紧张,cs231n以及其他图像识别内容暂时搁置 2020/2/15
CS231n是斯坦福大学的基于CNN(卷积神经网络)的计算机视觉(识别)课程,是DL图像处理领域的经典课程。
让我们先来简单认识一下计算机视觉这一课题吧!
Lecture 1: Introduction
CS231n共有16个Lecture,35p视频,今天,我们先来看前三集
P1-3
前三个视频mianly讲了课程背景有关内容*
1.计算机视觉简史
543million years, B.C. 五千四百万年前,生物进化出了视觉能力,由此引发了一轮物种大爆炸
初代计算机视觉系统(sort of):摄像机(小孔成像原理)
Hubel & Wiesel, 1959: 猫的大脑初级视觉皮层实验,结论:简单细胞对边缘产生反应
Block world 1963
SUMMER VISION PROJECT 1966
<< vision>> David Marr 1970s
Generalized Cylinder / Pictorial Structure
Normalized Cut 1997
face recognition in 2001
SIFT 1999 : SIFT & Object Recognition : 这是一种基于特征的目标识别。SIFT特征:首先确认(找到)关键特征,然后进行匹配
Spatial Pyramid Matching 2006:空间金字塔匹配:抽取特征值作特征向量,特征向量用svm处理
HoG 2005/Deformable Part Model:方向梯度直方图/可变性部件模型
PASCAL Visual Object Challenge(20 object categories)
image-ent:2012CNN
2.CS231n Overview
- CS231n focuses on one of the most important problems of visual recognition – image classification
- There is a number of visual recognition problems that are related to image classification, such as object detection, image captioning [- Object detection,- Action classification,- Image captioning]
- Convolutional Neural Networks (CNN) have become an important tool for object recognition and it was not invented overnight(1998-2012)
tasks
图像的数据主要来源有哪些 (列举几个即可)
- 相机和相机,还有相机
sift feature 是什么,可以用来干什么。金字塔匹配思想是什么,可以用来干什么。 hog特征是什么,可以用来干什么。
- SIFT 1999 : SIFT & Object Recognition :
- 尺度不变特征变换:这是一种基于特征的目标识别算法。SIFT特征:首先确认(找到)关键特征,然后进行匹配
- SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性
- Spatial Pyramid Matching 2006:空间金字塔匹配:抽取特征值作特征向量,特征向量用svm处理
- SPM 全称是Spatial Pyramid Matching,出现的背景是bag of visual words模型被大量地用在了图像表示(Image representation)中,但是BOVW模型完全缺失了特征点的位置信息。SPM考虑空间信息,将图像分成若干块(sub-regions),分别统计每一子块的特征,最后将所有块的特征拼接起来,形成完整的特征,这就是SPM中的Spatial。在分块的细节上,采用了一种多尺度的分块方法,即分块的粒度越大越细(increasingly fine),呈现出一种层次金字塔的结构,这就是SPM中的Pyramid
- HoG 2005
- 方向梯度直方图,通过计算和统计图像局部区域的梯度方向直方图来构成特征 - 主要思想: 在一副图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述。其本质为:梯度的统计信息,而梯度主要存在于边缘的地方
- SIFT 1999 : SIFT & Object Recognition :
神经网络早就存再为什么神经网络最近才火(提示:从数据和硬件方面考虑)
- 1足够的算力 - 2足够的数据 - 3算法的发展
图像任务有哪些,解决什么样的图像问题(eg:图像分类就是看图片中的物体具体是什么。)
- 物体检测:在图像中找出目标(种类)东西,框出
- 行为识别:识别运动行为
- 图像标注:基于识别(甚至基于行为识别),为图像加注描述