主题二:读图技术和应用(下载讲稿)
刘长松教授介绍了了大量的文字识别、图像识别、人脸识别的技术和应用实例。根据不同的对象,及复杂的应用场景,深入浅出的介绍了图像识别的逻辑、模型和算法,并阐述了传统方法与深度学习的差异。
主要挑战和难点问题
- 尺度变化
- 视角变化
- 光照变化
- 复杂背景干扰
- 部分遮挡
- 非刚体形变
- 算法的运行速度(实时性系统的基本要求)
图像识别的几点思考
- 图像获取的问题
- 特征的选取对识别性能的作用
- 位置对齐和归一化极其重要
- 传统方法与深度学习的对比
“由于切分错误的存在,尽管单字识别可以达到94-99%的,地址识别达到89%,自由书写的普通手写字符串的识别率汉字仍低于50%,英文单词识别率10-20%。文字识别寻找一份最优切分路径的方法。”刘长松教授讲解到。
人脸识别的难点
- 人脸模式类内差异大。人脸的图像观测会受到光线、姿态、视角和聚集的变化而改变;同一人的人脸也会由于本人的时间、年龄、装饰、服饰和化装的不同,其人脸摄影图像而改变;
- 人脸模式相对类间差异小。世界上数十亿人口,尽管人种、性别、年龄不同,但是人脸的结构基本相同,即人脸的类间差异很小。
- 实际应用中的小样本问题。人脸图像的维数极高,即使提取Gabor等特征,维数还是有几千维实际应用中每个人的训练样本往往只有几个,甚至只有一个
刘教授认为,传统方法和深度学习在图像处理领域正好起到互补的效果。传统的图像识别方法已在多个非互联网领域起到效果。深度学习的理念比较前卫,很适合大数据时代的图像处理。
|