作为商业公司的百度正在积极推动开源文化。百度 COO 陆奇曾在内部讲话中表示,开源代码写得好,不仅能解决大家的痛点,开源的代码也会变得越来越强,开源代码的生命力也必然会超过封闭体系的代码。而百度的深度学习平台 PaddlePaddle 开源后,来自北京工业大学的 4 位学生利用其深度学习模型,制造了一台智能桃子分拣机。
2017 年夏天,果农刘连全的大桃有了别样的用途,为智能桃子分拣机提供了 6400 张照片。
北京工业大学的 4 位学生利用百度 PaddlePaddle 开源平台上的深度学习模型,用这些大桃照片,通过机器学习和模型训练,制造了一台智能桃子分拣机,从形状、大小、色泽、光洁度等多维度,对桃子自动分级,从而实现自动分拣。
深度学习与果蔬分拣融合,减轻农民的负担
CB Insights 的数据表明,过去 5 年,农业科技初创企业募集了超过 8 亿美元的资金。自 2014 年起,融资交易开始猛增,与医疗、金融等领域相比,毫不逊色。
据世界银行的数据显示,到 2050 年,世界食物产量至少需要提高 50%,这样才足以养活届时可能达到 90 亿的庞大人口。但逐渐变暖的气候变化可能致使农作物产量减少超过 25%。
人工智能则有望解决这一问题。
据《连线》杂志报道,生物学家戴维·休斯(David Hughes)和作物流行病学家马塞尔·萨拉斯(Marcel Salathé)使用深度学习,通过对 5 万多张植物叶照片的训练,可以检测出 14 种作物的 26 种疾病,准确率高达 99.35%。
农业机器人公司 Blue River Technology 开发的智能化机器人通过携带的照相设备每分钟扫描 5000 株幼苗,利用机器学习以及计算机视觉技术识别作物幼苗和杂草。如果是杂草或者长势不好的作物,就使用农药喷雾,如果幼苗间距过小,就会自动拔掉一棵。
Prospera 公司则依靠实时监控摄像头和温度传感器使农民实时了解农作物的情况,使农民按需给予水、农药和肥料,高效精准地种植农作物。
机器学习方法和智能化机器人技术变革农业的生产方式,使农作物的种植由传统依靠经验和直觉变成依靠数据、分析、预测的精准农业。此外,在农业的收割阶段,机器学习也能广泛地应用,比如蔬果的自动分拣。在传统的自动水果分类机中,只能按照重量或大小分类,不能同时兼顾大小、卖相等决定水果品质的多维度因素,因而无法解决农民精细分类、精准定价的痛点。
以周忠祥为首的 4 位北京工业大学的学生,决定使用机器视觉技术对水果精确分类,实现智能分拣,以解决果农痛点,减轻他们的负担。
学生收集数据
使用PaddlePaddle模型训练,完成桃子多重属性分类
图像分类作为智能分拣的核心,是计算机视觉中重要的基本问题,也是物体检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础,在很多领域都有广泛的应用,比如人脸识别、智能视频分析、交通场景识别、图像检索等等。
在这个过程中,如何提取图像的特征至关重要。在深度学习算法之前,通常使用基于词袋 (Bag of Words) 模型的物体分类方法。而基于深度学习的图像分类方法,则可以取代手工设计或选择图像特征的工作。
智能桃子分拣机的团队也想到了深度学习的方法,但所学专业是机械自动化和土木工程的他们,擅长控制和电路,对机器学习和模型训练却较为陌生,因而在模型训练方面遇到了不少问题。
按照 PaddlePaddle 开源平台上的教程,他们将不同颜色的海洋球进行分类,进行训练,但模型的准确率并不高,于是他们将问题反馈到 GitHub 上,在 PaddlePaddle 社区值班人员的及时指导下,很快解决了问题,提高了准确率。
最终,团队将 6400 张大桃照片按照红、大、中、小等元素按照分档建立图片数据集合,将图片数据集放入卷积神经网络(CNN)中进行训练,自动提取用于分级的影响要素并形成分类逻辑。实现对大桃的自动分列、判断、分装,准确率达到 90% 以上。
桃子数据集
制造的机器则包括软件和硬件两部分,软件涉及数据集采集与算法训练。硬件部分分为算法和下位机主控,包括传感器和动力部分,下位机主控用于完成对 PC 数据和传感器数据的接收,实现对硬件电路的控制工作。
具体来说,主要包含四个部分,传送带,推拉装置,控制电路和一个电脑主机。传送带上装有位置传感器,用于监控桃子在运动过程中几个关键时刻的位置。推拉装置采用气动的方式,由一个气泵给五个气缸供气,利用电磁气动阀控制气源的通断。控制电路包含一个主控芯片和电磁阀的驱动电路,供 24v2a 的电源。电脑主机采用一个小巧的 Mac mini 运行 PaddlePaddle 的分类算法。
机器全图
力主开源,百度与开发者共同推进技术发展
作为百度的开源平台,PaddlePaddle 的前身是百度于 2013 年自主研发的深度学习平台,在内部已使用多年,曾为凤巢等业务提供支持。
由于开源文化来自西方,中国的开源氛围并不浓厚。对大多数人来说,开源社区对他们的作用就是免费提供技术的地方,他们使用技术却不反哺开源社区,也不愿意分享。即使有一些开源项目,但这些开源项目并不活跃。由于缺乏商业环境的支持,这些开源项目也往往无法持续下去,因而形成恶性循环。
作为商业公司的百度却在积极推动开源文化,陆奇曾经在内部讲话中说,开源代码写得好,不仅能解决大家的痛点,开源的代码也会变得越来越强,开源代码的生命力也必然会超过封闭体系的代码。
2016 年 9 月的百度世界大会上,时任百度首席科学家吴恩达宣布在开源社区 GitHub 及百度大脑平台上对外开放这个深度学习平台,并命名为 PaddlePaddle。百度成为继 Google、Facebook、IBM 之后,开源人工智能技术的又一个科技巨头,同时也是国内首个开源深度学习平台的科技公司。
PaddlePaddle
在陆奇的主推下,百度杰出科学家徐伟在 2017 百度开发者大会上宣布百度不仅会开源代码,还会开放大规模数据集、计算能力、应用模型库。作为国内首个开源深度学习平台,百度在 PaddlePaddle 的研发中持完全开放的态度,试图与开发者们共同推进技术的发展。
实际上,利用开源机器学习平台制作果蔬分拣器并非只有这一个案例,去年,日本工程师 Makoto Koike 曾使用谷歌的开源工具 TensorFlow 和 7000 张黄瓜图片制作了一个黄瓜分拣器。
目前,如谷歌、Facebook 等科技巨头都有开源的深度学习平台,而由于百度在搜索、图像识别、语音语义识别理解、情感分析、机器翻译、用户画像推荐等多领域的业务和技术方向,相较而言,PaddlePaddle 则表现得更加全面,是一个相对全功能的深度学习框架。
除此之外,由于 PaddlePaddle 的定位是易于使用,因而相对 TensorFlow,PaddlePaddle 也更为易用,提供的每个任务都可迅速上手,且大部分任务可直接套用,只需使用现成的算法 (VGG、ResNet、LSTM、GRU 等等),按照示例执行命令,替换数据、修改参数就能执行。
此外,PaddlePaddle 可多机多卡并行,同时支持 CPU 和 GPU,显存占用空间小,速度比也 TensorFlow 等更快。
作为人工智能的主要技术,囿于技术门槛,数据量和计算能量等,并不是每个公司都有条件使用机器学习。百度资深科学家、PaddlePaddle 研发负责人徐伟就曾表示:「在 PaddlePaddle 的帮助下,深度学习模型的设计如同编写伪代码一样容易,设计师只需关注模型的高层结构,而无需担心任何琐碎的底层问题。未来,程序员可以快速应用深度学习模型来解决医疗、金融等实际问题,让人工智能发挥出最大作用。」
在内部力推 PaddlePaddle 开源的陆奇则表示,人工智能时代的核心是数据和算法,中国走向人工智能,一定会面临着挑战。作为百度的核心平台,他希望团队将 PaddlePaddle 发展成具有中国特色,尤其是在数据上最适合中国国情的深度学习平台。
「这是一个时代的演变过程,将来加入人工智能时代,唤醒万物,信息一定要传遍所有的世界的所有的角落。我们要站在这样的高度来看待。」陆奇说。
陆奇在百度 AI 开发者大会演讲
而现在,这 4 位学生已将所有代码和材料清单,上传至 GitHub 进行开源和分享,请全世界关注农业和关注深度学习的人共同完善。
对 PaddlePaddle 平台而言,虽然智能桃子分拣器只是其中一个案例,但百度通过人工智能回馈社会的决心却明确无疑。
本文为机器之心原创