推荐活动

华大基因未来在人工智能的成功之道:机器学习的那些奇妙又恐怖的应用(1)

首页 » 产业 » 行业 2015-08-14 基因空间/陈卫华 赞(12)
分享: 
导读
前华大CEO王俊同学忽发壕言要用100亿加人工智能攻克人类疾病,引发了众多关于只爱梦想不爱金钱的热议(似乎并没有),也使大家对人工智能兴趣高涨。

  前华大CEO王俊同学忽发壕言要用100亿加人工智能攻克人类疾病,引发了众多关于只爱梦想不爱金钱的热议(似乎并没有),也使大家对人工智能兴趣高涨。作为在遥远的北京华大时期和王俊共走过一条走廊的我,被很多人问王同学的计划能否成功。我总是斩钉截铁的说:以王同学的聪明才智,总有一天,他因人类疾病研究而创造的财富,肯定会超过他的帅气程度!(好像哪里逻辑不对!)说正经的,我个人的理解,一件事情的成功往往取决于三个因素,梦想+实践+金钱(注:重要程度依次增加)。人的疾病,除了少数由单基因决定之外,大多都由多基因加环境等多因素决定。要了解其发病机理及每项因素的相对贡献,是非常复杂的,更别说各种因素之间的相互作用对于发病的影响了。使用人工智能来研究这些多因素与疾病表型的对应关系,方法上是正确的,也确实可行。但是,人工智能方法通常需要大量的样本作为输入;样本量越大,结果越精确。而且,越复杂的疾病,需要的样本量就越多。因此,所需要的金钱也是大量的。这也是为什么他说需要这么多钱的原因。回到我刚才提到的成功公式,只要有足够的钱,在梦想和实现的手段都不缺少的情况下,王俊成功的可能性还是比较大的。再说了,我也希望我们基因行业能出一个颜值和智商直接碾压某同姓国民老公,又在创造财富上超越后者的人。在这件事情上,王俊是不二之选。
  在这里,我准备用几篇文章介绍人工智能/机器学习的近况以及在生物学、药物筛选和人体健康领域的应用。以使各位同学们对相关背景有足够的了解。
  先讲个故事。话说某一天一名男性顾客闯入了美国明尼苏达州的一家塔吉特商店(注:美国大润发),要求见经理。他手里挥舞着一张广告纸,显得十分气愤。 “我的女儿在邮件中找到了这个!”他喊道,“她还在上高中,你们却给她发了童装和童床的优惠券,你们是在鼓励她未婚先孕吗?”。经理立刻表示了歉意。几天之后,他又致电再次道歉。 但父亲却面露愧色。 “我跟我女儿谈了一次话”,他说道,“原来她在家中干了一些我不知道的勾当。”他深吸了一口气,继续说道,“她的预产期在8月份。非常抱歉。” [1]
  这是一个被做大数据的同学们讲到快烂的故事。这的确也是一个大数据的故事,看一看塔吉特收集了多少用户数据就知道了:
  很可怕吧。在这个数字时代,不大量收集用户的个人数据,公司就难以生存。难怪有人说Facebook的产品不是网站或应用而是用户本身;你对爱人的了解都没马云多!So true!
  塔吉特的故事也是一个经典而完整的机器学习的故事。话说一个叫做安德鲁·波尔的数据分析人员刚进入塔吉特时,他的同事问他:“你的计算机能不能在顾客刻意隐瞒的情况下,计算出哪些是怀孕的顾客?” 孕妇是零售店的金矿,她们往往购买大量婴儿用品而不太计较价格;由于时间有限,她们也不轻易改变购物的地点和品牌。因此发现刚刚怀孕的女士并用打折优惠将她们引诱到塔吉特,就意味着成功挖到了金矿(注:塔吉特的故事还是个心理学的故事;对心理学感兴趣的同学们可以看一下《习惯的力量》这本书。强烈推荐给那些希望改变自己,比如不买买买、不玩手机、准时上床、减肥、戒酒、戒烟等等,却不知道如何做的同学们!)。于是他首先通过塔吉特公司婴儿派对的注册信息找到了一些孕妇和她们的怀孕时间,收集并研究了她们在孕前和孕后不同时期购物偏好的数据。根据这些数据,波尔构建了一个数学模型,然后从公司的注册用户当中筛选出了成百上千的可能怀孕的女性顾客,并向她们有针对性的发布广告。波尔的模型获得了巨大的成功,开头时讲的少女孕妇的故事便是示例之一。
  所谓的机器学习,就是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法[2]。波尔所演示的经典机器学习包括三个步骤,即数据收集、构建模型、预测。第一步收集的数据包括输入物件(购物数据)和预期输出(孕妇与否及怀孕阶段);第二步用统计学或更复杂的方法在输入与输出之间建立联系,并得到数学模型;第三步则是用得到的模型在新的数据(怀孕情况否未知的用户的购物数据)上预测可能的输出结果(确定是否怀孕了)。根据输入数据中是否已经标注了预期输出(怀孕与否),机器学习又可以分为监督学习(即波尔所用的方法)、无监督学习(通常用来寻找数据之间的关系并聚类)、半监督学习和增强学习[2]。用输入数据构建模型的算法又有不少种类,比如人工神经网络、贝叶斯网络以及马可夫链等等。具体细节可参见相关的专业书籍,这里就不再一一介绍了。
  深度学习(Deep learning)是近年来风头正劲的一种机器学习算法。根据维基百科的解释,它是一系列试图使用多重非线性变换对数据进行多层抽象的算法。深度学习是机器学习中表征学习方法的一类。一个观测值(例如一幅图像)可以使用多种方式来表示,而某些特定的表示方法可以让机器学习算法更加容易进行学习。表征学习的目标是寻求更好的表示方法并建立更好的模型来学习这些表示方法[3]。深度学习的基础是机器学习中的分散表示(distributed representation)。分散表示假定观测值是由不同因子相互作用生成。在此基础上,深度学习进一步假定这一相互作用的过程可分为多个层次,代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[3]。
  似乎比较难以理解吧?!说实话我也完全搞不懂深度学习的原理是怎么。据说,深度学习领域的大牛Geoffrey Hinton(加拿大多伦多大学教授;同时在Google兼职[4])也说,他自己都弄不明白到底是怎么运作的。大多数人都把深度学习作为一个黑箱子。我这里给出一些链接,感兴趣的同学去看一下[3, 5-8]。值得一提的是, Geoffrey Hinton今年5月在Nature发表了一篇review[9]专门讲深度学习。当中提到,深度学习现在已经用在了包括视觉对象识别、对象检测和许多其它领域。我们会在下一篇里详细介绍深度学习在药物发现和基因组学的应用,其中一些还是Geoffrey Hinton的成果。
  顺便提一下,机器学习是人工智能的一个分支[10]。在这里我把二者当做是等同的概念。
  现在正火热的所谓大数据,其实与机器学习是密切相关的,或者大数据这个概念本身就包含了机器学习:即通过各种途径收集到的海量数据由机器学习进行处理,从中挖掘出许多数据关系性,以用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等[11]。
  在现实生活中,特别是现在的网络时代,机器学习是无处不在的。谷歌和百度都用机器学习提高搜索准确率;亚马逊和网飞这类公司通过机器学习,根据你的购买和观看历史向你推荐你可能想买的东西和你可能想看的电影;淘宝和京东也都在做类似的事情;像领英、脸谱这类的公司,也会用机器学习的方法向你推荐朋友[12]。当然,这些都是通过收集并分析用户的行为习惯来完成的。
  举个例子来说,你在淘宝上浏览了某个物品。忽然之间,你去其它网站的时候,显示的广告里就充满了类似物品。如果你不介意自己的网络行为数据被收集,这些推荐倒是有用的。只是,有些时候这种推荐还不够智能。比如说,如果你买下了那个物品,你就可能不再想看到类似物品的广告了。有一次,我一个同事就讲了件让她尴尬的事。她想要给过生日的男朋友过生日一个惊喜,就提前买了块手表当做礼物。手表是在男朋友的电脑上买的,结果他浏览网页的时候,每一个页面都有那块手表的广告,搞的一点浪漫的气氛都没了。这个时候,她倒是希望购物网站是能够区分她购买成功与否的,虽然这样一来,她的网络隐私就遭到了更深层次的侵犯。


  陈卫华博士
  生物学数据整合专家;奇云诺德CIO;中科院基因组所博士;欧洲分子生物学实验室博士后。现供职于瑞士生物信息学研究所、日内瓦大学医学院。生物科班出身,后专攻生物信息学,已不下十年,可谓文武双修。入行来以第一作者发表文章数十篇,其中不乏科学(Science)和分子系统生物学(Molecular Systems Biology)等顶级杂志。视科研为终生爱好,但又注重科学与普通人生活的接轨,理论与实践并重。个人爱好广泛,除生物学外,对心理、科技、人文也多有涉猎。曾经是足不出户的宅男,后华丽转身为运动狂人,其中辛苦与乐趣实不足为外人道。自以为普通人成功的三大要素:不懈的努力、追求成功的信念和不甘平庸的执念。
(转化医学网360zhyx.com)

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发