大数据文摘作品,转载要求见文末
作者:Chris Qiu 魏子敏
过去的30余年,科技圈的发展日新月异,如今大热的机器学习更是常爆出“大新闻”,发展迅猛。但当我们把目光转向学术刊物时,仿佛又回到了20世纪初:学术研究成果的呈现方式依旧停留在纸媒或者pdf文件上。
这一学术研究的大bug终于被注意到,并且在昨天有望被修补。
就在昨天,谷歌联手OpenAI等宣布发布全新的服务于机器学习研究的交互视觉化期刊平台——Distill(http://distill.pub/)。作为一个网站平台,Distill一方面为学者发表和阐释机器学习的研究成果提供了极大的便利,同时也为大众更深入清楚地了解机器学习的前沿发展打开了一扇窗户。在一片叫好中,也有很多质疑的声音。
过去,关于机器学习的科学实践主要通过多种形式的“论文”来发布,如传统期刊、arXiv挂靠、代码库和社区支持(JMLR和JAIR),以及多媒体的视频、海报、博客等。Distill为这些成果提供了一个更为统一的出口,论文的价值也可以被评估。
另一方面,以arXiv这一现有论文发布平台为依托,建立起来的评审方式(以ICLR 的 Open Review 环节为例、 LeCun 与 Bengio 倡导的一种评审方式)有可能被颠覆。
Distill:自带闪光的出场
Distill可谓含着金汤匙出生的宝宝。
昨天,Google Brain的Chris Olah和Shan Carter发布了Distill诞生的消息。从其幕后团队看,Distill的出场已然自带bgm。
之后, Google Research、DeepMind、YC孵化器、OpenAI纷纷发文章进行介绍并表示支持和赞扬,Ian Goodfellow等人在Twitter热情转发,Reddit机器学习版也在热烈讨论。
Distill的发布还获得了包括李飞飞、Francois Chollet等许多业内知名学者的支持:
斯坦福大学人工智能实验室主任、谷歌云首席科学家李飞飞认为这是促进AI民主化的重要方式。她提到的AI民主化包含了四步,分别是计算民主化、数据民主化、算法民主化、人才和专业知识的民主化。她认为,“随着科技触及的人群在变大,其影响也会变得更加深远。这也是为什么,AI 的下一步,必须是民主化(Democratization),减少准入障碍,对更大的社区开放,包括开发者、用户和企业家。”(点击查看大数据文摘关于李飞飞的相关报道《李飞飞四大视角看视觉智能:AI会改变世界,谁会改变AI》)
谷歌研究员,开源深度学习框架 Keras 的作者 Francois Chollet则称赞Distill是在使机器学习成果更具说明性上迈出的第一步。
调参、可交互:Distill和一种崭新又酷炫的思维方式
作为新的平台,Distill 提供了一种崭新的思维方式。
通过一些新的符号、视觉化以及模型,来帮助读者理解机器学习最新研究。这种思维方式也为研究者创造新发现提供可能。
为了更好地说明自身的功能,Distill很贴心的在平台上公开了几篇学术作品给用户作为范例。大数据文摘挑选了一个发表在Distill官网上的使用神经网络生成手写字母(http://distill.pub/2016/handwriting/)的例子作为说明,一起看看这个平台有多炫酷。
在这篇文章中,作者利用神经网络再生模型使计算机能够“记忆”人的书写习惯,进而模拟人的笔迹。
在文章开头的第一个窗口,读者可以用鼠标或电子笔任意书写一些单词甚至笔画,然后通过调整上方的两个参数:长度(Length of prediction)和偏差(Variation),让计算机能在不同程度上模拟你的笔迹。这里面综合了输入-记忆-模拟输出的整个过程。
第二个窗口展示的计算机学习结果则更加惊人。首先,计算机模型书写的内容更加接近真实的单词,比如会出现“no”、“nean”、“Cran”等。其次,随着偏差参数值减小,书写笔迹更加统一,看起来好像出自同一人之手。
Distill提供的这种更加直观、清晰的阐释方式,在传统纸媒期刊上是难以想象的。
Distill上的其他说明例子还包括:
神经网络中的注意力:http://distill.pub/2016/augmented-rnns
使用 t-SNE 可视化高维数数据:http://distill.pub/2016/misread-tsne/
使用神经网络生成手写体:http://distill.pub/2016/handwriting/
质疑声:Distill是学术民主化的倒退?
对于刚刚诞生的Distill,并非所有的声音都热情洋溢。相比学术大佬们一边倒的庆贺之态,Reddit等媒体平台和twitter上则出现了大量读者的质疑声。
很多人认为,Distill的一些属性增加了研究者的工作量,而这些为了展示所做的工作本来不是研究者的工作的重点。
@ j2kun
“学者缺少动机去做这件超出他们能力的事。”
“绝大多数机器学习研究者都不善于写作,而编辑团队不太可能去完成弄懂文章内容这样繁重的工作。”
“写好文章、制作易懂的交互图像、管理GitHub记录等,会消耗大量的时间。学者们本就时间紧张。”
“它要求你掌握Git分布式版本控制系统、前后端的网页设计,以及Javascript库技术,这些又会大量占用研究时间。”
Twitter上一位名叫@Delip Rao的小哥连发25条推文表达对Distill的不满,他称,并非所有研究团队都有经费能跟负担Distill所要求的可视化呈现功能,这将导致学术研究民主化的倒退而非进步。
还有一些热心读者很积极的提出了给Distill的解决方案:
@ infinity
“比较好的方式是选取一些优秀的文章,为Distill量身定做自己的版本,而不是将所有文章的第一版都发布在Distill上。”
@varadg
“确实,弄出一篇Distill接受的好文章很费精力 -做交互图表,网页设计等等。Distill能不能帮助研究者找一些这方面有能力并且愿意参与的开发人员一起合作?”
不管是质疑还是反对,这个承载着很多希望的炫酷平台都已然将在机器学习领域扮演重要角色。