带着手机重生,目标科技教父:第637章 全球的关注
“用ReLU做激活函数,收敛速度更快。再加入DrOpOUt机制,随机让部分神经元失活,防止过拟合。”亚历克斯一口气说出了两个核心优化点。
辛顿在一旁听着,对这个架构方案频频点头。
“理论框架非常完美,现在只剩下一个现实问题。”亚历克斯停下笔,看着自己工位上那台破旧的主机。
“别看我,我这个月的津贴只够吃快餐,买不起企业级的计算卡。”伊利亚摊了摊手。
辛顿整理了一下衣领,走向教研室的门。
“硬件设备的事情交给我。既然是证明并行计算的潜力,我们不需要昂贵的企业级服务器。”辛顿包揽了采购任务。
“那买什么?”亚历克斯问。
“我去电脑城买两块三百美元的顶配游戏显卡。用来打游戏太浪费,用来跑矩阵运算刚刚好。”辛顿语气轻松。
走到门口,辛顿又停下了脚步。
“学校的经费审批流程太长,我先去联系采购,直接刷我的卡。你们的任务,就是把代码的底层逻辑重构好。”辛顿说完,大步流星地离开了教研室。
教研室里,亚历克斯和伊利亚对视了一眼。
“老板亲自去当硬件采购员了,我们还有什么理由不通宵?”伊利亚调出了一个全新的代码工程文件。
亚历克斯拉过键盘,活动了一下手指。
“准备好让那些还在用CPU排队跑数据的同行们感受震撼了吗?我要让AleXNet的错误率,成为他们无法企及的数据。”亚历克斯盯着屏幕,敲下了第一行底层重构代码。
目光转向全球的其他地方。
这个百万级别的数据集公开后,各地的研究团队都迅速行动起来。
麻省理工学院的一间机房里。
几名研究员正在白板上画着各种算法流程图。
“我说过很多次了,我们需要优化支持向量机的核函数。”一个穿着格子衬衫的男生大声说道。
旁边的女生立刻反驳。
“修改核函数根本解决不了根本问题!计算量依然庞大到无法接受。”女生用笔敲击着桌面。
格子衬衫男生很不服气。
“那你有什么更好的方案?难道用随机森林?”男生质问。
女生毫不退让。
“我们可以尝试把图像分块提取特征,然后再进行融合。”女生提出自己的见解。
两人各执一词,谁也说服不了谁。
在日本东京大学的一间实验室里。
几个研究员正围在一台电脑前,满头大汗地盯着屏幕。
“底层逻辑综合失败了。”负责操作的研究员报告。
站在后面的带头人皱紧眉头。
“重新检查语法。我们不能依赖现成的软件,必须自己用硬件描述语言写出最快的加速器。”带头人下达命令。
“可是这样开发周期太长了,比赛时间有限。”操作员提出担心。
带头人拍了拍操作员的肩膀。
“只要我们坚持下去,就一定能比别人更快跑完模型。今晚大家继续加班。”带头人鼓励道。
在印度的一所知名理工学院里。
网络拥堵导致下载数据集的进度条几乎停滞。
“这网速太慢了,照这个速度,比赛结束我们都下载不完。”一个男生拍着桌子抱怨。
旁边的同学拿出一个U盘。
“别慌,我写了一个脚本,可以把下载任务分散到校园里其他闲置的电脑上,然后再合并。”同学展示自己的成果。
“太棒了,赶紧运行。”男生催促。
整个世界的顶级技术团队都在研究同一套数据集。
每一天都有无数行代码被编写出来,然后又被删除。
大卫在斯坦福的实验室里吃着披萨,眼睛盯着屏幕上的进度条。
“27.2%。提升了零点五个百分点。”大卫咬了一口披萨,汇报结果。
约翰在旁边喝着可乐。
“照这个速度,飞飞教授预测的32%真的就是天花板了。”约翰叹气。
大卫擦了擦手。
“不行,我得再换一种特征描述符试试。我不信邪。”大卫重新握住鼠标。
多伦多大学这边,亚历克斯敲击键盘的速度越来越快。
“网络结构的第一层定义完成了。”亚历克斯转头对伊利亚说。
伊利亚凑过来看代码。
“步长设置得是不是有些大?这会丢失一些细节特征。”伊利亚提出建议。
亚历克斯思考了一下。
“步长大会减少计算量,我们在后面的层级再把特征补回来。先跑起来看看效果。”亚历克斯坚持自己的设计。
辛顿走进教研室,拿着两盒咖啡。
“大家休息一下,喝点东西。”辛顿把咖啡分给大家。
亚历克斯接过咖啡。
“教授,英伟达的显卡买到了吗?”亚历克斯问。
辛顿点点头。
“已经下单了,明天就能送到。一共四张顶配卡。”辛顿回答。
伊利亚兴奋地搓手。
“太好了,明天我们就可以开始真正的模型训练了。”伊利亚迫不及待。
在这些顶级实验室里,枯燥的调试和争论每天都在上演。
大家都在为了提高百分之一的正确率而不断尝试。
大卫又一次把键盘推开。
“我又失败了。这次的模型直接陷入了局部最优解,出不来了。”大卫揉着太阳穴。
约翰走过来拍了拍大卫的后背。
“去睡一觉吧,大卫。你的大脑需要重启了。”约翰建议。
大卫站起身。
“我觉得代码没问题,肯定是参数给的不对。明天我把学习率调小一点再试。”大卫嘀咕着离开实验室。
第二天,亚历克斯拆开显卡的包装盒。
“终于到了。这做工,看着就很能算。”亚历克斯拿起显卡端详。
伊利亚拿来螺丝刀。
“赶紧装到服务器上。我已经把驱动程序下载好了。”伊利亚催促。
两人合力把显卡安装好,开机测试。
屏幕上顺利显示出四张显卡的信息。
“完美识别。现在开始分配显存。”亚历克斯在终端里输入指令。
辛顿站在一旁看着他们操作。
“注意散热,别把实验室点着了。”辛顿半开玩笑地提醒。
伊利亚启动了训练程序。
终端窗口开始疯狂滚动数字。
“速度快了好多倍!这在以前简直不敢想象!”伊利亚盯着屏幕上的时间预估,大声喊道。
亚历克斯也露出满意的笑容。
“这就是并行计算的魅力。老黄这次算是做了一件大好事。”亚历克斯调侃。
大家各自守在电脑前,紧盯着自己团队的进度。
麻省理工的队伍决定放弃支持向量机,开始研究新的分类器。
东京大学的团队在经历了三次语法错误后,终于编译成功了第一版底层逻辑。
印度团队利用全校的闲散算力,终于用了一个月时间,下完了全部的一百多万张图片。