第(1/3)页 2013年的暑假,距离比赛开始时间还有大约一个月的时间。 “模型的训练过程需要将所有的权重,数据和许多中间过程都放入gpu中进行处理。因而gpu的显存大小格外重要。”孟繁岐叹了口气,“即便是我们购买的旗舰690,也太小了,只有4g大小。” 比起后来被美国禁止卖给华国的a100-80g,690不说其他性能,单显存就少了20倍。孟繁岐如今只能可怜巴巴地每次使用16张图片对模型进行迭代。 “一次十六张,一次循环要接近一百万次才能更新完整个数据集。而想把模型收敛好,上百次循环又是少不了的。” 孟繁岐估算了一下,这个版本出一次结果要接近20天,最后的训练过程确实大概消耗了三周左右以收敛到现在的这个性能。 好在imagenet在后来基本成为了每个算法工程师必调参的练手数据集,孟繁岐自己就曾无数次刷榜,自然是轻车熟路,清楚各类参数的大概设置。 这为他至少节省了一两个月的珍贵时间。 即便一次训练需要三周之久,孟繁岐却仍旧赶在比赛开始之前就已经准备好了一版模型。 看着训练出来的模型最终性能达到了预期,孟繁岐心中的一块大石总算落地了。 这几个月来,他唯一担心的一件事情就是多年前的老框架会出一些他意料之外的问题,导致最终的结果不能和理论预期吻合。 一旦这种事情发生,找到问题所在并测试解决的代价就太大了。倘若不能够及时解决,会很大影响到他初期的规划。 眼下的结果大约在4.9%的top-5错误率,这个版本比后世论文中的性能要稍差了一丁点,但好在仍旧强于赛事方给出的人类标准了。 一般来说,比赛前是不会公布比赛所使用的具体数据的。只是imagenet比赛比较特殊,一千多万量级的图片,总不可能办一两次比赛就舍弃掉,不再使用。 因而每届比赛所用的数据是变化很小的,只是具体赛道,所竞争的内容和评判的方式常会有所调整。 虽说imagenet休赛的时期其实也可以提交结果,孟繁岐现在就可以把这个结果上传上去,夺取第一的位置,但关注度毕竟不可与赛时的激烈竞争同日而语。 第(1/3)页