千张上万张TPU都是标配。
孟繁岐如果想要将AI接入搜索系统,有三个主要的方向。
一是通过拆分关键词,通过语言模型来获取其在现实世界的含义,从而对结果进行更好的排名。
二是通过扩大模型的规模,使得它具备一定的宽泛理解能力,从而扩大能够搜索的内容量。
三则是让搜索引擎更能够理解不同语言顺序会如何改变查询的意图。
其中二目前比较难办,一和三孟繁岐的把握很大。
传统的RNN和LSTM的循环方式,就导致了在较长语句上比较难处理得当,对顺序的变化理解也没有那么充分。
孟繁岐的雏形T方法,在这方面具有得天独厚的优势。
除此之外,T方法虽然在小数据上难以学到东西,各个参数也很难微调,总体的训练难度大。
但这在孟繁岐这个老炼丹师面前,不是什么难事,配合谷歌早已备好的海量数据,孟繁岐对这个方法的效果还是很有信心的。
而将显卡资源都投入训练之后,在13年的圣诞节前夕,孟繁岐结束了在谷歌尚海大约十天的工作旅程。
模型的训练需要一定的时间,广告算法后续两板斧可能过两周,元旦之后了