图片来源
视觉中国文丨谭婧
年,年中。
人类历史上最大的人工智能模型,来到人间。
这个体格巨大的北鼻,哭声嘹亮,告知全世界:“我写的作文,几乎通过了图灵测试。”
那些第一次听说参数数量的人,那些第一次翻看实验结果的人,那些第一次口算增长速度的人,在彼此确认了眼神之后,一致的反应是:“哦漏,我大概是疯了吧。不,是人工智能模型疯了吧。”
“不仅会写短文,而且写出来的作文挺逼真的,几乎可以骗过人类,可以说几乎通过了图灵测试。”
如果没有后两个半句,你可能会误认为这是老师对文科生学霸的评语。
理科也超级擅长,还能辅导别人编程。
“以前都是人类去写程序,现在是人类写一个人工智能算法,算法自己从数据中推导出程序。新的人工智能技术路线已经跑通。”
学渣,看破红尘,敲敲木鱼,念出乔布斯的名言:
做个吃货,做个蠢货(Stayhungry,Stayfoolish)。
反正养老托付给人工智能了。而这样的人工智能,需要巨额的资金,需要顶级的技术。
科技巨头微软大笔一挥,千万美金的支票,拿走不谢。
据测算,即使使用市场上价格最低的GPU云计算(服务),也需要年的时间和多万人民币的费用。
大明宫首席建筑师阎立本,收起画完《步辇图》的画笔,在呈给太宗李世民的臣下章奏中写道“用工十万”。
千宫之宫,留名千古。
全球顶级人工智能实验室,用金千万。
三十一位研究人员,徒手修建了一个外表看上去擅长胸口碎大石的北鼻。
挪步震掀桌椅,哭嚎万马齐喑。
这个超大人工智能模型,名叫GPT-3。
早期的深度学习模型,参数量小,好比一个乐高玩具,每天摆在办公桌上卖萌。
如今的深度学习模型,参数量挑战底层GPU并行技术,参数量挑战底层地基。
好比同样是乐高模型,GPT-3可以在北京朝阳区三里屯优衣库门口当大型摆设。
当然不是试衣服,而是欲与大楼试比高。
知乎问题:“如何看和楼一样高的乐高模型?”
网友回答:“抬头看。”
不抬头,只能看到脚丫子。一个正常的模型大小刻度表,绿巨人GPT-3模型是放不进来的,得重新画一下坐标轴的刻度。
(原来的队列)
(GPT-3来后的队列)
人工智能超大模型GPT-3和绿巨人浩克一样,都是大块头。
经常观摩,可以治疗颈椎病。
绿巨人GPT-3模型出生于美国OpenAI实验室。
在看到自己的论文刷爆了朋友圈后,像他们这么低调的科研团队,一点也没有得意,只是在办公室旋转、跳跃,并巡回炫耀了24小时,而已。
早在年,OpenAI实验室就发出前方高能预警。
他们核算了自年以来模型所用的计算量,从AlexNet模型到AlphaGoZero模型。AlexNet模型,是冠*模型。AlphaGoZero模型,是打败韩国围棋九段棋手李世石的那个,它们都是人工智能模型。
参数指标很争气,增长30万倍。
那些堪称“最大”的AI训练模型所使用的计算量,呈指数型增长。
3.4个月就会倍增。这是OpenAI实验室的结论。
虽然还没有成为“定律”,但已经有很多人用“摩尔定律”和其比较。
摩尔定律说,芯片性能翻倍的周期是18个月。OpenAI说,人工智能训练模型所需要的计算量的翻倍周期是3.4个月。
三个半月,一台计算机就不够了,得两台。掐指一算,大促买新的机器,双11大促又得买新的了。
对于人工智能的科研工作来说,金钱是个好仆人。
如果你不知道OpenAI,那要补补课了。
世界历史上,美国时隔9年第一次使用国产火箭从本土将宇航员送入太空,民营航天企业第一次进行载人发射,马斯克就是这家震惊世界的公司的创始人。
OpenAI是全球人工智能顶级实验室,这家机构也曾有马斯克的支持。
平庸的人,都是相似的。
疯狂的人,各有各的疯狂。
一个人工智能的算法模型可以大到什么程度?
绿巨人GPT-3模型给出了新答案——亿个参数。
实话实说,模型创新程度很难用单个指标量化,模型复杂度和参数量有一定关系,模型参数量决定模型大小。
绿巨人GPT-3模型是啥?
是一个超级大的自然语言处理模型,将学习能力转移到同一领域的多个相关任务中,既能做组词造句,又能做阅读理解。听上去像小学语文课的内容。
把这种(预训练)模型比喻为小学生,一年级的语文作业,组词和造句,早就会做。你接手过来,给模型辅导功课,无需从头教起,接着教二年级的题目就可以了。
《语文》课本里熟悉的一幕:“阅读全文,并总结段落大意。”
绿巨人GPT-3模型“参数”身价几何?我们来看看《福布斯·模型参数量排行榜》。
回首那年,AlexNet,冠*模型,有0.6亿个参数。
回顾前两年,BERT模型,流行一时,有3亿个参数。
绿巨人GPT-3模型的亲哥哥GPT-2,有15亿个参数。
英伟达的Megatron-BERT,有80亿参数。
年2月,微软TuringNLP,有亿参数。
年6月,绿巨人GPT-3,有亿个参数。
小学数学老师告诉我们:绿巨人GPT-3模型稳赢。
连体育老师也得这么教。
这时候,麦当劳对人工智能说,更多参数,更多欢乐。
理解模型的复杂度,要回顾一下历史。
年,微软发明的用于图像识别的ResNet模型训练过程大约包含次浮点计算,模型含有千万级参数。
年,百度发明的用于语音识别的DeepSpeech模型训练过程大约包含次浮点计算,模型含有亿级参数。
年,谷歌发明的用于机器翻译的深度学习模型训练过程大约包含次浮点计算,模型含有数十亿参数。
微软、百度、谷歌,仿佛走进了罗马角斗场,双眼充满红血丝。
拜托,哪有这么血腥,看看科技巨头的年度利润。人工智能本来就是贵族的游戏,哪个玩家没有几头健壮的现金牛。
年之后,人工智能模型的消费水平,进入了奢侈品俱乐部。驴牌教父起身站立,鼓掌欢迎。
要是俱乐部有个