ChatGPT掀起技术狂潮——“顶流”之下，看人工智能喜与忧(2)

时间：2023-02-16 12:39人气：来源：科技日报

　　作为一种语言模型，在大规模文本数据上进行自监督预训练后，ChatGPT还需要经过三个阶段的“炼制”。首先是监督微调阶段，在该阶段，人类AI训练师既充当用户，同时也是AI助理，以自我对话形式生成对话样例，ChatGPT在这些对话样例上进行有监督的训练。

　　接着，ChatGPT进入第二个阶段。该阶段的主要目的是训练一个基于语言模型的奖励模型，对机器生成的回复进行评分，为了训练该奖励模型，需要随机抽取机器生成的文本，并采样出多个不同版本，人类训练师对这些不同版本进行偏好排序，排序的结果用于奖励模型的训练。

　　基于训练好的奖励模型，第三个阶段采用强化学习技术进一步微调ChatGPT。

　　这项技术与众不同之处在于，它能够基于以上介绍的人类反馈强化学习技术，使生成的文本能够与人类意图和价值观等进行匹配。

　　无论懂不懂技术，全球网友都竞相大开“脑洞”，试探ChatGPT到底有多“神”。据美国有线电视新闻网报道称，有人要求它用《坎特伯雷故事集》的风格重写上世纪90年代热门歌曲《Baby Got Back》；有人写了一封信，要求ChatGPT删除信用报告中的不良账户；还有人询问它以童话为灵感的家装设计方案。

　　自然语言处理技术拨云见日

　　一炮而红后，ChatGPT概念股也跟着一路“狂飙”。有媒体报道，汉王科技9天收获7个涨停板。自然语言处理研究是该公司主营业务，而ChatGPT背后的技术就是NLP。

　　熊德意告诉笔者，NLP是人工智能的一个分支，最早诞生于机器翻译，其历史实际上比“人工智能”名字的历史还要悠久，至今已研究了70多年。简单来说，该技术的目标就是要让计算机或机器人能够实现像人一样具备听、说、读、写、译等方面的语言能力。

　　“ChatGPT并非一项技术的一蹴而就，它是多种技术叠加在一起形成质变的产物，是NLP领域的结晶。”熊德意解释，其底层技术，包括Transformer、自监督学习、微调、人类反馈强化学习（RLHF）、AI对齐等，在自然语言处理和人工智能领域都有广泛的研究和应用。

　　“但ChatGPT将这些技术巧妙地结合在一起。它有效规避了大模型的未对齐行为，利用了大模型规模带来的智能突现能力，增强了大模型的指令学习能力和用户意图捕获能力，解锁了大模型的泛化能力。这些能力叠加在一起形成了ChatGPT的质变效果。”熊德意说。

　　美国《迈阿密先驱报》报道称，推特上的一位用户在ChatGPT的帮助下参加了一次模拟SAT考试，得到了1020分（满分1600分）。根据College Simply的数据，这只略低于平均水平。

　　但当我们提问ChatGPT“你能帮我通过考试吗”，它会善意地提醒我们不要利用它来作弊，并表示：“重要的是要记住，测试的目的是评估你对材料的理解和掌握程度。作弊，或者仅仅依靠像我这样的外部来源，会破坏考试的价值，也不会促进学习或成长。”

　　这是因为ChatGPT被加入了预先设计的“道德”准则，也就是上文提到的人类反馈强化学习。

　　OpenAI表示：“这使该工具能够回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。”

　　熊德意认为，这是因为RLHF有效提升了大模型的对齐能力，即如何让AI模型的产出和人类的常识、认知、需求、价值观保持一致。

　　经过RLHF的“调教”，ChatGPT变得高度拟人化，可以学习并生成听起来十分自然的回复。RLHF还使ChatGPT能够理解指令并做出适当的响应，从而使对话更加真实。

　　ChatGPT也因此迅速成为当下所有智能聊天机器人中的“天花板”。

　　虽触手可及但无法取代人类

　　随着科技的发展，人工智能技术一次又一次地超越了人们认为无法达到的极限，从1997年IBM“深蓝”计算机首次在国际象棋中击败人类，到IBM人工智能机器人“沃森”赢了智力竞赛《危险边缘》（Jeopardy），再从2016年“阿尔法狗”在围棋大战中战胜人类，到2019年号称“AI赌神”的Pluribus在德州扑克中碾压人类玩家……

　　现在，ChatGPT已经触手可及，拉扯冲撞着人们惯有的参与生产生活的模式和框架，且继续“狂飙”在超越人类的赛道上。“ChatGPT引发十大职业危机”“未来20种职业或被AI取代”等话题频上热搜。

　　它真的会跟人类抢饭碗，甚至取代人类吗？