ChatGPT背后的核心技术？

提问者：Terry2023.07.18浏览：4270

ChatGPT是生成式AI的一种形式，Gartner将其作为《2022年度重要战略技术趋势》的第一位。Gartner预测，到2025年，生成式AI将占到所有生成数据的10%，但目前这个比例还不足1%。

ChatGPT背后的支撑是人工智能大模型，这个技术点，我们在去年的腾讯研究院《2022十大数字科技前沿应用趋势》报告中做过详细的阐述：当前的人工智能大多是针对特定的场景应用进行训练，生成的模型难以迁移到其他应用，属于“ 小模型”的范畴。整个过程不仅需要大量的手工调参，还需要给机器喂养海量的标注数据，这拉低了人工智能的研发效率，且成本较高。大模型通常是在无标注的大数据集上，采用自监督学习的方法进行训练。之后，在其他场景的应用中，开发者只需要对模型进行微调，或采用少量数据进行二次训练，就可以满足新应用场景的需要。这意味着，对大模型的改进可以让所有的下游小模型受益，大幅提升人工智能的适用场景和研发效率，因此大模型成为业界重点投入的方向，Open AI、谷歌、脸书、微软，国内的百度、阿里、腾讯、华为和智源研究院等纷纷推出超大模型。特别是OpenAI Gpt 3 大模型在翻译、问答、内容生成等领域的不俗表现，让业界看到了达成通用人工智能的希望。当前ChatGPT的版本为GPT 3.5，是在GPT3之上的调优，能力进一步增强。

ChatGPT使用的核心技术之一是transformer。这从其全称上也能看得出来，Chat Generative PRe-trained TransFORMer。Transformer技术是近几年人工智能技术最大的亮点之一，他是google于2017年提出的一种采用注意力机制的深度学习模型，可以按输入数据各部分重要性的不同，而分配不同的权重。TransFormer的精度和性能上都要优于之前流行的CNN（卷积神经网络）、RNN（循环神经网络）等模型，大幅提升了模型训练的效果，让人工智能得以在更大模型、更多数据、更强算力的基础上进一步增强能力。此外，他还具有很强的跨模态能力，不仅在NLP（自然语言理解）领域表现优异，在语音、图像方面也显示出了优异的性能。

赏您的支持是我们创作的动力！