廉政研究中心

廉政信息
当前位置: 首页 >> 廉政信息 >> 正文
资讯速递||从ChatGPT 到Deepseek
发布时间:2025-02-25     来源:“ 上海发展研究基金会”微信公众号     作者:钟泽林

从ChatGPT 到Deepseek

上海发展研究基金会和上海市外商投资协会近日合办了第193期上海发展沙龙,复旦大学/上海创智学院教授,中国人工智能学会会士、中国中文信息学会大模型与生成专委会副主任邱锡鹏先生作了题为“从ChatGPT 到Deepseek”的演讲。他从ChatGPT的发展讲起,概述了大模型技术的突破、现状与未来趋势,并重点介绍了Deepseek。作为一款开源的大型语言模型,Deepseek通过技术创新和低成本训练策略,为AI领域带来了新的突破,它不仅在推理能力上表现出色,还为AI技术的生态发展提供了重要支持,同时也面临着进一步优化的挑战。以下是演讲的主要内容。

一、AI的标志性突破与关键节点

AI发展历经多次起伏,早期如上个世纪五六十年代,凭借下国际象棋战胜世界冠军、建立专家系统等成果而备受瞩目,但因未达预期陷入低谷。统计学技术兴起曾带来新希望,却同样未能持续突破。直到2015年深度学习爆发,依赖人工神经网络,借助强大算力和海量数据,实现了质的飞跃。AlphaGo的出现是深度学习的标志性成果,它在围棋领域战胜人类,展现出深度学习+强化学习技术的巨大潜力。然而,AlphaGo功能单一,仅能下围棋,无法满足人们对通用人工智能(AGI)的期望。

2022年底OpenAI推出的ChatGPT,凭借强大的通用能力震撼世界。它能处理多种文本任务,如写作、答题等,后续还发展出多模态版本,具备理解图片、生成图像的能力,与人类智能表现更为接近,让人们看到通用人工智能的曙光,重新点燃了大众对AI的热情。这一突破促使人们思考AI的发展路径,OpenAI坚信随着模型数据规模扩张能通向通用人工智能,但也面临数据和算力瓶颈,为后续技术探索埋下伏笔。面对数据和算力困境,OpenAI积极创新,2023年推出o1推理模型,在数学、编程、科研等领域达到人类专家水平,标志着大模型推理能力突破,同时为通向AGI制定技术路线,涵盖聊天、推理、智能体、创新、组织等阶段。o1模型引入强化学习,让模型通过自我博弈提升能力;借助推理式计算,将难题拆解为简单问题求解。思维链、反思和强化学习成为关键技术,这些创新为大模型发展注入新动力,也为实现AGI奠定了技术基础。

二、大语言模型的原理

大语言模型(LLM)是当下大模型的学术称谓,其核心是训练大规模神经网络,参数至少100亿以上,训练数据达万亿Token规模。它通过记忆人类文字,具备思维链能力,能像人一样思考,采用预测下一个词的生成方式。语言作为人类认知世界的抽象符号,是知识传播的载体,在大模型中起着关键作用。OpenAI在2019年提出的Scaling Law(规模定律),揭示了模型性能与计算规模等因素的关系,为模型优化和资源投入提供了理论依据,推动了大模型技术的发展。

尽管大语言模型知识量远超个体人类,但存在诸多不足。在预测未来事件、实时信息获取方面能力有限,需借助外接搜索能力补充。数学运算能力较弱,处理长输入文本困难,多步推理和个性化信息处理也有待提升。生成方式上,逐个词生成易出错,难以产出高质量长文本。为解决这些问题,研究人员积极探索改进技术,如引入强化学习,让模型自我提升;发展推理式计算,增强模型解决难题的能力;运用思维链和反思机制,优化模型决策过程,推动大语言模型不断进化。

三、Deepseek的特点与意义

Deepseek在今年春节成为热点。Deepseek被视为开源领域的重大突破,其出现引发了广泛关注。它对标OpenAI的o1模型,在推理能力上接近甚至追平了o1的效果。作为开源模型,Deepseek为研究和应用生态提供了强大的支持,降低了开发和训练成本,推动了AI技术的普及。Deepseek通过“有限算力+算法创新”的方式,有效突破了算力限制。它在训练成本上大幅降低,例如其6711亿参数的模型,单次训练成本仅为557万美元,远低于OpenAI的千万级训练成本。这种低成本训练模式为资源有限的企业和研究机构提供了更多机会。

其核心技术之一是强化学习,通过自我博弈和环境交互提升模型的推理能力。它引入了思维链、反思机制和强化学习三大技术,使模型能够在推理过程中逐步优化自身策略,从而突破传统大模型的限制。它采用了高效的模型架构和算力利用方式,使其在千亿参数甚至万亿参数的规模下仍能高效运行。这种架构优化使其在推理任务中表现出色,尤其是在长推理链和复杂问题解决方面。它的训练过程分为多个阶段,包括冷启动、强化学习训练和通用领域训练等。其训练过程自然涌现了长推理能力和“顿悟”现象,即在某一时刻模型的损失大幅下降,表现出更强的推理能力。

作为开源模型,Deepseek为开发者提供了强大的基础模型支持。它能够帮助企业和研究机构快速构建垂域模型,降低重复投资和开发成本。其开源策略促进了AI技术的生态建设,吸引了更多开发者和研究机构参与其中。它为AI技术的广泛应用提供了基础支持,推动了AI在各个领域的落地。

Deepseek被视为推理时代的代表性模型,类似于早期ChatGPT在通用语言模型领域的地位。它为AI技术的推理能力提升提供了新的方向。尽管Deepseek在技术和成本上取得了突破,但它仍面临一些挑战。例如,其训练数据的具体细节并未完全公开,这使得其他研究机构难以完全复现其成果。此外,如何进一步优化模型性能和降低训练成本仍是未来需要解决的问题。

四、回答热点问题

(1)如何评价Elon Musk推出的Grok3?

模型好坏难以单纯依据榜单判断,开源模型的下载量和使用量可能更反映其实际价值。

(2)大模型如何获取与处理数据?

AI训练依赖高质量数据,如百科知识、科学文献等,数据获取途径包括购买版权和网络爬取。处理数据成本较高,数据挖掘和合成数据是重要手段,合成数据可补充特定领域数据不足。

(3)如何看待中美AI竞争格局?

美国若围堵中国AI发展,中国需注重基础创新,加强基础人才培养,强化AI基础设施建设,提升自主研发能力,减少对外部技术的依赖。

(4)AI在管理决策中的作用?

在管理决策和战争领域,AI的可信性是关键问题,因其可能犯错,难以完全替代人类,未来更适合辅助人类决策。

(5)如何平衡AI研发的合作与竞争?

企业在AI研发上投入巨大且存在重复劳动,未来可能走向差异化竞争,部分企业专注细分领域。AGI追求通用智能,发展需大量资源,可考虑由国家或政府补贴,使其具有公益属性,平衡商业性与社会性。

(6) AI“幻觉”问题怎么办?

AI“幻觉”在不同应用场景下接受度不同,模型自身难以解决,需借助外部手段,如构造特定数据检测模型能力边界,让其明确自身未知情况。

(7)如何看待开源与闭源生态之争?

大模型领域的开源多为半开源,核心技术仍掌握在企业手中。开源更多是一种商业策略,用于吸引投资和构建生态,未来开源与闭源将长期并存,企业需根据自身优势选择发展路径。

(8)AI能否发展到有意识?

在目前训练范式下,AI不太可能产生意识。对于视觉与语言在AI中的重要性,虽有不同观点,但以语言模型为中心融合多模态是当前更有效的发展方向。

(9)如何应对AI对就业的冲击?

AI发展会对就业产生冲击,也会改变AI从业人员的技能需求,未来AI人才需具备运用模型解决实际问题的能力。人们应积极适应变化,借助AI创造更大价值。


版权所有 © 广州大学廉政研究中心

地址:广州市番禺区大学城外环西路230号

邮编:510006     电话:020-39366152