我国人工智能“大模型”现状与面临的问题

人工智能大模型具有长周期、重投入、高风险等特点。国内企业、高校在“大模型”“大数据”“大算力”等方面各有侧重,研发力量分散,资源缺乏整合,没有与OpenAI技术实力对标的企业。

本文来自微信公众号“沈阳四块科技”。

大模型的训练成本较高,技术应用面临着亿元级研发投入和海量训练试错,国内企业投入严重不足,研发推广和产业落地整体落后于海外。

差距背后存在深层次制约因素,或使中美“大模型”差距进一步拉大,主要表现为三个“缺少”:

缺少高质量训练数据。GPT-3模型训练需要的语料75%是英文,3%是中文,还有一些西班牙文、法文、德文等语料集,这些学习语料可通过公开数据(如维基百科、百度百科、微博、知乎等)、开源数据集、网页爬取(训练GPT-3爬取了31亿个网页,约3000亿词)、私有数据集(如OpenAI的WebText数据集,收集了Reddit平台上的800万篇高赞文章,约150亿词)等方式获取。这些语料中,英文语料公开数据更多、质量更高。中文开源高质量数据少,特别是构建通用领域大模型的百科类、问答类、图书文献、学术论文、报纸杂志等高质量中文内容。同时,国内专业数据服务还处于起步阶段,可用于人工智能模型训练的经过加工、清洗、标注的高质量数据集还相对匮乏。缺少高质量训练数据已成为国内大模型训练的核心痛点。

360截图16251112669372.png

缺少充足的智能算力支撑。一是大模型训练和运营算力成本高昂。训练阶段,目前业界测算ChatGPT训练成本约为1000万美元,为研发拥有部分ChatGPT能力的大模型,至少需要上千张A100训练卡。运营阶段,ChatGPT云计算成本每日约200万美元。二是缺乏大规模并行计算工程能力。满足大模型训练的算力需求不仅需要数量巨大的高性能GPU,更需要面向人工智能高度优化的云计算平台和相应的工程能力。三是采购国外先进GPU受限,国产算力尚未成熟到支撑大模型研发。国产智能芯片不仅在算力、带宽等性能上同英伟达A100、H100芯片有差距(这两款都在美方对华禁售之列),支持自然语言处理和大模型训练的算子库也不够成熟,国产替代仍有软硬适配等技术问题尚待持续优化与解决。四是人工智能算力市场和服务市场“碎片化”加剧。全国多地主导建设近百个智算中心,形成一个个孤立破碎的人工智能算力和服务小市场,中国大市场优势被消解。

缺少适合大模型研发特点的机制。一是力量分散。人工智能大模型具有长周期、重投入、高风险等特点。国内企业、高校在“大模型”“大数据”“大算力”等方面各有侧重,研发力量分散,资源缺乏整合,没有与OpenAI技术实力对标的企业。二是资金投入不足,企业受盈利压力很难长期维持高投入。政府项目的支持力度与所需投入相比仍显乏力,决策周期长。三是领军人才和核心团队缺乏。ChatGPT团队共87人,绝大多数拥有世界名校学历和知名企业工作经历。而国内人工智能顶级人才分散在不同机构中,很难形成掌握核心技术并且有强大工程能力和项目经验的领军人物和团队。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论