本文来自百度。
近日,百度发布了“2023百度十大科技前沿发明”,包括“基于大模型的检索生成决策交互一体的智能系统”“基于大模型的端到端搜索技术”“飞桨端到端自适应的分布式训练技术”等十项百度前沿发明。其中超过70%涉及大模型和重构创新,一批创新AI原生应用踊跃而来。
“我们大模型的专利申请量、授权量都是国内第一,深度学习专利申请量全球第一。”百度首席技术官王海峰表示,百度发布十大科技前沿发明,是百度一年来前沿创新成果的集中展现。我们鼓励培养AI原生思维,踊跃创新AI原生应用。
PART1
具有预见性的十大发明
2022年9月,百度首次发布“十大科技前沿发明”,披露人工智能及其自动驾驶等多个领域高价值专利成果。其中就包括“跨模态通用可控AIGC”“知识增强大模型”“数字人智能化生产”等突破性成果。两个月后,ChatGPT横空出世,生成式人工智能和大模型代表了一个新技术范式,与百度发明成果相互印证,证明了“十大科技前沿发明”的前瞻性和准确性。
此次,“2023百度十大科技前沿发明”涉及大模型、基于大模型的端到端搜索、飞桨、AI芯片、生成式检索、内容生成推荐技术、自动驾驶决策系统、生物计算大模型、高性能量子芯片。充分展示了百度在推动前沿创新、促进产业升级方面的强大实力,以及百度技术的前沿性和市场前瞻性。
PART2
聚焦前沿创新必将大有作为
当前,数字经济与实体产业加速融合发展,我国的产业体系品类齐全、体量庞大,人工智能技术有丰富的应用场景,赋能产业的转型升级,广泛应用于各行各业,成为科技革命和产业变革的重要驱动力量。北京市知识产权局副局长秦元明提到,我国在建设世界科技强国的新征程中,百度这样的科技企业必将大有所为。十大科技前沿发明展示了百度在多项世界前沿领域的创新和突破,必将引领产业的高水平创新和高质量发展。
百度集团资深副总裁、总法律顾问梁志祥表示,技术竞争的背后是知识产权的竞争。强大公司背后凝聚着一个强大技术团队,强大技术团队背后凝聚着很多强大的专利。百度拥有充满技术基因的强大技术团队和知识产权团队,大模型技术和专利布局业界领先,为百度产品的领先提供了重要支撑。“这个世界在改变,这个世界在不断革新,现在就是各类技术人员的时刻。”梁志祥感慨道。
PART3
从拼参数到拼落地
随着越来越多的大模型产品陆续上线,我国生成式人工智能发展也将从“拼大模型参数”阶段步入“拼原生应用、拼产业落地”阶段,而产品和应用的每一项功能正常运转,都离不开大量的前沿发明作为底层技术支撑。这些前沿发明聚沙成塔,构筑起通用人工智能的四大核心能力:理解、生成、逻辑和记忆,驱动大模型各项能力在千行百业的落地应用。
8月31日,文心一言率先向全社会全面开放,获市场热烈反响,开放首日即回答网友3342万个问题。10月17日,以“生成未来(PROMPT THE WORLD)”为主题的Baidu World 2023将在北京举办。作为年度最重要的战略、技术、产品发布会,百度将发布多款AI原生应用,介绍大模型核心能力和最新进展。百度也将通过持续研发投入和技术创新,推动数智产业的快速发展,与合作伙伴一起推动人工智能产业化落地,实现高水平科技自立自强,为经济高质量增长带来更多动能。
附:百度2023十大科技前沿发明
01
基于大模型的检索生成决策交互一体的智能系统
该发明提出了知识增强的大模型智能交互系统。该发明通过知识内化和知识外用两种手段增强模型的知识性和推理能力,通过检索增强提升模型实效性和事实准确性,通过对话增强提升模型记忆能力和多轮交互能力。该发明技术显著提升了大模型的理解、生成、逻辑、记忆能力,并广泛应用在百度的核心业务,赋能了千行百业。
02
基于大模型的端到端搜索技术
该发明提出了大模型端到端搜索技术,打破了传统级联分治的模式,标志着10余年来百度搜索技术架构的重大代际变革。该发明技术已被广泛运用于通用搜索、视频搜索、企业搜索等多场景,系统效果和研发效率均显著提升。
03
飞桨端到端自适应的分布式训练技术
该发明通过“两个统一表示”对硬件资源和模型结构统一建模,支持任意模型在异构硬件下实现最优模型切分和资源分配,以通用自动混合并行策略实现高效训练,并可针对故障中断、资源扩缩自适应重新完成最优切分和并行策略选择,实现自动容错和弹性调度,在大规模分布式训练的灵活性、易用性、高效性和鲁棒性等方面具备明显优势。该发明技术成功助力文心一言高效训练,大规模集群作业训练有效率提升超30%,在百度智能云、智能搜索和推荐等核心产品线发挥重要作用,同时也广泛应用于传统行业的智能化改造,产生了显著的经济效益和社会效益。
04
飞桨多硬件分层适配一体化技术
针对智能芯片多样性,通过松耦合的分层设计和简捷适配接口,显著降低芯片与框架适配复杂度,广泛兼容多种硬件类型。针对AI应用的高性能需求,支持软硬系统极致优化,充分发挥硬件潜能,实现业务应用收益最大化。基于该发明技术,飞桨已经和40多家芯片/IP厂商完成高效适配,实现繁荣的AI软硬件生态,构建AI软硬件适配技术体系并推进国家标准,引领行业发展。
05
面向企业级大模型平台的AI芯片优化技术
该发明提出了面向企业级大模型平台的AI芯片优化技术,通过精准控制、提前预判等方式在满足高性能、低延迟AI计算的同时减缓AI芯片的瞬时大电流。该技术可以有效减少系统的整体成本、提升系统的稳定性和可靠性,并且提升在各种场景下AI处理器的使用效率。该发明技术为百度智能云千帆等企业级大模型平台提供了更加高效、稳定的训练和推理能力支持。目前千帆大模型已纳管的国内外主流大模型数量达到42个,并提供大模型开发和应用的整套工具链,能为企业进行高效、可靠的AI应用的构建。
06
全链路生成式智能检索系统
该发明实现了工业界首次将搜索系统与大规模生成技术相融合。通过引入全链路的可信度提升策略、真实数据的增强训练和严格的模型风控机制,采用AI原生架构设计,完成异步模型计算架构的深度优化,成功地突破了大模型在大规模用户应用场景的各种挑战。该发明技术全线落地百度搜索产品,进一步提升了搜索结果的准确性和可靠性,助力搜索首位极致满足效果快速提升,并超越了国际同行。
07
基于用户心智理解的内容生成式推荐技术
该发明全新构建对话式推荐系统,利用大模型理解能力和生成能力的优势:(1)将隐式反馈变为自然语言交互,推荐系统可对话,更加方便用户理解;(2)实现内容推荐与内容生成结合,集成推荐前看点、推荐中互动、推荐后延伸,提升用户陪伴式消费体验;(3)基于大模型能力生成的海量高质量资源,支持个性化生成千人千面的内容。该发明技术已经在百度Feed在线应用,以对话的方式触达用户深层需求,激发用户的阅读兴趣和探索效率,一期上线提升用户时长10%。
08
数据驱动的自动驾驶决策系统
该发明以深度学习技术为核心,推动自动驾驶决策系统由规则驱动向数据驱动转型,包括交互决策模型及其训练方法、基于人类驾驶员和自动驾驶的数据生产方法,以及基于闭环仿真的评测系统等部分。该发明技术已在萝卜快跑Robotaxi业务规模化落地应用,累计吸收上亿帧道路交互场景数据,决策准确率达到99.5%,实现90%以上的线上规则替代,有效支持Robotaxi无人化运营。
09
融合第一性原理的生物计算大模型
该发明融合生物领域数据和生物化学原理,构建极具创新性的生物计算大模型,在化合物和蛋白质领域取得重大技术突破,标志着百度在生物计算方向上的国际领先性。该发明技术已广泛应用在小分子药物发现、多肽药物设计、抗体药物设计等场景,在精度和速度上超越众多传统方法,助力合作伙伴在多个管线上找到高价值候选药物分子。
10
高性能量子芯片的设计、流片与测控全栈技术
该发明瞄准超导量子芯片研发“设计、流片、测控”闭环中的核心技术,旨在研发具有业界核心竞争力的高性能量子芯片,为量子计算的实际应用提供基础支撑。通过“端到端”的优化,以及与量子软件和量子应用的融合,高性能量子芯片研发将对人工智能、材料科学、药物研发、金融科技等领域带来高潜价值,进而促进量子计算的产业化。