近日全球AI和机器学习领域权威学者、前百度公司首席科学家吴恩达教授在谈到其对AI下一步的发展趋势时说,“不要相信那种(基于海量数据的AI优势)炒作。”
我们都知道,AI的发展离不开大量的数据。大数据和大模型构成了AI的两条腿,缺一不可。一提到AI,就会说训练模型的数据量有多大,到目前为止顶尖AI训练模型的数据参数规模已经到了万亿级别,不可谓不大,可以说是真的大数据了。
然后AI却不一定是数据越多,模型越大就是最好的,在很多场景下,尤其是在传统行业,基于公开数据进行预训练的大模型好像就不灵了。很多时候,并不需要那么多的数据,数据量大反而会裹挟很多用不到的数据,影响运算效率和最终的产出。
随着各国的数据和隐私安全法规的纷纷落地,能拿到的公开数据量或者能够合法使用的数据量,已经不能跟前几年同日而语,AI的大数据红利期已经过去。
根据Gartner的报告,到2025年,70%的组织将被迫将重点从大数据转移到小数据和泛数据,并减少AI对数据的需求。但这并不意味着大数据以及AI的发展会止步不前。
以往的大数据一味地追求数据参数规模大,对数据质量的把控比较薄弱,在数据应用方面也不够普遍。反而小数据和泛数据更符合国内企业的实际,可以根据具体的场景构建特定的数据模型,从而生成商业洞察和实现自动化决策。
而目前,小数据的处理方案也是多种多样,常见的有少样本学习、知识图谱、迁移学习、自监督学习、合成数据等。
大数据固然好,但小数据才是常态,尤其是在各国陆续出台针对个人数据保护的政策法规之后,大规模收集个人相关的数据收集开始变得很难。但即使这样,通过科学的数据采集、数据治理,小数据也一样可以发挥大作用。
光点科技自主研发的GI大数据中台系统,就是帮助客户把海量分散且异构的数据建立数据标准,统一口径后采集存储起来,再通过大数据、机器学习等方式进行价值提炼,形成企业数据资产,为政企单位的商业洞察和自动化决策提供支持,赋能前端业务。
数据无疑已经成为了这个时代最重要的生产要素,作为政企单位重要的战略资源,那些优质的小数据,即使参数量级不大,潜力也不容小觑,在不远的未来必将发挥更大的价值。