据消息人士称,OpenAI正在训练下一代的人工智能,暂名“Q*”(读作Q-star)。新的一年,OpenAI下一代产品可能发布
数据瓶颈指的是可用于训练AI的高质量数据的有限性,合成数据有望打破这一瓶颈。除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因
作为全球性能最强的AI,ChatGPT已遇到算力等方面的瓶颈。在此背景下,讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案
AI代理和无代码软件开发带来“冲击波”
2023年,世人见证了ChatGPT在全球范围的大火。以生成式人工智能为代表的新一代人工智能问世,改变了人工智能(AI)技术与应用的发展轨迹,加速了人与AI的互动进程,是人工智能发展史上的新里程碑。2024年,人工智能技术与应用的发展又会呈现出哪些趋势?让我们一同展望这些值得关注的重大趋势。
趋势一:从AI大模型迈向通用人工智能
2023年,ChatGPT开发者OpenAI被置于前所未有的聚光灯下,也使GPT-4后续版本的开发被推向了风口浪尖。据消息人士称,OpenAI正在训练下一代的人工智能,暂名“Q*”(读作Q-star)。新的一年,OpenAI下一代产品可能发布。
据媒体爆料,“Q*”可能是第一次采用“从零开始”的方式训练的人工智能。其特点是,智能不来自人类活动的数据,且其有能力修改自身代码以适应更复杂的学习任务。前者使得人工智能能力的发展变得愈发不透明,而后者向来被看作是诞生人工智能“奇点”的必要条件。在人工智能发展领域,“奇点”特指机器拥有了自我迭代的能力,进而在短时间内迅猛发展,导致超出人类控制。
虽然一些报道称,“Q*”目前还只能解决小学难度的数学问题,距离“奇点”还远。但鉴于虚拟环境中人工智能迭代速度可能远超想象,其仍然可能在不远的将来自主发展出在各个领域均可超过人类水平的AI。2023年,OpenAI预言,各方面超越人类水平的人工智能在十年内就会出现;英伟达创始人黄仁勋表示,通用人工智能可能在五年内超越人类。
一旦通用人工智能得以实现,就可被用于解决各种复杂的科学难题,譬如寻找外星人与地外宜居星系、人工核聚变控制、纳米或超导材料筛选、抗癌药研发等。这些问题通常需要花费人类研究员数十年的时间来寻找新的解决方案,部分前沿领域的研究量已超出人力极限。而通用人工智能在自己的虚拟世界中拥有几乎无限的时间和精力,这使得其在部分容易虚拟化的任务中,有可能成为人类研究员的替代。但届时,人类如何监督这些从智能水平上超过人类的人工智能,确保其不会危害人类,又是一个值得思考的问题。
当然,我们也不应过分高估硅谷巨头们的部分言论,因为在人工智能发展史上,已经历三次“AI寒冬”,其中不乏宏大的技术愿景因各方面限制化为泡影的例子。但目前可以肯定的是,大模型技术仍然有着不小的上升空间。除GPT-4外,谷歌的“双子座”(Gemini),Anthropic的Claude2,目前都是仅次于GPT-4的大模型,国内的百度“文心一言”与阿里“通义千问”,也是国产大模型中的佼佼者。它们在新的一年中是否会发布更具革命性的产品,同样值得期待。
趋势二:合成数据打破人工智能训练数据瓶颈
数据瓶颈指的是可用于训练AI的高质量数据的有限性,合成数据有望打破这一瓶颈。
合成数据是在模仿真实数据的基础上,由机器学习模型利用数学和统计科学原理合成的数据。关于什么是合成数据,有一个较为浅显易懂的比喻:这就像是在给AI编写专门的教材。例如,尽管英文课本的对话中出现的可能是“小明”“小红”这样的虚构人名,但并不影响学生们由此掌握英语,因此从某种意义上,对于学生而言,教材就可以看作一种经过编纂、筛选和处理的“合成数据”。
有论文表明,模型的规模至少要达到620亿参数量后,才可能训练出“思维链”能力,即进行分步骤的逻辑推理。但现实的尴尬在于,迄今为止人类产生的不重复的、可供训练的优质数据并没有这么多。使用ChatGPT等生成式人工智能以前所未有的数量产生高质量合成数据,未来的AI将由此获得更高的性能。
除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因。近年来,各国纷纷出台更严格的数据安全保护法律,使得客观上利用人类产生的数据训练人工智能变得更为繁琐。这些数据中不仅可能隐含个人信息,其中的许多数据还受版权保护。在互联网隐私与版权保护尚未形成统一标准与完善架构的当下,使用互联网数据进行训练,极易导致大量法律纠纷。而若考虑对这些数据进行脱敏,又面临筛查识别准确率方面的挑战。两难之下,合成数据就成为最惠而不费的一种选择。
此外,使用人类数据进行训练,还可能导致人工智能学到有害内容。一些诸如使用日用品制造炸弹、管制化学品的方法,另一些则包括许多人工智能本不应当出现的坏习惯,譬如像人一样在任务执行过程中偷懒、为了取悦用户而说谎、产生偏见和歧视。若改用合成数据,使人工智能在训练中尽可能减少接触有害内容,则有望克服以上使用人类数据训练时附带的缺点。
从以上分析中可以看出,合成数据可以说是颇具开创性的,有望解决此前发展人工智能与数据隐私保护不可得兼的问题。但与此同时,如何确保相关的公司和机构负责任地制作合成数据,如何制作出既符合本国文化与价值观,又在规模和技术水平上足以媲美西方以英文网络资料为中心的合成数据训练集,也将成为中国面临的一个颇具挑战性的课题。
除此之外,合成数据带来的一个重大变化是,来自人类社会的大数据或将不再是AI训练所必需。在今后的数字世界中,人类数据的产生、存储和使用仍将遵循人类社会的法则和秩序,包括维护国家数据安全、保守商业数据秘密和尊重个人数据隐私,而AI训练所需的合成数据则采用另一套标准进行管理。