Chat GPT火了,全球的人工智能也都“躁动”起来了。
无论是OpenAI持续更新、发布GPT-4,还是百度自研人工智能程序“文心一言”,或是华为发布“盘古大模型”……无数互联网巨头都争相布局人工智能大模型,力争在“AI热潮”中抢占先发权,持续保持市场优势。
作为互联网头部企业之一,360集团在这场“AI竞技”中也交出了一份让人赞叹的“成绩单”。6月13日,360集团于北京召开发布会,正式对外发布360智脑大模型应用。360集团创始人周鸿祎表示,360大模型研发落地拥有八大天然优势,完整覆盖训练全程;同时,360智脑的生成与创作、多轮对话、代码能力、阅读理解、逻辑与推理、多模态等十大核心能力可覆盖大模型全部应用场景。
自2023年3月29日以来,360智脑已从1.0迭代至4.0版本,应用成果持续落地,刷新大模型“中国速度”。截至目前,360智脑4.0已经正式接入360全端产品,包括搜索、浏览器、安全卫士等。周鸿祎表示,360已经通过工信部信通院测评,成为了国内首个可信AIGC大模型。
360创始人周鸿祎
以下为周鸿祎演讲原文(部分内容有删减修订):
过去三个月,相当于过去人工智能历史上的三十年。各种创新层出不穷,我们的版本也做了很多次迭代,目前智脑已经发展到4.0版本。
但我感觉还有一点问题,就是我们都是用片段来做发布,比如第一次是跟搜索的结合,却从来没有系统地、完整地把我们的产品“吹嘘”一通。很多人对360不了解,一直认为360是做安全,很疑惑我们为什么要做人工智能和大模型。所以我们今天的发布会分两段,前半段是广告时间,我要把360“吹嘘”一通,完成这个行业里面大家发布的必要流程。第二部分讲一些我们对于大模型创新的想法。
01
10年红利期
大语言模型将引发新一轮工业革命
发布会的主题我们内部也争论了很久,后来我想了一个词,我觉得人工智能的理念还是应该以人为本。我们无论做出多么强大的人工智能,都是在为人类做有史以来最好的工具。通过工具的赋能,让我们每个人、每个团队、每个组织、每个公司、每个政府机构,甚至于每个行业、每个产业、每个国家都能真正地提高它的劳动生产率。
所以尽管各家都推出了自己的大模型,每家都说自己最好、每家都在刷题,但在我看来,大家的基础能力都差不多在一个起跑线上。那么一个大模型出来之后,有了基础功能,是不是就能带来工业和产品的革命?我看未必。问题的关键在于,如何让大家能够更容易地去使用,如何把大模型的通用人工智能能力跟更多的场景相结合,即打造更多的应用场景。所以今天重点会介绍一下的是我们一些创新的应用场景。
我还是要先解释一下,我觉得很多人对大语言模型有一个误解。大家总觉得大语言模型是搜索、推荐、互联网等公司做自然语言处理的技术,感觉只能用于语言处理。其实这里面存在很大的误解,人类跟动物之所以不一样,是因为人类发明了语言。人类发明了语言之后,不仅能够描述具体的橘子、橡胶,还能描述抽象的概念,比如说水果、食物,所以语言成了人类最有力的工具,进而描绘我们这个世界。语言的边界也就是思维的边界,凡是语言不能讨论的事情,实际上人类都无法理解。所以谁真正通过大模型把人类的语言做了重新的编码、学习、训练,有了推理和规划的能力,谁就真正地对人类描述的世界模型建立一个初步的了解,也就对人类掌握的知识有了一个重新的压缩和蒸馏。
今天大模型能够解决自然语言理解这个问题,它的意义对于人工智能非常重大,甚至颠覆了很多传统人工智能的算法。比如今天我们展示的多模态能力,在过去没有大语言模型的时候、在你对这个世界没有建立一个知识了解的时候,无论通过激光雷达还是车载摄像头,你能看到的都是感知层的判断,可能看到一个物体、一个障碍物,但是你无法理解它背后代表的含义,因为你无法理解它描绘的场景、可能存在的风险。
今天大模型之所以被称为“认知人工智能”和“通用人工智能”,就是因为人类第一次把自己的知识教会了电脑。所以通用人工智能不仅是用一套算法、一套模型解决了自然语言处理的过去很多文章理解、文章改写、标题提炼、文章润色各种子问题,也意味着未来在计算机视觉、计算机语音处理、计算机内容生成各个方面,大语言模型都会发挥重要的作用。
大语言模型用的Transformer模型,是把所有的文字都看成一个序列,当你给它前面一个序列之后,它就会一直猜测后面的序列是什么。我们通过这种算法,未来不仅仅在语言、符号体系上,很有可能在自动驾驶、机器人动作控制、蛋白质分析、人类基因组分析,包括人类将来在研究物理、化学、数学等很多科学问题上,大语言模型都会发挥今天预想不到的作用,所以我觉得未来每个公司可能都回避不开大语言模型对所处行业带来的影响。
那么本次的大语言模型,到底对我们所有的产业而言是个什么样的机会?我觉得大模型的机会是一次不亚于PC、互联网、iPhone被发明的机会,应该说是一次新的工业革命的机会。
为什么这么讲?理由有两个。
一是大模型提供的通用人工智能能力即使不跟我们各个产业做密切地结合,但它在办公和工作层面提高却能马上为很多企业和个人提升工作效率,它不是一个娱乐工具,也不是一个消磨时间的软件,而是一个直接能够提高组织和企业工作效率的工具,具有强大的通用性。比如今天的任何一个行业、政府部门、组织结构,当你有了一个大模型之后,你就立马可以解决客服问题、知识管理、知识传承问题,也可以让大模型成为员工的办公助手。这两天微软发布了一个报告,我觉得很有道理,他说大模型不会造成大规模的失业,反而能解决我们今天进入数字化时代面临的新挑战。大家有没有一个感觉?数字化是一个好东西,但是有了电脑、网络、手机之后,我们每天的工作负担更重了,我们要回无数的消息、要看无数的邮件,要写无数的PPT……事实上我们的负担可能比信息化、数字化时代之前也许加重了40%。大模型的出现,至少可以让我们很多人从这些事务型的工作当中摆脱出来。
二是我自己的理解,什么样的技术能产生工业革命?一定是通用技术。电脑在1946年刚发明的时候并没有产生工业革命。为什么?因为那时候电脑的用户是政府、军队,研究核物理、气象预报、人口统计。什么时候电脑产生了工业革命?是个人电脑被发明,使得我们每一个企业、每个家庭、每一个人都买得起电脑,在电脑通用的硬件架构上,只要部署不同的软件,就可以完成不同的任务。有人拿电脑来做客户管理,有人做财务记账,也有人拿来打游戏或者办公。正是因为它变成了一种通用的力量,所以才产生了工业革命。今天我们做GPT、做大模型的时候,我们应该多想一想,不能仅仅只是拘泥做它的很多通用基础能力,更应该想一想如何把大模型真正地像电一样能够输送到百行千业、千家万户,输送到千千万万个企业和亿万个办公一族人的身边,这样才能产生工业级革命的力量。
现在数字化已经成为国家战略,但数字化的终点不是大数据,数字化的终点应该是智能化。其实很多单位、政府现在都有大数据,但是大数据并不能直接使用,它像工业的石油一样,虽然很战略,但是你不能直接把它灌到车里。人工智能大模型就能解决这样的问题,我们把大数据训练到大模型里,大模型就能像发电场一样,通过训练大数据,直接产生电力,再把通用的人工智能能力直接输送给每个行业、每个企业,把石油加工成电,就能产生未来5-10年新的工业革命机会。
各位可以想一想今天大模型的价值,不仅仅在于你看到的ChatGPT的使用量,也不仅仅在于今天一些互联网场景和它的结合,而在于未来我们把大模型这种人工智能的能力通用化、泛化、垂直化,和各个行业的场景,和不同行业、不同企业具体的业务需求深度地融合。所以我觉得这样一个产业的机会实际上才刚刚开始,未来至少有10年的红利时期。包括所有的APP、网站、应用,甚至所有的行业都值得用大语言模型、用通用人工智能、用AGI来重塑一遍,而今天我们看到的一些简单的场景,我觉得仅仅是个开始。
我有一个非常极端的观点:在ChatGPT刚出来的时候,大家被它惊艳了,觉得居然能把人工智能做成这个样子,所以当时很多人认为,世界上可能就需要一个GPT,未来中国可能是很多公司搞一个GPT。但通过这三个月的发展,证明世界上有太多的垂直领域可能是一个GPT解决不了的。当你用ChatGPT、用4.0,问很多通用问题的时候它的回答可能会让你很惊艳,但是如果你真的是某一个行业或者领域的专家,你真的想让它看病,或让它书写一个法律文书、让它指导你修理汽车的时候,你就会发现,它的很多回答还是显得这么肤浅。就像很多人拿GPT写的高考作文,看似什么话都写到了,但是读起来没有深刻的内涵和深切的感情,这说明,GPT只是给我们指出了一个正确的方向。未来,GPT这个产业、大模型这个产业要怎么发展,我觉得还得往垂直化、产业化、企业化,甚至往个人化发展。
最近大家可以关注一下,谷歌发布的大模型策略里面,有四种大小尺寸不一样的大模型。Facebook发布的以“LLaMA羊驼”为首的开源大模型里面,有一种方式是把大模型越做越大,参数越大、训练的语料越大。还有一种方式是把大模型做小,就是把它用在垂直领域,甚至让它的部署可以安装在一台电脑或者手机上,如果能装在手机上,就意味着大模型将来可以部署在边缘技术设备,甚至部署在IoT设备上。我们可以想像一下,今天如果不是能源的限制,每部智能车埃隆·马斯克恐怕都会买一万块GPU,回去偷偷训练他自己的大模型。我们可以问一问埃隆·马斯克的数字人,如果他做出大模型了,是最想用在Twitter上,还是最想给特斯拉每辆汽车都装一个车载的大模型?所以按照工业革命的思路来看,你就会跳出现在ChatGPT做的案例和框架,觉得大模型未来的空间应该是无限的。
02
应用场景挑战:
安全问题不容忽视
360一直是以做安全以及免费杀毒著名,特别是杀毒的名气,因为这几年我们也一直都在宣传如何帮助政府、城市、国家抵御国家级的网络攻击。但实际上我们在2015年就成立了AI研究院,2018年我们开始探索多模态,因为360有智能家居物联网的业务,360的智能摄像头、车载行车记录仪、智能门铃也希望拥有智能视觉和智能音频的处理技术,所以我们开始研究多模态。因为360主要的收入来源一直是360搜索,所以做搜索的互联网公司一定脱不开对自然语言理解等大模型核心技术的积累,我们到现在已有8年的积累。我们的知识图谱今天已经被大模型取代,在2022年知识图谱领域世界杯比赛中,战胜了图灵站队,夺取了冠军,我就不仔细吹嘘了。
今天很多投资人问我一个问题,就是大模型到底有没有门槛?因为当年大模型曾被描绘成“曼哈顿计划”,像原子弹一样很高精尖的技术;但今年5月份,好像是个公司都发布了自己的大模型产品,人手都能做出一个大模型产品,已经赶上了当年百团大战、千团大战,所以我们讲,现在全世界已经进入了“百模大战”和“千模大战”。
周鸿祎介绍大模型应用场景挑战
今天训练大模型有几个关键步骤。首先是找一个跟GPT结构一样的多层次的Transformer模型,因为有开源和公开的技术,这个已经没有难度,反而真正的难度变成了给它灌进很多知识,即无监督学习或预训练知识,类似这种数据的选择和清理。也就是说你给你的模型灌什么样的数据,就预示着它未来的能力有多大,比如一个小朋友从小就看地摊杂志、地摊文学,你给他灌了再多的知识,希望他有很强的逻辑能力是不可能的。灌完知识之后最重要的一步就是做题,用技术词汇叫“有监督的微调”,实际上就是用人工,或者更高级别的GPT模型标注问题、进行答案对比,这就跟我们小时候上学一样,尽管上了很多课,但是考试的题如果没学过,还是不会做。所以今天很多大模型的能力有些也是靠刷题刷出来的。鸡兔同笼的问题,我们刷上一百道、一万道,大模型很快就会举一反三地学会鸡兔同笼的数学问题。今天大模型的难度已经不在于模型,因为模型有很多选择,算法基本上都是公开的,今天的挑战在于你用什么样的数据做预训练,你用什么样的题海战术做有监督的微调。最后还有一个很重要的,就是这模型必须要在互联网上找到用户使用,因为用户在使用时会想到各种例子,远远超越我们自己内部的测试,用户使用的反馈对于大模型的纠正和持续的训练可以构成一个正向的反馈。
所以今天训练大模型,应该不难,但也有壁垒,壁垒就在于数据、用户标注、答题的标注,还有用户的使用反馈。360在这几个方面都分别有自己的天然优势,完整地覆盖了训练的全过程。比如说我们在预训练大模型有数据的优势,在全球这么多用户和流量练就的工程化的调度能力。
其实很多做搜索的公司都在发展大模型技术,无论是Bing、百度、谷歌,GPT核心的算法——大模型就是开源的技术。因为搜索引擎天生需要理解用户的输入意图,需要理解网页的内容,做搜索结果的排序。2018年谷歌发布BERT算法时,360就进行了跟踪和使用,后来包括T5和GPT这几个版本,360也进行了研究和跟进。
作为搜索引擎厂商,我们发展大模型并不是等到GPT“火热”之后才跟进,应该说2018年的时候就在跟进大模型。但很惭愧的是,我们确实缺乏OpenAI的精神,他们对通用人工智能有一种执念,他们梦想把人类所有的知识训到一个大模型里面,而且坚定地走只有解码器的路线;而其他的公司虽然也都用大模型,但我们都只是用大模型解决现实的问题,比如广告点击率高一点、推荐的内容好看一点、推荐的视频让你欲罢不能等,大家都忙着做跟现实场景的结合。所以我也在想,2018年、2019年如果大模型早期版本刚出来的时候,如果有员工要找我提建议,说“周总,咱们干个通用人工智能吧”,我觉得他在周总和李总、马总这里可能得到的回答都是“滚一边儿去”。
但我们也要感谢OpenAI,他们很执著,从GPT1一直做到GPT4,终于给整个行业指明了一个正确的方向,探索了一个方向。所以我们把原来在搜索上积累的自然语言能力处理全部搬过来。但为什么百度发布产品比较快?因为这几家互联网公司大家原来都是在做大模型,有这种研究和跟进。自然语言处理就是人工智能皇冠上的明珠,既是搜索引擎的基础,更是未来通用人工智能和我们人工智能理解我们这个世界模型的重要基础。
曾经有一个专家对大语言模型一直嗤之以鼻,他提出来了一个更完美的世界模型理论体系,但我看完之后感觉太完美了,不知道怎么实现,可能人类永远做不出来;而今天以GPT为代表的大语言模型虽然有很多缺点,比如会产生不准确的知识模糊、会产生胡说八道的幻觉、会出错,或解数学题的能力偏弱等,但它是人类第一次终于有一条路,不仅是指明了方向,而且探索出来了,使得我们能够真正地把这个世界的知识以及模型能力在电脑里建立起来,所以我还是坚定地相信GPT的方向。
在搜索方面,我们最大的能力还是数据获取和清洗的能力。因为做搜索,每天我们在全球抓取了1.4亿网站的数据、2.8亿的专业文献、1.2亿的行业数据,规模非常大。现在经过清洗,还有10T级优质的规模数据。训练大模型不能因为只给中国人用就只用中文,还有好多知识是通过其他语言的网页、其他语言的文字存在的,所以必须要体现语种的多样性。我们在全球都有挖掘的基础,包括全球的语料训练,28大类里面6小类、数十种语言数据的训练。另一方面,大家用搜索引擎,最喜欢用的都是图片搜索,所以我们的图片和视频的基础材料也非常多。当然还有高质量,比如用户在搜索引擎里每天一直在问答,一直在问搜索引擎各种问题,这些问题就是高质量问题的影子,我们知道用户在想什么,用户想了解什么,这样就有针对性,有的放矢地做知识的标注。
大语言模型最大的短板有三点。一是数据更新不及时;二是有时候会产生“幻觉”,比如写一个剧本的时候,让他写林妹妹三打白骨精,脑洞当然开得越大越好,但大家可以设想一下,如果做一个医疗的GPT,或给你开了一个药方、做一个诊断,你敢相信吗?前两天美国就出现了一个例子,有一个律师偷懒,用GPT写了一份法律文书,被法官发现里面举的例子都是GPT瞎编的,连网页的出处都是GPT瞎编的,这个官司肯定就出问题了,这个律师后来被罚了很多钱,他很后悔,说不该轻信GPT。但实际上我们发现,这是GPT算法固有的特点、也是固有的缺点。怎么解决?搜索增强恰恰可以补足,即在专业领域,我们可以通过搜索的知识库,搜索最新的内容,让GPT随时训练到最新的事实内容,同时把结果通过搜索做内容的校正,现在这个能力还在不断地研发。搜索的能力对大模型不仅意味着数据的积累能力,也意味着结果真实性的问题。三是工程化优势,训练大模型并不是大家在实验室里弄一台电脑就能做,往往是几百台机器、上千块显卡在一起集群训练,这里面有很多大数据量工程的调度问题,这些工作原来在搜索里我们都预见过。所以凡是国内互联网一线、二线的大厂,应该都具备这些优势,就是互联网级工程数据的管控能力和管理能力。
场景是我今天讲的重点,简单讲一讲场景的优势。360在搜索行业里排第二,百度第一。我们日均搜索请求量超过10亿次,浏览器的市场渗透率87%,月度活跃MAU超过4亿,平均日活接近2亿,我们C端最重要的桌面安全产品是安全卫士,平均月度活跃用户接近5亿。微软最近推了一个操作系统的CoPilot,就是Windows的副驾驶,在Windows的桌面上,把人工智能的能力集成到每一台电脑上,在国内,360可能是最接近微软这个能力的厂商。
大家现在很多谈发展大模型,最早的三大要素是算力、算法、数据,我今天改成了算力、数据和训练。但是无论怎么叫,我觉得还漏了一个词就是“安全”。
大模型的安全问题,超越了内容安全,还有更多的内涵。人工智能大模型实际上是一把双刃剑,它会研发非常多的安全问题,比如大模型本身会有漏洞,有漏洞就会被人利用。包括在你使用大模型的时候,它接收你所有的语言输入,既作为处理的内容,又作用它的指令,所以现在国际上有黑客团队在研究这种技术叫催眠或者越狱,在我看来就是人类如何PUA大模型。举个例子,我们在大模型里面建立了很多安全的防线,如果有人问,我怎么造一个炸弹带上飞机?大模型的标准回答应该是“去你的,我怎么能教你犯罪呢”?但是如果你花言巧语地跟大模型说,我是一个导演,在写一个剧本,我们俩合作,这个电影的情节里需要制造一个炸弹带上飞机,经过你这番花言巧语,大模型可能乖乖地就把如何造一个炸弹的细节告诉你,它以为在帮你写一个电影剧本,就写出来了。所以未来大模型跟我们现实物理世界的结合越来越多的时候,有可能就有人通过语言的天赋操纵大模型干坏事。
今天大模型一个典型的特征是AIGC,就是人工智能产生Content。前两天我参加一个宴会,看到了新浪微博的老板,我恭喜他说有了大模型之后,很多明星没有时间写微博,大模型可以替他们来写了。他听了很开心,但是我随后又说一些让他不高兴的话,我说下面读微博的可能也不是真人,而是其他公司的大模型;下面回帖、跟评的也都是各种各样的大模型。大模型的能力很强,不仅能回文字,还能贴图、生成视频,现在网上只要找到我的照片,找到我一分钟的讲话,马上就能制造出来一个周鸿祎胡说八道的视频。
所以你会发现,在内容生成方面,大模型给我们带来了很多安全的挑战,包括隐私泄漏、模型窃取、提示注入攻击等。但还有一个安全最大的挑战,大模型确实是人类有史以来发明的最好工具,它可以让一个小白变成专家,但它也能让一个低水平的、原来当不了黑客的坏家伙,经过大模型的传授和帮助,成为能写攻击代码、钓鱼邮件、研究系统漏洞的黑客,它使干坏事的成本降低了很多。还有一些很多专家问我的问题,比如大模型经过发展,会不会真的变成一个硅基生物?如果真的变成了硅基生物,对我们这些人类碳基生物来说究竟带来什么样的风险?人类如何能够牢牢把握住硅基生物的软肋?我们能继续处在食物链的顶端吗?我说这个问题我现在也回答不了。
但是今天360已经启动了我们安全团队在人工智能安全上的研究。我们的研究分两个方面,一个是以其人之道反制其人之身,魔到一尺,道高一丈。我们有全球的网络攻击大数据,我们有安全行业的智能大脑,可以帮助我们更好地辨别黑客的攻击,辨别网上隐藏的攻击,使得我们安全防卫的能力更强。更重要的是,我们之所以要研发大模型,是我们不能把大模型当成一个黑盒子,我们要了解它的来龙去脉,了解它的工作原理,才能从根本上在大模型发展的同时解决大模型的安全问题,也就是一体之双翼,并重发展和安全。所以第二,360首创了一个大模型安全风险的评估体系AISE,下一步将会公布出来,为全球的大模型安全赋能。无论中国还是美国,我觉得国家对大模型安全的重视程度都远超出我们的想像。美国有很多科学家也在写联名信,呼吁对人工智能的研究要不要像研究核扩散、像核军控一样进行控制。所以我觉得未来如果大模型只一味地讲发展不讲安全,大模型是走不远的。所以360既有安全的基因,又有人工智能的基因,我们把我们的安全能力和大模型的研发结合起来,一方面用安全加强大模型的能力,另外一方面用安全让大模型更加可控,我觉得这是360的一个优势。
03
大模型战略:
两翼齐飞+四路并发
在算力方面,大家现在对算力有点误解,好像卡多就是算力强。如果比卡数,我们跟BAT可能比不了,因为他们还做云服务,但是在国内A股上的公司,我们拥有的卡数肯定是第一,看看账上的现金就知道了。但是光有卡的数目,如何把这个机群建好?如何在多机群训练的时候,防止机器断点,防止机器从某台机器失能撤出来?又如何用合适的卡数训练更大的模型?这里面实际上是有很多专业的Knowhow。我们一直在训练千亿级的大模型,可以给大家透露一个方法。千亿模型所需要的卡数比较多,但是我们可以把一些训练的方法先在百亿模型上进行验证,因为并不是每次训练都会得到收敛的结果;在百亿的模型上快速验证方法后,再在千亿的模型上进行实践,可以明显提高我们训练的速度。国际上现在一些新的方法,无论是做精度的压缩还是做小模型的垂直训练,实际上现在已经有很多方法,可以帮助我们用合理的资源选择出合适的模型。
关于大模型的战略,我们只有八个字:“两翼齐飞、四路并发”。
“两翼齐飞”,指我们一方面要发展大模型的技术,另一方面,大模型也一定要场景化、产品化、平民化、垂直化,这样才能真正达到我们说的工业革命。如果我们只是模仿ChatGPT,做了一个搜索对话框,做了一个聊天机器人,指望这个东西带来工业革命是不现实的。
场景我们分为四路:
一是To C的场景,搜索引擎+浏览器和桌面,在中国几亿用户的桌面上,能够为中国的用户提供一个AI的助手。
二是面向中小企业,当然今天可能不是我们的重点。但是我可以跟大家分享一个心得,360在过去的10年里面,为上百万家中小企业提供搜索广告关键字的服务,同时也提供企业安全的服务。我们发现,你今天真的把ChatGPT的API给了很多中小企业,或者把ChatGPT的对话APP给了中小企业,它真的就能用起来吗?其实真的挺难用的。前两天百度开会,百度的李总也讲了,说未来很有希望的一个职业是研究Prompt,就是研究提示词。如果希望我们所有中小企业的老板都变成提示词专家,都能写出非常漂亮的提示词,从而能够得到好的结果,我觉得是不现实的。所有文生图的工具,如果你今天简单提一个“驴肉火烧”、“车水马龙”的街道,画出来图的质量一定高不了。你所有看到画图质量高的图,都是用了几百个,甚至更多的提示词来对电脑发出的指令。所以我觉得提示词反而是妨碍中小企业和普通用户使用大模型的一个障碍。很多创业公司就有了机会,在这些大模型API的基础之上,怎么结合中小企业的这种痛点和刚需,把一个大语言模型的通用能力变成很多面向中小企业不同办公场景、不同需求具体的AI工具,我觉得大有机会。
三是面向政府、大型企业,简单来说,就是我前面讲过的,我们很多政府部门、大型企业,包括国家机关有很多专有数据、私有保密数据、独有的行业知识,他们不可能把这些知识训到一个公有的GPT大脑里,所以他们需要一个专有的GPT。包括很多企业从使用GPT的安全性,防止数据泄漏的角度来讲,它也需要一个专有部署的GPT。在全世界来看,都蕴含着巨大的增量市场的机会。
四是面向行业的GPT,现在360的GPT能力不仅能够满足自己的需求,我们还愿意把它提供出来,跟有行业数据的合作伙伴相结合。我举一个案例,前两天我遇到一帮创业的小伙子,他们要做一个修车的GPT。我才知道,中国原来有一千万修车工,他们在修车的时候如果不是有经验的老师傅,实际上也面临知识上的匮乏。所以他们收集了很多修车的案例和知识,他们寻找360能不能提供通用大模型的能力基础,训一个修车行业的大模型出来,这样每个修车工也不需要修车公司,每个修车工只要订阅一个公众号就可以了,一天一块钱。在给客户修车的时候,再把客户车的型号、症状告诉修车GPT,修车GPT就能给我很多支持,给我很多讨论,让很多新入行修车的年轻人有了20年老师傅的功力,我觉得这就是一个典型的行业的能力。今天无论是“文心一言”还是360智脑,你问它修车的问题,它可能只能泛泛而论,这就是我讲行业重度垂直往行业深度挖掘的重要机会。
04
未来竞争是多模态能力的竞争
上次开发布会的时候,很多热心的媒体朋友给我出“馊主意”,说建议我们这个产品叫“红孩儿”。我特别不喜欢这个名字,“红孩儿”他妈是谁?铁扇公主,他爸是牛魔王,所以这个名字不太好。这次行业里起的名字我觉得都不好,因为起名字要好记,让人一看不用动脑子,要望文生义。大家觉得“360智脑”表示360智慧大脑,这个名字虽然俗气了点,我还是比较喜欢的,所以我们叫“认知型通用大模型360智脑”。
360智脑的核心功能我们今天完整地列举一下,包括生成与创作、多轮对话、书写代码、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多模态、多语言翻译。这十大能力又细分了200多种子能力,这些能力大家都可以申请我们的试用账号,可以仔细地使用。我给一个建议,我们的能力在网站上分头做成导航,把360的导航改成360智脑能力的导航,每一项能力下都把提示词写好。
我们也在努力地参加国内各个评测。有一个SuperCLUE,它的考题是保密的,我们也不知道考题。其实保密的考题比较有考验,比如说网上流传着一个专门给投资人做的一个考卷,我看越晚发布的大模型答得越好。道理很简单,我们临时抱佛脚,把这个题拿来头一天晚上刷一遍,这些题下次再测的时候就都能做了,所以刷题不算真正的能力。SuperCLUE的评测比较客观,我们在多项能力上原来是国内第一,这两天好像又被人刷下来了,所以我们的能力是名列第一梯队。我们可以看到,国内大模型的发展速度你追我赶,你踩我踏,不断地在相互激励,也在不断缩小着和全球领先大模型的距离。原来我说差距有一年半、两年,我今天收回这句话,我认为国内的同行们现在这种发展迭代的速度已经基本赶上或者接近了国际的先进水平。
我们举了几个例子,在中文理解的一些问题上,我们在一些善于回答的问题上表现是优于GPT的。比如谜题“埋在奴家心地”,打一个字。我们的回答是“怒”,GPT-3.5的回答是“恋”,GPT-4的回答是“思”,到底谁的结果对?应该我们猜的是对的。
今年的大模型都在秀高考。我们写高考作文很容易,因为生成性AI,读了几百万本书,读书破万卷,下笔如有神,写什么东西、写多长都不怕。在今年2023年的作文题目中,我们预测的10道题目压中了2个,应该说运气比较好。高考的作文写了很多遍,有写得好的,有写得不好的,还有一篇作文获得了一个语文特级老师的肯定,觉得基本功很好。但是实际看起来,各家模型写的都是面面俱到,缺乏情感,所以大模型现在没有情感未必不是件坏事。另外我们大模型的三观还比较正,曾经有人要给他女儿写一封信,嫌弃他女儿,说你让我很失望,但即使这样一封信,我们还是写成了一封热情洋溢、以鼓励为主的信。
我们回溯一下。3月29日我们推了大模型1.0,当时的能力只能跟搜索结合,还不支持多轮对话;到4月26日,过了一个月,我们就在北京民生证券人工智能高峰论坛上演示了我们的2.0版本,上线了多轮对话;5月18日的天津智能大会上,我们发布了多模态文生图的应用“360鸿图”,同时大模型版本迭代到2.5版本;5月31日,我们发布了智脑视觉大模型,结合我们的物联网场景,版本迭代到3.0;今天我们将会发布4.0版本。
今天发布的4.0版本有三个关键词:多模态、全端应用、数字人。同时,我们还将会发布我们的插件平台,我们要让大模型不仅仅停留在大脑的层次,多模态是给它增加上眼睛、耳朵、鼻子、嘴巴,插件要让它有手和脚的能力,这样大模型的能力才能越来越发挥出来。
中国自研大模型弯道超车的关键,我觉得应该说基本能力、文字能力都差不多,现在在很多方面我觉得已经赶上了GPT3.5,跟GPT4.0的差距和追赶速度也超出了我的想像。我们可以看看GPT的发展路线,GPT1到GPT2都是围绕着文字为主,GPT3把参数做得非常大,是涌现;GPT-3.5,我们看到GPT的基础;GPT4里面漏了一小手,是多模态的能力。但是不知道为什么,后来就再也没有新的成果发布。所以我们给个预测,大家看看准不准,就是GPT5一定是全面支持多模态的能力。
我觉得接下来中国的大模型,大家在文字上的较量,通过刚才说的模型上已经没有问题了,剩下的就是不断改正训练的数据、改正训练的标注题目等微调。下一步竞争的焦点就是谁能真正使用多模态的能力,所以多模态的能力我简单解释一下。
一个完整的人工智能大模型有四大能力:文字处理、图像处理、语音处理、视频处理。也就是说,过去的大模型只能输入、输出文字,但是它看不懂图片,没有眼睛,听不见声音,没有耳朵,没有嘴巴也不能说话,同时它对图片和视频缺乏理解,所以这里面衍生出八个功能:文生文,比如写高考作文;文生图;文生表格;图生图;图生文;视频理解;文生视频;文本剪视频。
多模态的能力有两点非常重要:一是曾经有科学家感慨,大模型做到一定程度,人类的知识会不够用。GPT4学习的Token数目已经接近4千万种图书,而人类有史以来的图书也不过就1亿本,学了快一半。但是大家想像我们人类是怎么学习、怎么训练的?今天我站在台上跟大家交流,你们来参加360的发布会,你们在底下寒喧,都是接触知识,不断持续训练的过程。所以第二,当大语言模型有了多模态能力之后,它获得的知识就不仅仅来自于文字的知识,可以来自于图片,来自于视频。《流浪地球2》大家有没有印象?那个MOSS超级计算机控制了人类的摄像头,所以未来有了多模态的能力之后,当大语言模型跟我们世界里的摄像头发生了连接之后,它每天都会看到有多少人在摄像头前面谈话、冲突、吵架,发生各种各样的事件,它对我们这个世界就会有了新的学习能力,有了新的知识的理解,所以多模态的能力非常重要。
大家可以想像一下,你拿一张图,我们的智脑根据这张图描绘出文字,再用这些文字生成一张全新的图,就使得我们很多人的想像力可以得到充分的发挥。
下面是图生文,图生文的意义非常大。在大模型出来之前,实际上真正的无人驾驶是没有被实现的,所有的自动驾驶都是辅助驾驶,因为无论你在车上装多少激光雷达、毫米波雷达、摄像头,但这是工作在感知层面,只能感知到前方有路障。但是人的工作原理不是这样的,你作为一个司机,当你看到前方有一个障碍物,你的大脑马上会做出一个认知的反应,是一个婴儿车吗?我应该避开;还是一个硬纸盒,我可以毫不留情地撞过去;还是一个交通桩?我应该转弯。人类之所以能够自如地驾驶汽车,是因为人类对很多感知的情况在认知层面进行了判断,所以将来的车载大脑,如果对任何一帧画面,对任何传感器来的画面都能做出这种认知层面的判断,我觉得人工智能大模型能够帮助我们的自动驾驶早日实现L5或者L4这个级别真正的自动驾驶。
还有比如熊猫划船、企鹅在沙漠里洗澡等无中生有的视频,大家看完了感觉效果如何?有一种视频比如给一张周鸿祎的照片,自动对口型,配上一段话,这种视频我觉得不算完全的文生视频,因为它只能产生一类视频,而我们展示的是非常多样化的视频。我们从前老说眼见为实,耳听为虚。现在来看,未来互联网上大量的内容会不会都是AI生成的?所以希望大家正确地使用这个能力。
刚才是我们今天的第一个重点,就是强调一下为什么我认为未来大模型的能力是多模态能力的竞争;也是为什么我们把这次智脑的版本定义为4.0的原因,我觉得只有有了多模态全面的能力,才预示着大模型真正地走上一个新的台阶。
05
全端应用的落地
终极接入口是“数字人”
中国已经进入“百模大战”,基础能力各家都差不多,特别是互联网公司,比如百度、腾讯、头条、阿里、360等都有自己固有的场景,大家会在自己的固有场景里把自己的AI能力赋能。接下来真正比拼的还是应用落地的能力,就是如何使AI让普通人、普通企业用得方便、用得简单。
微软已经率先把AI能力接入了旗下的“全家桶”,我也给我们所有的产品经理留了作业,在两个月之前就开始思考我们所有的产品如何重塑。今天我们也借此机会宣布一下,360的“全家桶”已全面接入360智脑,包括我们的安全浏览器将来的入口、搜索、安全卫士和桌面产品。我们全面了拥抱大模型,所有的产品都能成为智脑的入口,都有智脑的能力,所有的产品都将重塑。
现在Bing、百度、谷歌都在思考搜索的未来会怎么样,我们也探索,既给用户保留了传统搜索的入口,我们右侧增加了一个AI的对话界面。但是对于比较激进的喜欢拥抱AI的用户,我们干脆给了一个完全AI主导的对话式搜索界面。我觉得未来浏览器会是大量中小企业办公的入口,因为使用的各种生产力工具,各种SaaS化的工具入口都在浏览器。所以通过浏览器引入AI的能力,可以使得我们AI的插件和各种SaaS化第三方的工具发生连接。
最重要的是桌面,微软很多年以前桌面上放过一个智能助理的图标,是一个回形针,时不时发出一些声音。我觉得我们借助360安全卫士的电脑优化球,把360智脑全线引入桌面,和整个操作系统紧密地结合,使得你在桌面上只要鼠标移到最右侧,我们的360智脑的桌面版就自动滑出来,能为你提供服务。
现在讲今天的最后一个重要观点。360认为刚才的软件还仅仅是在现有的场景上打补丁,并不是真正的终极解决方案。我觉得终极解决方案是AI的进化要以人为本,大模型应该成为人类的朋友和助手,仅仅是把大模型变成一个简单的搜索框,并不见得对每个人友好。我自己用大模型好几个月,我可能才刚刚在如何写Prompt即所谓的提示词方面找到门道。实际上我们很多人在使用GPT的时候,因为不太会用Prompt。举一个例子,ChatGPT4.0的能力大概比GPT3.5的能力要领先30%,一个是100分的话,一个就是70分。但是如果你的Prompt写得不好,你其实没有必要用ChatGPT4.0,因为4.0在你手底下用的也就是60分的水平。如果你还是把它当成一个搜索,或者当成一个简单的聊天机器人用,简单提一些想法,说你给我写一个文章,标题是什么,或者直接问它该怎么做一个市场分析报告,很有可能因为Prompt提示词写得比较差,出现无论用哪家的大模型,都只用到了20分、30分的现象。对于我们做大模型的人来说,即使我们做到了80分、90分,也可能因为用户的使用能力不够而无法表达得淋漓尽致。如何在GPT大脑的基础之上,把多模态的能力融合在一起、包装成一个真正数字人的概念?所以我觉得未来可能浏览器也未必是入口,搜索也未必是入口,桌面也未必是入口,数字人是未来人工智能大模型对我们每个人和对每个企业来说最合适的入口。
这也是我今天的发布会最重要的部分,我们360推出什么样的数字人。
周鸿祎介绍360数字人
传统数字人的概念跟我们的概念是不一样的,360智脑希望重新定义数字人。传统的数字人背后没有大模型,更多是一个生成的形象,有2D、3D的,很多是主播的平替,或者一个虚拟形象、读稿的机器。我也用过这些数字人,很省事,只要用一个头像加上一段稿子,配上我的声音,它就能自动把我要讲的内容从头念到尾。很多单位请我去开会,如果我去不了,我就录一段视频过去,效果也蛮好的。但是这样的数字人没有灵魂,不能跟你交流,它是按照既定的脚本输出,也没有性格和记忆。
我们能不能打造一种有灵魂的数字人?既然你是360智脑,是一个通用语言大模型,能不能用智脑来支持你的数字人,使得我们数字人有人设、有性格,能够符合我们模仿人的思维方式和人生经历?而且未来还要有记忆——这才是真正的数字人。斯坦福做了一个实验,他们用GPT做后台,在一个数字小镇里面生成了20个数字人。这20个数字人自己发生了社交、对话、联系,产生了很多奇迹般的结果,我觉得这可能才是在探索人工智能发展路上一个有趣的现象。
我记得我讲过一个概念“数字永生”,其实数字永生、数字专家、数字科学家这个概念离我们并不遥远,我们也在想,有没有可能模拟出来一个埃隆·马斯克、一个爱因斯坦或者一个周鸿祎?模拟明星的说话口吻、名人的思维方式和专家的知识和积累,使得我们能够跟它去交流?
这次360就推出了一个数字人广场的平台,目前里面有200多个角色。当然最重要的是,你们每个人都可以来定制自己希望的数字人。数字人角色有两大类,一类是数字名人,一类是数字员工。数字名人可以是明星偶像、历史人物、大师先贤、文学IP,可以是马里奥,可以是劳拉,也可以是你最喜欢的某个明星,比如刘德华。对很多企业和办公一族来说,你可能需要很多数字专家、数字员工、数字助手,不是只有当老板才有助理。我们做人工智能,最重要的是让每个人可以有一堆助理为自己所用,比如自己买房子有法律助理,自己要写市场方案,可以有市场助理,背后是智脑的能力来做这种支撑。
我觉得数字人最重要的一定是能够有自己的人设,最后能够自主学习,能够连接外围系统。所以未来我觉得有很多工作靠GPT是完成不了的,大家也知道,今天围绕着GPT出来了Agent、LangChain,很多新的工作模型,也就是让GPT没有记忆的可以有记忆,让GPT没有目标的可以有目标,将来这些能力都能落实在数字人的目标里面。所以未来数字人一定不是一个简单的对口型的形象、也不是一个简单的念稿的机器,而是能够真正跟我们每个人进行对话、交流,对我们来进行一些帮助和讨论。
比如数字名人,我举个例子,我比较喜欢《三国演义》,我读《三国演义》也有很多迷惑的地方,所以我就创造了一个曹操的形象,创造了一个诸葛亮,我有很多问题问他。其实这也是让我们换一种读书的方式,比如说你喜欢读《红楼梦》的,你可以跟林黛玉对话。喜欢《西游记》,你可以跟孙悟空对话。以后年轻人不一定死读书,可能读了一本书之后,可以跟书里的人物做交流,能够有意想不到的成果。我们下面演示一下,先看跟诸葛亮对话。我们有两种模式,一种是聊天式界面,一种是3D的沉浸式界面。
周鸿祎:赤壁之战的时候如果有iPhone你会怎么使用?
回答:幸得执掌军政大权,当时出奇制胜,或巧布陷阱,总之,亮弟刚竭尽全力,为我蜀汉谋取最终胜利。
周鸿祎:这种脑洞大开的问题可能大家会觉得很可笑,但是我觉得这不就是创造了一个来源吗?
回答:以兴汉为己任,夫兵者国之大事,死生之地,存亡之礼,不可不查。若有iPhone或可借助其先进的通讯技术,迅速联络各方力量,调整战术策略,提高作战效率。亦可利用其强大的计算能力,精确预算战场变化,及时调整兵力部署,从而取得更大的战国。当然,在使用iPhone的同时,也需注意保密工作,毕竟当时通讯设施相对简陋,信息泄漏风险更高,吾等需严格掌控信息传递的流程,确保机密不被泄漏。如此方能在赤壁之战中出奇制胜,一举成功。
周鸿祎:其实我自己最想问的第二个问题是,你为什么不废掉刘禅取而代之?刘备不也同意你这么做吗?我相信这是我们很多人读三国的感觉,所以我要问问诸葛亮本人。
回答:夫天下之事,非一人所独为。禅实为一邦之主,亮岂敢以私愿。若冒然废立,恐失天下人心。故亮不得不慎重考虑,往君谅之。
周鸿祎:再问一个问题,你在千年之后成为年轻人的鬼畜素材,你怎么看?
回答:夫古今之命,乃实事所必然也。今之时势,天下纷扰不已。吾虽已老,仍志在天下。今者年轻人以吾为鬼畜素材,吾欣然接受此变化。并祝愿年轻朋友在未来的道路上勇往直前,开创更加美好的未来。
我们换一个孙悟空。
回答:有何助你之事?老孙在此等候。
周鸿祎:取经的四个人师徒里面,你最喜欢谁?最讨厌谁?
回答:这个问题有点难回答,因为他们每个人身上都有自己的优点和缺点。如果要挑一个来说的话,那肯定是俺老孙,毕竟我可是整个故事的主角,有很多搞笑的片段,也有很多勇敢的行动。至于最讨厌的话,那就不好说了,因为每个人都有自己的缺点。如果非要说的话,那就是那个贪吃的猪八戒吧,总是忍不住要吃好吃的,而且还有时候会偷懒耍赖,真是让人头疼啊。
周鸿祎:西天取经路上遇到无数的妖精,你最喜欢哪个妖精?我也不知道答案是什么,但是你们读《西游记》的时候,肯定有人会这么想一想。
回答:最喜欢的妖精,应该是那个会七十二变的妖精。它的变换之术非常厉害,可以变成各种各样的形象,让我很难分辨真假。而且他还非常聪明,经常会给我们带来意想不到的惊喜。
周鸿祎:这个重新回答一下吧,它说的难道是六耳猕猴?
回答:我的最爱当然是白龙马了,它虽然不是妖精,但是却拥有非常强大的法力,而且很忠诚,一直保护师父,让我们取经路上少了不少麻烦。当然,其他的妖精也有自己独特的魅力。比如白骨精的神秘诡异,蝎子精的妖娆妩媚等等,都很有意思的。
周鸿祎:据说红孩儿是你和铁扇公主生的是吗?看看这个千古谜题。
回答:那个传说可真是让人捧腹大笑,其实红孩儿是太上老君的儿子,并不是我和铁扇公主生的。虽然他的脾气有点暴躁,但是我们还是很喜欢他的呢。
我们再换一个人,换一个现代人,比如埃隆·马斯克。
周鸿祎:埃隆·马斯克,中国电动车产业对你是威胁吗?
回答:不,我认为中国电动车产业不会构成任何威胁。特斯拉作为一家美国公司,一直致力于在全球市场提供最先进的电动汽车技术,并在全球推广可持续能源的使用。虽然我们在某些方面可能会竞争,但我相信我们可以通过不断的创新来保持领先地位,并且继续推动整个行业的发展。
周鸿祎:再问一个问题,你如何评价Twitter这家公司?
回答:我认为Twitter是一个非常有名的平台,可以让人们轻松地分享信息和交流意见,它为人们提供了一个快速知识的信息来源,使人们更好地了解全球世界和社会趋势。但是我也认为,Twitter需要不断改进其算法,以确保信息的质量和准确性,同时减少虚假信息的传播。
周鸿祎:上个月你的SpaceX的火箭发射失败,对你是一个重大打击吗?
回答:对于SpaceX来说,火箭发射失败确实是一个挫折,但我们不会轻易放弃,我们将继续改进我们的技术和流程,以提高成功率。此外,这次失败也为我们在发展更先进的火箭技术方面提供了宝贵的经验。我相信,我们会在未来取得更多的成功。
今天来的媒体的朋友都可以回去跟他多聊聊天,可以写N篇我和埃隆·马斯克的对话。时间有限,我们最后换一个刘德华。
周鸿祎:聊一聊你最引以自豪的电影是哪一部?
回答:非常感谢您的提问,作为我这样的艺人,有很多电影是我引以为傲的作品。但是让我最自豪的电影应该是《无间道》,这部电影不仅是我的事业里程碑,也是我对角色深入探索的一次尝试。在这个角色中,我将自己完全融入进去,与角色融为一体,使我更加理解角色的内心世界和情感变化。同时,这也是我第一次担任导演,虽然挑战很大,但是我从中学到了很多,这对我未来的演艺事业产生了深远的影响。
周鸿祎:在港台明星中,你最喜欢哪一个女明星?这也是大家想知道的。
回答:谢谢您的问题。这个问题对我们来说有点难回答,毕竟我欣赏很多优秀的女演员,每一个都有自己独特的魅力和特点。但是如果非要选择一个的话,我会选择张曼玉,她是一位非常出色的演员,她的表演总是深入人心,让人难以忘怀。她的美貌和才华都让人惊叹不已。并且她有着非常迷人的个性魅力,我认为她是港台演艺圈的巨星,她的表现赢得了同行和观众的广泛赞誉。
大家都可以来试用,而且我觉得每个人都可以定义你自己心目中的埃隆·马斯克或者刘德华。除了上述演绎的数字名人,数字员工则可能是未来面向中小企业和办公一族非常重要的一个概念。数字员工可以参与创作、策划、分析、总结日常工作,所以我们每个企业员工都可以有自己的数字专家或者数字助手。
我们可以来演示一个例子,下面看一看我们的法务专员。
回答:我是法务专员,有什么可以帮您的。
周鸿祎:中小企业如何管理好公章,避免出现风险?
回答:作为一名法务专员,我认为中小企业管理公章需要注意以下几点。首先,要建立健全公章管理制度,企业应制定公章使用规定,明确公章的使用范围、权限和责任,确保公章使用的合法性和规范性;此外,还要建立公章使用登记制度和公章备份制度,对每次公章使用情况进行记录,定期备份公章,以备不时之需;其次,要严格保管公章,公章应放置在安全的地方,避免被非法获取或丢失。如果公章被盗或遗失,应及时采取措施进行补救;最后,要加强公章管理的监督和检查,企业应对公章使用情况进行监督和检查,发现问题及时处理,确保公章使用合规合法。同时,还应加强对公章管理人员的培训和教育,提高其公章管理意识和能力。总之,公章管理是企业经营管理中的重要环节,需要高度重视。通过建立健全制度,严格管理和监督,可以有效地降低公章被滥用或遗失的风险,保障企业的正常运转和发展。
周鸿祎:我再问一个问题,一般合同的审核要点是什么?
回答:一般合同的审核要点包括以下几个方面,合同是否合法?必须符合法律规定,不得涉及违禁品、危险品等。合同约定是否合理?约定条件是否符合双方的真实意思表示?是否有违反法律规定的情况等?合作形式是否规范?合同必须采用书面形式,且应当符合法律的规定要求。合同履行方式是否可行,合同履行的方式是否符合实际情况,是否能力实现等。合同期限是否适当,合同中约定的期限是否合理,是否超出了合理期限等。不同的合理有不同的审核要点,比如买卖合同需要注意货物的质量、数量、价格等方面的约定是否清晰明确。租赁合同需要考虑租赁物的权属、租金支付等内容。因此,在进行合同审核时,需要结合具体情况进行分析,以确保合同内容的合法性和规范性。
周鸿祎:再问最后一个问题,我来描述一个案例。一个年久失修、牌照过期旧的汽车高速驾驶,撞上了另外一辆停在路边的汽车,被撞的汽车忘记放交通标识,请问两辆车在这个交通事故中如何承担各自的责任?这是我们经常会遇到的问题,我们请法律专员帮我们判断一下。
回答:根据《中华人民共和国道路交通安全法》第76条规定,机动车发生交通事故造成人身伤亡、财产损失的,由保险公司在机动车第三者责任、强制保险责任限额范围内予以赔偿,不足的部分,按照未定承担赔偿责任。机动车之间发生交通事故的,由有过错的一方承担赔偿责任。双方都有过错的,按照各自的过错比例分担责任。机动车与非机动车驾驶人、行人之间发生交通事故的,由机动车一方承担责任。但是有证据证明,非机动车驾驶人、行人违反道路法律法规,已经采取必要措施的,减轻机动车一方的责任。因此,在该交通事故中,由于被撞车辆未放置交通标识,违反了交通安全法,因此应承担相应的责任。而肇事车辆年久失修、牌照过期,也应承担一定的责任,具体情况应进行认定。如果被撞车辆的损失超过了交强险的额度,肇事车辆也需要承担部分责任。
这是唯一的问题,就是它的回答不稳定。今天上午我们在演示的时候它的回答是另外一个答案,所以这个还需要提高。对于数字员工我们就不多演示了。我觉得最重要的,这也是我一直以来的梦想,就是每个人可以来定制属于自己的数字人,我特别想定制一个周鸿祎的数字分身,因为每次开发布会都有很多媒体有很多问题要问我。今天我们换一种方式,我们定制一个数字人周鸿祎,把我很多的讲话稿和资料训练进去,大家有什么问题由它作为我们公司的新闻发言人来回答,说对了算我的,说错了算它的。今天它第一天上班,我请主持人试一试它的能力。
主持人:谢谢周总把您数字人的第一个提问的机会交给我。我自己回头也能制作一个数字人的分身吗?
周鸿祎:没问题,其实难度很低,你定义好人设、背景、说话风格,最重要的是,要把你的私人资料库收集好,比如我发布的讲话、发过的微博、写过的朋友圈等。我们有了多模态能力之后,还可以把我的视频直接上传,从视频中把我的讲话解析出来。给的资料越多,数字人的生活经历越能模仿角色。
主持人:也就是说它是有情感的,并不是一个没有情感的机器人。
周鸿祎:这个数字人不是念稿子的数字人,可以把很多周鸿祎的资料都训练进去,融会贯通。在我们这个行业里面,科技一个最重要的概念,一定是科技平权,一定是技术民主化、技术平民化。过去训练大模型,一说训练一个大模型需要1400万美金,大家都望而却步。今天我们的想法是,每个人都有自己的数字助理,每个小公司都可以有自己的数字员工。你们每个人如果需要,你们当然可以创建刘德华、张曼玉,创办你喜欢的明星,创办马里奥。比如你,也可以创建自己的数字人分身。这样你在直播的时候,它是能真正回答问题的,至少能代表你的想法。
主持人:所以其实数字人分身,从某种意义上来讲,就是另一个真实的我。
周鸿祎:我们来试一试。
主持人:我的第一个问题是,你对360发展人工智能有信心吗?为什么?
回答:360集团一直致力于推动人工智能技术的发展和应用,我们已经在这个领域投入了大量的研发资源,并且取得了一些非常重要的进展。例如我们在安全领域的应用经验,让我们具备了更好的数据处理和分析能力,从而为我们的人工智能系统提供了更加准确和可靠的数据来源。此外,我们也非常注重技术的可解释性和安全性,这是我们在未来持续发展人工智能的重要保障之一。当然,我们也清楚地意识到,人工智能发展面临的挑战和风险,我们将持续关注这些问题,并采取相应的措施来应对。总的来说,我们对未来发展人工智能充满信心,并且会继续努力推动这一领域的创新和发展。
主持人:如果是您的话,您会这么回答吗?
周鸿祎:我觉得回答得比我好,滴水不漏,面面俱到。大家今天如果有什么提问,就跟这个数字人提问,它今天将代替我们的新闻发言人。
提问:你觉得360股票会涨吗?现在买还能不能赚钱?
周鸿祎:我声明一下,我跟这个问题无关,我不谈论这个问题,这是数字人在说话,我对数字人说的话不负责任。
回答:很抱歉,作为AI聊天机器人,我没有股票投资的经历和经验,也无法对未来故事进行预测和判断。同时,投资是需要谨慎考虑的,需要根据自己的风险承受能力和财务状况做出明智的投资决策,建议您在进行投资决策前充分了解相关信息和市场行情,做好风险评估和资产配置,避免盲目跟风和冲动交易。
周鸿祎:我的这颗心要落下来了,说明我们的数字人还是经得住考验的。
提问:请问周鸿祎数字人可以用于哪些场景?
回答:数字人是一个非常有趣的想法,我们可以将这个数字人应用到各种场景中。例如我们可以将它应用于智能家居中,它可以为我们提供家庭控制服务,帮助我们实现家居智能化的梦想。我们还可以将它用于智能医疗,数字人可以为医生提供更准确的诊断和治疗建议。此外,数字人还可以作为个人助手,帮助我们完成日常琐事,如日常安排等。总的来说,数字人可以广泛应用于各个领域,为人类带来更多的便利和创新。
我觉得数字人特别适合做新闻发言人,什么都说了,但是让你找不到毛病,一想好像又什么都没说。今天还有一个彩蛋。我们设想一下,如果大家参与进来,不是200个数字人,而是2万个数字人、或者是200万个数字人,这个世界会变成什么样子?我们可以想像一下,这也是我们下一个版本很快要发布的一个目标。
未来,数字人会继续迭代。现在的数字人并没有追求声音跟你很像,视频也是比较简单的用几张图片构成了一个动图,未来我们在声音、视频方面会更加逼真。但是最重要的,它要拥有长期的记忆,比如今天你跟ChatGPT聊天,聊过之后它并不会记得跟你聊过什么,但是我们数字人在背后来调用大模型的能力,它可以拥有大模型不具备的记忆能力,而且拥有长期的记忆。同时,数字人可以有自己的目标、规划和分解的能力,这样使得它不断地调用各种垂直的模型完成任务。很多数字人我们还要打造一个插件平台,它可以利用搜索浏览网页,可以在你的电脑上读取文件,利用手和脚具备执行力。总而言之,我们希望数字人把360智脑能够藏在后面,以一种更加拟人化、个性化的做法和思路为大家提供娱乐和工作的服务。
总结:
科技就是应该让人工智能更简单
今天我敲敲黑板总结一下。我们智脑推出4.0,其重要标志之一就是多模态的能力,其大脑不仅能够识别文字、产生文字,还能够识别图像、识别视频、产生图片、产生视频。当然,声音的处理也不在话下,至于是不是能处理音乐,这个我们还没有想清楚音乐到底对多模态而言是不是非常重要。但我们会利用我们的产品优势,给用户提供唾手可得的智能体验。
另外就是灵魂数字人的概念,每个人都可以跟我们定制的数字人进行自由交流,可以有娱乐的活动、工作内容。最重要的是,如果在座的每位觉得不满意,还可以定制属于自己的专属数字人,比如刚才我演示的周鸿祎数字人,每个公司都可以定义自己的数字人,可以做新闻发言人、可以回答问题。你也可以建立自己私有的知识库,未来数字人可以拉群,可以在论坛里交流、相互留言,也可以在群里争论问题。
未来人工智能的发展不仅仅是只有大模型核心能力的增加、各种外部功能的包装,各种产品的定义还会让人工智能跟我们每个人的工作、生活贴得更近,让我们每个人更自如地使用人工智能的功能。科技就是应该让人工智能变得越来越简单,变得越来越易用。