深圳信息港

关于AI新浪潮:被仰望的与被遗忘的|Waves新浪潮大会

2023-06-26 13:18:46 来源:36氪

关于AI新浪潮:被仰望的与被遗忘的|Waves新浪潮大会

6月8日-9日,36氪WAVES新浪潮2023大会在北京金海湖国际会展中心顺利举办。「WAVES」作为36氪全新推出的峰会IP,灵感来自于世界电影史上知名的“法国新浪潮电影运动”。我们想借此表达:年轻一代人不满足于现状、勇敢开拓和创造的精神。所以本次WAVES大会的slogan是:浪潮偏爱年轻人。

我们认为,“年轻”不止是一个年龄上的概念,而更是一种对活力、想象力的描述。某种程度上,36氪就是一个伴随着年轻一代创业者、或者说“创新精神”一起成长起来的公司。这也是我们一直引以为傲的一点:在多数媒体还在追逐大公司的时代,我们就将目光着眼那些名不见经传的小公司、或“小人物”身上。

WAVES新浪潮2023大会集聚创投、科技、人文、音乐多元场景,致力于打造出一场聚焦青年创始人和投资人的商业新势力派对。


(资料图片仅供参考)

8日上午,针对新一轮的AI新浪潮所产生的影响,真格基金管理合伙人戴雨森、IDEA研究院讲席科学家张家兴、昆仑万维 CEO方汉、中国人民大学高瓴人工智能学院教授卢志武、澜舟科技合伙人、首席产品官李京梅与暗涌主笔于丽丽一起参与了主题为“被仰望的与被遗忘的”圆桌讨论,以下为对话内容,经36氪编辑整理:

峰会现场

1.

36氪:我们这个环节的主题叫“被仰望的的与被遗忘的”,听上去有一些抽象,其实想讨论的是这一波AI新浪潮所超产生的影响,而所有的新浪潮都会有过度被推崇的部分和疏漏的部分。首先请各位老师介绍下自己,以及所在平台正在做的大模型相关的一些情况。

戴雨森:真格基金是中国领先的天使投资基金,其实在过去十几年我们投资了很多AI相关的项目,在大模型浪潮开始之后,我们发现,很多过去投资过的项目,已经成为了大模型浪潮中的中间力量。

比如说我们之前投了好几家领先的AI芯片公司,像瀚博、沐曦、燧原等。大模型本身的话,我们新投了王慧文的光年之外,杨植麟的月之暗面这两家做大模型的公司,以及我们在十几年前就投了出门问问,他们也在自建大模型,叫做序列猴子。在AI领域需要的中间件,例如我们投资了潞晨科技,他们的开源框架在模型训练和推理加速里也是很受关注的。此外我们在应用端也有一些相关的投资布局。

整体来讲,在这一波AI新浪潮出现的时候,对于真格来说已经不是一个新的浪潮,并且我们也感觉到很多新的机会正在重新属于年轻人,所以我们还是比较激动的,从基金的角度和我个人的角度也花了很多的精力去关注和学习。

张家兴:我是来自IDEA研究院的张家兴,IDEA认知计算与自然语言研究中心,大概两年前成立,从成立就一直在做大模型,然后我们作为一个整个大模型的系列叫做风神榜大模型系列,我们已经开源100多个模型,从数量来说中国第一大的整个预系列模型体系,在ChatGTP出来之前做过各个机构和垂直能力方面比较有影响力的一些工作,然后在这一次ChatGTP出来之后反正也是给大家一个很大的启发,然后证明了通用模型才是未来真正的发展方向,我们也是转向专门做通用的大模型。

几个星期前,我们也是刚刚开源我们风神榜的下面一个新的子系列叫姜子牙系列,我们姜子牙预系列大模型也是在中文上非常好的表现,我们也是开源出来,希望更多的人能够用我们的模型做出一些好的工作出来。

方汉:我是昆仑万维的CEO方汉,昆仑万维是A股上市公司,主要的业务在海外,目前我们78%的营收来自于海外,在全球70多个国家和地区有业务,全球的月活用户4亿左右,在海外我们做的业务主要是内容与社交相关方向。在2020年6月GPT3出现之后,对我们触动比较大,我们当时判断这是内容生成领域的里程碑,所以我们从2020年8月就启动大模型的研发,2021年我们就发布了一个131亿参数中文预训练大模型,同年我们启动了音乐生成的研究工作,今年4月份我们也发布了一个千亿级别的中文预训练大模型“天工”。

卢志武:大家好!我是来自人民大学的卢志武。我们团队其实从2020年就开始做大模型了,当时做的第一个多模态大模型叫文澜,在过去两年有一些影响力。我们一直是做多模态,我们现在的模型是ChatImg2.0版本。大家可以关注一下公众号,可以试用一下,我自己觉得还可以。然后,我们学院昨天也发布了一个语言大模型叫玉兰,是开源的,大家都可以试用看看效果怎么样。

李京梅:我来自澜舟科技,是一家两年的创业公司。我们是2021年开始在李开复老师的创新工场孵化,今年已经两年了,我们的创始人周明老师之前是微软亚洲研究院的副院长,也是NLP领域的专家。

我们公司的定位是一家认知智能公司,在创业之初就开始做预训练模型,我们这个技术的名字叫孟子,比较中国化,也致敬了中国的传统文化,所以我们比较关注中国市场中文这个领域大模型。

如今孟子已经是我们的一个大模型的系列,只是在ChatGPT出来之前我们走的是轻量化的一个技术路线,今年有了ChatGPT的破圈,所以我们在技术上也做了一定的转型。今年 3月份我们对外推出了自己的孟子生成式大模型(孟子GPT),5月份开始面向友好伙伴跟客户做了邀请的测试,反响还不错。

我们现在对外发布推出的是一个百亿参数量的孟子GPT大模型,之后我们会继续训练一些几百亿参数量的一个模型,所以澜舟在孟子大模型赛道选型是基于通用模型底座,聚焦垂直领域和专业赛道。目前孟子大模型已经落地金融、营销、文化娱乐、还有机器翻译这个领域,所以接下来我们也会持续基于我们自己的通用底座在行业这个大模型的赛道持续做商业化落地。在开源方面,从2021年开始,孟子一系列模型陆续入驻GitHub和Huggingface开源社区,同时,在阿里魔搭社区也开源了差不多20个左右的模型,接下来我们希望跟社区可以多做一些互动,收集反馈,我们也会持续做一些大模型的开源,这个是我们孟子大模型现在的一些进展。

2.

36氪:刚才雨森也提到过,这一波浪潮对普通人和行业人士来说,感知上有明显的时间差,所以第一个问题是,你们个人最早被大模型冲击到大概是怎样的一种场景和时刻?以及在这一波的浪潮中你们觉得可能真正的里程碑事件是什么?

戴雨森:AI在创投界近十几年都是一个比较热的话题,只是随着一波一波新技术的兴衰不断进入冬天和春天。但是这一次由ChatGPT引发的大模型热潮其实有一个最不一样的特点,那就是它真正进入了主流用户的日常使用。最近有一个统计,ChatGPT的月活可能已经过了十亿。尤其在海外,我们会发现,大量的办公室工作者、学生、设计师等普通人都在大量使用ChatGPT或者Midjourney这样的产品,说明这一次生成式AI技术真正已经到了跨越鸿沟进入市场主流的阶段。

与此同时,作为一个产品,我觉得ChatGPT是横空出世的。因为我们之前也用过大量对话智能助手这样的产品,基本还处在人工智障的阶段。但是ChatGPT已经具备了非常宽泛、非常通用的能力,这是之前任何产品都没有过的。

对我自己来讲使用这些产品的过程中有很多震撼时刻,比如说第一次用Midjourney训练出非常逼真的照片级的图片的时候,又比如最近我有一个特别有趣的案例就是,claude100K的模型发布后,我把张一鸣从12到16年的微博全部都丢进去,我首先问这个作者是谁?它说不知道。但是我又问,你从已有的内容,推理这个人创办的公司2023年可能是什么样? 它说第一这个公司应该已经是一家规模很大的互联网公司、第二可能在重点开拓海外业务,并且这个人可能23年已经脱离一线管理了。我非常震惊,问:这你怎么知道的?Claude说从微博看出来,他对于复杂的管理并不是很感兴趣,而且经历过创业十几年可能已经心生退意。虽然原因不是那么准确,但是对结果的预计是非常非常有意思的。包括当时看微软的那篇文章SparksofAGI也是发现,之前像Lecun这样的大佬以及很多专家都觉得大语言模型只是一个概率游戏,只是文本预测模型,不具备对世界的理解能力,但是你发现GPT4确实具备很多对世界理解的证据,例如把独角兽的角取下来,大模型说应该装上去,这里缺一个角。这些能力在我们过去看到的AI的产品或者技术里面还是比较罕见1的,所以我们现在对未来的可能充满了兴奋。

张家兴:说起ChatGTP这个出来之后对我们的震撼,应该说对我的震撼是非常大的,因为我个人来说我从12年开始做深度学习,最近应该说七八年一直在做自然语言这个方向,我们已经算是让这个领域有了很大的突破,但是终究有一些问题没有解决的那么好,非常精准的自然语言理解,完全受控的文本生成,用自然语言推理,其实在ChatGTP出来之前我过往的工作,尤其加入IDEA研究院很多工作都是这一方面,其实是有一些突破,过去一年是有一些突破,但是严格来说还都是非常渐进式的一点一点上升,ChatGTP出来之后因为我觉得这就是GPT3又某一种升级,但是后来试了之后可以用一个词来形容就是非常震撼。说实在至少中文领域英文也是差不多信息抽取最强的模型了,结果在ChatGPT出来之前人家没有专门做这一件事情,依然效果强多少,所以让我们意识到可能之前这个技术真的发生变化,以前我们曾经的为每一个任务去设计模型结构,为每一个任务专门的去训练的这个时代过去了,我们终于从技术角度来说,通用这一件事情,终于成为一种可能,我们就做一个像ChatGPT这样的模型,把所有的任务都放进去之后,那既然每一个任务都比以前做的要好,而且这个提升是一个质的提升。

卢志武:有两个事情。一个是2021年,DALL-E刚出来的时候,做的文生图效果确实让人很惊艳,那个时候我觉得整个学术圈还是挺震惊的。另外一个就是大模型,今年GPT-4,虽然ChatGPT也很惊艳,但是GPT4还是给我带来更大的震惊,主要是什么?很多人用GPT-4评测以后,可能做了很严格的评测,认为它具有早期的AGI能力,这个确实对我们冲击特别大,因为所有做AI的人都是梦寐以求要实现AGI,现在有一个模型已经开始具备AGI特质了,肯定给我们带来很多憧憬,当然带来很多挑战。总之,这两个事情对我影响是最大的。

李京梅:说起震撼,我也有一些体会。近十几年我主要都是在做产品。早期做过研发,纯软件工程。刚才家兴讲的今天大模型的可解释性越来越黑客化,早期我做软件工程师的时候,还是觉得软件工程能够做到一分努力一分耕耘,总是有一分结果,基本上是可预测、看得到,但是今天大模型之所以破圈,是因为很多时候超乎了人的预期。

再说近些年人工智能给我的一些感受,在2015年、2016年,那时候在微软做认知服务0到1的黑科技上云的工作,也是做产品工作,当时的一个破圈事件是“how-old.net”,在座的有一定年龄,应该有印象,那是我印象中能够跟今天ChatGPT的破圈相提并论的。在普通群众中破圈的是人脸识别,虽然界面就是个网页,并没有什么特别炫酷的交互或者视觉的冲击力,但对于当时来说,第一次发现人工智能跟你有这么近距离的体感,大家还是非常兴奋的。

拉回到近期,跟我自己的经验非常相关,当时微软从高科技、黑科技上云更多的是人脸识别、图象识别、语音识别,还有一个language understanding,它是一个语言理解服务,是一种感知智能,也就是看见、听到,最多就是懂了。但是近些年,尤其是在去年开始讲生成式AI,到去年9月底AIGC,其实主要是生图,但是从AIGC本身来说,海外认为的是生成式AI,从理解了、看见了、听见了到能不能创造,这是非常大的里程碑,也是个人体感非常强烈的破圈,尤其是看到群众兴奋的在朋友圈以及群聊中去晒AI生成的图。这个兴奋的浪潮在持续高涨的过程中,ChatGPT又出来了,但仅是在技术圈里、AI圈里。

真正的破圈是到春节的时候,再一次的破圈以及震撼我的,准确的是3月15号,GPT4出来了,然后没几天,17号微软的Office“全家桶”出来了,虽然没有直接上手可以试,但是当你看到操作的视频就会非常震憾,这个震撼在于这种创作型的、这种生成式的AI真的要去颠覆你身边所有的应用。因为这么多年大家感同身受,Office已经很好了,但是如何把生成式AI创造智能,嵌入到身边的这些应用里,我觉得这几个点是我个人特别特别关注的,主要还是从应用的这个角度。

3.

36氪:回到当下,过去几个月称得上国产大模型的春天,在你们看来,中国国产大模型相比美国真正的差距在哪里?其中关键问题是什么,这一浪潮中,中国跟世界的差距是拉大了还是缩小了?

戴雨森:从投资的角度观察,目前算力、数据、算法各个方面都有一些积累上的差距。OpenAI在这个过程中,通过大量的资金、长期的研究和坚持打造了GPT4这样非常强大的大模型。我们现在很多团队都是看到了ChatGPT的结果之后,才开始从资本的角度或者人才算力的角度去开始做,所以现在肯定是有一个比较大的差距,人家已经跑前面去了,咱们才开始起跑,在比较短的时间内这个差距会进一步拉大。

整体来讲的话,我觉得中国学者在AI领域的学术积累还是非常头部的,其实在AI圈里面很多顶会论文,著名框架的发明人都是中国人,所以人才其实是不缺的,但是现在竞争格局比较分散,可能会影响到在尖端技术上的突破。我觉得百模大战并不是一个好事儿,其实很多是行业浮躁和泡沫的体现。在喧嚣之后如何尽快市场格局能够收敛,把这些本来就比较稀少的资源集中起来重点突破,这个可能是我们要追赶或者在一些领域反超的路径。现在资源本来就少,分散到很多的项目和团队上,我觉得也是不太持续的。现在虽然做大模型的公司很多,但很多公司其实只是在用SupervisedFineTuning等比较快捷的技术做一个语言能力还可以的模型出来,但是真正能够资金实力和技术实力去挑战GPT4以及更先进技术的团队和项目可能还是比较少的。

张家兴:首先我们还是要承认国内大模型跟OpenAI这个的差距,这个差距不光是我们跟他们的差距,国外很多公司跟他们之间也有很大的差距,这个主要原因是在于在ChatGPT出来之前,其实大模型这个领域已经存在了,只不过这个领域属于百花齐放的阶段,大家有众多的模型结构,针对不同的任务、不同的领域大家,也有不同的模型结构跟训练方法的思考,呈现百花齐放的状态。但是OpenAI坚持选择了在当时看来也是众多方向中的一个方向,最终它胜利了,这是它本质原因,这个方向确实坚持了很久了,他们做通用人工智能这件事情很早就在说,一几年他们就在说这件事情,因为积累的比较多,这条道路胜利了,那么其他人不只是我们,包括美国的其他公司其实也都是在追赶的状态。

中国来说,反正我们在追赶中有劣势也有优势,劣势刚才戴总也提到了包括资本的投入,甚至包括本身算力的规模,其实都是属于一个劣势,当然我们也要看到优势,我们应该看到这一代AI跟之前的AI本质的不同。如果我们回想到2012年的时候,其实对今天这种情况还是乐观的,中国整个学术界在世界上的话语权更加什么都没有,因为当时大家知道“三巨头”以及他们的学生基本引领了整个领域。所以说中国其实深度学习过去十年中,比如说华人做出的有影响力工作不是特别多,很少的。

但是到了这个时代因为整个发生了变化,刚才卢老师也所了,学生都不知道该干啥了,整个AI技术的接力棒,前沿技术的接力棒已经从研究走向了团队式的“研究+开发”,明显呈现了一种工程化的趋势,AI开始搞工程化的话,中国还是有很大的优势。过去十年,中国因为互联网、数字化转型积累了那么多算法工程师,尤其是懂深度学习的工程师,这都成为非常重要的人力资源,所以大家可以看到,这一波其实如果相对十年前我们追的是非常快,整个中国追的是非常快,有很多团队都能做出比较像样的模型,在逐渐拉近距离,承认差距,结合我们现在的优势以及刚才说的对比,我们对当下还是要充满乐观的。

方汉:因为我深度参与了大模型的训练过程,我来谈谈我自己的感受。为什么OpenAI被讥笑为CloseAI?其实大家会发现,它在各种演讲以及论文中公开了自己的数据及来源,也把自己的算法和训练步骤都讲出来了,但是最保守的机密其实是如何对数据进行预处理的阶段,所以本质上大模型的训练现在的差距其实是工程上的技巧,而OpenAI花了整整五年时间在这方面去积累,其实我觉得这是全世界所有其他公司同OpenAI的差距。

但是我们认为,工程上的差距一定是可以追平的,只要有海量的试错机会。但是从另外一个角度而言,我们与美国很大的一个差距就是我们在大模型训练底层技术上仍然有差距,例如OpenAI觉得效率不够高,会写自己的compiler,但是中国有能力做这样的公司寥寥无几。

我刚才跟大家分享过,我天天在读大模型相关的论文,我有个习惯,当我看到一篇论文有意思的话,我一定会联系作者,去和作者交流。在我目前感兴趣的论文中,中国的博士写出来的论文大概占1%的话,那么美国人写出来的论文大概能占2%,其中,美国博士论文里能占到2%的部分中有一半是中国人写的,所以我个人对国内大模型的前景比较乐观。在下一代大模型创新中,我们中国的主力是这批正在读书的博士,我觉得他们的水平以及创新能力并不弱于美国人,只要我们给他们机会,他们一定会成长起来。如果需要我现在举出有中国科研人员引领的项目案例,我能举出来很多,我个人还是比较偏乐观的。

卢志武:我觉得国内跟国外最大的差别还是说,如果从大语言模型上,最大的差别就是说大家都沉不下心把底座做好,你刚才说国产大模型的春天,这个都是假象,因为大部分都是微调国外底座模型的。

方汉:我是坚决反对,我们自己做大模型训练,可以很清楚的告诉你们,中国第一批出来的大模型里面,这么说吧,至少我可以拍着胸脯保证,我们天宫跟它一毛钱的关系都没有,因为我们从2020年开始做了,连OPT都没有,我觉得你也不能一棒子都打死。

卢志武:我知道,但是你这个我不太清楚,我看到了很多,因为一测就知道。当然也有一些团队在模型底座上投入很多精力,大部分还是很浮躁的。我反而觉得语言模型上面差距会越来越大。

36氪:卢老师是更悲观的一个视角。

卢志武:为什么会是这样,看一堆模型出来了,只是因为这个语言模型架构已经公布了,但是如果没有公布,为什么前面不出来,这不是很奇怪的一个事儿吗?我觉得不符合逻辑的,大家都不愿意去做底座。从这个角度,大家能不能跳出语言模型?反正已经落后了,当然有人要追。有没有别的方面还能追得上的?GPT4的框架是未知的,大家都是公平的,我们就去探索,在这个点上我们追上它还是有可能的,并且GPT-4训练算力耗得那么多,OpenAI自己它也承受不了,如果要把视频加进去,我估计也做不好。总之,从这种角度,真正把类GPT-4模型做出来,我觉得大家都是公平的,有机会追得上的。我认为语言模型上反而没什么机会。

方汉: 我坚决反对上一位老师的观点,我们自己做大模型训练,在中国第一批出来的大模型中,我可以拍着胸脯保证,我们昆仑万维发布的“天工”大模型跟外网的开源模型一点关系也没有,因为我们从2020年就开始做中文预训练大模型的研发,2021年发布了140亿参数的中文预训练大模型,那个时间点世界上还没有任何公开的开源GPT大模型可以参考。

李京梅:今天无论哪一个评测榜或者企业自评,国内还没有哪一家说我已经跟ChatGPT,不要讲GPT4,就是ChatGPT3.5,能够比肩了。今天这种现状,从创业公司做商业化落地的角度看,是否考虑过即使今天ChatGPT在中国并且在你手里,可以做私有化吗?是不是可以用起来?我觉得答案也是否定的。

我们看了很多行业,尤其是行业性较强的,比如金融行业,它的数据并不能放到互联网上,还是有很多私域数据。不管是行业的习惯还是监管或者其他原因,总之这个数据并不飘在互联网上,这种数据也不是纯粹的底座技术就可以解决的。所以能看到,即使有了这样的底座,通用的能力,还是要加工程。所谓的工程就是今天在行业里看到如何解决准确性的问题,GPT4比GPT3.5提升了很多。所以从落地应用的角度看,无论是自研的还是基于开源的LLaMA模型,微调后怎么去用,需要把最后一公里,可能不止一公里,十公里也好,要去做好。这是一个我觉得国内在人工智能技术、AI工程或者软件工程里面,一定可以用上的策略。在剖析了OpenAI团队后,其实是有很多华人甚至国内留学去的,所以人才方面我们完全不落后,这是都能有目共睹的。

这是一个落地层面。翻回来,从我观察来看,无论是去年的AIGC还是今天的ChatGPT,这些技术大家都去追了,会不会哪天世界某个角落又蹦出新的技术,我们又没有跟上?所以前瞻性的研究需要长期坚持。从创业、商业化角度分析,越前瞻、越看不清的东西,成功的几率也是越低的。再从投资角度来说,是否有资本愿意做长期的投入?这些不是某一个人或者某一个公司可以解决的,我也没有答案。OpenAI它不是一夜成名,不是一夜暴富,虽然OpenAI没有把论文发出来,但是它的技术2017年就有了,前期的脏活苦活累活也都干了,所以其实也是长期的坚持。微软虽然投入了,微软自己的研究院也没有先做出来,谷歌这么多年AI的标签,也没有先做出来。所以概括来说,前瞻性技术型的研究投入以及高校人才的培养,是需要引导的,也是一个长期坚持的事情。

4.

36氪:各位老师怎么看大模型未来的竞争格局,哪些参与者可能能存活下来,现在的普通创业者是否还有参与的机会,另外关于大模型的创业,关于它的商业化路线一直存在很多争议,很多人说在中国做大模型单纯走2C的路线是很艰难,所以想问一怎么看2C和2B它可能面对的机会和挑战?

戴雨森:我感觉在中国做2B服务可能更艰难,至少做过企业服务的创业者应该会有更深刻的感受。中国互联网之前一大特点就是要直接找用户收钱很难,很多时候都是「羊毛出在猪身上」,企业服务的格局也会受到市场付费意愿、客户采购方式特点的限制。我倒是觉得面向消费者应用的机会在中国还是很大的,虽然咱们跑出来的应用商业模式跟美国ChatGPTMidjourney直接卖用户订阅估计还是会一如既往的有很大区别。

企业服务领域,OpenAI和Claude在美国可以直接通过公有云卖API服务,但在中国估计只是提供API还不够,我听说很多做大模型的公司针对企业客户现在是连服务器带模型一起卖,还得提供训练和微调服务。

然后显然上百个模型混战肯定不是长期的状态,我觉得这里面分几类:

第一类就是真的能够往智能前沿探索,我觉得这么多大佬都说AGI是比互联网更大的机会,这个的立足点是我们能做出能够使用工具、解决任务、分解任务的AGI,这样的实现需要非常强的能力,坦率来讲已经超越了传统NLP 任务的范畴.所以我觉得这个可能能持续做到世界领先水平的人哪怕是在美国也会是比较少的。

第二类机会,可能在垂直领域里,比如说医疗、法律这些原来薪酬比较高的领域,可能可以使用大模型再加上垂直领域的数据进行精调,来创造对应的copilot。在这些垂直细分领域,可能我们不需要把所有的领域任务都做的那么好,这个可能是行业应用机会。

第三类机会,我坚信在应用端肯定会有很多很有意思的机会。我们看到了在美国Midjourney、Jasper这些产品都是用户很喜欢,商业化很优秀的。我们也有投资做应用的公司,推出的产品在国外反响也很好。有人说这些应用是不是就是GPT套壳,我认为这个领域技术可能不是最关键的,重要的是怎么把大模型的能力和用户场景有效的对应起来,给用户提供价值,长期来看是靠专有的用户数据和关系,以及用户习惯和品牌等形成壁垒。

其实仔细想想,首先iPhone发布之前,投移动互联网应用基本上没有跑出来的。但2007年iPhone发布后,要在头几年去预测十年后移动互联网的终局形态和大赢家也是很难的,我们在2010年是基本不可能想清楚最后是字节、快手、拼多多、美团、小红书这些商业模式最后成为中国移动互联网的大赢家。因此在这一波AI技术革命的早期,我们坚持以创业者为中心,相信优秀的创业者最后终究会找到方向。

总结来讲我觉得中国2C比2B机会大,最后不需要那么多真正的大模型,而是需要很多在垂直领域能够解决问题的模型和产品。

张家兴:我也同意戴总的观点,我们不一定非得说有一个通用大模型,要更多的垂直领域的这些模型,然后这一块就是对于整个大模型的落地以及它的整个商业化,我一直有一个想法大家如何去思考我们通用大模型这些事情,它到底是像OPENAI给大家呈现出来的,或者是2C产品,还是怎么去想?

其实我还是把这个东西类比成当年的深度学习,因为我也是完整的经历了整个深度学习的周期,就是实际上通用大模型是一门技术,就跟当年深度学习出来之后,因为深度学习之前,其实机器学习一直都存在,只不过它各方面做的不好,所以说很多场景,要么效果不好,要么没办法应用,深度学习全部刷了一遍,包括后来10年之后大家见到很多互联网的一些应用,包括一些比如说短视频直播都是跟深度学习技术有关,否则不可能出现。

那么大模型也一样,现在看到通用大模型也是一样,其实更多的是对我们以前曾经的这种AI化的,我们说这个世界在信息化、数字化、AI化,我们AI化的一个进一步的深化吧,从这种情况下实际上作为一个技术来说,它是要有一个完整的生态体系的,从这生态体系来说。

但是深度学习因为那个时代技术应该或者说它的复杂程度或者成本没有达到那个程度,就是这个生态体系还没有划分的很清楚,但是到模型不得不进行生态体系的建设,因为大家知道做一个通用大模型确实成本太高,也需要专门的投入和专门化的团队来做,所以最上游一些做通用大模型的公司,接着往下沿着大模型做各方面垂直大模型,然后还有做各个行业落地的以及每个行业里面自己在应用它去做事情,以及过程中云厂家包括做算力各个厂家在里面,整个生态体系,如果大家看到这个生态体系的话,就会发现这里面机会蛮多,而不是听听眼睛就得盯着做什么什么模型,不是这样机会非常多。

我觉得第一个当做技术来看,必然会在各个场景要有应用,也绝不是一个通用大模型就能解决全部场景问题,需要每一个场景针对场景做自己的模型,每一个场景中让每一个模型跟你的场景能够形成这样一个闭环,场景越好就你涉及到的数据越多模型越好,再就是说站在一个马上就要展开的生态角度来看,想一想自己可以占据哪个生态位。

方汉:首先,各种各样的小模型的能力其实严重依赖于大模型底座;第二,2B或者2C的机会,中国与国外的竞争格局完全不一样,但是也有一些相对共通的方面,目前在中国2B端很难有一家独大的情况,而是比较碎片化,大模型在B端的应用是一个大家都能赚到钱、但是大家又很难赚到特别多钱的局面。对于一家创业公司而言,B端还是一个不错的起点。

对于C端而言,我觉得分两个方向,一是效率工具,也就是说我们把大模型作为我们日常工作的一个效率工具。在这一点上,我认为,国外的订阅模式,在中国一定不会成功,中国一定是免费模式,中国模式的效率工具入口已经被office、企业AIM等就是我们上班打开的工具入口占领,目前创业公司的机会其实不多,因为很难改变用户的习惯,去创造另外一个工具的入口。但是在另外一个领域,所谓的内容生成领域,创业公司的机会就会更多一些,因为在这个领域,大公司其实没有把用户的心智彻底垄断掉,用户就是相对碎片化。

最后,其实这一波大模型或者通用人工智能的是远远超过产品进展,我也经常跟中国的最顶尖的产品经理聊,我感觉产品经理是处在很懵的状态,大模型是很厉害,能用来干什么?我觉得要给我们中国的产品经理一些耐心,我相信通过这些产品经理的创意以及努力,能够打破现在的范式。

目前B端和C端的竞争实际上还是1.0模式,就是老的商业模式去套大模型来做我们的创业方向,我认为必然有2.0模式,就是彻底摒弃现在传统商业模式,利用大模型的能力去创造出新的商业范式,我个人认为,在中国可以再创造出下一代的BAT和TMD,我认为是有这个机会的。

卢志武:其实我们2020年把文澜模型做出来以后,一直在探索这个落地。但是这个落地很难,就是大模型落地确实有很多问题。当然到今天为止,还是有一些自己的想法,虽然我是个教授,主要在学校,我认为大模型落地目前就是API调用的方式,还有一种大模型的定制化或者行业里面再去重新训,我觉得这两种方式其实都不是很好的。API调用有很明显的问题,比如说很多场景,政府的场景,因为数据的问题不可能让你去调的。

然后定制化也是一个苦活,虽然也能复制,但其实每一家它都有自己的特别要求,最后变成一个一个做项目,这两个事情我都做过,就比如说我们跟荣耀也做过,反正最后变成做项目,能赚钱但是很辛苦,就这样的。所以我最近也在探索想一个新的路,我正好是做多模态大模型,因为多模态可以接摄像头,而很多硬件都是有摄像头,那可以把模型集成在一个硬件里面,比如说无人机、机器人这样,我们就变成了去卖产品,可能是一条新路,可以避免我刚才说的两个问题,然后API调用很多场景用不了,其实成本也挺高的,如果变成做产品可能稍微会好一点,这是我们的探索。

另外,文生图这个领域我觉得小B还是有机会的,我们最近也在这个上面探索。

李京梅:澜舟科技是一个创业公司,我们如今做大模型也有深耕行业的模型,针对这几年探讨的ToB和Not ToB,澜舟的商业化赛道主要是B端,也包括一些文化娱乐、营销,我们是通过ToB再ToC。每一个企业都有自己的基因和选择的赛道,B端这个赛道我觉得今天中国跟海外有一些差异,早期我在美国也做过不少B端的服务型的一些工作。

在国内,ToB产品或者解决方案必须一家从头做到尾,其实是可以分层,比如做底座或者工具平台。我相信大模型跟数据是在一起的,如果是互联网公开数据,那它就是在互联网上,如果是行业的数据,那它就应该在行业里,数据在哪,大模型就在哪,但当前是否具备相关的人才呢?所以无论是哪个行业,还是要有行业能够降低落地的成本、应用的这种工具型的平台,比如分层底座的工程平台、行业的端到端应用、效率型的工具,这也是一种产品。并不局限于群众可以直接体验到、能够上手的、可以日常用的才叫产品。所以无论是ToC还是ToB,大模型的商业化落地,在国内都还没有那么清楚,但能够看到这种浮躁的这种热潮已经降温,尤其B端已经开始进行理性化的思考。

我觉得接下来的这个商业化,尤其是在B端的一些赛道,当然我们也是有选择,有一些是包容性比较容错性高一些,肯定是先能落地,写网文营销尤其是社媒上的营销,但是金融容错率比较低,我觉得这是有一个过程,目前我们还是走垂直领域专业赛道,在B端或者是在一些细分的行业里愿意跟市场、跟客户一起去探索往前,最主要的ToB还是Not ToB还是做出价值,这是我现在的观点。

5.

36氪:本来还有更长问题,因为时间关系缩减一下,这一波AI新浪潮让很多的白领可能会被替代的焦虑中,如果是面对一个择业的年轻人或者教育孩子的家长,各位老师会有何建议,能否用一句话概括一下。

戴雨森:就跟当时互联网一样,拥抱新技术、学习新技术、成为新技术专家,这个是最直接的。

张家兴:不要去做那些所有人都能做的事情,尽量发现自己与众不同的事情,因为所有人能做的事情,现在机器都做的挺好的。

方汉:大家不用杞人忧天,我觉得下一代更善于利用AI,更善于去开发AI,对于我们来说,只要永远保持一颗好奇的心态,就不会被各种各样新技术淘汰。

卢志武:拥抱AI。

李京梅:要有一个与时俱进的心态,保持持续学习的心态,就不会被时代淘汰。

关键词:

热门推荐