获红杉等20亿投资,清华系大模型新星完成首秀

发布时间:2023-10-17 10:02来源:投资界阅读量:9750   

一家明星大模型公司,完成创业首秀。

10月9日,专注于通用人工智能领域的公司月之暗面宣布在“长文本”领域实现了突破,推出了*支持输入20万汉字的大模型moonshot,以及搭载该模型的智能助手产品Kimi Chat。

月之暗面由清华大学交叉信息学院、智源青年科学家杨植麟教授领衔,其在过去五年内的NLP领域华人学者引用排名中位居前10,并在40岁以下*;两位联合创始人周昕宇和吴育昕,也均出身清华。团队还成功吸引了来自Google、Meta、Amazon等全球*科技公司的海外人才加入。

今年2月,大模型热潮初起时,市场就有消息传出:“杨植麟被寄予厚望,由国内最头部的VC提供孵化式支持。”

短短4个月后,成立仅2个月的月之暗面被曝完成首轮融资。对此,创始人杨植麟“更正”道,公司已获得红杉资本、今日资本、砺思资本等知名机构近20亿元投资。目前市场上关于估值的表述是“不准确,且偏低的,后续会通过官方形式正式对外公布。”

杨植麟表示,“目前,团队成员在50人左右。首轮融资及接下来的新一轮融资,都将主要用于技术产品的研发,以及团队扩展上。”

1、支持20万字超长输入,推动大模型从LLM进入LLLM时代

杨植麟表示,月之暗面的创立初衷就是“好奇心,探索未知”;愿景则是“对世界有用,与用户共创”;团队希望AI能够“普惠、个性化”。

* 长文本打开大模型应用的新世界

当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约,例如:目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息,在Character AI的社区中用户就经常抱怨“因为角色在多轮对话后忘记了自己的身份,所以不得不重新开启新的对话”,等这些类似问题。

月之暗面同样观察到了“大模型输入长度受限带来的应用困难”,据杨植麟介绍,针对于此,公司实现了“全球最长,支持20万字超长输入,大模型产品进入长文本时代”。他也在现场,以Kimi Chat的一些实际使用为例,进行了详细介绍。

公众号的长文直接交给Kimi Chat ,让它帮你快速总结分析:

新鲜出炉的英伟达财报,交给Kimi Chat,快速完成关键信息分析:

出差发票太多?全部拖进Kimi Chat,快速整理成需要的信息:

发现了新的算法论文时,Kimi Chat能够直接帮你根据论文复现代码:

输入整本《月亮与六便士》,让Kimi Chat和你一起阅读,帮助你更好的理解和运用书本中的知识:

通过上述例子,我们可以看到,当模型可以处理的上下文变得更长后,大模型的能力能够覆盖到更多使用场景,真正在人们的工作、生活、学习中发挥作用,而且由于可以直接基于全文理解进行问答和信息处理,大模型生成的“幻觉”问题也可以得到很大程度地解决。

相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k,8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。

目前,月之暗面的智能助手产品Kimi Chat已开放了内测。

* 从LLM进入LLLM时代

杨植麟此前曾表示,无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。

无损压缩的进展曾极度依赖「参数为王」模式,该模式下压缩比直接与参数量相关,这极大增加了模型的训练成本和应用门槛,而月之暗面认为:大模型的能力上限是由单步能力和执行的步骤数共同决定的。单步能力与参数量正相关,而执行步骤数即上下文长度。

月之暗面相信,更长的上下文长度可以为大模型应用带来全新的篇章,促使大模型从 LLM时代进入Long LLM 时代:

1.每个人都可以拥有一个具备终身记忆的虚拟伴侣,它可以在生命的长河中记住与你交互的所有细节,建立长期的情感连接。

2.每个人都可以拥有一个在工作环境与你共生的助手,它知晓公域( 互联网)和私域(企业内部文档)的所有知识,并基于此帮助你完成OKR

3.每个人都可以拥有一个无所不知的学习向导,不仅能够准确地给你提供知识,更能够引导你跨越学科间的壁垒,更加自由地探索与创新。

当然,更长的上下文长度只是月之暗面在下一代大模型技术上迈出的*步。月之暗面计划凭借该领域的*技术,加速大模型技术的创新和应用落地。

2、清华学霸二次创业,曾参与悟道盘古等多个大模型项目

月之暗面能在成立之初就获得头部VC押注,与杨植麟本人的“学霸”身份、丰富经历,关系匪浅。

早在高中时期,杨植麟就表现优异,他在没有任何编程基础的情况下,被选拔进信息学奥林匹克竞赛培训班,最终顺利通过竞赛保送清华大学。

清华求学时,杨植麟师从清华大学计算机系知识工程实验室带头人,智源研究院学术副院长、悟道项目负责人唐杰教授。最终他以满分成绩通过所有程序设计课程,并以年级*的成绩毕业。

随后在2015年,杨植麟进入卡内基梅隆大学语言技术研究所(LTI),跟随苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen攻读博士学位。

毕业后,杨植麟曾效力于谷歌大脑研究院和Meta人工智能研究院,是Transformer-XL和XLNet的*作者。其中,XLNet模型曾在18项自然语言任务中取得了好于谷歌BERT的效果,是当时NLP领域热门的国际前沿模型之一。

2018年,作为*作者,杨植麟与图灵奖得主杨乐昆合作发表论文;与图灵奖得主约书亚·本吉奥(Yoshua Bengio)合作发表论文。此外,他还曾与Quoc V. Le(Google Brain创始人之一)、何恺明(Kaiming He)等合写过论文。

据不完全统计,杨植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶会发表论文20余篇,研究成果累计Google Shcolar引用超过17000。

目前,杨植麟还是清华大学交叉信息研究院的助理教授,研究方向:大规模预训练,自然语言处理,自然语言理解与生成,少样本学习,零样本学习,多模态学习。

现年31岁的杨植麟,在大模型领域,可谓声名显赫:循环智能、智谱AI、智源研究院……到处都有他的名字和身影。

同时,杨植麟和团队也曾作为核心研发成员,参与Google Bard、Gemini、Einstein、盘古、悟道等大模型的研发,发明包括TransformerXL、XLNet、RoPE、Detectron2、Group Normalization在内的AI领域里程碑式的成果,被诸如Google PALM、LLaMa等模型采用。

如今,经验丰富的杨植麟选择自主创业,自然受到各方的紧密关注,以及知名投资方的热情追捧。

天眼查App信息显示,月之暗面由杨植麟持股78.97%,拥有*控制权。

3、清华同门组队,成员堪称全明星阵容

围绕在杨植麟身边的月之暗面创业伙伴,同样实力非凡,不容小觑。

月之暗面联合创始人周昕宇持有公司10%股份,他和杨植麟、张宇韬,是清华大学计算机科学与技术系2011级本科的同学。

在大四时,周昕宇就加入各方面都符合他标准的旷视实习,并在毕业之后正式加入,工作内容是算法量产,就是要把算法的生产效率提高很多倍。

工作期间,他和旷视研究院基础科研负责人张祥雨,携手研究移动端模型,以共同一作的身份撰写《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》,中标CVPR。ShuffleNet后来影响了包括苹果3D人脸解锁在内的各种手机毫秒级人脸解锁技术。

月之暗面联合创始人吴育昕作为持股5.96%的第三大股东,同样来头不小。

吴育昕毕业于清华大学与卡耐基梅隆大学,曾获2018年欧洲计算机视觉会议*论文提名。他是Meta(Facebook)员工,系公司人工智能实验室FAIR团队的一员,曾和队员何恺明共同提出了组归一化(Group Normalization,简称 GN)的方法。

在2018年10月的GeekPwn国际安全极客大赛上,IYSWIM是6个参赛团队中,*一个破解人脸识别算法的团队。吴育昕当时以IYSWIM团队的身份参赛,据他介绍,“自己用了谷歌的FaceNet开源代码模型攻破了该算法”。

此外,杨植麟的同门师兄张宇韬,目前持有公司5%股份,最后0.08%股份由汪箴持有。

公开资料显示,张宇韬本硕均在清华大学计算机系就读。他的研究方向是异构数据融合和知识图谱构建,在KDD、CIKM等计算机顶会上发表多篇文章。他作为技术负责人,参与了科技大数据分析平台AMiner的研发。

汪箴则毕业于复旦大学计算机科学系,后就读新加坡南洋理工大学计算机工程系,主要研究工作面向AI在鉴证科学上的应用。此前,他曾在Google担任高级软件工程师/技术主管,开发移动端网页搜索、社交平台等产品。后又担任新加坡AI技术驱动独角兽领创集团技术委员会负责人/技术副总裁,还有过投资机构的从业经历。

如果说清华大学撑起了大模型创业的半壁江山,那么唐杰教授更是中坚力量,智谱AI、智源研究院、月之暗面、循环智能,这些公司都与其关系深厚。

谈及与师兄弟甚至师父“同场竞技”,杨植麟表示,“我觉得更多的倒不是竞技,而是大家共同在这个领域作出各自的贡献。因为这里面的空间非常大,很难有一家公司可以把所有的事情都做了,大家的侧重点各有不同。像月之暗面就是聚焦在C端进行尝试,而且每一家公司的技术路线也是不一样的,这里面其实蕴藏着巨大的机会。”

除了技术层面的优势,月之暗面也在产品人才上做足了准备。据杨植麟介绍,团队中有着拥有几亿DAU经验,擅长在C端寻找应用场景的产品人才。而这也是现阶段,月之暗面聚焦C端用户的底气所在。

声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。