方汉曾经不远千里飞往一座自己从未听说过名字的小县城,专程去“堵人”。作为昆仑万维董事长兼CEO,这是他代表公司去竞争AI人才时必要的自觉。
他说自己从不会让这些人来公司,都是自己“巴巴地”上门,找一家餐馆或咖啡厅,一口气跟人家聊上几个小时。凭借这样的方式,方汉成功为昆仑万维吸引了一批技术人才,这些人构成了Mureka和SkyReels的核心主创,这是昆仑万维继续参与下一个时代的两张最大入场券。
2020年,移动互联网浪潮式微,昆仑万维创始人周亚辉与方汉一起探讨公司的第二增长曲线。在VR、元宇宙、Web3、AI这些方向之中,他们选择了与互联网最为相似的AI,因为它将同样对普通用户影响极大。
2023年4月,昆仑万维正式发布大语言模型天工3.5,在“百模大战”中占了一席之地。但很快,这家公司没有选择在文本模型上过度投入,转而加速推进音乐与视频大模型的研发。
AI 2.0时代,昆仑万维坚信技术与产品的“双轮驱动”效应。因此在音乐和视频的AIGC领域,这家公司不仅打造产品,也将底模能力掌握在自己手中,并且对模型的SOTA(State-of-the-Art)表现具有执念。在方汉看来,SOTA是模型最好的营销方式之一。
2024年4月,昆仑万维发布第一代音乐生成模型Mureka V1,并于8月上线AI音乐创作平台Mureka。今年3月,公司再度发布Mureka O1与Mureka V6,其中Mureka O1为首款加入MusiCoT(Chain of Thought)的音乐推理大模型,性能超越了其全球范围内最强劲的对手Suno。方汉透露,这次迭代是受到DeepSeek-R1的启发。
另一边,公司在2024年8上线集成视频大模型与3D大模型的AI短剧平台SkyReels,又于今年2月开源面向AI短剧创作的视频生成模型SkyReels-V1。
音乐和视频,是昆仑万维筛选出来最好的AIGC内容赛道。“全世界有80亿人可以消费视频,40亿人能消费音乐,但可能只有20亿人能消费漫画,10亿人能消费小说。”方汉对
近日,昆仑万维发布2024年财报,公司实现营业总收入56.6亿元,同比增长15.2%。其中AI业务年化收入1.4亿美元,以AI音乐为例,其年化流水收入ARR达到约1200万美金(截止2025年3月底,月流水收入约100万美金);截至2月,SkyReels-V1在Hugging Face下载量接近3万次,在Github点赞星数过千。
市值约370亿元的“中厂”昆仑万维,其长线命题是如何与大厂错位竞争。方汉认为最朴素的逻辑还是扎进一个细分行业,掌握行业中的数据和行为习惯并执行到最好,直到外面的厂商根本搞不定。
“任何一个大而美的公司,在早期一定是小而美的,否则大厂会毫不留情去碾压你。”方汉以字节跳动、小红书、B站为例,表示这些都是巨头在早期没有看懂未来会如何成长的“小而美”,等到巨头察觉不对时,已经很难与其正面竞争。
“所以小而美只是一个前期的竞争策略,最后能不能泛化才是你凤凰涅槃的关键因素。”方汉说。
以下为界面新闻对方汉的采访实录,略作编辑:
音乐和短剧大模型要做世界第一
界面新闻:你们2023年4月就发了天工3.5大模型,在国内算挺早的,甚至比一些“六小虎”还早。看起来你们完全可以用对标OpenAI那一套给自己积攒更多名气,但后来没有这么做,为什么?
方汉:逻辑很简单,我们在一个领域一定要做到SOTA才愿意大力投入。
文本大模型领域说实话实在是竞争过于激烈。但是在音乐大模型领域,我们从2020年就开始做,投入时间更长,这个领域竞争也没有那么激烈,只要我们全力以赴,就能做到SOTA。
界面新闻:你们最近刚发的音乐推理大模型Mureka O1加入了CoT(思维链),这是受到DeepSeek的启发吗?
方汉:OpenAI o1出来之后,大家知道推理模型这个概念的大方向,但具体怎么做,所有人都在探索。我们自己出了一个文本推理模型Skywork R1,对思维链有了一定认知,在DeepSeek R1出来之后认知就更深了。
我们就在想,除了文本模型,在多模态生成上面R1的技术能不能有效。比如音乐大模型我们花了很多时间去探索和做实验,看能不能跟美国的Suno做碾压式的竞争。
我们当然也走了很多弯路,但实验结果出来之后,我觉得我可以毫不谦虚地说,Mureka O1是目前世界上最好的音乐生成模型。
界面新闻:有CoT和没有CoT的音乐模型,它们在推理生成时的区别是什么?
方汉:首先肯定是生成质量有大幅提高,但我们是用时间换质量,也就是推理时长肯定会增加。原来的音乐模型可能不到一分钟就能生成一首曲子,现在时间可能要两分钟。但对于用户来说,他肯定更希望后者。
CoT技术可以大幅提高音乐模型生成质量,这个之前没有人证明过,我们证明了这一点。
界面新闻:为了证明这件事你们主要做了哪些投入?
方汉:在文本大模型上,Open AI最早做o1的时候雇了一批博士解数学题,做编程,然后得到一批好的数据。其他公司也有类似的方法,或者找一个更好的大模型给它生成数据。但音乐大模型完全没有这种数据,所以我们还是花了一些成本和精力去做这样一批好的CoT音乐数据,才能让整个训练成立。
打个比方,一个模型生成了十首曲子,1首好的、7首中等的、2首不好的,那我们就把这一首好的曲子挑出来,再让人工去把前序整个生成过程所需要的信号标注出来。
音乐创作跟解数学题不太一样,生产数据是一个蛮困难的事情,我们也是花了很多精力才知道在生成过程中有哪些信号,可以让模型更好生成更高质量的数据。
界面新闻:你们2月以来发了特别多模型,包括世界模型,面向工业界的多模态推理模型,视频生成模型等等。为什么要发这么多模型?
方汉:我们公司的使命是要实现通用人工智能,让每个人更好地塑造和表达自我。
这是分成两句话,第一句话叫实现通用人工智能,所谓的AGI既包括文本大模型,也包括理解物理世界的大模型。在这方面我们一直在做探索,是偏实验性的,它可能没有短期的商业价值,但是长期来看,我们仍然认为非常有价值。
第二句是让每个人更好地塑造和表达自我,这属于AIGC。在这个领域我们非常明确有两个模型,一个是Mureka,做音乐生成,一个是SkyReels,做视频生成,更准确地说是做短剧生产。
把这些全拆开之后,你会发现我们的整个商业模式就很清晰了。我们既要探索通用人工智能,也会在音乐和短剧的AIGC领域全力去拿到世界第一。
界面新闻:你们为什么会这么强调短剧这个领域?像“即梦”和“可灵”,它们不会把自己限制在这样小的范围里。
方汉:短剧是我们最看好的一个市场,它正在急剧增长中,视频生成也比较简单。
做通用视频模型就是试图全线(指短视频、短剧、网剧、电视剧、电影等)通吃。但通吃的结果是你得让所有人都满意。也就是说你必须做得非常全,非常强大。
但如果我们只做一个垂类,而且拍摄要求比较低,我可以在更短时间内让你满意。短剧一般都是竖屏,几个人的对话,没有大场景,专门做短剧模型必然是更快的。我们的短剧模型支持40多种人物表演的表情,300多种动作,通用模型这些数据是不如我的。并且我也认为AI短剧模型最有可能最早商业化。
界面新闻:但大厂的通用视频模型,它后期微调一下,可能很快就具备跟你们一样的能力。
方汉:理论上是这样,但是问题在于数据。就算它们来微调,那也得跟我们一样去把所有人物表演的数据标注出来。你要是做的跟我一样,我肯定是认输了,但我辛辛苦苦做了这么长时间,而且还在持续不断迭代,你怎么能保证你一定比我好?
我们跟大厂的区别就是,它们所有的数据质量都要特别高,我们只要把一个领域的数据做到最好。这个数据我们不会对外公开,你也很难去快速复制。
数据护城河在视频生成领域仍然是存在的。
“早期一定是小而美,否则大厂会毫不留情碾压你”
界面新闻:现在所有大厂都在全力投入AI,你们要怎么跟大厂错位竞争?
方汉:我觉得其实也比较简单,就是深耕一个行业,把这个行业的数据跟行为习惯全部做到最好,外面的厂商根本搞不定。
界面新闻:目前算力还会是一个瓶颈吗?
方汉:现在云算力是越来越多,如果算力有问题,你支撑不起高昂的算力,只能证明你的商业模式和产品模式有问题。
界面新闻:除了数据和算力,人才方面要怎么去竞争?
方汉:首先是你的技术真的能够达到排行榜上的SOTA(State-of-the-Art),你没有SOTA的技术就拿不到最好的人。我们虽然是一家中型公司,但我们音乐大模型排第一,还有其他很多模型能够在垂类领域拿到全球第一,这对人才是有吸引力的。而且在大公司并不是每个人都能当头的。
第二,我们相对来决策链条更短,就像创始人周亚辉也会直接跟技术沟通,技术得到的权限会更大。而且我们不会有大公司的部门竞争,这对很多人才来说也非常有吸引力。当然根本上你也得有比大厂更有吸引力的薪酬。
界面新闻:有你特别费劲才挖来的人吗?
方汉:多了去了,我们曾经为了挖人,飞到一个我之前都没听说过名字的小县城去堵人家,或者在北京我上门去请人家吃饭。我们从来没有让人家到我们公司来面试,都是我巴巴地上门,找一个饭馆、咖啡馆,然后一口气跟人家聊几个小时。
因为我说我们公司竞争力比大厂强,那是不可能的,但是我一定保证我的诚意比大厂强。
界面新闻:都是为了哪些岗位去竞争?
方汉:包括Mureka大模型的几个核心主创,以及视频模型的核心主创,都是我们竞争成功的。
界面新闻:周亚辉在投资笔记里说,你们要在社交、游戏、影视、动漫、音乐这几个领域做一个“小而大美”的企业,为什么你们不会说想趁着AI带来的变革去搏一个大而美的机会?
方汉:任何一个“大而美”的公司,在早期一定是“小而美”的,否则大厂会毫不留情去碾压你。
字节就是非常好的例子,张一鸣最早做今日头条的时候,所有人都看不明白这能长成多大。B站最早也是一帮二次元从A站分化出来。小红书也是这样,一开始只是分享购物笔记的地方。
为什么它们能长大?就是因为在早期它只想做小而美,然后在最核心的这批用户里巩固自己的地位,同时大厂没有兴趣跟你竞争。
但是你在做小而美的时候,就要想到它有没有可能泛化到大而美。我认为B站小红书和字节都是泛化到了更大,等它泛化的时候,大厂已经完全没办法跟它正面竞争。
所以小而美只是一个前期的竞争策略,最后能不能泛化才是你凤凰涅槃的关键因素。
界面新闻:你觉得在AIGC时代成为一家平台型公司,比上一个时代更难还是更简单?
方汉:上一个移动互联网时代更多是产品创新,通过烧大量的钱,迅速获得海量的用户,最后形成门槛。
但这个时代的技术竞争会更残酷,也不完全是烧钱就能保持技术红利的。因为用户的忠诚度还没有那么高,必须是技术发展到瓶颈之后,大家才会靠产品使用习惯形成护城河。
所以准确地说,肯定是这个时代成为一家平台型公司更难。
“挣多少钱不重要,但能挣钱这件事情很重要”
界面新闻:今年大家好像开始更频繁谈论AI应用公司的ARR(年度经常性收入),动辄数百万、数千万美金,在你看来,AIGC产品的PMF(Product-Market-Fit)现在已经如此明确了吗?
方汉:很多创业者,包括一些投资人,可能都会给大家画饼,说我的PMF多么好。但实际上要从市场侧来看,第一,它服务的市场有多大?第二,市场会花多少钱在这些工具上?
拿音乐来举例,在没有AI音乐生成之前,在中国做一首曲子,从找人作曲、作词,再找乐队演奏,找工作室混音,最后给你一盘带子,最低成本是10万块,一般来说在10万到100万元之间。
现在一首歌的推理成本可能就几十块钱,这导致创作成本和创作门槛都大幅下降,那么整个行业都愿意为这个东西付费。
所以AIGC行业应该这样看待PMF——整个行业现在每年消耗多少钱,以及你能帮他省多少钱。我认为音乐生成和图像生成已经到了完全可以商用的地步,但视频生成说实话还差一点,可能会稍晚1-2年。
界面新闻:Mureka可能长成一个多大的平台?你之前说它可以是数字音乐工作站类似“剪映”一样的平替,据说剪映和CapCut在2024年总收入接近百亿人民币,全球月活用户有8亿。
方汉:有一个比较简单的对比方法,就是全世界图像处理的软件市场,以Adobe为例,可能是一个200亿美金的市场规模。视频处理的市场规模可能是个四五百亿美金,剪映如果有20亿美金就吃到了5%的市场规模。
音乐创作现在是一个将近30亿美金到40亿美金的市场,在这中间吃个2%,就是一个5000万美金到1亿美金的市场,这是最低的。
但也不能简单这么说,因为音乐创作的门槛太高了,导致了整个音乐工作站、音乐制作工具的市场没有那么大。但是当我们这些新的创作工具介入之后,以后创作音乐的用户规模一定会扩大。
乐观估计,AI音乐创作这个市场应该是一个百亿美金级别的市场。我们这种做工具的头部厂商,我认为它的上限是每年10亿美金到20亿美金收入。
界面新闻:对你们来说,Mureka和SkyReels这两个平台现阶段就盈利这件事情重要吗?还是说你允许它们现在不赚钱。
方汉:挣多少钱不重要,但能挣钱这件事情很重要。能挣钱证明用户愿意为付钱,不然这个商业模式就不成立了。
但这里面也有一个技术红利问题。就是当你在这个领域技术指标做到第一之后,会有大量自来水用户。这批用户对我们产品的改进非常重要。
界面新闻:能挣钱这件事你们现在已经验证了吗?
方汉:肯定是验证了,我可以举好多例子。用户会把从我们这里做的音乐嵌到视频里,或者直接把视频发到平台上去获取广告收入,这些例子会越来越多。
我只能说,AIGC领域的盈利模型好于文本大模型,ToB一定是比ToC更好,这个没什么疑问。
界面新闻:抛开出海不谈,国内的ToB环境也是成熟的吗?
方汉:我认为也是成熟的。现在全国每年花100亿人民币拍短剧,这个市场需求是摆在那儿的,你只要能给他们降低成本,他们一定愿意掏钱。
界面新闻:你对整个AI行业局势有什么新的判断?
方汉:应该说具备生产力的应用开始正式进场了。以前的产品模式跟商业模式都不太接地气,现在新的产品模式和商业模式都在不断涌现。
本质原因是模型真正到了一个可用阶段,这确实是一个挺难的事。
界面新闻:年初Manus爆火,现在很多大厂也纷纷跟进了,你对通用Agent这个产品形态有什么看法?
方汉:我们不评判友商。不过我认为在大模型时代,模型本身的改进会把所有外部套壳产品的改进碾得粉碎。
这是我们观察到的现象,倒不光是Agent这一个领域,整个领域都是这样。当时这么多人去做GPTs,OpenAI稍微改了一下,整个行业就废了。
所以模型本身的迭代,会把之前套壳和外部做应用的一些厂商都弄得非常之难受。我觉得还是要专注于模型本身能力的提高。
界面新闻:所以你认为Agent这件事里,更有话语权的依旧是模型厂商。
方汉:肯定是模型厂商更有话语权。Agent是大方向,这个没有问题,但它严重依赖于底模能力,底模能力不行,你能干的事就少很多。
所以你首先得有一个特别好的底模,其次你没有任何能力阻止这些大模型厂商不干你这个生意。
界面新闻:你们会自己去做一款Agent吗?
方汉:我们会做这方面的探索跟科研,但并不是我们的主赛道。Agent的整个架构其实挺复杂的,Antropic出了MCP协议,谷歌出了A2A协议,Agent现在还处于互联网早期做TCP、UDP协议的时期。
但是千变万化,大家最后还是要拿Agent来干活。就算当初互联网在医疗、金融领域落地,还是需要大量的系统集成厂商去做行业软件。
我们对于某些行业还是有自己的一套研究和积累,比如我们原来的PPT生成和PDF生成,是国内最好的产品之一。所以我觉得我们做Office Agent,是有可能受到用户欢迎的。
界面新闻:周亚辉在他2025年第一篇投资笔记里写,他在2021年就草拟过昆仑万维的使命,是在2030年实现AGI。当时为什么会有这么一个使命的探讨?
方汉:我们其实是从2020年开始给公司找第二曲线,当时选择非常多,有VR,元宇宙,web3,AI,我们最后选了AI。
我们认为从用户角度来说,AI是一个更像互联网的产品,比如说对普通用户的影响会极大。只不过有两个选择,到底是通用人工智能还是AIGC?
这两件事当时并没有明确的分界,但因为我们一直做内容,所以非常清楚AIGC能够长得多大。至于AGI,这个应该说是人人都有梦想,你总得有梦想。
deepcoin深币
deepcoin注册送大礼,新人注册交易,最高可获得奖励1380USDT
更多交易所入口
一站式注册各大交易所、点击进入加密世界、永不失联,币安Binance/欧易OKX/GATE.IO芝麻开门/Bitget/抹茶MEXC/火币Huobi