大模型烧钱如流水,早已不是什么秘密。各路豪杰挤破头也要在技术上寻求突破,核心目的就是降本增效。最近,字节跳动豆包大模型团队发布的COMET通信优化系统,以及DeepSeek等公司频繁开源核心技术,似乎预示着一场新的技术革命正在酝酿。
字节跳动这次放出的COMET,直指MoE(混合专家模型)架构的通信难题。简单来说,MoE就是把一个巨大的模型拆分成多个“专家”,每个专家负责处理特定任务,这样可以显著减少计算量。但问题在于,专家之间的通信开销非常大,尤其是在大规模分布式训练时。COMET通过优化通信机制,声称能节省数百万GPU小时。
“万卡集群测试经验”,这几个字背后透露着浓浓的“凡尔赛”气息。一位头部大模型算法工程师在接受《每日经济新闻》采访时直言,国内能做到这种规模测试的企业屈指可数。这意味着,字节在算力储备和技术积累上,已经领先了大部分竞争对手。但这也引发了一种焦虑,其他公司是否会被进一步甩开?
DeepSeek开源模型R1在全球范围内引发轰动,随后又公布了降本增效的技术细节,以及理论上高达545%的利润率,直接把自己推上了“源神”的宝座。这种高调的开源策略,刺激了国内其他大模型厂商,纷纷开始加速开源行动。
DeepSeek的MoE架构创新,让激活参数比大幅下降,使得同等效果的大模型所需的算力明显下降。阿里云无影事业部总裁张献涛在接受《每日经济新闻》记者采访时表示,“671B的模型,在处理每个问题时,被调用激活的专家模型参数仅约37B,算力需求起码降低到原来的约二十分之一。”这无疑是一场技术上的降维打击。
但问题来了,开源真的是为了推动行业发展吗?还是另有图谋?工信部专家盘和林一针见血地指出,开源并不能直接创造利润,但能带来用户和流量。在互联网时代,流量就是王道。DeepSeek的开源,更像是追赶竞争对手的一种策略,通过免费的技术来吸引用户,抢占市场份额。
开源,看似慷慨大方,实则暗藏玄机。对于大模型公司来说,开源可以带来以下好处:
但另一方面,开源也存在风险:
因此,大模型公司在选择开源时,必须仔细权衡利弊,选择合适的策略。
开源,无疑是推动技术进步的重要力量。但如果所有公司都选择开源,最终可能会导致内卷加剧,大家都在免费提供技术,谁也无法获得长期竞争优势。
更理想的模式,是合作共赢。大模型公司可以开源一些通用技术,同时保留核心技术的闭源优势。这样既可以推动行业发展,又可以保护自身的利益。
当然,最终的走向,还要取决于市场的博弈和技术的演进。但可以肯定的是,大模型领域的竞争,将越来越激烈,也越来越复杂。
东北证券首席经济学家付鹏近期在汇丰银行发表的演讲引发广泛关注,其核心...
算力已成为国家竞争力的重要标志,人工智能时代的到来更是加速了全球在算...
中粮资本发布了中粮信托有限责任公司2024年财务报表(未经审计),这...
币安官方推出了一项活动,只要使用币安Web3钱包参与Ton生态,就能...
本文对FlokiInu(FLOKI)代币在2025年的价格走势...