J9九游会中国而是源自咱们对量子物理的和会-九游会(中国区)集团官方网站
J9九游会中国
出品|虎嗅科技组
作家|SnowyM
裁剪|陈伊凡
头图|Multiverse Computing 官网
端侧模子和小模子这件事,在东说念主工智能行业如今并不簇新。
旧年,Meta、微软、苹果等就采集发布了一系列小模子,Llama-3、Phi-3、OpenELM 等。
2019 年景立的 Multiverse Computing,试图用所谓"量子物理"样式给模子瘦身:它的中枢工夫 CompactifAI 能将大模子体积压缩 95%,却实在不亏空性能,让蓝本只可在数据中心运行的 AI,装进手机、汽车里。
这也让这家公司赢得了成本的心疼,扫尾当天,Multiverse Computing 仍是完成了 5 轮融资。2024 年 3 月,这家公司完成了 2500 万欧元的 A 轮融资,一年多后 B 轮融资径直冲到 1.89 亿欧元,估值从 2024 年的 1.08 亿好意思元,涨到 5 亿好意思元,一跃成为西班牙最大的 AI 初创公司之一。
两周多前,这家公司发布了两款"寰球最小的模子"——鸡脑(chicken ’ s brain)和苍蝇脑(a fly ’ s brain)。"苍蝇脑"是 Hugging Face 开源模子 SmolLM2-135 的压缩版块,原始参数是 1.35 亿,压缩之后唯有 9400 万参数。"鸡脑"则是 Llama3.18B 模子的压缩版块,可以径直在苹果电脑上运行,无需联网。
这背后藏着太多值得拆解的问题:"量子瘦身" 工夫究竟是噱头照旧真功夫?当模子被压缩时,是否也会影响其性能?团队推出的 "苍蝇脑""小鸡脑" 超小模子,又是怎样冲突硬件戒指,致使眩惑苹果、三星等巨头洽谈融合?在 Meta、谷歌、微软纷繁下场作念小模子,浩繁初创公司争抢 AI 遵循赛说念确当下,Multiverse 凭什么设立工夫壁垒,成为西班牙估值最高的 AI 初创企业之一?虎嗅与量子蓄意范围的业内东说念主士交流,试图理清这些问题。
4 年 5 轮融资,估值一年涨 5 倍
Multiverse Computing 并非一运行就投入模子赛说念。
2019 年团队成立之初,其聚焦量子蓄意软件,试图用量子工夫治理金融范围的投资组合优化、风险治理等辛苦,这些在传统 IT 工夫上难以被功克。
凭借工夫累积,Multiverse 很快被第三方数据分析与照管机构 Gartner 评为量子蓄意范围的" Cool Vender "。Gartner 的这份 Cool Vendor 的论说,主要涵盖科技翻新范围,每个范围唯有 4 家 -5 家公司能上榜,金融东说念主士更是将这份榜单视为"投资宝典"。借此,Multiverse 还赢得了欧盟加快器 EIC 1250 万欧元的资金撑抓,成了欧洲成本最豪阔的量子初创公司之一。
Multiverse 的团队中,40% 成员领有博士学位,中枢成员更是横跨金融、量子物理与科技创业三大范围 —— CEO 恩里克身兼数学、蓄意机、医学博士与 MBA,有 20 年银行业教养,曾任西班牙 Unnim 银行副 CEO;连合创举东说念主罗曼是欧洲顶尖量子物理学家,专攻张量收集,拿过欧洲物理学会后生相关奖;CTO 塞缪尔则是量子蓄意与机器学习双料众人,练习创业与投资逻辑。
滚动点出当今 2023 年。生成式 AI 爆发后,大模子参数限度暴涨,算力成本飙升成了行业强大痛点 —— OpenAI 每周在 ChatGPT 推理上的支拨致使高出历炼就本。恩里克和团队机敏发现,他们深耕多年的量子张量收集工夫,碰巧能破解这一困局:量子多体系统中的数学技能,可用于大模子参数的高效压缩,且能最猛经由保留性能。
基于这一判断,团队火速组建 AI 压缩专项组,年底就推出了中枢工夫 CompactifAI,认真从 "量子 + 金融" 转向 "量子 + AI "。此次转向不仅让 Multiverse 踩中了 "小模子" 风口,更让它在 2024-2025 年迎来爆发,成为西班牙最大的 AI 初创企业之一。
"量子瘦身"靠谱吗?
Multiverse 的故事中枢,是一套叫作念 Compactif AI 的压缩工夫。它不像行业常用的量化、蒸馏工夫那样简便削减参数,按照 Multiverse 我方的先容,这套工夫是用量子物理张量收集次序,交融张量阐发、矩阵低秩近似等复杂数学技能,从模子底层重构参数逻辑。
正如连合创举东说念主奥鲁斯所说:" 咱们的压缩工夫并非蓄意机科学范围常见的套路,而是源自咱们对量子物理的和会,愈加神秘而神秘。"
不外,虎嗅盘问了量子蓄意范围的业内东说念主士,Multiverse 所使用的这套数学次序天然是量子中常用的,但其实仅仅一类数学次序,严格料想上和量子物理无关,因为张量收集问题当先即是物理学家从数学相关中鉴戒到量子物理中的。
所谓的张量收集次序,等闲譬如即是,你要拼一个一万平方米的拼图,拼完后为了存放它,需要找一个很大的屋子。但如果你把拼图重新打碎,装到罐子中,把维度升高,从二维升高到 3 维,维度越多越便捷压缩,再去掉疏通的碎屑,就可以装到一个小盒子里,何况保留实在通盘信息,需要的时辰可以重新收复成大拼图。
这种次序对大部分模子皆适用,因为当今的模子,大多皆是神经收集的变体,辞别不大,Multiverse 的次序有很强的泛化性。
这件事情的难点在于,要把现存的大谈话模子基础算子 / 结构笼统出来,变成一套通用的压缩责任流,这么无论什么模子皆可以复用。
Compactif AI 常常能将型体积稳重 80-95% 而准确率只下跌 2-3 个百分点。举例,蓝本需要数十亿参数的模子压缩后可能唯有几亿参数,却在绝大强大基准测试中与原模子进展相等。
目下 Multiverse 已发布多个压缩模子版块,举例 Llama 4 70B 模子的精简版 "Llama 4 Scout Slim",以及 Llama 3 系列和 Mistral 小模子的精简版等。
2025 年 8 月,公司发布了两款堪称 " 史上最小且高性能 " 的模子,并以动物大脑体积定名—— SuperFly(苍蝇脑)和 ChickBrain(小鸡脑)。
SuperFly 基于 135M 参数的开源 SmolLM 模子压缩而成,仅含 9400 万参数,相等于一只苍蝇的大脑大小;ChickBrain 则由 Meta 的 Llama 3.1 系列 8B 模子压缩成 3.2B 参数(压缩率 60%),大小如小鸡大脑,却具备一定推贤人商。
ChickBrain(3B)的基准测试驱散
这件事的贸易价值也很显著,CompactifAI 带来的径直自制是成本与遵循优化。
凭据 Multiverse 公布的数据,其瘦身版模子推理速率是未压缩模子的 4-12 倍,对应推理成本裁汰 50-80%。在 AWS 云做事上,使用 CompactifAI 压缩后的模子可大大勤俭用度。
举例,压缩过的 Llama 4 Scout Slim 在 AWS 上的调用用度约为每百万 tokens 0.10 好意思元,而原版约为 0.14 好意思元,也即是说,每处理百万 tokens 可以勤俭约 30% 用度。另外,CompactifAI 让此前只可在腾贵做事器上运行的 AI 模子投入了 " 遗民开拓 " 时期。Multiverse 宣称其部分精简模子 " 小到可以在 PC、手机、汽车上运行 "。
目下,Multiverse 提供了 3 种贸易做事模式:(1)通过 AWS API,将压缩后的模子与原始模子均可通过 API 走访;(2)购买独有部署许可,提供企业级授权,允许用户在我方的腹地基础阵势或云环境中部署 CompactifAI;(3)通过做事提供商托福,让 Multiver 为用户压缩模子,并托福指定的推理做事提供商。
CompactifAI 的用户主若是平日使用大模子的企业和开发者。大型互联网和软件企业的 AI 团队是紧要客户,他们时时部署开源 LLM 在我方的诓骗中,如客服聊天机器东说念主、代码自动补全、文天职析等,但也势必濒临发愤的推理开销和蔓延问题。CompactifAI 可以匡助他们大幅削减算力成本,致使撑抓离线部署。
CompactifAI 在降本增效和角落部署方面功能凸起。它可以将一个部署在 8 张 A100 GPU 上的 LLM 压缩到 1-2 张 GPU 即可运行,致使压缩到能够在 CPU 上及时推理。这为客户勤俭的不仅是每小时数百好意思元的云 GPU 租用费,还有宽广的能耗开销。
小模子和端侧模子——巨头云集的赛说念
Multiverse 的工夫,很快眩惑了群众硬件巨头的存眷。据其领略,目下已与苹果、三星、Sony、HP 等洽谈融合,中枢是将 "苍蝇脑""小鸡脑" 这类超小模子镶嵌下一代末端开拓——这碰巧契合苹果的政策:2024 年 WWDC 大会上,苹果推出 " Apple Intelligence " 框架,明确暗示不追通用巨无霸模子,优先作念适配 iOS/macOS 的轻量化腹地模子。
不外,赛说念竞争也在加重。2024 年起,科技巨头纷繁下场小模子:Meta 发布 13 亿参数 LLaMA 小型模子,Google DeepMind 推出 2 亿 - 7 亿参数的 Gemma,微软 Phi 系列用 14 亿参数模子在数学、编码任务上超过 50 倍体积的大模子;初创公司中,Neural Magic、Deci 等也在争抢 AI 遵循赛说念,聚焦模子加快、自动选型等处所。
AI 推理优化仍是成为创投圈新的竞技场。初创公司阵营也出头出面。除了 Multiverse 外,Neural Magic、Deci、OctoML 皆不才场大模子遵循赛说念;还有初创公司专注于模子路由、自动选型等,将不同模子按成本和恶果自动分派。 这些公司切入点各别,但皆对准了 " 培育 AI 性能 / 成本比 " 这个共同主义。
虎嗅与量子蓄意范围东说念主士交流,鉴于如今的大谈话模子基本架构近似,Multiverse 的壁垒并不算太高,端侧模子和小模子不同,天然皆需要模子轻量化,但端侧模子除了需要轻量化,还需要配合不同开拓的蓄意资源(内存、算力),以及能耗、发烧等调度小模子,需要有罕见遐想,是一个工程化的问题。
Multiverse 如果能够绑定一家硬件厂商,大要能够在端侧模子上设立我方的生态壁垒。
另一方面,Multiverse 如今大部分照旧围绕已有模子压缩,而不是我方训一个小模子,在恶果上,可能不会达到惊艳的恶果,而且罕见依赖原有的模子智商。
目下仍是有一些专注小模子的初创公司除了压缩模子,还我方历练小模子,达到了可以的恶果。Multiverse 可能在模子压缩上,通过自身团队累积的工夫,能够已矣较小的压缩损耗J9九游会中国,但后续在端侧模子布局上的工程化问题,以及模子智商自己的工夫壁垒,仍然有待不雅察。