τ-原生工具链
今天的 EDA 是按"面积 / 时序 / 功耗各自优化、系统 τ 当残值"那套逻辑长大的。LogicFolding 要求把堆叠多 die 当成单一连续设计实体处理:单元级(而非块级)跨层切分、统一 cost function 下做三维布局、跨 die 时序闭合——晶圆间工艺漂移、TSV KOZ、垂直互连寄生彼此交织,2D 经验的工具不够用。τ-原生、开放、多物理、3D 原生的工具链,是未来十年最关键的一笔投入。
摩尔定律驱动半导体六十年,如今每代红利在 7nm 之下显著收窄、单芯片设计成本越过十亿美元,单位晶体管成本不再下降。华为何庭波在这篇 perspective 里提出 τ 标度律——把"时间常数 τ"作为跨越十二个数量级的统一优化目标,从单只晶体管的开关延时,到数据中心 workload 的端到端响应。
"还能把晶体管做多小"已经不再是行业的核心问题。真正的问题是:应该让什么变小,又是为了什么目标。
1965 年 摩尔定律Term · 摩尔定律Moore's LawGordon Moore 1965 年观察到的经验规律:集成电路上晶体管的密度每约 18–24 个月翻一倍。它不是一条物理定律,而是产业过去六十年默认的"进步合约"——更小、更快、更便宜每一代都成立。诞生时,没人保证它会持续六十年;但产业把它当成默认的"进步合约"建好了整条计算栈。十年后 Dennard 标度律Term · Dennard ScalingDennard 标度律IBM 工程师 Robert Dennard 1974 年提出:把晶体管尺寸和电压同步等比例缩小,电场强度恒定不变——意味着芯片可以在更小、更省电、更高频的状态下继续工作。2005 年前后这条规律失效(电压无法继续随尺寸下降),半导体进入"暗硅"时代。解释了为什么缩小尺寸还能同时降功耗、提频率。两条腿一起跑,撑住了行业近五十年的"每瓦性能 / 每美元性能"指数增长。
但事情在两个时间点裂开。2005 年前后 Dennard 标度律先失效——电压无法继续随尺寸同步下降,芯片进入 暗硅 时代(同一时刻只能点亮部分晶体管)。几何缩小靠 FinFETTerm · FinFET鳍式场效应晶体管把晶体管的"沟道"从平面立起来做成鳍片,三面被栅极包围,显著降低漏电流。Intel 于 2011 年宣布、2012 年在 22nm 节点(Tri-Gate)首次量产,是 7nm 之前的主流晶体管结构。和后来的 GAATerm · GAAGate-All-Around 环栅把鳍片切成若干水平堆叠的纳米片,由栅极四面环绕,控制力比 FinFET 更强。Samsung 3nm(3GAE,2022)、TSMC N2、Intel 18A 是当下产业实现。继续撑住。但 7nm 之下纯几何缩小的收益急剧扁平:
经济结果同样不可回避:单位晶体管成本在先进节点上不再下降,最前沿甚至开始上升。"每代更多晶体管、更便宜"的产业合约破产。对于无法稳定获得最先进光刻设备的组织(如华为),这道边界来得更早、压得更重。六年前,另起一节点解决一切已不再是可行答案。
"中心问题已经变了。它不再是『晶体管还能缩多小』,
而是『应该让什么变小、为了什么目标』。" —— 原文 §1
把摩尔时代的所有红利还原到终端用户身上,会发现:"更小的晶体管"之所以更好用,是因为它开关得更快;"更密的互连"之所以更好,是因为信号走得更短;"更高的集成"之所以更好,是因为数据穿过的边界更少。每一代芯片真正给到用户的东西,是时间—— 从晶体管层面的皮秒,到芯片层面的纳秒,到系统层面的微秒到秒。空间缩小,只是压缩时间的工具。
那不如把时间本身当作度量。τ 标度律把每一层都赋一个特征时间常数 τ,每一层都把"缩小自己这层的 τ"当成共同目标。几何缩小,从此只是降 τ 的众多手段之一,而不是唯一。
之所以说 τ 不是给现有指标换个名字,是因为它在整条栈上是同一种东西。频率、时延、带宽、吞吐量,在各自层级都是 τ 的不同表现。工艺工程师、电路设计师、系统架构师,从此可以用同一个量、同一种单位辩论同一件事。每层独立优化、把时序留作"残值"那个时代,结束了。
τ 标度律第一次大规模实证在手机上。SoCTerm · SoC片上系统 System-on-Chip把 CPU、GPU、内存控制器、ISP、NPU、各种 IO 接口集成在一块芯片上的设计。手机芯片(麒麟、骁龙、A 系列)就是典型 SoC。原文用它做 τ 标度律的第一块试金石,因为一颗 SoC 就是整个系统——没有多 socket 并行可以掩盖瓶颈。是少见的"一颗芯片就是整个系统"的场景——没有多 socket 并行可以掩盖弱链路,所有性能都来自单 die,在几瓦功耗与手持热预算下交付。
LogicFolding 是一种把数字、模拟、存储电路跨多层垂直堆叠的活性层进行分区的设计方法学,在 τ 标度律下联合优化性能、功耗、面积。
数字电路分为组合逻辑(寄存器之间的布尔网络)和时序逻辑(保存状态的触发器)。一个数字系统的性能上限由触发器之间关键路径的延时决定,而这条延时被互连 RC 和门数所主导。传统方案把所有门排在一个平面,金属层走线在上方;线越长,寄生 RC 越大,关键路径越慢。
LogicFolding 抛弃这个平面假设。关键路径上的门被分布到两层(未来更多层)垂直堆叠的活性层上,用超细间距 混合键合Term · Hybrid Bonding混合键合把两片晶圆直接面对面键合的工艺:金属铜焊点 + 周边介质(SiO₂)同时贴合,没有传统凸点的体积和电阻。键合间距已做到亚 2 μm,让"上下两层 die"在电学上几乎像一片单 die,是 3D 集成最关键的工艺前沿。连接。对电路设计师而言,两层就像一片连续的织物,单元像穿越一个"额外金属层"那样横跨晶圆边界。信号线变短,寄生 RC 锐减,时钟偏斜收紧,同节点下芯片以更高时钟跑。
| 年份 | SoC | 架构 | P 核频率 (GHz) | 状态 |
|---|---|---|---|---|
| 2023 | Kirin 9000s | Planar | 2.60 | 量产 |
| 2024 | Kirin 9020 | Planar | 2.65 | 量产 |
| 2025 | Kirin 9030 Pro | Planar | 2.75 | 量产 |
| 2026 | Kirin 2026 | LogicFolding | 3.10 | Silicon |
| 2027 | Kirin 2027 | LogicFolding | 3.39 | Silicon |
| 2028 | Kirin 2028 | LogicFolding | 3.71 | Pre-silicon |
| 2029 | Kirin 2029 | LogicFolding | 4.00 | Pre-silicon |
麒麟 2026 出货的 LogicFolding 实现刻意保守:键合 pitch 停在 1.5 μm,TSV 着陆只下沉一层金属,折叠仅沿关键路径选用。即便如此,CPU P 核频率今年回到 3.1 GHz。未来十年 LogicFolding 会从"局部关键路径折叠"演化到"全规模、多层折叠"——三层、四层乃至更多 active tier 入封装,低温混合键合放宽层间热预算,TSV 着陆从顶金属下沉到 M6、释放出 30%+ 的高层布线资源。2026→2035,晶体管密度展望 400+ MTr/mm²,CPU 频率推到 4 GHz 之上。
手机是毫瓦尺度,AI 数据中心是吉瓦尺度,两端的物理直觉天差地别。但当 τ 被当作系统级目标而非单卡指标,τ 标度律照样成立——只是必须沿整条链条同时下手。
两个事实塑造了 AI 侧的 τ 故事:
结论很直接:缩短数据"在路上"的时间——芯片之间、机柜之间、封装内部——至少和缩短"算"的时间同等重要。τ 标度律在 AI 尺度上分三层落地:Unified Bus、Hi-ONE、3D Folding。
传统多节点 / 多加速器架构在多层堆叠协议上搬数据:PCIeTerm · PCIePCI Express主机和外设之间的标准总线协议,CPU ↔ GPU 之间用得最多。每代带宽翻倍,但作为通用总线,端到端时延较高。 接主机,NVLinkTerm · NVLinkNVLinkNVIDIA 专有的 GPU-GPU 直连协议,带宽显著高于 PCIe,是其超节点(DGX/HGX)的物理底座。 或私有 fabric 在机箱内连 GPU,InfiniBandTerm · InfiniBandInfiniBandMellanox(已被 NVIDIA 收购)主导的高性能网络协议,HPC 与大模型训练的常用机柜间互联。 或以太网在机柜间连机箱,软件栈再做远程内存访问。每加一层就多一次协议转换、序列化、DMATerm · DMADirect Memory Access 直接内存访问外设绕过 CPU 直接读写内存的机制——多一次 DMA 就多一次内存搬运和缓冲。 缓冲和握手。每一次转换都加时延、降可靠性、增加成本。
Unified Bus (UB) 把这一摞替换成同一种协议,机箱内与机箱间统一——一张完全 peer-to-peer 的 fabric,原生在整个系统上暴露内存语义。数据搬运被压缩成"无转换、点对点、内存语义",相干性由硬件管理而不再需要软件栈消息传递。
PCIe / NVLink / IB / TCP-IP …
端到端远程访问时延,每层一次协议转换、一次序列化、一次 DMA 缓冲。
单一协议,rack-coherent
~500× τ 缩减。机柜尺度上整套系统渐近于一台"被 fabric 相干起来的单机"——内部代号 System-as-One-Chip。
通信时延被压下来之后,下一个瓶颈跳出来:把更多芯片塞进同一机柜,功率密度、可靠性、以及SerDesTerm · SerDesSerializer / Deserializer 串并转换器芯片对外高速 I/O 的物理层模块,负责把并行数据序列化到一条高速通道上再还原。SerDes 的"可达距离"决定芯片能用多长的铜缆通信——单芯片带宽超过 multi-Tb/s 之后,铜缆物理上撑不住。 电域全部撞墙。在 400 Gb/s/芯片,铜缆还可控;到多 Tb/s/芯片,铜缆物理上撑不住——SerDes 触达距离塌缩,线缆变得笨重,面板安装失效,热与供电余量耗尽。
华为的解法是 High-density Optical-interconnect-Node Engine, Hi-ONE——一颗近封装光引擎:
Hi-ONE 的设计哲学本身就是 τ 论证。它没有用一颗重型 DSPTerm · DSPDigital Signal Processor 数字信号处理器在收发端做复杂信号恢复的专用芯片——延时高、功耗大。Hi-ONE 故意省掉 DSP,改用线性模拟模块。 去追求信号高保真度,而是采取"线性方案"——模拟均衡增强的驱动器与跨阻放大器——并允许 UB 协议容忍刻意放宽的误码率。这种协议层与物理层的跨层让步,降功耗、降成本、降集成复杂度,是 τ-first 方法学最喜欢奖赏的姿势:每一层都不在自家局部最优,但整体 τ 最低。
AI 加速器为什么不能停在 2.5D fan-out?这件事的最深理由是几何,必须说清楚,因为它决定 2030 之后的路线图。
在传统 2.5DTerm · 2.5D fan-out2.5D 扇出封装把多颗 die(逻辑 + HBM)并排放在一片中介层(interposer)上的封装方式。NVIDIA H100/B200、AMD MI300 都属此类。比单 die 大、比真 3D 简单,但所有内存/IO 信号必须从中央逻辑 die 的边沿走出去——这是下文要讲的"N² vs N"困境的起点。 AI 芯片里,逻辑 die 在封装中央,HBMTerm · HBMHigh Bandwidth Memory 高带宽内存多层 DRAM die 堆在一起的内存类型,通过 TSV 与中央逻辑 die 在 2.5D 中介层上相邻。是大模型训练的关键瓶颈,被 SK 海力士、三星、美光三家垄断。 堆栈和 SerDes 排在边上,电压调节器围着封装。每一根内存信号、每一根互连信号、每一安培供电电流,都必须穿过 die 的边才能到达内部的计算资源。若 die 边长 = N:
这条二次方与一次方的剪刀差,就是 fan-out 困境。它解释了为什么 2.5D 缩放在底层逻辑节点再激进也会停在某一刻:没有任何晶体管层面的改进能补上一个拓扑层面的缺口。
3D Folding 直接把"边受限的资源"搬到"面上":供电(背面供电 + 集成电压调节器)、高速内存(hybrid bonding 与逻辑直接键合)、光 I/O(近封装 Hi-ONE)从周长迁到垂直表面——而一旦在表面上,它们的扩展速率重新变回 N²,与计算同步。封装从"被一圈内存与 SerDes 包围的逻辑 die"演化成"内存、fabric、电源、逻辑统一垂直集成的堆栈"。
8086 时代,行业刻意通过标准化的内存总线把处理器与内存解耦。这种解耦使两个产业可以独立扩张:处理器沿摩尔曲线狂奔,内存厂商旁边长出一片巨大的独立市场。
AI 时代正在反转这条解耦。计算密度不断上行,把内存的带宽、时延、功耗、封装一路推到极限。HBM、hybrid bonding、3D 堆叠 SRAM——都是同一个事实的不同症状:对现代 AI 工作负载而言,数据搬运与计算同等关键,逻辑与存储正被推回紧物理集成。一旦融合,供应链的影响力天平向存储与封装厂倾斜。
技术方向是清楚的,但经济解还没定。AI 硬件时代的长期赢家,将是那些既能在技术上融合逻辑与存储、又能建立"双方都能长期分享融合红利"的经济伙伴关系的玩家。这不是单一研究问题,而是行业在未来十年必须解决的结构问题。τ 标度律的意义在于:它把每一次"分离"的跨层成本变成可见,于是这个问题再也无法被推迟。
原文不假装 τ 标度律是完成时。下面五项均仍是开放问题,作者明确邀请生态共建。
今天的 EDA 是按"面积 / 时序 / 功耗各自优化、系统 τ 当残值"那套逻辑长大的。LogicFolding 要求把堆叠多 die 当成单一连续设计实体处理:单元级(而非块级)跨层切分、统一 cost function 下做三维布局、跨 die 时序闭合——晶圆间工艺漂移、TSV KOZ、垂直互连寄生彼此交织,2D 经验的工具不够用。τ-原生、开放、多物理、3D 原生的工具链,是未来十年最关键的一笔投入。
LogicFolding 把可能来自不同批次、甚至不同节点的晶圆键合在一起。Vth、驱动电流、互连 RC 的晶圆间方差远大于晶圆内方差,主要落在时钟分配与 hold-time 余量上。智能冗余、自适应补偿、τ-aware signoff 都是必要应答。
每一个混合键合点、每一个 TSV 都带有限的 R 与 C,TSV KOZ 还要"挤走"标准单元。LogicFolding 必须层层验证不等式 τsave > τcost。这道门槛在手机关键路径与存储上已被跨过;门槛与具体 workload 相关,且会随键合 pitch 缩小继续移动。
τ 是时间律,不是焦耳律。一个"快 10× 但耗电也 10×"的超节点不违反 τ 标度律,但超出电网容量。τ 必须搭配能耗机制:内存语义 fabric 去栈、近 / 共封装光降 pJ/bit、背面供电、近 / 在存储计算,以及把 τ 余量交易回功耗的DVFSTerm · DVFSDynamic Voltage & Frequency Scaling 动态电压频率调节根据负载实时调节电压与频率的常用低功耗机制,是手机电池续航的关键之一。原文把它推到数据中心尺度:用 τ 余量去换功耗。——这次推到数据中心尺度。
Linpack、MLPerf、SPEC 是"一个 workload 给一个标量"那种时代的产物。τ 标度律的产业需要 τ-profile benchmark:暴露各层主导 τ 与剩余余量的向量。主导 τ 所在的那一层,按定义就是下一笔投资该去的地方。
2020 年 5 月到 2026 年 5 月,华为半导体设计并量产 381 颗芯片,覆盖移动、AI、汽车、工业、基础设施。沿这条样本看下来,τ 标度律的论点是站住的。
但更深的命题不在某一颗产品上。τ 标度律是自 Dennard 以来第一条让整条计算栈共享同一个优化目标的标度原则。它向工艺工程师、电路设计师、架构师、系统工程师、软件团队同时发出信号:你们现在优化的是同一件量,用同一种单位;任何一层的局部改进都必须传导到系统 τ 才算数。
它也向产业战略家与资本配置者发出信号:下一块钱应该追着 τ 走,而不是追着节点走。竞争性能不再必须永驻光刻最前沿;封装、内存带宽、fabric 设计开始拥有过去专属于"最先进逻辑节点"的战略权重。
"对一代被教育成把『摩尔定律』当做『进步』同义词的工程师来说,这是个艰难过渡。
但几何时代事实上已经结束,否认它不是可行战略。" —— 原文 §7
未来十年的工作面已经被框出来:工具链、标准、基准、器件物理、经济模型——没有一家公司能独自完成。这篇 perspective 既是来自现场的报告,也是一封邀请函。路线艰难,但方向毫无歧义。
网页可视化 · 邦比快跑 ↗