τ Time Scaling · 何庭波 · 华为
A Perspective from Huawei Semiconductor

晶体管 不再变小,
就让 τ 接管 进步 本身。

摩尔定律驱动半导体六十年,如今每代红利在 7nm 之下显著收窄、单芯片设计成本越过十亿美元,单位晶体管成本不再下降。华为何庭波在这篇 perspective 里提出 τ 标度律——把"时间常数 τ"作为跨越十二个数量级的统一优化目标,从单只晶体管的开关延时,到数据中心 workload 的端到端响应。

作者何庭波
Tingbo He · Huawei
网页邦比快跑learnbuffett.com/about ↗
原文A Time Scaling Theory for Multi-Layer Electronic Systems
发布2026-05-25
样本2020.5–2026.5
381 颗量产芯片
读者提示技术术语首次出现时
悬停虚下划线查看定义
01The End of the Geometric Era

几何时代的终结

"还能把晶体管做多小"已经不再是行业的核心问题。真正的问题是:应该让什么变小,又是为了什么目标

1965 年 摩尔定律Term · 摩尔定律Moore's LawGordon Moore 1965 年观察到的经验规律:集成电路上晶体管的密度每约 18–24 个月翻一倍。它不是一条物理定律,而是产业过去六十年默认的"进步合约"——更小、更快、更便宜每一代都成立。诞生时,没人保证它会持续六十年;但产业把它当成默认的"进步合约"建好了整条计算栈。十年后 Dennard 标度律Term · Dennard ScalingDennard 标度律IBM 工程师 Robert Dennard 1974 年提出:把晶体管尺寸和电压同步等比例缩小,电场强度恒定不变——意味着芯片可以在更小、更省电、更高频的状态下继续工作。2005 年前后这条规律失效(电压无法继续随尺寸下降),半导体进入"暗硅"时代。解释了为什么缩小尺寸还能同时降功耗、提频率。两条腿一起跑,撑住了行业近五十年的"每瓦性能 / 每美元性能"指数增长。

但事情在两个时间点裂开。2005 年前后 Dennard 标度律先失效——电压无法继续随尺寸同步下降,芯片进入 暗硅 时代(同一时刻只能点亮部分晶体管)。几何缩小靠 FinFETTerm · FinFET鳍式场效应晶体管把晶体管的"沟道"从平面立起来做成鳍片,三面被栅极包围,显著降低漏电流。Intel 于 2011 年宣布、2012 年在 22nm 节点(Tri-Gate)首次量产,是 7nm 之前的主流晶体管结构。和后来的 GAATerm · GAAGate-All-Around 环栅把鳍片切成若干水平堆叠的纳米片,由栅极四面环绕,控制力比 FinFET 更强。Samsung 3nm(3GAE,2022)、TSMC N2、Intel 18A 是当下产业实现。继续撑住。但 7nm 之下纯几何缩小的收益急剧扁平:

经济结果同样不可回避:单位晶体管成本在先进节点上不再下降,最前沿甚至开始上升。"每代更多晶体管、更便宜"的产业合约破产。对于无法稳定获得最先进光刻设备的组织(如华为),这道边界来得更早、压得更重。六年前,另起一节点解决一切已不再是可行答案。

"中心问题已经变了。它不再是『晶体管还能缩多小』,
而是『应该让什么变小、为了什么目标』。" —— 原文 §1
02Time, Not Space: The Real Currency of Moore's Era

真正在缩短的,
从来不是空间,而是时间。

把摩尔时代的所有红利还原到终端用户身上,会发现:"更小的晶体管"之所以更好用,是因为它开关得更快;"更密的互连"之所以更好,是因为信号走得更短;"更高的集成"之所以更好,是因为数据穿过的边界更少。每一代芯片真正给到用户的东西,是时间—— 从晶体管层面的皮秒,到芯片层面的纳秒,到系统层面的微秒到秒。空间缩小,只是压缩时间的工具

那不如把时间本身当作度量。τ 标度律把每一层都赋一个特征时间常数 τ,每一层都把"缩小自己这层的 τ"当成共同目标。几何缩小,从此只是降 τ 的众多手段之一,而不是唯一。

τ = f(τtransistor, τcircuit, τchip, τsystem)
10⁻¹²s picosecond 10⁻⁹s nanosecond 10⁻⁶s microsecond 10⁻³s millisecond 1 s second τtransistor 晶体管开关 τcircuit 关键路径传播 τchip 片内访存与计算 τsystem 端到端消息 / 同步 — 12 ORDERS OF MAGNITUDE — 同一个 τ 把整条计算栈纳入同一种单位 代际规则:τn+1 = τn / α 移动设备 α≈1.3×/年 安全关键自动驾驶 α≈1.5×/年 AI 工作负载 α≈10×/年
图 1 · τ 跨十二个数量级的统一光谱 · 工艺工程师、电路设计师、系统架构师可以用同一种单位辩论同一件事 · α 是层级特定的代际缩减因子

之所以说 τ 不是给现有指标换个名字,是因为它在整条栈上是同一种东西。频率、时延、带宽、吞吐量,在各自层级都是 τ 的不同表现。工艺工程师、电路设计师、系统架构师,从此可以用同一个量、同一种单位辩论同一件事。每层独立优化、把时序留作"残值"那个时代,结束了。

03LogicFolding — 手机 SoC 的实证

LogicFolding:
不再变小,而是折叠

τ 标度律第一次大规模实证在手机上。SoCTerm · SoC片上系统 System-on-Chip把 CPU、GPU、内存控制器、ISP、NPU、各种 IO 接口集成在一块芯片上的设计。手机芯片(麒麟、骁龙、A 系列)就是典型 SoC。原文用它做 τ 标度律的第一块试金石,因为一颗 SoC 就是整个系统——没有多 socket 并行可以掩盖瓶颈。是少见的"一颗芯片就是整个系统"的场景——没有多 socket 并行可以掩盖弱链路,所有性能都来自单 die,在几瓦功耗与手持热预算下交付。

定义

LogicFolding 是一种把数字、模拟、存储电路跨多层垂直堆叠的活性层进行分区的设计方法学,在 τ 标度律下联合优化性能、功耗、面积。

数字电路分为组合逻辑(寄存器之间的布尔网络)和时序逻辑(保存状态的触发器)。一个数字系统的性能上限由触发器之间关键路径的延时决定,而这条延时被互连 RC 和门数所主导。传统方案把所有门排在一个平面,金属层走线在上方;线越长,寄生 RC 越大,关键路径越慢。

LogicFolding 抛弃这个平面假设。关键路径上的门被分布到两层(未来更多层)垂直堆叠的活性层上,用超细间距 混合键合Term · Hybrid Bonding混合键合把两片晶圆直接面对面键合的工艺:金属铜焊点 + 周边介质(SiO₂)同时贴合,没有传统凸点的体积和电阻。键合间距已做到亚 2 μm,让"上下两层 die"在电学上几乎像一片单 die,是 3D 集成最关键的工艺前沿。连接。对电路设计师而言,两层就像一片连续的织物,单元像穿越一个"额外金属层"那样横跨晶圆边界。信号线变短,寄生 RC 锐减,时钟偏斜收紧,同节点下芯片以更高时钟跑

这些数字在产品上看是什么样子

Transistor Density
+55%
155 → 238 MTr/mm²,单代台阶。过去需要三年几何缩小才能拿到的提升。
P-core Power Efficiency
+41%
同器件节点下功耗效率净增益。
P-core Max Frequency
+13%
麒麟 P 核回到 3.1 GHz
Data-path Footprint
−55%
跨上下两层构建高速 NoCTerm · Network-on-Chip片上网络一块芯片里若干计算单元 / 缓存 / IO 之间互联的"小型局域网"。原本占面积大、绕远路,立体折叠后总线缩短到原来的不到一半。,供电稳定性同步改善。
Clock Buffer Count
−50%+
代表性核:时钟偏斜 −25%、线长约 −30%。
Post-silicon clock-skew tuning
>5%
硅后微调独立贡献 SoC 性能。

麒麟 P 核频率路线图

年份SoC架构P 核频率 (GHz)状态
2023Kirin 9000sPlanar2.60量产
2024Kirin 9020Planar2.65量产
2025Kirin 9030 ProPlanar2.75量产
2026Kirin 2026LogicFolding3.10Silicon
2027Kirin 2027LogicFolding3.39Silicon
2028Kirin 2028LogicFolding3.71Pre-silicon
2029Kirin 2029LogicFolding4.00Pre-silicon
4.0 3.5 3.0 2.5 GHz 2023 2024 2025 2026 2027 2028 2029 2.60 2.75 3.10 4.00 Planar 平面节点收益扁平化 LogicFolding · 同节点继续提速
图 2 · 麒麟 P 核频率从平面到 LogicFolding 的跨越 · 2026 之后频率上行不依赖新光刻节点,而靠拓扑重构

麒麟 2026 出货的 LogicFolding 实现刻意保守:键合 pitch 停在 1.5 μm,TSV 着陆只下沉一层金属,折叠仅沿关键路径选用。即便如此,CPU P 核频率今年回到 3.1 GHz。未来十年 LogicFolding 会从"局部关键路径折叠"演化到"全规模、多层折叠"——三层、四层乃至更多 active tier 入封装,低温混合键合放宽层间热预算,TSV 着陆从顶金属下沉到 M6、释放出 30%+ 的高层布线资源。2026→2035,晶体管密度展望 400+ MTr/mm²,CPU 频率推到 4 GHz 之上。

04From Picoseconds to Microseconds · τ 在 AI 数据中心

从皮秒到微秒:
把 τ 推到 千卡集群

手机是毫瓦尺度,AI 数据中心是吉瓦尺度,两端的物理直觉天差地别。但当 τ 被当作系统级目标而非单卡指标,τ 标度律照样成立——只是必须沿整条链条同时下手。

两个事实塑造了 AI 侧的 τ 故事:

  1. AI 系统在持续放大——从一颗芯片,到几十、几百、上万。
  2. 现代 AI 集群的能耗和物料预算被数据而非计算主导:超过 80% 的能耗用在数据搬运,超过 70% 的系统成本用在数据存储。

结论很直接:缩短数据"在路上"的时间——芯片之间、机柜之间、封装内部——至少和缩短"算"的时间同等重要。τ 标度律在 AI 尺度上分三层落地:Unified Bus、Hi-ONE、3D Folding。

4.1   Unified Bus — 一种 τ-first 的系统总线

传统多节点 / 多加速器架构在多层堆叠协议上搬数据:PCIeTerm · PCIePCI Express主机和外设之间的标准总线协议,CPU ↔ GPU 之间用得最多。每代带宽翻倍,但作为通用总线,端到端时延较高。 接主机,NVLinkTerm · NVLinkNVLinkNVIDIA 专有的 GPU-GPU 直连协议,带宽显著高于 PCIe,是其超节点(DGX/HGX)的物理底座。 或私有 fabric 在机箱内连 GPU,InfiniBandTerm · InfiniBandInfiniBandMellanox(已被 NVIDIA 收购)主导的高性能网络协议,HPC 与大模型训练的常用机柜间互联。 或以太网在机柜间连机箱,软件栈再做远程内存访问。每加一层就多一次协议转换、序列化、DMATerm · DMADirect Memory Access 直接内存访问外设绕过 CPU 直接读写内存的机制——多一次 DMA 就多一次内存搬运和缓冲。 缓冲和握手。每一次转换都加时延、降可靠性、增加成本。

Unified Bus (UB) 把这一摞替换成同一种协议,机箱内与机箱间统一——一张完全 peer-to-peer 的 fabric,原生在整个系统上暴露内存语义。数据搬运被压缩成"无转换、点对点、内存语义",相干性由硬件管理而不再需要软件栈消息传递。

传统多层协议栈

PCIe / NVLink / IB / TCP-IP …

~10s μs

端到端远程访问时延,每层一次协议转换、一次序列化、一次 DMA 缓冲。

━━━━ ≈ 500× ━━━━▶

Unified Bus · 内存语义 fabric

单一协议,rack-coherent

~100 ns

~500× τ 缩减。机柜尺度上整套系统渐近于一台"被 fabric 相干起来的单机"——内部代号 System-as-One-Chip

4.2   Hi-ONE — 把光 I/O 推到封装边

通信时延被压下来之后,下一个瓶颈跳出来:把更多芯片塞进同一机柜,功率密度、可靠性、以及SerDesTerm · SerDesSerializer / Deserializer 串并转换器芯片对外高速 I/O 的物理层模块,负责把并行数据序列化到一条高速通道上再还原。SerDes 的"可达距离"决定芯片能用多长的铜缆通信——单芯片带宽超过 multi-Tb/s 之后,铜缆物理上撑不住。 电域全部撞墙。在 400 Gb/s/芯片,铜缆还可控;到多 Tb/s/芯片,铜缆物理上撑不住——SerDes 触达距离塌缩,线缆变得笨重,面板安装失效,热与供电余量耗尽。

华为的解法是 High-density Optical-interconnect-Node Engine, Hi-ONE——一颗近封装光引擎

单模块带宽
8Tb/s
恰好匹配单颗 AI 芯片的 UB 带宽,一条光链路一颗芯片。
SerDes 触达需求
~100 → 5cm
从厘米级铜缆走线降到封装边短链路。
面板间触达
<1 → 100m
让分布式吉瓦数据中心物理上可建。

Hi-ONE 的设计哲学本身就是 τ 论证。它没有用一颗重型 DSPTerm · DSPDigital Signal Processor 数字信号处理器在收发端做复杂信号恢复的专用芯片——延时高、功耗大。Hi-ONE 故意省掉 DSP,改用线性模拟模块。 去追求信号高保真度,而是采取"线性方案"——模拟均衡增强的驱动器与跨阻放大器——并允许 UB 协议容忍刻意放宽的误码率这种协议层与物理层的跨层让步,降功耗、降成本、降集成复杂度,是 τ-first 方法学最喜欢奖赏的姿势:每一层都不在自家局部最优,但整体 τ 最低。

4.3   N² vs N — 为什么 3D Folding 不可避免

AI 加速器为什么不能停在 2.5D fan-out?这件事的最深理由是几何,必须说清楚,因为它决定 2030 之后的路线图。

在传统 2.5DTerm · 2.5D fan-out2.5D 扇出封装把多颗 die(逻辑 + HBM)并排放在一片中介层(interposer)上的封装方式。NVIDIA H100/B200、AMD MI300 都属此类。比单 die 大、比真 3D 简单,但所有内存/IO 信号必须从中央逻辑 die 的边沿走出去——这是下文要讲的"N² vs N"困境的起点。 AI 芯片里,逻辑 die 在封装中央,HBMTerm · HBMHigh Bandwidth Memory 高带宽内存多层 DRAM die 堆在一起的内存类型,通过 TSV 与中央逻辑 die 在 2.5D 中介层上相邻。是大模型训练的关键瓶颈,被 SK 海力士、三星、美光三家垄断。 堆栈和 SerDes 排在边上,电压调节器围着封装。每一根内存信号、每一根互连信号、每一安培供电电流,都必须穿过 die 的才能到达内部的计算资源。若 die 边长 = N:

2.5D · 边受限 COMPUTE ∝ N² BW · I/O · POWER ∝ N 周长一直跟不上面积 剪刀差 N die 尺寸 N → fan-out 困境:不靠晶体管节点能补 3D Folding · 面解 BACKSIDE POWER LOGIC / COMPUTE ∝ N² HBM · HYBRID BOND ∝ N² OPTICAL I/O · Hi-ONE 把"边"换成"面" BW/I/O/Power 重新 ∝ N² 与计算同步扩
图 3 · "N² vs N"困境与 3D Folding · 把内存、光 I/O、供电从封装"周长"搬到"表面",让所有维度同步按 N² 增长

这条二次方与一次方的剪刀差,就是 fan-out 困境。它解释了为什么 2.5D 缩放在底层逻辑节点再激进也会停在某一刻:没有任何晶体管层面的改进能补上一个拓扑层面的缺口

3D Folding 直接把"边受限的资源"搬到"面上":供电(背面供电 + 集成电压调节器)、高速内存(hybrid bonding 与逻辑直接键合)、光 I/O(近封装 Hi-ONE)从周长迁到垂直表面——而一旦在表面上,它们的扩展速率重新变回 N²,与计算同步。封装从"被一圈内存与 SerDes 包围的逻辑 die"演化成"内存、fabric、电源、逻辑统一垂直集成的堆栈"。

2025 → 2035 路线图

技术
'25
'26
'27
'28
'29
'30
'31
'32
'33
'35
Ascend SuperPoD
910C
950
成熟栈:chiplets + 2.5D fan-out + 3D stacking
990
3D Folding 承载 α · LogicFolding 入加速器
Kirin SoC
9030 Pro
Kirin 2026 → 2029 · LogicFolding 第一波
多层折叠 · 400+ MTr/mm²
Unified Bus
~100 ns · rack-coherent · System-as-One-Chip
Hi-ONE 光 I/O
8 Tb/s / module
近封装 → 共封装演进,100m 触达
已出货 关键节点产品 展望 前代基线
05Logic & Memory · From Decoupling to Re-Fusion

逻辑与存储:
从解耦走向再融合

8086 时代,行业刻意通过标准化的内存总线把处理器与内存解耦。这种解耦使两个产业可以独立扩张:处理器沿摩尔曲线狂奔,内存厂商旁边长出一片巨大的独立市场。

AI 时代正在反转这条解耦。计算密度不断上行,把内存的带宽、时延、功耗、封装一路推到极限。HBM、hybrid bonding、3D 堆叠 SRAM——都是同一个事实的不同症状:对现代 AI 工作负载而言,数据搬运与计算同等关键,逻辑与存储正被推回紧物理集成。一旦融合,供应链的影响力天平向存储与封装厂倾斜。

技术方向是清楚的,但经济解还没定。AI 硬件时代的长期赢家,将是那些既能在技术上融合逻辑与存储、又能建立"双方都能长期分享融合红利"的经济伙伴关系的玩家。这不是单一研究问题,而是行业在未来十年必须解决的结构问题。τ 标度律的意义在于:它把每一次"分离"的跨层成本变成可见,于是这个问题再也无法被推迟。

06Open Challenges

未解决的五件事

原文不假装 τ 标度律是完成时。下面五项均仍是开放问题,作者明确邀请生态共建。

i.

τ-原生工具链

今天的 EDA 是按"面积 / 时序 / 功耗各自优化、系统 τ 当残值"那套逻辑长大的。LogicFolding 要求把堆叠多 die 当成单一连续设计实体处理:单元级(而非块级)跨层切分、统一 cost function 下做三维布局、跨 die 时序闭合——晶圆间工艺漂移、TSV KOZ、垂直互连寄生彼此交织,2D 经验的工具不够用。τ-原生、开放、多物理、3D 原生的工具链,是未来十年最关键的一笔投入

ii.

晶圆间工艺差异

LogicFolding 把可能来自不同批次、甚至不同节点的晶圆键合在一起。Vth、驱动电流、互连 RC 的晶圆间方差远大于晶圆内方差,主要落在时钟分配与 hold-time 余量上。智能冗余、自适应补偿、τ-aware signoff 都是必要应答。

iii.

垂直互连开销

每一个混合键合点、每一个 TSV 都带有限的 R 与 C,TSV KOZ 还要"挤走"标准单元。LogicFolding 必须层层验证不等式 τsave > τcost。这道门槛在手机关键路径与存储上已被跨过;门槛与具体 workload 相关,且会随键合 pitch 缩小继续移动。

iv.

能耗陪跑

τ 是时间律,不是焦耳律。一个"快 10× 但耗电也 10×"的超节点不违反 τ 标度律,但超出电网容量。τ 必须搭配能耗机制:内存语义 fabric 去栈、近 / 共封装光降 pJ/bit、背面供电、近 / 在存储计算,以及把 τ 余量交易回功耗的DVFSTerm · DVFSDynamic Voltage & Frequency Scaling 动态电压频率调节根据负载实时调节电压与频率的常用低功耗机制,是手机电池续航的关键之一。原文把它推到数据中心尺度:用 τ 余量去换功耗。——这次推到数据中心尺度。

v.

τ 化基准测试

Linpack、MLPerf、SPEC 是"一个 workload 给一个标量"那种时代的产物。τ 标度律的产业需要 τ-profile benchmark:暴露各层主导 τ 与剩余余量的向量主导 τ 所在的那一层,按定义就是下一笔投资该去的地方

07Six Years In, Ten Years Out

六年回望,
十年前望。

2020 年 5 月到 2026 年 5 月,华为半导体设计并量产 381 颗芯片,覆盖移动、AI、汽车、工业、基础设施。沿这条样本看下来,τ 标度律的论点是站住的。

六年量产
381
颗芯片 · 横跨手机 / AI / 汽车 / 工业 / 基础设施
器件层 · 晶体管密度
155 → 400+ MTr/mm²
到 2031 年的展望数。
芯片层 · 麒麟 P 核频率
→ 4GHz
2029 年目标,节点固定下完成。
系统层 · 通信 τ
≈ 500×
UB + Hi-ONE 将数十微秒压到百纳秒。
2026 → 2035 硬件集成
> 100×
τ 缩减分布在每一层,而非只压在器件层。
麒麟 SoC 效率
2×+
3–5 年内典型用例下,再翻一倍以上。

但更深的命题不在某一颗产品上。τ 标度律是自 Dennard 以来第一条让整条计算栈共享同一个优化目标的标度原则。它向工艺工程师、电路设计师、架构师、系统工程师、软件团队同时发出信号:你们现在优化的是同一件量,用同一种单位;任何一层的局部改进都必须传导到系统 τ 才算数。

它也向产业战略家与资本配置者发出信号:下一块钱应该追着 τ 走,而不是追着节点走。竞争性能不再必须永驻光刻最前沿;封装、内存带宽、fabric 设计开始拥有过去专属于"最先进逻辑节点"的战略权重。

"对一代被教育成把『摩尔定律』当做『进步』同义词的工程师来说,这是个艰难过渡。
但几何时代事实上已经结束,否认它不是可行战略。" —— 原文 §7

未来十年的工作面已经被框出来:工具链、标准、基准、器件物理、经济模型——没有一家公司能独自完成。这篇 perspective 既是来自现场的报告,也是一封邀请函。路线艰难,但方向毫无歧义。

原文下载 · 英文 PDF 《面向多层电子系统的时间标度律》
A Time Scaling Theory for Multi-Layer Electronic Systems
何庭波 · 华为 · 2026-05-25 · PDF 535 KB

网页可视化 · 邦比快跑 ↗