τ 标度律 — 摩尔之后，时间作为新的进步度量｜何庭波

01The End of the Geometric Era

几何时代的终结

"还能把晶体管做多小"已经不再是行业的核心问题。真正的问题是：应该让什么变小，又是为了什么目标。

1965 年摩尔定律Term · 摩尔定律Moore's LawGordon Moore 1965 年观察到的经验规律：集成电路上晶体管的密度每约 18–24 个月翻一倍。它不是一条物理定律，而是产业过去六十年默认的"进步合约"——更小、更快、更便宜每一代都成立。诞生时，没人保证它会持续六十年；但产业把它当成默认的"进步合约"建好了整条计算栈。十年后 Dennard 标度律Term · Dennard ScalingDennard 标度律IBM 工程师 Robert Dennard 1974 年提出：把晶体管尺寸和电压同步等比例缩小，电场强度恒定不变——意味着芯片可以在更小、更省电、更高频的状态下继续工作。2005 年前后这条规律失效（电压无法继续随尺寸下降），半导体进入"暗硅"时代。解释了为什么缩小尺寸还能同时降功耗、提频率。两条腿一起跑，撑住了行业近五十年的"每瓦性能 / 每美元性能"指数增长。

但事情在两个时间点裂开。2005 年前后 Dennard 标度律先失效——电压无法继续随尺寸同步下降，芯片进入暗硅时代（同一时刻只能点亮部分晶体管）。几何缩小靠 FinFETTerm · FinFET鳍式场效应晶体管把晶体管的"沟道"从平面立起来做成鳍片，三面被栅极包围，显著降低漏电流。Intel 于 2011 年宣布、2012 年在 22nm 节点（Tri-Gate）首次量产，是 7nm 之前的主流晶体管结构。和后来的 GAATerm · GAAGate-All-Around 环栅把鳍片切成若干水平堆叠的纳米片，由栅极四面环绕，控制力比 FinFET 更强。Samsung 3nm（3GAE，2022）、TSMC N2、Intel 18A 是当下产业实现。继续撑住。但 7nm 之下纯几何缩小的收益急剧扁平：

速度饱和让本征延时对沟道长度的依赖从平方变成线性；
局部互连寄生 R/C 引入的延时已数倍于晶体管本征 transit time，开始主导标准单元延时预算；
EUVTerm · EUV极紫外光刻使用 13.5 nm 波长光源（来自激光轰击锡液滴产生的等离子体）进行图形曝光。是 7nm 以下节点的必备工具，单台机器售价 1.5–3.5 亿美元，且仅 ASML 一家供货。EUV 设备折旧已成为先进节点晶圆成本的主导项。设备折旧已主导晶圆成本，2nm 节点单芯片设计预算突破 10 亿美元。

经济结果同样不可回避：单位晶体管成本在先进节点上不再下降，最前沿甚至开始上升。"每代更多晶体管、更便宜"的产业合约破产。对于无法稳定获得最先进光刻设备的组织（如华为），这道边界来得更早、压得更重。六年前，另起一节点解决一切已不再是可行答案。

"中心问题已经变了。它不再是『晶体管还能缩多小』，
而是『应该让什么变小、为了什么目标』。" —— 原文 §1

02Time, Not Space: The Real Currency of Moore's Era

真正在缩短的，
从来不是空间，而是时间。

把摩尔时代的所有红利还原到终端用户身上，会发现："更小的晶体管"之所以更好用，是因为它开关得更快；"更密的互连"之所以更好，是因为信号走得更短；"更高的集成"之所以更好，是因为数据穿过的边界更少。每一代芯片真正给到用户的东西，是时间—— 从晶体管层面的皮秒，到芯片层面的纳秒，到系统层面的微秒到秒。空间缩小，只是压缩时间的工具。

那不如把时间本身当作度量。τ 标度律把每一层都赋一个特征时间常数 τ，每一层都把"缩小自己这层的 τ"当成共同目标。几何缩小，从此只是降 τ 的众多手段之一，而不是唯一。

τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

图 1 · τ 跨十二个数量级的统一光谱 · 工艺工程师、电路设计师、系统架构师可以用同一种单位辩论同一件事 · α 是层级特定的代际缩减因子

之所以说 τ 不是给现有指标换个名字，是因为它在整条栈上是同一种东西。频率、时延、带宽、吞吐量，在各自层级都是 τ 的不同表现。工艺工程师、电路设计师、系统架构师，从此可以用同一个量、同一种单位辩论同一件事。每层独立优化、把时序留作"残值"那个时代，结束了。

03LogicFolding — 手机 SoC 的实证

LogicFolding：
不再变小，而是折叠。

τ 标度律第一次大规模实证在手机上。SoCTerm · SoC片上系统 System-on-Chip把 CPU、GPU、内存控制器、ISP、NPU、各种 IO 接口集成在一块芯片上的设计。手机芯片（麒麟、骁龙、A 系列）就是典型 SoC。原文用它做 τ 标度律的第一块试金石，因为一颗 SoC 就是整个系统——没有多 socket 并行可以掩盖瓶颈。是少见的"一颗芯片就是整个系统"的场景——没有多 socket 并行可以掩盖弱链路，所有性能都来自单 die，在几瓦功耗与手持热预算下交付。

定义

LogicFolding 是一种把数字、模拟、存储电路跨多层垂直堆叠的活性层进行分区的设计方法学，在 τ 标度律下联合优化性能、功耗、面积。

数字电路分为组合逻辑（寄存器之间的布尔网络）和时序逻辑（保存状态的触发器）。一个数字系统的性能上限由触发器之间关键路径的延时决定，而这条延时被互连 RC 和门数所主导。传统方案把所有门排在一个平面，金属层走线在上方；线越长，寄生 RC 越大，关键路径越慢。

LogicFolding 抛弃这个平面假设。关键路径上的门被分布到两层（未来更多层）垂直堆叠的活性层上，用超细间距混合键合Term · Hybrid Bonding混合键合把两片晶圆直接面对面键合的工艺：金属铜焊点 + 周边介质（SiO₂）同时贴合，没有传统凸点的体积和电阻。键合间距已做到亚 2 μm，让"上下两层 die"在电学上几乎像一片单 die，是 3D 集成最关键的工艺前沿。连接。对电路设计师而言，两层就像一片连续的织物，单元像穿越一个"额外金属层"那样横跨晶圆边界。信号线变短，寄生 RC 锐减，时钟偏斜收紧，同节点下芯片以更高时钟跑。

LogicFolding At a Glance

混合键合 pitch：亚 2 μm（麒麟 2026 实现 1.5 μm），目标 gear-ratio ≈ 1
对位精度（overlay）：< 0.5 μm
TSVTerm · TSV硅通孔 Through-Silicon Via垂直穿过硅基底的导电通孔，把上下两层 die 在物理上连起来。直径与"禁布区"(KOZ) 越小，可用面积越大。 CD/KOZTerm · KOZ禁布区 Keep-Out ZoneTSV 周围因机械应力、寄生效应必须留出的"不放标准单元"区域。KOZ 越大，TSV 越占面积——是 3D 集成最隐性的开销。：亚 1.5 μm；pitch 亚 6 μm；失效率 < 100 ppm；修复率 99.9%
良率：智能冗余下 ~100%
晶体管密度：单代台阶 155 → 238 MTr/mm²
SoC 性能核功耗效率 / 频率增益：+41% / +13%
SRAMTerm · SRAM静态随机存取存储器速度极快但密度低、价格高的片内存储，CPU 的 L1/L2/L3 cache 用的就是它。位线 / 字线长度直接决定 SRAM 访问速度——LogicFolding 缩短这条线，SRAM 频率提升 40%+。工作频率：+40%+
代表核：时钟缓冲数 / 时钟偏斜 / 线长：−50% / −25% / −30%

这些数字在产品上看是什么样子

Transistor Density

+55%

155 → 238 MTr/mm²，单代台阶。过去需要三年几何缩小才能拿到的提升。

P-core Power Efficiency

+41%

同器件节点下功耗效率净增益。

P-core Max Frequency

+13%

麒麟 P 核回到 3.1 GHz。

Data-path Footprint

−55%

跨上下两层构建高速 NoCTerm · Network-on-Chip片上网络一块芯片里若干计算单元 / 缓存 / IO 之间互联的"小型局域网"。原本占面积大、绕远路，立体折叠后总线缩短到原来的不到一半。，供电稳定性同步改善。

Clock Buffer Count

−50%+

代表性核：时钟偏斜 −25%、线长约 −30%。

Post-silicon clock-skew tuning

>5%

硅后微调独立贡献 SoC 性能。

麒麟 P 核频率路线图

年份	SoC	架构	P 核频率 (GHz)	状态
2023	Kirin 9000s	Planar	2.60	量产
2024	Kirin 9020	Planar	2.65	量产
2025	Kirin 9030 Pro	Planar	2.75	量产
2026	Kirin 2026	LogicFolding	3.10	Silicon
2027	Kirin 2027	LogicFolding	3.39	Silicon
2028	Kirin 2028	LogicFolding	3.71	Pre-silicon
2029	Kirin 2029	LogicFolding	4.00	Pre-silicon

图 2 · 麒麟 P 核频率从平面到 LogicFolding 的跨越 · 2026 之后频率上行不依赖新光刻节点，而靠拓扑重构

麒麟 2026 出货的 LogicFolding 实现刻意保守：键合 pitch 停在 1.5 μm，TSV 着陆只下沉一层金属，折叠仅沿关键路径选用。即便如此，CPU P 核频率今年回到 3.1 GHz。未来十年 LogicFolding 会从"局部关键路径折叠"演化到"全规模、多层折叠"——三层、四层乃至更多 active tier 入封装，低温混合键合放宽层间热预算，TSV 着陆从顶金属下沉到 M6、释放出 30%+ 的高层布线资源。2026→2035，晶体管密度展望 400+ MTr/mm²，CPU 频率推到 4 GHz 之上。

04From Picoseconds to Microseconds · τ 在 AI 数据中心

从皮秒到微秒：
把 τ 推到千卡集群。

手机是毫瓦尺度，AI 数据中心是吉瓦尺度，两端的物理直觉天差地别。但当 τ 被当作系统级目标而非单卡指标，τ 标度律照样成立——只是必须沿整条链条同时下手。

两个事实塑造了 AI 侧的 τ 故事：

AI 系统在持续放大——从一颗芯片，到几十、几百、上万。
现代 AI 集群的能耗和物料预算被数据而非计算主导：超过 80% 的能耗用在数据搬运，超过 70% 的系统成本用在数据存储。

结论很直接：缩短数据"在路上"的时间——芯片之间、机柜之间、封装内部——至少和缩短"算"的时间同等重要。τ 标度律在 AI 尺度上分三层落地：Unified Bus、Hi-ONE、3D Folding。

4.1 Unified Bus — 一种 τ-first 的系统总线

传统多节点 / 多加速器架构在多层堆叠协议上搬数据：PCIeTerm · PCIePCI Express主机和外设之间的标准总线协议，CPU ↔ GPU 之间用得最多。每代带宽翻倍，但作为通用总线，端到端时延较高。接主机，NVLinkTerm · NVLinkNVLinkNVIDIA 专有的 GPU-GPU 直连协议，带宽显著高于 PCIe，是其超节点（DGX/HGX）的物理底座。或私有 fabric 在机箱内连 GPU，InfiniBandTerm · InfiniBandInfiniBandMellanox（已被 NVIDIA 收购）主导的高性能网络协议，HPC 与大模型训练的常用机柜间互联。或以太网在机柜间连机箱，软件栈再做远程内存访问。每加一层就多一次协议转换、序列化、DMATerm · DMADirect Memory Access 直接内存访问外设绕过 CPU 直接读写内存的机制——多一次 DMA 就多一次内存搬运和缓冲。缓冲和握手。每一次转换都加时延、降可靠性、增加成本。

Unified Bus (UB) 把这一摞替换成同一种协议，机箱内与机箱间统一——一张完全 peer-to-peer 的 fabric，原生在整个系统上暴露内存语义。数据搬运被压缩成"无转换、点对点、内存语义"，相干性由硬件管理而不再需要软件栈消息传递。

传统多层协议栈

PCIe / NVLink / IB / TCP-IP …

~10s μs

端到端远程访问时延，每层一次协议转换、一次序列化、一次 DMA 缓冲。

━━━━ ≈ 500× ━━━━▶

Unified Bus · 内存语义 fabric

单一协议，rack-coherent

~100 ns

~500× τ 缩减。机柜尺度上整套系统渐近于一台"被 fabric 相干起来的单机"——内部代号 System-as-One-Chip。

4.2 Hi-ONE — 把光 I/O 推到封装边

通信时延被压下来之后，下一个瓶颈跳出来：把更多芯片塞进同一机柜，功率密度、可靠性、以及SerDesTerm · SerDesSerializer / Deserializer 串并转换器芯片对外高速 I/O 的物理层模块，负责把并行数据序列化到一条高速通道上再还原。SerDes 的"可达距离"决定芯片能用多长的铜缆通信——单芯片带宽超过 multi-Tb/s 之后，铜缆物理上撑不住。电域全部撞墙。在 400 Gb/s/芯片，铜缆还可控；到多 Tb/s/芯片，铜缆物理上撑不住——SerDes 触达距离塌缩，线缆变得笨重，面板安装失效，热与供电余量耗尽。

华为的解法是 High-density Optical-interconnect-Node Engine, Hi-ONE——一颗近封装光引擎：

单模块带宽

8Tb/s

恰好匹配单颗 AI 芯片的 UB 带宽，一条光链路一颗芯片。

SerDes 触达需求

~100 → 5cm

从厘米级铜缆走线降到封装边短链路。

面板间触达

<1 → 100m

让分布式吉瓦数据中心物理上可建。

Hi-ONE 的设计哲学本身就是 τ 论证。它没有用一颗重型 DSPTerm · DSPDigital Signal Processor 数字信号处理器在收发端做复杂信号恢复的专用芯片——延时高、功耗大。Hi-ONE 故意省掉 DSP，改用线性模拟模块。去追求信号高保真度，而是采取"线性方案"——模拟均衡增强的驱动器与跨阻放大器——并允许 UB 协议容忍刻意放宽的误码率。这种协议层与物理层的跨层让步，降功耗、降成本、降集成复杂度，是 τ-first 方法学最喜欢奖赏的姿势：每一层都不在自家局部最优，但整体 τ 最低。

4.3 N² vs N — 为什么 3D Folding 不可避免

AI 加速器为什么不能停在 2.5D fan-out？这件事的最深理由是几何，必须说清楚，因为它决定 2030 之后的路线图。

在传统 2.5DTerm · 2.5D fan-out2.5D 扇出封装把多颗 die（逻辑 + HBM）并排放在一片中介层（interposer）上的封装方式。NVIDIA H100/B200、AMD MI300 都属此类。比单 die 大、比真 3D 简单，但所有内存/IO 信号必须从中央逻辑 die 的边沿走出去——这是下文要讲的"N² vs N"困境的起点。 AI 芯片里，逻辑 die 在封装中央，HBMTerm · HBMHigh Bandwidth Memory 高带宽内存多层 DRAM die 堆在一起的内存类型，通过 TSV 与中央逻辑 die 在 2.5D 中介层上相邻。是大模型训练的关键瓶颈，被 SK 海力士、三星、美光三家垄断。堆栈和 SerDes 排在边上，电压调节器围着封装。每一根内存信号、每一根互连信号、每一安培供电电流，都必须穿过 die 的边才能到达内部的计算资源。若 die 边长 = N：

计算能力按 N²（面积）扩张；
但内存带宽、互连、供电——这些靠 2.5D fan-out 沿边沿走——只按 N（周长）扩张。

图 3 · "N² vs N"困境与 3D Folding · 把内存、光 I/O、供电从封装"周长"搬到"表面"，让所有维度同步按 N² 增长

这条二次方与一次方的剪刀差，就是 fan-out 困境。它解释了为什么 2.5D 缩放在底层逻辑节点再激进也会停在某一刻：没有任何晶体管层面的改进能补上一个拓扑层面的缺口。

3D Folding 直接把"边受限的资源"搬到"面上"：供电（背面供电 + 集成电压调节器）、高速内存（hybrid bonding 与逻辑直接键合）、光 I/O（近封装 Hi-ONE）从周长迁到垂直表面——而一旦在表面上，它们的扩展速率重新变回 N²，与计算同步。封装从"被一圈内存与 SerDes 包围的逻辑 die"演化成"内存、fabric、电源、逻辑统一垂直集成的堆栈"。

2025 → 2035 路线图

技术

'25

'26

'27

'28

'29

'30

'31

'32

'33

'35

Ascend SuperPoD

910C

950

成熟栈：chiplets + 2.5D fan-out + 3D stacking

990

3D Folding 承载 α · LogicFolding 入加速器

Kirin SoC

9030 Pro

Kirin 2026 → 2029 · LogicFolding 第一波

多层折叠 · 400+ MTr/mm²

Unified Bus

~100 ns · rack-coherent · System-as-One-Chip

Hi-ONE 光 I/O

8 Tb/s / module

近封装 → 共封装演进，100m 触达

已出货关键节点产品展望前代基线

05Logic & Memory · From Decoupling to Re-Fusion

逻辑与存储：
从解耦走向再融合。

8086 时代，行业刻意通过标准化的内存总线把处理器与内存解耦。这种解耦使两个产业可以独立扩张：处理器沿摩尔曲线狂奔，内存厂商旁边长出一片巨大的独立市场。

AI 时代正在反转这条解耦。计算密度不断上行，把内存的带宽、时延、功耗、封装一路推到极限。HBM、hybrid bonding、3D 堆叠 SRAM——都是同一个事实的不同症状：对现代 AI 工作负载而言，数据搬运与计算同等关键，逻辑与存储正被推回紧物理集成。一旦融合，供应链的影响力天平向存储与封装厂倾斜。

技术方向是清楚的，但经济解还没定。AI 硬件时代的长期赢家，将是那些既能在技术上融合逻辑与存储、又能建立"双方都能长期分享融合红利"的经济伙伴关系的玩家。这不是单一研究问题，而是行业在未来十年必须解决的结构问题。τ 标度律的意义在于：它把每一次"分离"的跨层成本变成可见，于是这个问题再也无法被推迟。

06Open Challenges

未解决的五件事

原文不假装 τ 标度律是完成时。下面五项均仍是开放问题，作者明确邀请生态共建。

i.

τ-原生工具链

今天的 EDA 是按"面积 / 时序 / 功耗各自优化、系统 τ 当残值"那套逻辑长大的。LogicFolding 要求把堆叠多 die 当成单一连续设计实体处理：单元级（而非块级）跨层切分、统一 cost function 下做三维布局、跨 die 时序闭合——晶圆间工艺漂移、TSV KOZ、垂直互连寄生彼此交织，2D 经验的工具不够用。τ-原生、开放、多物理、3D 原生的工具链，是未来十年最关键的一笔投入。

ii.

晶圆间工艺差异

LogicFolding 把可能来自不同批次、甚至不同节点的晶圆键合在一起。Vth、驱动电流、互连 RC 的晶圆间方差远大于晶圆内方差，主要落在时钟分配与 hold-time 余量上。智能冗余、自适应补偿、τ-aware signoff 都是必要应答。

iii.

垂直互连开销

每一个混合键合点、每一个 TSV 都带有限的 R 与 C，TSV KOZ 还要"挤走"标准单元。LogicFolding 必须层层验证不等式 τ_save > τ_cost。这道门槛在手机关键路径与存储上已被跨过；门槛与具体 workload 相关，且会随键合 pitch 缩小继续移动。

iv.

能耗陪跑

τ 是时间律，不是焦耳律。一个"快 10× 但耗电也 10×"的超节点不违反 τ 标度律，但超出电网容量。τ 必须搭配能耗机制：内存语义 fabric 去栈、近 / 共封装光降 pJ/bit、背面供电、近 / 在存储计算，以及把 τ 余量交易回功耗的DVFSTerm · DVFSDynamic Voltage & Frequency Scaling 动态电压频率调节根据负载实时调节电压与频率的常用低功耗机制，是手机电池续航的关键之一。原文把它推到数据中心尺度：用 τ 余量去换功耗。——这次推到数据中心尺度。

v.

τ 化基准测试

Linpack、MLPerf、SPEC 是"一个 workload 给一个标量"那种时代的产物。τ 标度律的产业需要 τ-profile benchmark：暴露各层主导 τ 与剩余余量的向量。主导 τ 所在的那一层，按定义就是下一笔投资该去的地方。

07Six Years In, Ten Years Out

六年回望，
十年前望。

2020 年 5 月到 2026 年 5 月，华为半导体设计并量产 381 颗芯片，覆盖移动、AI、汽车、工业、基础设施。沿这条样本看下来，τ 标度律的论点是站住的。

六年量产

381

颗芯片 · 横跨手机 / AI / 汽车 / 工业 / 基础设施

器件层 · 晶体管密度

155 → 400+ MTr/mm²

到 2031 年的展望数。

芯片层 · 麒麟 P 核频率

→ 4GHz

2029 年目标，节点固定下完成。

系统层 · 通信 τ

≈ 500×

UB + Hi-ONE 将数十微秒压到百纳秒。

2026 → 2035 硬件集成

> 100×

τ 缩减分布在每一层，而非只压在器件层。

麒麟 SoC 效率

2×+

3–5 年内典型用例下，再翻一倍以上。

但更深的命题不在某一颗产品上。τ 标度律是自 Dennard 以来第一条让整条计算栈共享同一个优化目标的标度原则。它向工艺工程师、电路设计师、架构师、系统工程师、软件团队同时发出信号：你们现在优化的是同一件量，用同一种单位；任何一层的局部改进都必须传导到系统 τ 才算数。

它也向产业战略家与资本配置者发出信号：下一块钱应该追着 τ 走，而不是追着节点走。竞争性能不再必须永驻光刻最前沿；封装、内存带宽、fabric 设计开始拥有过去专属于"最先进逻辑节点"的战略权重。

"对一代被教育成把『摩尔定律』当做『进步』同义词的工程师来说，这是个艰难过渡。
但几何时代事实上已经结束，否认它不是可行战略。" —— 原文 §7

未来十年的工作面已经被框出来：工具链、标准、基准、器件物理、经济模型——没有一家公司能独自完成。这篇 perspective 既是来自现场的报告，也是一封邀请函。路线艰难，但方向毫无歧义。

原文下载 · 英文 PDF 《面向多层电子系统的时间标度律》
A Time Scaling Theory for Multi-Layer Electronic Systems 何庭波 · 华为 · 2026-05-25 · PDF 535 KB

网页可视化 · 邦比快跑 ↗