ISSCC 2020:高速串口解析
2020-02-28
16:06:20
来源: Sophie
ISSCC 2019结束后,我曾经写过一篇
高速串口的论文解析
。当时总结有几点发展趋势:
3、受工艺、成本限制,学术界没有办法跟工业界在同一层面竞赛;
4、56Gbps的接口架构稳定,基于DSP的方案占主导。
从分布来看,五篇来自工业界、三篇来自学术界,学术界的论文可以说是另辟蹊径,没有在主流路线上竞争更高的速度。
从工艺来看,三篇7nm、一篇10nm、一篇16nm,这五篇均来自于工业界,还有来自于学术界的两篇40nm、一篇65nm。
从速度来看,有三篇112Gbps,其中两篇是完整的TRX,一篇是TX。
去年的ISSCC还没有达到112Gbps的RX,今年一下出来两篇,都是Long Reach,再考虑到博通、Cadence、以及我前东家eTopus这些已经有112Gbps的产品或demo但没有发表论文的公司,可以推测出
工业界在这个方向的军备竞赛是多么的激烈
!
这次我们来看第一篇论文,来自Xilinx的112Gbps Long Reach PAM4 TRX。
这一页PPT对近几年高速串口的发展状况做了很好的汇总,信息量不小。
至少可以看出三点:
一、基于移相器(PI)的经典双环结构依然屹立不倒
,这种结构的主要优势是把PLL带宽和CDR带宽解耦,以及可以多个收发通道公用一个PLL,节省面积和功耗。
二、基于ADC-DSP的RX结构是绝对的主流。
一般来说,analog的RX功耗较低、CDR的带宽可以做的更宽一点,但在稳定性上不如DSP的结构,而且更重要的是,analog的结构从工艺升级上的好处要远小于DSP的结构。
三年多前我有次跟老板聊天,他说随着工艺升级,DSP结构和analog结构的性能会有一个交点,他判断这个交点发生在差不多发生在16nm这一代工艺,之后DSP结构会成为主流。
这也是为什么我前东家一开始就瞄准了DSP的结构。
今天再回头看,这个判断还是很精准的。
第三、对112Gbps第一代高速串口,TX选择CML结构的要多于SST结构的
,CML结构更利于高速设计一点。
这一页给出了TX的整体结构。
我们设计高速串口TX的时候,首先要考虑的是时钟速度,是选用1/2速的时钟还是1/4的时钟。
像我上篇文章总结到的,56Gbps的TX几乎都采用1/2速的时钟。
到了112Gbps这一代大都选择了1/4速的时钟,这一篇也是,所以最后一级MUX是4:1的MUX。
这种选择合情合理。
一般来讲,
对于先进工艺,大家会认为实现更复杂较准功能的成本比把极限速度推高一倍的成本低。
这一页的另一个亮点是输出匹配网络,从56Gbps到112Gbps,对于输出节点带宽要求变大一倍。
我在之前讲
宽带匹配
的文章里提到过,
带宽优化的一个思路是把寄生电容打散,用电感进行隔离。
这里采用的就是这种思路,两个diode之间用电感隔离开,获得更高的带宽。
这一页是RX的结构,从框图上都大家都差不多,CTLE用来做均衡、PGA控制增益,接下来时间插值的ADC,进DSP之后再去做DFE/FFE/PD等操作。
在RX前端最大的亮点是全部采用了Inverter进行设计。
刚看到这种做法的时候,我第一反应是居然能这样做,仔细一想,又觉得有迹可循。
不能不说做的很牛。
佩服!
Amazing!
112Gbps的CTLE其实非常非常难做,不仅需要保证带宽、可配的peaking强度,好需要保证一定的线性度。
一般的CTLE都是线性放大器的设计,有为电流源、放大管、共模反馈等等,堆叠的晶体管多了,每个晶体管所占的电压空间变小,线性度变差。
那怎么办呢?
我们要减少堆叠晶体管的数目,减少到最后不就变成了反相器么?
那么问题就来了:
反相器怎么去控制它的增益?
反相器本身的增益是极不稳定的。
没关系,我再给它加一个diode接法的反相器作为负载,这样反相器的增益变成了两个gm的比值,虽然不如电阻的比值,但也比较精确了。
要怎么去做peaking呢?
传统的做法是在放大管源端做电容负反馈,但反相器的源端已经接地了,没法在做负反馈。
没关系,我们可以在diode接法的反相器栅端加一个RC低通滤波,这样也可以实现peaking,相当于active inductance,这种做法在去年的ISSCC也有用到过。
怎么实现peaking可配?
我可以改RC低通滤波的电容值或电阻值,从而改变等效active inductance的值,也就改了peaking的值了。
这样一步步推理过来,全反相器的设计已经是成立的。
而且一个额外的好处是,这种做法消除了电容和电阻,整个版图会非常工整,这一点对于7nm这样的先进工艺很重要,等到过DRC的时候自然会懂!
PPT中给出的测试结果,CTLE的性能很好,最大17.5dB的peaking,带宽超过30GHz,而且仿真和测试结果之间只相差了不到0.5dB。
这也仿的太准了!
Amazing!
根据前面的分析和这里的测试结果,全反相器的RX前端在账面上效果非常不错,至于有没有一些量产方面的坑,我没有做过测过,不敢妄加评判。
在基于DSP的RX设计中的一个关键点是插值结构的选择
。
我在去年的总结里提到:
从技术上来说,56G的高速接口架构已经较为稳定,主流选择是:
RX基于DSP,Time Interleaved
ADC,一般先4到8的Track/Hold,每个Track/Hold带若干个ADC的Slice,TX采用Half
Rate。
均衡方面差不多都是CTLE、1-TAP
DFE、若干TAP的FIR,以及TX-FFE。
那56G接下来的技术挑战就是低功耗、以及更强大的Adaptive功能。
对于112G的高速接口,我觉得现在大家追求的目标是先做出来再说,功耗什么的留给以后再优化,在架构选择上可以看到一些趋势,但还没有稳定下来。
假如我们用16nm做了一个56 Gbps的RX,其中有四个Track Hold,每个带8个ADC Slice。
现在我们要用7nm去做112 Gbps的RX,应该选什么结构呢?
第一种做法是还是4x8的结构。
这样每个ADC slice的速度需要提高一倍,而且Track Hold的带宽也要提高一倍。
这样相当于把速度压力大部分都给了ADC。
从16nm到7nm,速度也就增长了30%左右,而这里ADC的速度需要提高两倍!
做起来不容易。
第二种做法是选择8x8的结构。
这样每个ADC Slice的速度保持不变,但整体数目变多了一倍。
Track Hold的数目也变多了一倍,对前一级的电容负载变大了不止一倍。
想想不太合理,
这种做法相当于把速度压力全部都丢给前级,ADC一点儿也不分担,尽管工艺速度变快了。
这篇论文里给了第三种选择,6x6的结构,这样ADC和前级给自都分担一点速度的压力,似乎是一个更好的折中选择。
但6x6的结构会导致时钟网络很啰嗦。
4和8都是2的倍数,时钟相位产生起来更直接。
6x6的结构第一级需要6UI的时钟来使能Track Hold,而从PLL打进来的是4UI的时钟,相当于需要一个1.5倍的分频器来产生各个相位。
这篇论文里采用多相注入锁定倍频器来实现的。
又一次,xilinx判断,6x6的结构带来的功耗和面积的优势,要超过了多相时钟产生带来的啰嗦。
但我想,
这个结论并不是普适的
,有可能xilinx之前在时钟方面有丰厚的积累,做这样一个时钟网络对他们来说不仅容易,而且风险很低。
其他组不具备这样的条件,就不一定能做这样的决定。
在这篇论文的分析里,我无数次提到了系统架构的选择,不是啰嗦,而是想传达这样一个观点:
系统架构的选择至关重要。
相比起来,调一个具体的电路容易多了,你能很快的扫描参数,很快的看到结果,无非是谁扫描的更细心一点或更高效一点。
在选择系统架构的时候,这些电路都还没有呢,性能怎么样也不知道,难度有多大也不知道,只能依据过往的一些经验拍板。
等实现到一大半发现结构选的不合适已经晚了,资源已经投入在里面,想调头非常不容易。
而且架构选择还不仅仅是技术,还要考虑公司已有的技术积累、承担风险的能力、这款产品的定位、项目的工期等等商业和政治因素
。
因为试错成本高,所以对经验的要求非常高。
那怎么才能快速增长经验呢?
无他,平常多思考多积累,多分析别人的工作,以及,
多来看看我的文章。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2233期内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
“芯”系疫情
|功率半导体
|TWS
|华为
|
存储
|
Fab|MCU|小米
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!
责任编辑:Sophie