北京工业大学计算机考研分数线(北京工业大学计算机考研分数线2022)--考研乐学帮

北京工业大学计算机考研分数线(北京工业大学计算机考研分数线2022)

北京工业大学计算机考研分数线，北京工业大学计算机考研分数线2022

1前言 | 规格介绍

前言

距离GeForeRTX4090性能解禁已经过去了有1个多月的时间，相信大家对这张卡皇的性能也已经比较了解了，不得不说Adalovelace架构和4N工艺带来的性能提升还是十分喜人的。终于，GeForeRTX4080的性能也迎来了解禁，这一次FE公版显卡和AIC非公显卡是同时解禁性能。今天我们PConline评测室要来评测的就是来自技嘉的GeForceRTX4080MASTER超级雕。

这张卡采用了全新风之力散热系统，拥有24+3相供电，整体的用料规格极其豪华，已经足以比肩不少RTX4090显卡的堆料规格。那么这张技嘉GeForceRTX4080MASTER超级雕的性能表现究竟如何，能否对得起玩家的期待？下面就带大家一起一探究竟。

*“技嘉GeForceRTX4080MASTER超级雕”以下简称“技嘉RTX4080MASTER”

规格介绍

正式开始评测前我们先来简单了解下RTX4080的一个核心规格。这次RTX4080所采用的是AD103-300核心，工艺为TSMC4N，对比上一代由三星8N工艺打造的GA102核心，晶体管的数量有了近乎翻倍的提升。

CUDA核心数量上，RTX4080标配了9728个，同时搭载了128个第三代RTCores，512个第四代TensorCores，光追性能相较上一代显卡应该会有不错的提升。

同时这一代核心的频率也有了进一步的提升，基础频率就来到了2205MHz，Boost频率更是来到了2505MHz。显存方面则是用了16GB的GDDR6X显存，不过显存的位宽并不是384bit，仅为256bit。

值得一提的是，目前RTX4080上配备AD103-300核心并不是完整的AD103核心，完整的AD103核心应该包括7个GPC（图形处理集群）、40个TPC（纹理处理集群）以及80个SM（流式多处理器）。

而目前的AD103-300核心只有4个完整规格的GPC（图形处理集群，每个内建6个TPC），与3个非完整的GPC（两个内建5个TPC，一个内建4个TPC），共组成38个TPC，SM单元则剩下76个。

并且在核心编解码器上，对比拥有2个NVENC编码器和4个NVDEC解码器的完整AD103核心，这个AD103-300核心只保留了仅保留了2个NVENC编码器和1个NVDEC解码器。

只能说老黄的刀法确实是精准，不过后续应该会有搭载完整AD103核心的RTX4080Ti也说不定。

2开箱&外观

开箱&外观

简单聊完了RTX4080的规格，下面我们就正式来看看这张技嘉RTX4080MASTER。

作为技嘉显卡中的旗舰系列，这张超级雕上手给人的第一感觉确确实实也对得起“旗舰”二字，整个外包装箱十分的硕大，基本上是完全沿用了RTX4090超级雕的一个包装规格。

打开包装盒后，里面除了显卡本体外还有一条转接线和一个显卡支架，毕竟这张技嘉RTX4080MASTER和技嘉RTX4090MASTER一样都是一个四槽卡的大小，重量也不低，显卡支架还是相当有必要的。

外观方面呢，这张技嘉RTX4080MASTER也是延续了和技嘉RTX4090MASTER一样的设计，显卡正面采用光面、磨砂的材质拼接而成，配合大量的线条和切割纹理，整体的风格还是相当的硬朗炫酷的。

新一代的风之力散热系统正面采用了3把110mmAORUS鲨鱼仿生风扇采用正逆风道的设计，能有效减少三风扇间的气流干扰，提高散热效能。

全新设计的鲨鱼仿生风扇表面采用了类鲨鱼盾鳞的纹理设计，能实现更好的风扇动平衡，在提高风压的同时，也让运转的噪音能够低至3dB。

其实这套散热系统此前我们在评测技嘉RTX4090MASTER时就已经给我们留下了极其深刻的印象，这次下放到技嘉RTX4080MASTER，表现应该是无需担心的。

技嘉RTX4080MASTER的背板采用的是一整块金属背板覆盖的设计，背板表面采用了喷砂工艺，同时也做了大量的线条设计，和显卡的正面相呼应，还是相当的耐看。背板上还开有散热窗口，用于进一步辅助散热。

显卡侧面，除了有GEFORCERTX的logo字样，还有AORUS的logo以及一块液晶显示屏，给显卡提供更高的可玩性。

接口方面，技嘉RTX4080MASTER采用的依旧是全新的16pin供电接口，上方还贴心的做了指示灯，能够更好的判断显卡供电状态。

接口方面，技嘉RTX4080MASTER依旧是常见的三个DP1.4a加一个HDMI2.1a的配置，支持3+1输出。

上机看一下技嘉RTX4080MASTER的RGB灯效和个性化设计。不得不说，技嘉RTX4080MASTER的这个经典“三环灯”设计确实好看，璀璨、彩虹环、鹰爪等预设灯效各有各的味道。

显卡正面和背面的RGB灯效也是恰到好处，不会过于浮夸，喧宾夺主。

侧面的液晶显示屏，可以显示卡的工作参数，显示各种自定义的文本、图片或GIF动图，利用GCC控制中心就能随意进行更改，可玩性还是相当高的。

总的来说，技嘉RTX4080MASTER的外观设计在众多AIC非公显卡中，个人绝对最好看的一张，整体的灯效恰到好处，和极具设计感的造型相得益彰。极富科技感的三环灯还有好看实用的液晶显示屏，让这块技嘉RTX4080MASTER无论是竖装还是正装，都十分的好看。

3显卡拆解

显卡拆解

从这硕大的外观体积，应该也能看出这张技嘉RTX4080MASTER的用料是极其豪华的。下面我们就来实际拆解一下。

技嘉RTX4080MASTER的PCB十分的紧凑小巧，特别是和巨大的散热模块一对比更加显得小巧了，不过越肩式的设计以及整洁紧凑的元器件布局，使得技嘉RTX4080MASTER的PCB虽然要比上代RTX3080Ti小，但是却容纳了更多的元器件。

PCB正中间就是RTX4080的GPU核心，采用TSMC4NNVIDIA定制工艺的AD103-300GPU芯片。

核心四周是8颗镁光的GDDR6X显存，编号为2PU47-D8BZF，单颗容量2GB，8颗组成16GB内存。

供电部分，技嘉RTX4080MASTER采用了极其豪华的24+3相供电，23相位核心供电，3相为显存供电。这样的供电规模只能用夸张来形容，要知道技嘉RTX4090MASTER也仅仅比这张技嘉RTX4080MASTER多了一相显存供电，这样的供电规模甚至已经超过了许多AIC非公RTX4090显卡的供电规模。

每相供电均采用独立的DrMos，芯片来自来自万国半导体Alpha&OmegaSemiconductor，编号为BLN01111，具体型号为AOZ5311NQI，可以实现55A的持续电流输出。

PCB右上角为全新的12VHPWR供电接口，附近是两颗封闭电感用于保证供电稳定。

相比元器件密布的正面，技嘉RTX4080MASTER的PCB背面就相对简洁一些，核心背部电容采用了两个钽电容代替MLCC电容，整体电气性能更强。

供电的三颗PWM控制芯片也位于背面，型号分别为uP9529Q、uP9512R以及uS5650Q。其中uP9529Q与uP9512R共同管理核心供电，可以做精细化的供电管理，而uS5650Q则是主要负责显存供电部分。

整体看完PCB，我们再来看看技嘉RTX4080MASTER这个硕大的全新风之力散热系统，这个散热系统的规格和技嘉RTX4090MASTER上的相当，足见这张技嘉RTX4080MASTER堆料的豪华。

风之力散热系统采用了均热板设计，均热板和GPU、显存、电感、MOS管接触的地方采用了大量的高系数的导热垫辅助散热，跟不要钱似的。

均热板上，是极其恐怖的12根复合式热管，仅比技嘉RTX4090MASTER少一根。

热管上覆盖的是大面积的散热鳍片，可以看到鳍片的厚度将近5cm厚。

散热器上则是3把110mm的仿生鲨鱼风扇，正逆风道的设计能够有效的减少乱流干扰，配合经过空气动力学优化的扇叶，能够大幅提高散热效率。

总的来说，这样的散热规模即使是用来压制RTX4090的AD102核心都绰绰有余，何况是用来应对RTX4080，堪称降维打击。

4测试平台 | 理论性能测试

测试平台

看完了外观和拆解，下面就到了性能的测试，为了让这张技嘉RTX4080MASTER的性能得到最充分的释放，我们的测试平台也是采用了当下最旗舰的一个配置，Inteli9-13900K搭配技嘉Z790AORUSMASTER超级雕主板，以及金士顿的64GBDDR5-6000高规格内存。

技嘉M28U电竞显示器

为了直观清晰的看到技嘉RTX4080MASTER带来的游戏画面和帧率提升，我们用了一台采用4K144Hz SS IPS面板（SuperSpeed IPS 快速液晶）的旗舰显示器，技嘉M28U。4K分辨率能让我们清晰的观察到画面的变化，144Hz刷新率能让我们之观的感受到技嘉RTX4080MASTER带来的丝滑画面，用来搭配技嘉RTX4080MASTER再合适不过了。

在测试开始前，通过GPU-Z可以看到技嘉RTX4080MASTER的基准频率为2205MHz，Boost频率可以达到2550MHz，略高于FE公版的2505MHz。并且可以看到此时主板的ResizableBAR功能已开启，显卡能够做大限度的发挥出其全部性能。

理论性能测试

照例先来测试下技嘉RTX4080MASTER的理论性能，通过3DMark理论性能测试可以看到，技嘉RTX4080MASTER的表现还是相当让人惊喜的，相比上一代的RTX3080Ti和RTX3090Ti整体有30%和14%左右的提升，并且随着分辨率的提高，技嘉RTX4080MASTER对比上一代的提升就更为明显。与RTX4090相比，技嘉RTX4080MASTER也有着RTX409071%的性能，整体性能还是十分符合我们预期的。

具体到光追和DLSS的单项测试中，技嘉RTX4080MASTER无论是对比RTX3080Ti还是RTX3090Ti，提升都是相当明显的，看得出这代显卡在光追和DLSS方面有着更加强大的性能表现。

在3DMARK最先推出的DX12基准测试工具，SpeedWay性能测试测试中，技嘉RTX4080MASTER在4K画质下跑出了7203分，相比FE公版RTX4080的7152还要高。

AIDA64的GPGPU理论性能测试中，技嘉RTX4080MASTER运算性能相比RTX3080Ti和RTX3090Ti的提升分别为42%和33%，哈希算力则是和上一代RTX3080Ti持平，好在矿潮基本已经褪去，不用担心RTX4080变成空气卡。

5游戏测试

游戏测试

显然大家对RTX4080最为关注的肯定是游戏性能，前面的理论性能测试我们以及知道技嘉RTX4080MASTER相比上一代RTX3080Ti有着30%的提升，整体的性能大概是旗舰卡皇RTX4090的71%。那么具体到实际的游戏中，技嘉RTX4080MASTER的表现有如何呢？

我们选取了多款主流热门的3A游戏进行实测，考虑到即便是上代的RTX3090Ti已经足以完美的应对2K分辨率，所以技嘉RTX4080MASTER的1080P、2K的游戏测试我们就直接看表，重点还是看4K和8K的游戏测。

通过实测结果可以看到，在4K游戏方面，技嘉RTX4080MASTER基本上能够很好的应对。实测大多数游戏都能跑到100左右的帧数。即使是《赛博朋克2077》这样对显卡压力较大的游戏中，在开启超级光追的情况下，在DLSS性能挡位下技嘉RTX4080MASTER也能跑出平均86的帧率，相比上一代的RTX3080Ti勉强60的帧率，流畅度的提升相当明显。

在另一款光追游戏《光明记忆：无限》中，在光追质量，DLSS性能的挡位下，技嘉RTX4080MASTER相比RTX3080Ti有着44%的提升。

总体来看，技嘉RTX4080MASTER在4K分辨率的游戏性能要强于RTX3080Ti40%左右，整体有着RTX409076%左右的一个性能，用来应对4K高画质游戏基本上是完全没有问题的，在高特效开启光追的情况下已经能够有超过60的帧率，部分游戏甚至已经能够达到4K144Hz的电竞水平了，表现还是相当可观的。

那么在8K游戏方面，技嘉RTX4080MASTER的表现如何？经过实测，技嘉RTX4080MASTER在8K分辨率下，部分游戏在超高画质的情况下能够跑到60帧以上的成绩，像《古墓丽影：暗影》在开启DLSS超级性能的情况下甚至能有过百的帧率。

相比RTX3080Ti，8K游戏完全是一个可玩的状态。不过对比RTX4090，RTX4080的16GB显存在8K分辨率下还是有点不太够看的，想要超高画质体验8K游戏，对于RTX4080还是有一定的压力的，不过选择将画质降低到中、高的挡位，还是可以获得较为不错的8K游戏体验的。

不过需要注意的是，目前8K显示器的价格普遍都还处于较高的水平，即使是相对便宜的8K电视产品，一台电视也要抵得上一张显卡的价格了，所以现阶段8K游戏还是有钱玩家的玩具，。RTX408016GB的显存其实只是刚好只够尝鲜一下8K游戏，想要能够称得上丝滑流畅的体验，那还是要RTX4090，从这点看又不得不佩服老黄刀法之精准！

6DLSS 3测试

DLSS 3测试

这一代40系显卡，相比上一代显卡除了架构和工艺带来的性能提升，另一大提升毫无疑问就是DLSS3了，在RTX4090上我们已经看到了DLSS3的实力。那么在技嘉RTX4080MASTER上DLSS3带来的帧数提升又能否和RTX4090一样惊喜呢？

在3DMark的DLSS3BenchMark中，实测技嘉RTX4080MASTER的性能表现还是相当不错的，在4K分辨率下开启DLSS3，帧率有着超过3倍的提升。而当分辨率来到了8K，提升更加惊人，在不开启DLSS3的情况下，仅有1.6帧，开启DLSS3后帧率直接暴涨到了70帧，提升幅度甚至比RTX4090还要大。

当然3DMark毕竟只是理论性能跑分，具体到游戏中表现有如何呢？我们选择了多款已经支持DLSS3的游戏和一些测试DEMO来进行测试，分别测试在2K、4K以及8K分辨率下，技嘉RTX4080MASTER的DLSS3所带来的帧率提升。

首先是2K和4K分辨率，通过实测的数据可以看出，基于新一代AdaLovelace架构，采用TSMC4N工艺的技嘉RTX4080MASTER性能确实强劲，即便是开启DLSS2，帧率提升也要比上代RTX3080Ti明显要强的多。而在开启了DLSS3后，帧率的提升幅度是更加的明显，很多游戏甚至以及达到了RTX3080Ti开启DLSS2后帧数的两倍。

《瘟疫传说：安魂曲》

以10月份刚刚发布的新游《瘟疫传说：安魂曲》为例，虽然技嘉RTX4080MASTER的性能，在4K分辨率下即便不开DLSS，60左右的平均帧也是能流畅的游玩这款游戏。但是开启DLSS2功能后，游戏帧数直接来到了119，1%帧数也达到了97FPS，提升直接翻倍；开启DLSS3后，帧率更是直接飙升到了157帧，即使是1%帧数也有134帧，这样的帧数已经完全能够达到电竞的水准了，游戏的流畅度和不开DLSS完全不是一个量级的。

UnrealEngine5EnemiesDEMO

UnrealEngine5作为次世代游戏开发引擎，用其制作打造的游戏对显卡的压力还是相对巨大的。不过在UnrealEngine5EnemiesDEMO中，DLSS3也展现出极其强大的实力，在4K分辨率下技嘉RTX4080MASTER可达77AVG/661%FPS/55ms的水平，而关闭DLSS3后仅有22AVG/171%FPS/195ms，基本就是超过3倍的游戏流畅度提升。

只能说在2K、4K这个分辨率下，绝大部分游戏已经不能给这张造成技嘉RTX4080MASTER太大的压力了，那么就我们直接把分辨率升级到8K。

可以看到，来到8K分辨率后，即便有强大的DLSS3技术加持，RTX4080还是面临着较大的压力的。最大的问题就是显存不太够用了，主要表现就是主要表现为显存占用达到了16GB，游戏帧数也较低，像《光明记忆：无限》，开启DLSS3后帧率反而较DLSS2还下降了，可能是DLSS3或比DLSS2占用更多的一个显存。这一代的RTX4080想要跑8K还是有一定困难的，还是那句话，老黄的刀法着实精准。

总的来说，DLSS3给游戏帧率带来的提升确实是相当的给力，而且目前DLSS3游戏支持发展迅速，截至11月15日，已有《瘟疫传说：安魂曲》、《光明记忆：无限》、《毁灭全人类2：重新探测》、《暗影火炬城》、F1®22、《逆水寒》等10款可玩的DLSS3游戏发布。

此外，WRCGenerations、《极品飞车:不羁》、《战锤40K：暗潮》三款新游也将支持DLSS3技术，整个DLSS3游戏库的扩展速度还是相当令人惊喜的。

7创作力性能测试

创作力性能测试

虽然大部分更多关注的是RTX4080的游戏性能，当然我们还是有必要了解一下它的创作力性能的。这里我们选择PugetBench、PCMark10这两款常见的测试软件，来测试技嘉RTX4080MASTER在日常办公、视频内容生产等方面的性能表现。

其实在日常办公和视频内容创作这块，并不是很依赖GPU，更多是依赖CPU的一个性能，所以总体来看，技嘉RTX4080MASTER相比上一代RTX3080Ti整体提升并不大，仅有8%左右，表现基本和RTX4090持平。对于想用来办公或视频剪辑的用户来说，RTX4080确实有些大材小用了。

在更为专业的软件，比如建模、渲染、工业设计等软件上，技嘉RTX4080MASTER的表现就和上代显卡拉开了明显的差距。在Blender渲染软件中，技嘉RTX4080MASTER对比RTX3080Ti有着52%的提升，在Octanebench和SPEC中，也有着近52%和34%的提升，整体性能仅比RTX4090低25%左右，表现还是相当可以的。

当然这一代40系显卡还配备了第八代NVIDIANVENC编码器，加入了对AV1编码的支持。作为下一代的视频编码技术，AV1编码拥有更加快速的视频编码和更高质量的流媒体传输性能，目前许多主流媒体都已经支持AV，像达芬奇或万兴喵影等软件也开始逐步支持AV1编解码，未来AV1编码或许会成为一个新趋势。

AV1和H.265容量对比

所以这里我们也测试了技嘉RTX4080MASTER的编解码性能，我们使用NVIDIA提供的8K片源与工程文件进行测试，同样的素材，AV1编码相比H.265编码所需时间更短，而即使同为H.265格式导出，技嘉RTX4090MASTER的导出时长相比RTX3080Ti也快了近62%左右。

值得一提的是，因为编码器的数量都为2个，所以技嘉RTX4080MASTER对比RTX4090两者在视频编解码性能方面表现持平。这意味着对于想要在未来全面拥抱AV1和H.265编码的视频工作室来说，如果只看编解码性能，技嘉RTX4080MASTER似乎是比RTX4090更加划算的选择。

8超频 | 散热&烤机 | 总结

超频

对于这么一张用料豪华的显卡，相信大家对他的超频能力还是比较感兴趣的。下面我们就来简单的小超一下技嘉RTX4080MASTER。

超频软件我们用的是技嘉自家的GCC软件，将风扇转速拉到100%，同时解锁GPU核心电压限制以及功耗限制。在默认频率下，技嘉RTX4080MASTER在3DMark的PortRoyal测试中跑出了18102的分数，通过频率曲线可以看到，GPU的有效频率来到了2850MHz。

经过简单的尝试，我们将GPU的BOOST频率拉到了2710MHz，此时3DMark的PortRoyal测试跑分来到了18748，GPU有效频率来到了3015MHz，相比默频情况下有着3.5%的提升，还是较为可观的。

散热&烤机

最后我们再测试一下技嘉RTX4080MASTER的功耗和散热表现，其实这样的散热规模大可让人放心，感觉都不用测试了。当然为了看下这张技嘉RTX4080MASTER究竟有多凉快我们还是跑了一下Furmark甜甜圈。

在室温25°C的情况下，Furmark甜甜圈1280×720分辨率，在烤机20分钟后，显卡占用率达到了99%，满载功耗为310W，显卡核心频率为2550MHz，核心满载温度稳定在56.9℃。这样的温度表现可以说是毫无意外了。

值得一提的是，技嘉RTX4080MASTER此时的风扇转速也才70%左右，噪音表现控制的相当的出色，丝毫感觉不到明显的噪音。看这核心温度和风扇噪音，要不是看到显卡占用率99%，我差点都有以为这张卡没在烤机，只能说技嘉RTX4080MASTER的这个全新风之力散热系统确实猛。

总结

玩家在苦等了几年后，终于等来了全新的40系显卡，从目前性能解禁的RTX4090和RTX4080看，玩家过去这几年没有白等。而相比旗舰卡皇RTX4090，售价相对较低的RTX4080无疑在游戏玩家中享有更高的关注度。通过目前的测试下来，RTX4080虽然售价相比上一代有所提升，但性能提升还是没有让人失望的。在游戏方面，在4K分辨率下，RTX4080能够以超高画质流畅运行绝大部分游戏，当然想要上到8K可能就需要选择将低一些画质，在中、高画质下，RTX4080也能提供较为不错的体验。而在创作力性能方面，RTX4080相比旗舰RTX4090也又没落后多少，专业创作者来说或许是一个更有性价比的选择。

回到这张技嘉RTX4080MASTER显卡上，硬朗的造型，配上经典的三环灯设计，恰到好处的灯效还有液晶显示屏，让这张卡在的颜值相当出众，极具科技感，个人认为是众多AIC非公显卡中最具设计感的一张显卡之一。

而在用料方面，技嘉RTX4080MASTER可以说是豪华到“离谱”，全新的风之力散热系统，24+3相供电，可以说用料规格基本上就是RTX4090的规格，也可以看出技嘉对RTX4080的重视。而恐怖的堆料带来的则是十分出色的性能释放，简单超频就能轻松跑到3000MHz以上的频率，同时温度表现相当出色，56.9°C的烤机温度只能说“离谱”。

总的来说，RTX4080对得起我们的期待，是一张极其出色的4K游戏显卡。如果你也想要入手一张RTX4080感受新显卡带来的极致游戏体验，那么这张极致堆料的技嘉RTX4080MASTER就是一个绝对的“旗舰”之选！

9Ada Lovelace架构讲解

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元，以及面向AI推理的TensorCore单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RTCore和三代TensorCore基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代RTCores与第四代TensorCores单元，同时加入众多新颖的黑科技，从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores（张量核心）、4个TextureUnits（纹理单元）、256KBRegisterFile（寄存器堆），以及128KBL1数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForceRTX4080拥有76个SM，9728个CUDA核心，那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了，比上一代的RTX3090Ti显卡的40TFLOPS，还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128KB的缓存，这样RTX4080显卡中就实现了97MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD103核心与RTX4080都是64MB二级缓存，相比RTX3080Ti可以说是质的飞跃。

10技术讲解：第三代 RT Cores与第四代 Tensor Cores

技术讲解：第三代 RT Cores与第四代 Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速，第三代RTCores的有效光线追踪计算能力达到191TFLOPS，是上一代产品2.8倍。

在Ampere架构中，第二代RTCores支持边界交叉测试（BoxIntersectiontesting）和三角形交叉测试（TriangleIntersectiontesting），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元：OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine，主要是用于alpha通道的加速，可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中，开发人员使用一些Alpha通道的素材来实现更高效的画面渲染，例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理，那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示，在AdaLovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RTCores更低，效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在AdaLovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程，减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序（ShaderExecutionReordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代RTCores与第四代TensorCores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用GPU资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎，具有高达1.32petaflops的张量处理性能，超过上一代的5倍。

11技术讲解：DLSS3

技术讲解：DLSS3

或者说第四代TensorCores太硬核你不会知道是啥？提升意义在哪？但是TensorCores最经典的应用DLSS你肯定会知道，这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。（演示视频）

之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

在DLSS3中包含了三项技术：DLSS帧生成、DLSS超分辨率（也称为DLSS2）和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS帧生成技术；而后两技术中，DLSS超分辨率只需要GeForceRTX显卡都能使用上，NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单，这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是：利用AI技术生成更多帧，以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而AdaLovelace架构的光流加速器升级到了第二代，其提供了高达300TeraOPS(TOPS)，比安培架构的初代光流加速器（OpticalFlowAcceleration，OFA）快2倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外，由于DLSS帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的，游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能，所以DLSS3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点：NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后，直接达到1440p分辨率360FPS的体验，这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布，包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz，而最猛的是ASUSROGSwift360HzPG27AQN，刷新率直接来到了360Hz。

但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p360Hz是很美好，但现实也是相当的骨感。

12技术讲解：双 NVIDIA 编码器（NVENC）

技术讲解：双 NVIDIA 编码器（NVENC）

GeForceRTX40系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1编码器可将效率提高40%，同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容，这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。

13

北京工业大学计算机考研分数线(北京工业大学计算机考研分数线2022)