作为CleanTechnica系列中有关使用机器学习来推动我们的低碳未来的一部分,如果不指出碳债务的话,那将是一个错误。但是,据我估计,情况还没有今年早些时候报道的那么糟糕。
让我们谈谈这项研究本身及其所作的假设。引起轰动的论文是马萨诸塞州阿默斯特大学的Strubell,Ganesh和McCallum撰写的《自然语言处理中的深度学习的能源和政策考虑》,该论文于2019年6月发表。Strubell和McCallum是建立了最先进的自然语言处理模型LISA的团队的一部分。这表示语言学上的自我关注,正如该系列的追随者会记住的那样,关注是机器学习的核心。
提供的一些CO2e排放量的数字非常大,其中一个模型是一种先进的翻译模型,称为用于神经体系结构搜索的“进化变压器”,计算出的碳债务为626,155 lbs CO2e,以进行培训和优化。300吨的二氧化碳当量虽然很多,但需要一定的环境,然后使用可能更好的假设进行重新计算。
提醒一下,神经网络偶尔训练并且经常使用多次。采用特斯拉机器学习模型,它拥有神经网络芯片的道路上有超过500,000辆汽车,而且特斯拉的Autopilot和Autosteer功能得到的使用人数比任何竞争对手都要多。结果,在考虑训练神经网络的碳债务时,我们必须将其与实际执行的次数以及出于什么目的进行比较。假设每辆特斯拉汽车都取代一台内燃机汽车,并且当使用自主功能时,汽车实际上更加高效,这是对机器学习的高度有益的使用。
作为另一个示例,该系列中的较早文章探讨了CoastalDem机器学习模型。机器学习的使用获取了北美卫星雷达沿海高程数据,并用来自激光雷达的地面实况对其进行了训练,并针对澳大利亚激光雷达进行了验证,然后将其用于整个世界。该模型执行了几次,但最终结果是调整后的沿海海拔的静态数据集,该数据集已在全球范围内用于政策和气候行动计划。在这种情况下,对来自气候变化的实际威胁和产出的多次重复利用的理解超过了碳债务。
当然,并非所有示例都如此有益。最近,该系列中的一篇文章评估了Heliogen聚焦聚光太阳能(CSP)的改进,并发现尽管机器学习部分很有趣并且可以在其他领域重用,但最终结果不太可能具有任何价值。当然,其较高的CSP声称的用例并没有受到审查。
接下来,让我们看看这项研究所做的假设。我测试的关键是该论文假设模型训练的假设值为每千瓦时0.954磅二氧化碳当量。那是美国的平均水平,而当我看时,我有一个假设,即在进行了大多数深度机器学习工作的地方,它可能被夸大了。
为此,我首先将当前每千瓦时CO2e的数据汇总在一起。
作者来自IEA数据的图表
可以看出,美国平均值掩盖了计算能力方面潜在的大量CO2e债务差异。在华盛顿州接受过使用直网电力供电的计算资源进行培训的模型,其碳债务将是怀俄明州接受培训的人的十分之一。
我的假设是,报告中的许多模型都将基于加利福尼亚。来自加利福尼亚州电网的每千瓦时0.47磅的二氧化碳当量仅占美国平均碳债务的50%。
但是,在确定了这一点之后,我便更深入了。我在论文中查看了每个具有计算出的碳债务的主要模型,以了解它们的实际培训位置,并假设至少有一个或两个模型将在Google数据中心接受培训,并且Google会提供100%的可再生能源承诺和补偿。结果与我的预期大相径庭。
作者表
这些是每篇论文的模型和相关的培训CO2e负担。当我深入研究使用的计算资源时,我发现除了一种情况外,它们都是用于学习的Google或Azure计算资源。第3至第6列是本文建议的内容与可能准确的内容之间的方差计算。需要明确的是,NAS Evolved Transformer模型仍可看到10吨CO2e,这是相当可观的,但仅占研究结论的一小部分。
我在今年早些时候根据公开数据进行了粗略评估,即什么是云计算的碳债务?我的评估发现,在最大的云提供商中,Google和Microsoft Azure的碳债务到目前为止是最低的,他们不仅致力于实现其正在努力实现的100%碳中和电力,而且还购买了高品质的碳补偿来他们的运作。鉴于风,太阳能和水电的整个生命周期排放,这使得每千瓦时的CO2e降低至0.033磅范围。亚马逊的AWS还不如美国的AWS,但在2018年其数据中心的可再生能源仍然达到了50%,这意味着其运营远远低于美国的平均水平。
本文的作者使用了另一种方法来评估数据中心负载。他们从2017年绿色和平组织关于该主题的报告开始,因此该报告相对可靠,但是根本没有引用每千瓦时的二氧化碳当量,但保持沉默。相反,它报告了实际购买的发电的不同组合,并提供了其中的百分比。毫不奇怪,所有主要的云提供商都购买了比电网平均水平低的低碳电力,但也不足为奇的是,他们仍然必须购买由煤炭和天然气产生的兆瓦时。我不会质疑绿色和平组织的方法,但是我确实发现Google和Microsoft大量购买可再生电力与声称其数据中心主要使用天然气和煤炭发电的说法之间存在很大差异。我怀疑Google和Microsoft正在从可再生能源中购买足够的电力来开展其业务,但绿色和平组织并未选择将其归功于他们。
但这并不是本文假设的最大问题。这样的假设是,由于亚马逊的AWS是最受欢迎的云计算平台,并且每个绿色和平组织的细分与美国的细分大致相同,因此美国平均水平是可以使用的。从上表的评估结果可以看出,没有一种评估模型使用了Amazon,因此结果的可靠性有点问题。
需要明确的是,我假设可再生能源的平均CO2e假设Google和Microsoft已购买了抵消额以使其到达那里,而不是直接购买可再生能源,但他们也可能会为整个生命周期较低的CO2e购买抵消额。
这并不是说我们应该忽略这项研究。
图表由openai.com提供
开放式AI-再次回到Elon Musk-发布了多年来对训练机器学习所需的计算周期的评估。他们发现,机器学习功能的重大进步表明所需的CPU周期呈指数增长,在此对数图中以直线显示。
随着提高CPU周期以促进机器学习的同时,计算机技术的效率也得到了提高,同时碳排放量也有所降低,但值得关注。它只会增加。
注意:我已联系研究主要作者发表评论。如果他们回到我身边,这篇文章将会更新。