header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

從清算風暴到雲宕機:加密基礎設施的危機時刻

2025-10-22 14:00
閱讀本文需 35 分鐘
20 日,亞馬遜的 AWS 問題導致 Coinbase 以及包括 Robinhood、Infura、Base 和 Solana 在內的數十個其他主要加密平台癱瘓。
原文標題:Crypto Infrastructure is Far From Perfect
原文作者:YQ,加密 KOL
原文編譯:AididiaoJP,Foresight News


原文編譯:AididiaoJP,Foresight News


亞馬遜設施再次遭遇了重大網路服務。美國東一區域(北維吉尼亞資料中心)的 AWS 問題導致 Coinbase 以及包括 Robinhood、Infura、Base 和 Solana 在內的數十個其他主要加密平台癱瘓。


AWS 已承認影響 Amazon DynamoDB 和 EC2 的「錯誤率增加」,這是數千家公司所依賴的核心資料庫和運算服務。這次中斷為本文的中心論點提供了即時、鮮明的驗證:加密基礎設施對中心化雲端服務供應商的依賴造成了系統性漏洞,這些漏洞在壓力下反覆顯現。


這個時機具有嚴峻的啟發性。就在 193 億美元的清算連鎖事件暴露了交易平台層面的基礎設施故障十天后,今天的 AWS 中斷表明問題已超出單一平台,延伸至基礎性的雲端基礎設施層。當 AWS 發生故障時,級聯影響會同時波及中心化交易平台、具有中心化依賴的「去中心化」平台以及無數其他服務。


這不是孤立事件,而是一種模式。以下分析記錄了 2025 年 4 月、2021 年 12 月和 2017 年 3 月發生的類似 AWS 中斷事件,每次都導致主要加密服務癱瘓。問題不在於下一次基礎設施故障是否會發生,而是何時發生以及觸發因素是什麼。


2025 年 10 月 10-11 日清算連鎖事件:案例研究


2025 年 10 月 10-11 日的清算連鎖事件為基礎設施故障模式提供了一個具有啟發性的案例研究。在 UTC 時間 20:00,一項重大的地緣政治公告引發了市場範圍的拋售。一小時內,發生了 60 億美元的清算。到亞洲市場開盤時,160 萬交易者帳戶中已有 193 億美元的槓桿部位蒸發。


圖 1:2025 年 10 月清算連鎖事件時間線


這個互動式時間軸圖顯示了每小時清算量的戲劇性進展。光是第一小時就有 60 億美元蒸發,隨後在連鎖加速的第二小時更為劇烈。視覺化顯示:


· 20:00-21:00:初始衝擊 - 60 億美元被清算(紅色區域)


· 21:00-22:00:連鎖限時 - 42 億美元,此時 APIp


· 關鍵轉折點:API速率限制、做市商撤退、訂單簿變薄


其規模至少比以往任何加密市場事件大一個數量級,歷史比較顯示了此事件的階躍函數性質:



長條圖比較戲劇性地說明了 2025 年 10 月事件的突出程度:


· 2020 年 3 月(COVID):12 億美元

· 2020 年 3 月(COVID):12 億美元

·<億美元


· 2022 年 11 月(FTX):16 億美元


· 2025 年 10 月:193 億美元比先前記錄大 16 倍


但清算數字只講述了故事的一部分。更有趣的問題關乎機制:外部市場事件是如何觸發這種特定故障模式的?答案揭示了中心化交易平台基礎設施和區塊鏈協議設計中的系統性弱點。


鏈下故障:中心化交易平台架構


基礎設施過載與速率限制


交易平台 API 實作速率限制以防止濫用和管理伺服器負載。在正常操作期間,這些限制允許合法交易同時阻止潛在攻擊。在極端波動期間,當成千上萬的交易者同時嘗試調整部位時,這些相同的速率限制就成了瓶頸。


CEX 將清算通知限制為每秒一個訂單,即使在每秒處理數千個訂單時也是如此。在 10 月的連鎖事件期間,這造成了不透明。使用者無法確定即時的連鎖嚴重程度。第三方監控工具顯示每分鐘有數百次清算,而官方資料來源顯示的則少得多。


API 速率限制阻止了交易者在關鍵的第一小時內修改頭寸,連線請求逾時,訂單提交失敗。停損單未能執行,頭寸查詢返回過時數據,這種基礎設施瓶頸將市場事件轉變成了營運危機。


傳統交易平台為正常負載加上安全餘裕來設定基礎架構。但正常負載與壓力負載截然不同,日均交易量無法很好地預測尖峰壓力需求。在連鎖事件期間,交易量激增 100 倍或更多,對頭寸資料的查詢增加 1000 倍,因為每個用戶同時檢查其帳戶。


圖 4.5:影響加密服務的 AWS 中斷


自動擴充功能的基礎建立新的 API 網關實例需要數分鐘。在那幾分鐘內,保證金系統繼續基於來自過載訂單簿的損壞價格數據來標記頭寸價值。


預言機操縱與定價漏洞


在 10 月的連鎖事件期間,保證金系統中的一個關鍵設計選擇變得明顯:一些交易平台基於內部現貨市場價格而非外部預言機數據流來計算抵押品價值。在正常的市場條件下,套利者維持不同場所間的價格一致性。但當基礎設施承受壓力時,這種耦合就會崩潰。


圖 3:預言機操縱流程圖


這個賣圖譜圖 3:預言機操縱流程圖


這個賣圖譜圖 (p

這個流程的互動式廣告圖

。 USDe 施加 6000 萬美元的拋售壓力


· 價格操縱:USDe 在單一交易所從 1.00 美元暴跌至 0.65 美元


· 預言機故障:保證金系統使用損壞的內部價格資料流


· 連鎖觸發:抵押品被調低估值,強制清算開始


· 放大:總計 193 億美元的清算(放大 32 倍

包裝合成抵押品使用現貨市場價格的設定。當攻擊者將 6000 萬美元的 USDe 拋入相對稀薄的訂單簿時,現貨價格從 1.00 美元暴跌至 0.65 美元。配置為以現貨價格標記抵押品的保證金系統,將所有 USDe 抵押的部位向下重估了 35%。這觸發了數千個帳戶的追加保證金通知和強制清算。


這些清算迫使更多賣單進入同一非流動性市場,進一步壓低價格。保證金系統觀察到這些更低的價格,並標記了更多頭寸的價值,反饋迴路將 6000 萬美元的拋售壓力放大成了 193 億美元的強制清算。


圖 4:清算連鎖回饋迴路


這個循環回饋連結說明了價值下跌:低價值劑量

這個循環回饋→ 強制賣出 → 價格進一步下跌 → [循環重複]


如果採用設計得當的預言機系統,這種機制就不會起作用。如果 Binance 使用了跨多個交易平台的時間加權平均價格(TWAP),瞬時的價格操縱就不會影響抵押品估值。如果他們使用了 Chainlink 或其他多來源預言機的聚合價格資料流,攻擊就會失敗。


四天前的 wBETH 事件展示了類似的漏洞。 wBETH 應保持與 ETH 的 1:1 兌換比率。在連鎖事件期間,流動性枯竭,wBETH/ETH 現貨市場顯示 20% 的折扣。保證金系統相應地調低了 wBETH 抵押品的估值,觸發了實際上由底層 ETH 完全抵押的頭寸的清算。


自動減倉(ADL)機制


當清算無法以當前市場價格執行時,交易平台會實施自動減倉(ADL),將損失分攤給獲利的交易者。 ADL 以當前價格強制平倉獲利頭寸,以彌補被清算部位的缺口。


在 10 月的連鎖事件期間,Binance 在多個交易對上執行了 ADL。持有盈利多頭頭寸的交易者發現他們的交易被強制平倉,並非由於他們自身的風險管理失敗,而是因為其他交易者的頭寸變得資不抵債。


ADL 反映了中心化衍生性商品交易中的一個基本架構選擇。交易平台保證自己不會虧錢。這意味著損失必須由以下一方或多方承擔:


· 保險基金(交易平台預留用於彌補清算缺口的資金)


· ADL(強制獲利交易者平倉)


· ADL(強制獲利交易者平倉)


·社會化損失(將損失分攤給所有使用者)


保險基金規模相對於未平倉合約的規模決定了 ADL 的頻率。 Binance 的保險基金在 2025 年 10 月總計約 20 億美元。相對於 BTC、ETH 和 BNB 永續合約的 40 億美元未平倉合約,這提供了 50% 的覆蓋率。但在 10 月的連鎖事件期間,所有交易對的未平倉合約總額超過了 200 億美元。保險基金無法涵蓋缺口。


10 月連鎖事件後,Binance 宣布,當總未平倉合約維持在 40 億美元以下時,他們保證 BTC、ETH 和 BNB USDⓈ-M 合約不會發生 ADL。這創造了一種激勵結構:交易平台可以維持更大的保險基金以避免 ADL,但這會佔用本來可以獲利部署的資金。


鏈上故障:區塊鏈協議的局限性


條形圖比較了不同事件中的停機時間:


· Solana(2024 年 2 月):5 小時 - 投票


· Optimism(2024 年 6 月):2.5 小時 - 定序器過載(空投)


· Solana(2024 年 9 月):


· Solana(2024 年 9 月):4.5 小時Arbitrum(2024 年 12 月):1.5 小時 - RPC 供應商故障


圖 5:主要網絡中斷 - 持續時間分析


Solana:共識瓶頸


Solana:共識瓶頸




20p 202020202020 2020202020p>

<2024 年 2 月的中斷持續了約 5 小時,2024 年 9 月的中斷持續了 4-5 小時。這些中斷源自於相似的根本原因:網路在垃圾郵件攻擊或極端活動期間無法處理交易量。


圖 5 詳情:Solana 的中斷(2 月 5 小時,9 月 4.5 小時)凸顯了壓力下網路彈性的反覆出現的問題。


Solana 的架構為吞吐量進行了最佳化。在理想條件下,網路處理每秒 3,000-5,000 筆交易,並具有亞秒最終性。這種性能比以太坊高出幾個數量級。但在壓力事件期間,這種優化創造了漏洞。


2024 年 9 月的中斷源自於一波垃圾交易洪流,壓垮了驗證器的投票機制。 Solana 驗證器必須對區塊進行投票以達成共識。在正常操作期間,驗證器優先處理投票交易以確保共識進展。但該協議先前在費用市場方面將投票交易視同常規交易。


當交易記憶體池充滿數百萬的垃圾交易時,驗證器難以傳播投票交易。沒有足夠的投票,區塊就無法最終確定。沒有最終確定的區塊,鏈就停止了。有待處理交易的用戶看到它們卡在記憶體池中。新交易無法提交。


StatusGator 記錄了 2024-2025 年多次 Solana 服務中斷,而 Solana 從未正式承認。這造成了資訊不對稱。使用者無法區分本地連線問題與全網範圍的問題。第三方監控服務提供了問責制,但平台應維護全面的狀態頁面。


以太坊:Gas 費爆炸


以太坊在 2021 年 DeFi 繁榮期間經歷了極端的 Gas 費飆升,簡單轉帳的交易費超過 100 美元。複雜的智能合約互動花費 500-1000 美元。這些費用使得網路對於較小額的交易無法使用,同時啟用了不同的攻擊向量:MEV 提取。


圖 7:網絡壓力期間的交易成本


這張折線圖戲劇性地顯示了壓力事件期間各式高


· Arbitrum:0.50 美元 → 15 美元 - 增加 30 倍


· Optimism:0.30 美元倍


可視化表明,即使 Layer 2 解決方案也經歷了顯著的 Gas 費升級,儘管起點要低得多。


最大可提取價值(MEV)描述了驗證器透過重新排序、包含或排除交易可以提取的利潤。在高 Gas 費環境中,MEV 變得特別有利可圖。套利者競相搶跑大型 DEX 交易,清算機器人競相先清算抵押貸款不足的部位。這種競爭表現為 Gas 費競價戰。


想要在壅塞期間確保交易被包含的使用者必須出價高於 MEV 機器人。這造成了交易費超過交易價值的情境。想領取你的 100 美元空投?支付 150 美元的 Gas 費。需要添加抵押品以避免清算?與支付 500 美元優先費的機器人競爭。


以太坊的 Gas 限制限制了每個區塊的總計算量。在擁塞期間,用戶競標稀缺的區塊空間。費用市場依設計工作:出價更高者獲得優先權。但這種設計使得網路在高使用量期間越來越昂貴,而這正是發生在使用者最需要存取的時候。


Layer 2 解決方案試圖透過將計算移至鏈下來解決這個問題,同時透過定期結算繼承以太坊的安全性。 Optimism、Arbitrum 和其他 Rollup 在鏈下處理數千筆交易,然後將壓縮證明提交給以太坊。這種架構在正常操作期間成功降低了每筆交易的成本。


Layer 2:定序器瓶頸


但 Layer 2 解決方案引進了新的瓶頸。 Optimism 在 2024 年 6 月當 25 萬個地址同時申領空投時經歷了一次中斷。定序器在將交易提交給以太坊之前對交易進行排序的組件不堪重負,用戶有幾個小時無法提交交易。


這次中斷表明,將計算移至鏈下並不能消除基礎設施需求。定序器必須處理傳入交易,對它們進行排序,執行它們,並為以太坊結算產生詐欺證明或 ZK 證明。在極端流量下,定序器面臨與獨立區塊鏈相同的擴展挑戰。


必須保持多個 RPC 提供者的可用性。如果主提供者故障,使用者應無縫故障轉移到備選方案。在 Optimism 中斷期間,一些 RPC 提供者保持功能,而其他則出現故障。錢包預設連接到故障提供者的用戶無法與鏈交互,即使鏈本身仍然在線。


AWS 中斷已反覆證明加密生態系統中存在集中的基礎設施風險:


· 2025 年 10 月 20 日(今日):美國東一區域中斷影響 Coinbase,以及 Venmo、Robinhood 和 Chime。 AWS 承認 DynamoDB 和 EC2 服務錯誤率增加。


· 2025 年 4 月:區域性中斷同時影響幣安、KuCoin 和 MEXC。當其 AWS 託管的元件出現故障時,多個主要交易所變得不可用。


· 2021 年 12 月:美國東一區域中斷導致 Coinbase、Binance.US 以及「去中心化」交易平台 dYdX 癱瘓 8-9 小時,同時影響亞馬遜自己的倉庫和主要串流服務。


· 2017 年 3 月:S3 中斷阻止使用者登入 Coinbase 和 GDAX 達五小時,同時伴隨廣泛的網路中斷。


模式很清楚:這些交易平台在 AWS 基礎架構上託管關鍵元件。當 AWS 經歷區域性中斷時,多個主要交易平台和服務同時變得無法使用。用戶在中斷期間無法存取資金、執行交易或修改頭寸,而這恰恰是市場波動可能要求立即採取行動的時候。


Polygon:共識版本不符


Polygon(前身為 Matic)在 2024 年 3 月經歷了 11 小時的中斷。根本原因涉及驗證器版本不匹配,一些驗證器運行舊軟體版本,而其他驗證器運行升級後的版本。這些版本以不同方式計算狀態轉換。


圖 5 詳情:Polygon 中斷(11 小時)是所分析的主要事件中最長的,凸顯了共識故障的嚴重性。


當驗證器對正確狀態得出不同結論時,共識失敗,鏈無法產生新區塊,因為驗證器無法就區塊有效性達成一致。這造成了僵局:運行舊軟體的驗證器拒絕運行新軟體的驗證器產生的區塊,而運行新軟體的驗證器拒絕運行舊軟體的驗證器產生的區塊。


解決需要協調驗證器升級,但在中斷期間協調驗證器升級需要時間。每個驗證器操作員必須被聯繫,必須部署正確的軟體版本,並且必須重新啟動其驗證器。在一個擁有數百個獨立驗證器的去中心化網路中,這種協調需要數小時或數天。


硬分叉通常使用區塊高度觸發器。所有驗證器在特定區塊高度前升級,確保同時激活,但這需要事先協調。增量升級,即驗證器逐步採用新版本,存在造成導致 Polygon 中斷的確切版本不匹配的風險。


架構權衡


圖 6:區塊鏈三難困境 - 去中心化 vs效能


這個散點圖視覺化將不同系統映射到兩個關鍵維度:


· 比特幣:高去中心化,低效能


· 以太坊:高去中心化,中等效能


· Binance(CEX):最小去中心化,最大性能


· Arbitrum/Optimism:中高去中心化,中等性能


見解


中心化交易平台透過架構簡單性實現低延遲,撮合引擎在微秒內處理訂單,狀態存在於中心化資料庫中。沒有共識協議引入開銷,但這種簡單性創造了單點故障,當基礎設施承受壓力時,級聯故障通過緊密耦合的系統傳播。


去中心化協定將狀態分佈在驗證器之間,消除了單點故障。高吞吐量鏈在中斷期間保持此屬性(資金無損失,僅活性暫時受損)。但在分散式驗證器之間達成共識引入了計算開銷,驗證器必須在狀態轉換最終確定之前達成協議。當驗證器運行不相容的版本或面臨壓倒性的流量時,共識過程可能會暫時停止。


新增副本提高了容錯能力,但增加了協調成本。在拜占庭容錯系統中,每個額外的驗證器都會增加通訊開銷。高吞吐量架構透過最佳化的驗證器通訊來最小化這種開銷,從而實現卓越效能,但容易受到某些攻擊模式的影響。注重安全性的架構優先考慮驗證器多樣性和共識穩健性,限制基礎層吞吐量,同時最大化彈性。


Layer 2 解決方案試圖透過分層設計來提供這兩種屬性。它們透過 L1 結算繼承以太坊的安全屬性,同時透過鏈下計算提供高吞吐量。然而它們在定序器和 RPC 層引入了新的瓶頸,顯示架構複雜性在解決一些問題的同時創造了新的故障模式。


擴充仍然是根本問題


這些事件揭示了一個一致的模式:系統為正常負載配置資源,然後在壓力下災難性地失敗。 Solana 有效處理了常規流量,但在交易量增加 10,000% 時崩潰。以太坊 Gas 費保持合理,直到 DeFi 採用引發擁塞。 Optimism 的基礎設施運作良好,直到 25 萬個位址同時申領空投。幣安的 API 在正常交易期間功能正常,但在清算連鎖期間受到限制。


2025 年 10 月的事件在交易所層級展示了這種動態。在正常操作期間,幣安的 API 速率限制和資料庫連線足夠,但在清算連鎖期間,當每個交易者同時嘗試調整部位時,這些限制就成了瓶頸。旨在透過強制清算保護交易所的保證金系統,透過在最糟糕的時刻創造強制賣方,放大了危機。


自動擴展對階躍函數式的負載增加所提供的保護不足。啟動額外的伺服器需要數分鐘,在那幾分鐘內,保證金系統基於來自稀薄訂單簿的損壞價格數據來標記頭寸價值,等到新容量上線時,連鎖反應已經傳播。


為罕見的壓力事件過度配置資源在正常操作期間耗費資金。交易所營運商為典型負載進行最佳化,接受偶爾的故障作為經濟上合理的選擇。停機的成本外部化給用戶,他們在關鍵市場變動期間經歷清算、交易卡住或無法存取資金。


基礎設施改善


圖 8:基礎設施故障模式分佈(2024-2025)

根本原因的圓餅圖分解顯示:


· 基礎設施過載:35%(最常見)


· 網路壅塞:20%


· 共識失敗:18%

預言機操弄:12%


· 驗證器問題:10%


·智慧合約漏洞:5%


幾種架構變更可以減少故障頻率和嚴重性,儘管每種都涉及權衡:


定價系統與清算系統的分離


定價系統與清算系統的分離


10 月的問題部分源自於現貨。包裝資產使用兌換比率而非現貨價格本可以避免 wBETH 的錯誤定價。更普遍地說關鍵的風險管理系統不應依賴可能被操縱的市場數據。具有多源聚合和 TWAP 計算的獨立預言機系統提供更穩健的價格資料流。


過度配置和冗餘基礎設施


2025 年 4 月影響 Binance、KuCoin 和 MEXC 的 AWS 中斷證明了集中基礎設施依賴的風險。跨多個雲端供應商運行關鍵元件增加了營運複雜性和成本,但消除了關聯故障。 Layer 2 網路可以維護多個具有自動故障轉移的 RPC 供應商。額外的費用在正常操作期間看似浪費,但在尖峰需求期間防止了多小時的停機。


增強的壓力測試和容量規劃


系統在正常時運作良好直至失敗的模式表明在壓力下的測試不足。模擬 100 倍正常負載應是標準實踐,在開發中識別瓶頸的成本低於在實際中斷期間發現它們。然而現實的負載測試仍然具有挑戰性。生產流量表現出合成測試無法完全捕捉的模式,使用者在實際崩潰期間的行為與測試期間不同。


前進之路


過度配置提供了最可靠的解決方案,但與經濟誘因相衝突。為罕見事件維持 10 倍的過剩容量每天都需要花錢,以防止每年發生一次的問題。在災難性故障施加足夠成本以證明過度配置合理之前,系統將在壓力下繼續失敗。


監管壓力可能迫使改變。如果法規強制要求 99.9% 的正常運作時間或限制可接受的停機時間,交易平台將需要過度配置。但法規通常跟著災難而來,而不是預防它們。 Mt. Gox 在 2014 年的崩盤導致日本製定了正式的加密貨幣交易平台法規。 2025 年 10 月的連鎖事件很可能引發類似的監管回應。這些回應是指定結果(最大可接受停機時間、清算期間最大滑點)還是實施方式(特定的預言機提供者、熔斷門檻)尚不確定。


根本的挑戰在於,這些系統在全球市場中持續運行,但依賴於為傳統商業時間設計的基礎設施。當壓力在 02:00 發生時,團隊爭相部署修復,而使用者面臨不斷增加的損失。傳統市場在壓力期間停止交易;加密市場只是崩潰。這代表的是特性還是缺陷,取決於視角和立場。


區塊鏈系統在短時間內實現了顯著的技術複雜性。在數千個節點之間維持分散式共識代表了真正的工程成就。但要在壓力下實現可靠性,需要超越原型架構,轉向生產級的基礎設施。這種轉變需要資金,並需要將穩健性置於功能開發速度之上。


挑戰在於,在牛市期間,當每個人都在賺錢且停機似乎是別人的問題時,如何將穩健性置於增長之上。等到下一個週期壓力測試系統時,新的弱點將會出現。產業是從 2025 年 10 月吸取教訓,還是重複類似的模式,仍然是一個懸而未決的問題。歷史表明,我們將透過另一次壓力下的數十億美元失敗來發現下一個關鍵漏洞。


原文連結


歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

本平台現已全面集成Farcaster協議, 如果您已有Farcaster帳戶, 可以登錄 後發表評論
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交