有的選就不要做互聯網,不然某天你一覺睡醒就會發現自己欠了雲服務商一套房。
説實話很糟心,大週末又是中秋休假第一天,難得喘口氣又被阿里雲的短信給煩到不行。只不過這次來的信息影響很大,連續發送了十幾條短信和郵件提示我們賬户欠費,然後關聯的各項業務全部停止運行。
這次事件影響到了薇曉朵主服務器和全線業務系統。
凌晨 2 點多收到一條欠費短信,之後就是各項業務逐個停機,由於睡得早,一直到 9 點我醒了查看手機才發現整個平台掛了大半夜。
由於原因不明,也沒睡醒,就先充值了費用讓業務運行起來。
這個時候我是不是應該慶幸説 「還好是週末和休假沒什麼人訪問。」
事實並非如此,這根本就是不應該發生的問題。使用大廠的雲服務理由只有一個——省心。省錢你就別想了,但這種情況最近幾年變得非常複雜,各種故障頻發讓人很鬧心。
這只是離譜的前序。
在解決了問題,可以正常訪問 Weixiaoduo.com 之後,我也清醒了大半,然後開始去翻看扣費賬單和阿里雲 DCDN 配置,我看到有一項是如下圖:
¥ 1,635.575 | 扣費 |
這操作嚇得我趕緊把已經配置了 WAF 的幾個域名給刪掉,因為阿里雲有個奇葩的計費標準是按每條規則來分別計費,也就是説我在此時還沒反應過來,以為是 WAF 安全流量本身就跑了這麼多。
行吧,到這其實這事也就應該結束了。
直到我想起——我早在上兩月就對文派公司業務和菲比斯業務做了拆分,不可能存在這麼多流量同時消耗,而且在文派科技的阿里雲企業賬號裏的服務業務也配置了相同的 DCDN 就沒出現費用暴漲翻倍的情況。
排查不出來原因了,就提交了個阿里雲工單。那麼扯皮正式開始:
您好, 感謝等待,這邊看了下您的日誌,這個應該不是盜刷的,是您的域名在對應時間段有一個 *************************.log 請求記錄,這個文件非常大,164******03 16G 左右,導致您的帶寬升高的
我翻看了這個文件發現是一個日誌文件,然後去 DCND 控制枱也看到了是有個流量異常的點,如下,14 號凌晨 6 點突然流量變成了 18.65GB 。
那麼緊接着的對話讓我感到自己還是太窮了。
您好,該請求只有一次的,盜刷的話一般不會只請求一次的 同時,您的網站端應該也是有這個文件的,即使是您這邊內部人員自行下載的話也是會產生對應的流量信息的 您可以下載下對應時間段的離線日誌,過濾下對應的請求信息,核實下對應的客户端 IP 信息的 大概時間在 14 號的早上 6:55 左右的
到這裏我腦袋裏的問號就更多了,一個 16GB 的文件,被下載了一次,阿里雲直接扣了我一千多?(圖上沒認真核實費用,所以是 1500,實際被全扣是 1600 多)
我也看了阿里雲售後工程師給到的截圖,意思是説這一個文件的請求觸發導致我們站超過阿里雲的流量請求峯值 500Mb/s
基本描述: 按峯值帶寬計費是以當日各個區域節點加速服務分別產生的帶寬最高值 (單位 Mbps) 為結算標準。
那麼問題又來了,
我可以確定阿里雲是因為這一個文件被下載了一次產生的此離譜扣費。
這裏就是開始扯皮的焦點,我很不能理解:
你們這搞的我越想越不對勁,一個文件 16GB 的文件,誰家用帶寬能達到 500M/s 還峯值,下載半分鐘不到就扣 1500 多,意思是這要下載 16TB 我早上起來還得欠你們一套房是吧
在這之後我因為是節假日,我能理解還在上班的都是調休過的,沒必要為難誰。但我能理解別人,誰理解我呢。讓給個確切的回覆也不給。
你要回答或者解決不了可以找一個能解決的人給我回復。
另外在等待回覆的時候,我把我個人的疑問梳理了一遍發過去。
首先大半夜的如果不是夜間值班沒人會在凌晨三四點還在線,3:31 手機收到阿里雲的 ECS 機器欠費短信,之後接着就是一堆服務的欠費通知;然後停機狀態就延續到早上我起來,又是週末又是中秋休假,又是業務全線停擺,我很不爽。但是,但是來了,費用我給阿里結清,業務恢復後再排查了原因無果才找到你們讓排查。
我以為是盜刷,那麼可能這種情況我還能認,自己安全防範沒做到位。有意思的是,你們給我的排查結果是一個單文件被下載了一次然後就超量扣費了 1600 多。這不就來勁了嗎,都是做互聯網這塊的,家用帶寬能達到 500M/s 的基本就不可能,即便是我退一步,這文件是被某個機房或者搜索引擎蜘蛛給爬了,32 秒就下載完,然後你們也能扣 1600 多?
更有意思的地方在於我在講理,你們非要談計費方式,我又不是沒支付,既然在用阿里服務,本身我能認可你們的計費條件,我需要的只是你們給到一個合理的解釋和確切的答覆,沒那麼難吧。
這個 16GB 的文件被人用 32 秒 的你們峯值 500M 帶寬下載了一次能花 1600 多?如果下次我繼續用,被人連續刷一晚上,是不是早上起來就傾家蕩產的還得給你們還賬户欠款???
接下來我收到了阿里雲售後的電話,給我解釋了對應的問題原因,我這裏也複述:
1 、因為我們使用的是 【按帶寬計費模式】 所以導致了帶寬一旦達到某個值就會自動計費;
2 、由於我們站被下載的日誌文件是海外請求所以造成了費用如此之高;
3 、阿里雲系統正常,並沒有判斷這是異常行為,所以沒問題。
到這裏我大概明白也就是説,按照阿里的峯值帶寬算每天是 1600 多的費用。那行,我們先不管阿里收費標準和計費模式,以及誰能做到下載文件能達到 500Mb/s;
我的疑問依舊有下面幾個:
1 、我們以實際情況來講,網站在夜間只有 1 個文件被這麼大流量帶寬下載。
2 、僅 1 個 16GB 文件被 500Mb/s 帶寬下載了 1 次,達到阿里帶寬峯值,維持時間 32 秒;
3 、因為這 32 秒就直接收了全天全量的帶寬費用。
對於這種情況是否合理,是否為異常,是否為系統 bug 自行甄別。我實在是不想浪費太多時間在這上面,因為已經毀了我整個週末。
任何使用阿里雲 DCDN 服務的用户都應該關注這一問題,這不只是我遇到的,你也會遇到,畢竟也不是為我們一家公司服務。
之後我得到的答覆是等上班後會看看要怎麼處理或者給到賠償,話都説到這了,除了謝謝,我能説什麼?都只是在做客户服務,上班看就上班看吧。
這個 16GB 的文件被人用 32 秒 的你們峯值 500M 帶寬下載了一次能花 1600 多?
我一直堅持要這個問題給到一個確切的答覆原因顯而易見,有一次就會有第二次,這些情況只會越來越常見。要答案的目的是確認是否還能繼續用阿里雲服務。
因為我只要還在用阿里雲就得時時刻刻注意這種問題的發生???這次天降大鍋的意外欠費情況導致我們薇曉朵的全部服務無法訪問,造成的損失是不大,因為是雙休日+節假日+凌晨,但是毀了我整個週末問題就很大。
工作日我會繼續跟進阿里的回覆結果,也大概明瞭無非兩種情況,一種是確認異常退費,一種是不認不退,退不退其實都無所謂,因為此事件讓我更加確信不能將雞蛋都放在一個籃子裏。
這篇文章僅代表我個人觀點,你贊不贊同與我關係不大,並且本人對自己的言行 100% 負責。
祝你中秋愉快。
————————————
2024 年 10 月 6 日 補充,目前事情已經處理完畢,阿里給補了張異常扣費同等金額的 CDN 代金券,説實話對他們處理這件事的方式我並不滿意,但無一例外的我給了所有工作人員好評,原因就一個,對事不對人。
電話溝通、工單溝通來來回回好幾次,我確實心情很糟糕,但也只是就事論事,跟阿里的工作人員進行了技術交流和一些常識性的問題科普,另外就是我再重申一點,既然是在用他們平台的服務,我也就默認是認可平台的計費方式和服務。
溝通的焦點最後鎖定到了一點上:我們服務器的帶寬是固定帶寬所以不存在會有超量和下載 500Mb/s 的可能性,只有一個原因,那就是有人通過源服務器請求命中了這個文件,但是在阿里的 CDN 服務器上沒找到對應的緩存文件,所以導致阿里雲自己機房裏薇曉朵服務器上拉取這個文件數據回源,所以才能達到這麼大的帶寬流量和請求超標。
溝通來溝通去,我第一時間專門寫這篇文章但還是等了快大半個月,今天又是選週末才對所有用户推送目的不是興師問罪,只是想看看是不是我技術太菜,錯怪阿里了。直到事件處理完畢,看到了阿里雲在 CDN 後台貼了一條公告,
這才發現我沒錯,這就是你們開發人員各部門沒有協調導致的業務邏輯問題。
【風險提醒】 近期阿里雲 DCDN 團隊收到部分客户反饋域名在無安全防護配置的情況下,遭受大量非正常業務的訪問請求,最終產生高額賬單。關於如何安全使用 DCDN,建議您檢查域名配置,並關注相關風險和應對方案,詳細説明可以參考: 高額賬單風險警示。
上面也就貼上這條公告信息,另外這次因為是多重休假加夜間斷網,對我們實際造成的損失並不大,誰在乎這一千多塊錢呢,每次充值進去沒幾天就燒完了。
我真正爭辯的是這個理,以及菲比斯和文派未來的業務是否敢繼續使用阿里雲 CDN 的問題。現在解決方案給到了,我的態度是會繼續用,但也會逐步的分散業務到其他的服務商去,雞蛋放一個籃子裏實在是太危險了。
祝你國慶愉快。
發表回覆