性色毛片免费视频|无码精品日韩中文字幕|亚洲不卡无码a∨在线|亚洲综合国产精品无码一区|日韩精品视频在线免费观看|97美女超碰精品国产麻豆|天天摸天天爽天天喊97现看|欧美在线观看精品一区二区三区

會(huì)員登錄 立即注冊(cè)

搜索

[切換城市]

世界杯將是壓垮Twitter的最后一根稻草?全世界在等Twitter宕機(jī)

新資訊 2022-11-27 15:42 InfoQ 19 0


有報(bào)道稱,卡塔爾世界杯可能是壓垮 Twitter 的最后一根稻草。一位離職的 Twitter 員工對(duì)外媒表示,Twitter 50%的概率會(huì)在為期 29 天的世界杯期間發(fā)生重大服務(wù)中斷。他認(rèn)為,Twitter 在世界杯期間肯定會(huì)發(fā)生一些事故,比如服務(wù)響應(yīng)緩慢或錯(cuò)誤,用戶能看到的概率有 90%。


當(dāng)被問(wèn)及 Twitter 有什么計(jì)劃來(lái)解決世界杯期間可能出現(xiàn)的問(wèn)題時(shí),他說(shuō):據(jù)我所知沒(méi)有。我們本應(yīng)該在幾周前就開始準(zhǔn)備了。


關(guān)鍵運(yùn)行團(tuán)隊(duì)離開,Twitter 故障問(wèn)題初顯


曾應(yīng)對(duì)過(guò) 2014 年世界杯的 Twitter 前軟件工程師 John Ioannidis 表示,即使擁有最好的設(shè)備和硬件,突然涌入的流量也會(huì)造成問(wèn)題。根據(jù) Ioannidis 介紹,2014 年巴西世界杯時(shí), Twitter 一直在監(jiān)控自己的基礎(chǔ)設(shè)施,以確保整個(gè)世界杯期間保持在線。據(jù)悉,2010 年世界杯期間,Twitter 就因無(wú)法應(yīng)對(duì)高流量而下線。


對(duì)比賽期間可能出現(xiàn)的高流量,薩里大學(xué)網(wǎng)絡(luò)安全教授 Alan Woodward 感到十分擔(dān)憂,“Twitter 現(xiàn)在似乎在賭運(yùn)氣,根據(jù)我的經(jīng)驗(yàn),這不是一種可靠的方法。


而實(shí)際上,在世界杯開始前,已經(jīng)有跡象表明 Twitter 背后錯(cuò)綜復(fù)雜的基礎(chǔ)設(shè)施已經(jīng)出現(xiàn)問(wèn)題,如轉(zhuǎn)發(fā)無(wú)法正常使用、雙重身份驗(yàn)證報(bào)錯(cuò)致難以登陸、保存的草稿莫名被刪除等。


當(dāng)然,造成這些擔(dān)憂和問(wèn)題的直接原因就是現(xiàn)在的 Twitter 確實(shí)沒(méi)有足夠的工程師來(lái)進(jìn)行準(zhǔn)備和維護(hù)工作。據(jù)媒體稱,Twitter 負(fù)責(zé)流量高峰期管理網(wǎng)站的團(tuán)隊(duì)已經(jīng)有三分之一的工程師離職,另外 Twitter 核心系統(tǒng)庫(kù)的團(tuán)隊(duì)也已經(jīng)解散,有前員工形容沒(méi)有這個(gè)團(tuán)隊(duì),你就無(wú)法運(yùn)營(yíng) Twitter。其他如前端團(tuán)隊(duì)、API 團(tuán)隊(duì)等也都沒(méi)有幸免于難。


我知道有六個(gè)關(guān)鍵系統(tǒng)(比如推送的關(guān)鍵系統(tǒng))已經(jīng)沒(méi)有任何工程師了,有 Twitter 的前員工表示,這個(gè)系統(tǒng)甚至不再有骨干人員。它會(huì)繼續(xù)自動(dòng)運(yùn)行,直到遇到什么東西,然后就會(huì)停下來(lái)。


實(shí)際上,在3500 名員工被裁、2000 多人主動(dòng)離職后,Twitter 原來(lái)維護(hù)網(wǎng)站正常運(yùn)行的幾個(gè)關(guān)鍵團(tuán)隊(duì)都部分或全部解散。其中,在馬斯克發(fā)出最后通牒后辭職的員工中,許多人是 Twitter 最有經(jīng)驗(yàn)的員工,甚至有些人在 Twitter 工作的時(shí)間是這家公司存在時(shí)間的一半。


Twitter 員工透露,由于目前維護(hù)關(guān)鍵服務(wù)的全天候輪班員工不夠用,這部分員工已經(jīng)開始外出借人,試圖通過(guò)培訓(xùn)公司其他部門的同事來(lái)幫助減輕工作量。另一方面,馬斯克的鐵血裁員也落下了帷幕,目前開始正在招聘工程師和廣告銷售人員。在關(guān)鍵的招聘方面,我想說(shuō)那些擅長(zhǎng)編寫軟件的人是最優(yōu)先的。馬斯克在最近的全體員工大會(huì)上表示。


最優(yōu)秀的人都留下來(lái)了,所以我不是特別擔(dān)心。馬斯克 18 日發(fā)推說(shuō)道。


雖然馬斯克很樂(lè)觀,但網(wǎng)上很多開發(fā)者認(rèn)為 Twitter 出現(xiàn)故障在所難免。他(馬斯克)有從根本上改變堆棧的宏偉愿景。他的更改不會(huì)有適當(dāng)?shù)臏y(cè)試,因?yàn)樗懈呒?jí)工程師都離開了,他的 SRE 員工不在那里監(jiān)控新功能或進(jìn)行容量規(guī)劃。所以剩下的很多將是擁有 H1B 簽證的工程師,他們不能離開,無(wú)法反駁馬斯克的要求,而且會(huì)過(guò)度勞累,變得足夠硬核,無(wú)情地工作、精疲力盡、不做應(yīng)有的努力。Twitter 將出現(xiàn)一些重大中斷,過(guò)去處理過(guò)這些事件的大多數(shù)人都離開了。因此,這將比我們以往看到的任何情況都更嚴(yán)重、持續(xù)時(shí)間更長(zhǎng)。


當(dāng)然也有開發(fā)者表示,如果什么都不改變,那么什么都不會(huì)破壞。我想如果有什么問(wèn)題的話,他們會(huì)在部署新東西同時(shí)不破壞其他功能時(shí)遇到問(wèn)題。問(wèn)題將發(fā)生在開發(fā)服務(wù)器上,而不是生產(chǎn)服務(wù)器上。


倫敦大學(xué)教授 Steven Murdoch 認(rèn)為,Twitter 將難以處理復(fù)雜的故障。他表示,即使公司雇用新員工或重新分配現(xiàn)有員工的任務(wù),而且交接過(guò)程順利,這些人了解相關(guān)系統(tǒng)的工作方式也可能需要幾個(gè)月的時(shí)間。



馬斯克發(fā)布的 Twitter“架構(gòu)圖


為什么還沒(méi)有宕機(jī)?


從硬件到軟件/代碼,可能導(dǎo)致 Twitter 宕機(jī)的原因有很多。一位擁有 10 年以上行業(yè)經(jīng)驗(yàn)的 SRE 總結(jié)了五十多個(gè)影響因素,包括簡(jiǎn)單錯(cuò)誤代碼問(wèn)題、硬盤驅(qū)動(dòng)器已滿,到大型活動(dòng)、外部攻擊等等。


雖然現(xiàn)在有問(wèn)題出現(xiàn),但 Twitter 還可以繼續(xù)運(yùn)行,新的推文仍不斷涌現(xiàn)。在 Twitter 工作五年的站點(diǎn)可靠性工程師(SRE Matthew Tejo 在自己的文章中介紹了 Twitter 至今沒(méi)有宕機(jī)的原因:前期大量投入的自動(dòng)化設(shè)施。Matthew 有四年的時(shí)間是 Twitter 緩存團(tuán)隊(duì)里的唯一 SRE,負(fù)責(zé)自動(dòng)化、可靠性和運(yùn)營(yíng)工作,設(shè)計(jì)并實(shí)現(xiàn)了大部分保持功能運(yùn)行的工具。


緩存承載著用戶在網(wǎng)站上看到的大部分內(nèi)容。推文、所有時(shí)間線、直接消息、廣告、身份驗(yàn)證等,都是由緩存團(tuán)隊(duì)的服務(wù)器負(fù)責(zé)提供。一旦緩存出現(xiàn)問(wèn)題,用戶會(huì)立刻受到顯性影響。


Matthew 加入團(tuán)隊(duì)后的第一個(gè)項(xiàng)目,就是將退役的舊設(shè)備換成新機(jī)器。當(dāng)時(shí)根本就沒(méi)有相應(yīng)的工具或者自動(dòng)化選項(xiàng),Matthew 拿到的只有一份標(biāo)記著服務(wù)器名稱的電子表格。不過(guò)現(xiàn)在好緩存團(tuán)隊(duì)的運(yùn)營(yíng)已經(jīng)升級(jí)完畢,不再像當(dāng)初那么粗糙。


Matthew 介紹,Twitter 保證緩存運(yùn)行的頭號(hào)大事,就是把它們放在 Mesos 上以 Aurora 作業(yè)的形式運(yùn)行。Aurora 會(huì)找到運(yùn)行應(yīng)用程序的服務(wù)器,Mesos 則將所有服務(wù)器聚合起來(lái)以供 Aurora 感知。Aurora 還會(huì)在應(yīng)用程序啟動(dòng)后保持其運(yùn)行。如果說(shuō)一個(gè)緩存集群需要 100 臺(tái)服務(wù)器,那 Aurora 就會(huì)盡量保持這 100 臺(tái)全部運(yùn)行。


如果服務(wù)器出于某種原因而斷開,Mesos 能及時(shí)檢測(cè)到問(wèn)題,將有問(wèn)題的服務(wù)器從聚合池中刪除,這時(shí)候 Aurora 會(huì)知道只有 99 臺(tái)緩存服務(wù)器在運(yùn)行。于是,Aurora 會(huì)自動(dòng)再找臺(tái)服務(wù)器接入,將總數(shù)恢復(fù)到 100。整個(gè)流程全面自動(dòng)化,無(wú)需任何人為參與。


Twitter 數(shù)據(jù)中心,服務(wù)器被安置在機(jī)架當(dāng)中。機(jī)架上的服務(wù)器通過(guò)交換機(jī)設(shè)備與其他服務(wù)器連接。再往外走,這些設(shè)備再通過(guò)交換機(jī)和路由器繼續(xù)擴(kuò)展,最終建立起完整的復(fù)雜系統(tǒng)、接入互聯(lián)網(wǎng)。單個(gè)機(jī)架可以容納 20 30 臺(tái)服務(wù)器。其中機(jī)架可能發(fā)生故障、交換機(jī)可能損壞、電源也可能宕掉,導(dǎo)致全部 20 臺(tái)服務(wù)器陷入停機(jī)。


Aurora Mesos 另一大優(yōu)勢(shì)就是確保不會(huì)把太多應(yīng)用程序放進(jìn)同一個(gè)機(jī)架。這樣即使整個(gè)機(jī)架突然停轉(zhuǎn),Aurora Mesos 也能找到新的服務(wù)器并把應(yīng)用負(fù)載轉(zhuǎn)移過(guò)去,不致影響到用戶感受。


在我之前提到的電子表格里,還記錄著機(jī)架上的服務(wù)器數(shù)量。能感受到,前任管理員在努力保證每個(gè)機(jī)架上別塞進(jìn)太多服務(wù)器。而現(xiàn)在我們有了更強(qiáng)大的工具,能夠持續(xù)追蹤每一臺(tái)新接入的服務(wù)器,所以整個(gè)流程就更順暢了。這些工具能夠確保團(tuán)隊(duì)在各機(jī)架上均衡部署物理服務(wù)器,而且一切都會(huì)以故障發(fā)生時(shí)不致引起大麻煩的方式進(jìn)行排布。”Matthew 表示。


不過(guò),Mesos 沒(méi)辦法切實(shí)檢測(cè)到每一項(xiàng)服務(wù)器故障,所以 Matthew 團(tuán)隊(duì)還得對(duì)硬件問(wèn)題進(jìn)行額外的監(jiān)控,關(guān)注磁盤和內(nèi)存損壞之類的問(wèn)題。這些情況不一定會(huì)拖垮整臺(tái)服務(wù)器,但卻往往導(dǎo)致其運(yùn)行緩慢。我們有一個(gè)警報(bào)儀表板,可以掃描損壞的服務(wù)器。一旦檢測(cè)到某服務(wù)器發(fā)生問(wèn)題,我們會(huì)自動(dòng)創(chuàng)建一項(xiàng)修復(fù)任務(wù),引導(dǎo)數(shù)據(jù)中心的運(yùn)維人員前往查看。


緩存團(tuán)隊(duì)還掌握著另一款重要軟件(服務(wù))用于跟蹤緩存集群時(shí)間。如果在短時(shí)間內(nèi)有大量服務(wù)器被標(biāo)記為宕機(jī),則要求關(guān)閉緩存的新任務(wù)將被拒絕,直到恢復(fù)安全。Matthew 團(tuán)隊(duì)希望通過(guò)這種方式避免整個(gè)緩存集群被關(guān)閉,進(jìn)而拖垮受其保護(hù)的服務(wù)體系。


他們還解決了警報(bào)太多而無(wú)法快速關(guān)閉、無(wú)法通過(guò)一次維護(hù)解決的大規(guī)模報(bào)錯(cuò)、Aurora 找不到足夠的新服務(wù)器來(lái)容納舊任務(wù)等各類問(wèn)題。要為檢測(cè)到的損壞服務(wù)器創(chuàng)建修復(fù)任務(wù),我們首先會(huì)檢查這項(xiàng)服務(wù)來(lái)確定能否安全刪除其中的作業(yè)。在損壞服務(wù)器被清空之后,即會(huì)獲得安全標(biāo)記,由數(shù)據(jù)中心技術(shù)人員前往處理。處置完成、標(biāo)記切換為已修復(fù)之后,我們會(huì)再次使用工具查找并自動(dòng)激活該服務(wù)器,讓它重新承載和運(yùn)行作業(yè)。整個(gè)流程中,唯一需要的人手就是數(shù)據(jù)中心內(nèi)的運(yùn)維技術(shù)人員(不知道他們還在不在崗)。”Matthew 介紹道。


另外,重復(fù)申請(qǐng)的問(wèn)題也得到了解決。之前的一些 bug 會(huì)導(dǎo)致無(wú)法重新添加新的緩存服務(wù)器(啟動(dòng)時(shí)出現(xiàn)了競(jìng)爭(zhēng)條件),有時(shí)候可能需要長(zhǎng)達(dá) 10 分鐘才能重新添加服務(wù)器(O(n^n) 邏輯)。有了自動(dòng)化系統(tǒng)處理后,團(tuán)隊(duì)不致于被迫選擇手動(dòng)操作。當(dāng)然,還有其他自動(dòng)修復(fù)設(shè)計(jì),例如在某些應(yīng)用程序指標(biāo)(例如延遲)處于異常值時(shí)自動(dòng)重啟任務(wù)。


Matthew 表示,緩存團(tuán)隊(duì)每周大概會(huì)積累下一頁(yè)的故障報(bào)告,但幾乎不出過(guò)什么大問(wèn)題。大多數(shù)情況下,我們就在那里靜靜值班、靜靜下班,啥事都沒(méi)發(fā)生。


容量規(guī)劃也是 Twitter 平臺(tái)仍在正常運(yùn)行的重要原因之一。Twitter 有兩個(gè)持續(xù)運(yùn)行的數(shù)據(jù)中心,負(fù)責(zé)承載整個(gè)站點(diǎn)的故障。Twitter 的每一項(xiàng)重要服務(wù)都可以在其中一處數(shù)據(jù)中心內(nèi)單獨(dú)運(yùn)行,意味著隨時(shí)都有 200%的可用容量?jī)?chǔ)備。當(dāng)然,這是在災(zāi)難恢復(fù)的場(chǎng)景下;大部分時(shí)間里,兩處數(shù)據(jù)中心會(huì)把閑置資源拿來(lái)承載業(yè)務(wù)流量,且利用率最多不超過(guò) 50%。


即使如此,整個(gè)運(yùn)行實(shí)踐也非常繁忙。當(dāng) Matthew 團(tuán)隊(duì)計(jì)算自己的容量需求時(shí),要先確定一處數(shù)據(jù)中心需要多少設(shè)備來(lái)承載全部流量,再以此為基礎(chǔ)額外增加凈空。所以只要不在故障轉(zhuǎn)移期內(nèi),就會(huì)有大量服務(wù)器空間用于承載額外流量。數(shù)據(jù)中心發(fā)生整體故障的情況非常罕見(jiàn),Matthew 任職的五年中只經(jīng)歷過(guò)一次。


緩存團(tuán)隊(duì)還把緩存集群剝離開來(lái),并沒(méi)有選擇用單一多租戶集群來(lái)承載所有服務(wù),而是在應(yīng)用程序?qū)蛹?jí)進(jìn)行隔離。這點(diǎn)非常重要,因?yàn)橐坏┠硞€(gè)集群出現(xiàn)問(wèn)題,它的爆炸半徑也只在自身范圍內(nèi),即僅影響處于同一位置的部分服務(wù)器。同樣地,Aurora 會(huì)提供緩存分布,盡可能控制影響范圍,最終監(jiān)控并及時(shí)加以修復(fù)。


所以大家應(yīng)該知道了,我們這幫家伙可沒(méi)有偷懶。我們跟緩存即服務(wù)團(tuán)隊(duì)隨時(shí)交流,盡量推動(dòng)自動(dòng)化流程,研究了不少有趣的性能問(wèn)題,嘗試引入能改善體驗(yàn)的技術(shù),并推動(dòng)了一系列大型成本節(jié)約項(xiàng)目。我們進(jìn)行容量規(guī)劃、確定需要訂購(gòu)的服務(wù)器數(shù)量,總之挺忙的。反正,我們不像很多人想象的那樣天天摸魚、打游戲就能拿高薪。”Matthew 在文章最后打趣道。


恰恰相反,該網(wǎng)站在如此大規(guī)模裁員后仍能全面運(yùn)行這一事實(shí)證明了參與維護(hù)基礎(chǔ)設(shè)施的每一位專業(yè)人員都表現(xiàn)卓越!有網(wǎng)友評(píng)價(jià)道。


聲明:發(fā)布此文是出于傳遞更多信息之目的,若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)聯(lián)系我們,確認(rèn)后馬上更正或刪除,謝謝!
新資訊傳遞價(jià)值資訊,為用戶提供便捷、高效的資訊獲取與內(nèi)容創(chuàng)作和信息服務(wù),是一個(gè)很有影響力的多元化綜合資訊平臺(tái)。
關(guān)于我們
公司介紹
發(fā)展歷程
聯(lián)系我們
本站站務(wù)
服務(wù)協(xié)議
本站義務(wù)
友情鏈接
業(yè)務(wù)合作
廣告服務(wù)
商家入駐
我要投稿

手機(jī)APP

官方微博

官方微信

甘肅盛世匯新資訊科技有限公司 隴ICP備17005351號(hào)-5|甘公網(wǎng)安備 62012102000363號(hào) 客服郵箱:sshxqy@163.com 投稿郵箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2025 Discuz! Team.
返回頂部
嘉禾县| 肃宁县| 玛纳斯县| 兴国县| 双桥区| 偃师市| 古交市| 丰都县| 澎湖县| 徐州市| 仙居县| 抚顺市| 峡江县| 连江县| 天台县| 开阳县| 沾益县| 尉氏县| 蕲春县| 巴里| 宝兴县| 龙江县| 铜川市| 华安县| 惠东县| 察雅县| 义马市| 枣阳市| 鄂托克前旗| 闻喜县| 怀宁县| 迁西县| 保亭| 三台县| 江北区| 绍兴县| 固始县| 珠海市| 彰武县| 洮南市| 卢氏县|