- 今日推薦
-
- 互聯(lián)網(wǎng)小本創(chuàng)業(yè)項目什么好?「小型創(chuàng)業(yè)什么項目好」
- Facebook開店「facebook開店費用多少」
- 2020年中國跨境電商行業(yè)發(fā)展進程及環(huán)境分析「2021跨境電商行業(yè)發(fā)展現(xiàn)狀及趨勢」
- 獨立站谷歌推廣「谷歌投放和facebook投放」
- 無貨源怎樣在抖音賣商品「淘寶無貨源做什么類目比較好」
- 揭秘跨境電商facebook全球開店的騙局「電商平臺騙局」
- 2022年中國跨境電商行業(yè)研究報告「2022年跨境電商發(fā)展趨勢分析」
- 細說facebook自定義受眾:對電商而言有哪些優(yōu)點「facebook電商怎么做」
- 教育行業(yè)域名「教育行業(yè)公司名稱」
- 快遞并非現(xiàn)代專屬古已有之最早的快遞公司出現(xiàn)在秦朝「快遞的起源」
- 特別關注
阿里云首席架構師唐洪「阿里云首席架構師」
近日, 國際開源界頂級會議LC3(LinuxCon ContainerCon CloudOpen)首次在國內舉行,阿里云首席架構師唐洪作為特邀嘉賓出席并發(fā)表主題演講。唐洪首先從一組數(shù)字開始,回顧了阿里云歷史及重大技術突破時間點;第二部分主要分享了阿里云目前的技術架構和亮點,以及在此基礎上形成的廣泛的阿里云產(chǎn)品生態(tài);第三部分重點講述了阿里云和開源社區(qū)的合作及進展,特別是阿里云在廣義的虛擬化技術領域的歷程,及在開源社區(qū)取得的成績;最后還展望了阿里云在容器和異構計算安全等方向上未來的目標。唐洪認為,通過堅定對開源技術的擁抱和合作,阿里云的技術和社區(qū)更具生命力,能夠更有效地支撐阿里云業(yè)務和生態(tài)的發(fā)展。
下面是基于唐洪英文演講的摘要譯稿:
大家好!今天很榮幸給大家介紹一下阿里云的歷史,以及我們現(xiàn)在使用的技術。首先,我給大家分享一些阿里云的數(shù)據(jù):阿里云成立于2009年9月10日;在兩年之后的2011年7月28日,我們的官網(wǎng)正式上線并發(fā)布我們第一個產(chǎn)品ECS;在最近的八個季度里面,阿里云的營收保持了三位數(shù)的YoY增長。今天阿里云占據(jù)了中國云計算的絕對份額。我們有87萬付費客戶,到2017年的時候,我們年收入已達到66億人民幣,相當于近10億美金。
這些數(shù)字背后是我們的核心技術-飛天(Apsara),現(xiàn)在我們來看一下 Apsara的發(fā)展歷史。2009年初我們開始研發(fā)這個云計算的底層操作系統(tǒng),當時稱它為飛天(Apsara);2010年8月27日,飛天成為了阿里巴巴集團內部的云基礎設施,在這個云基礎設施之上我們開始支持一些業(yè)務應用,包括全網(wǎng)搜索,網(wǎng)絡郵箱,還有圖片儲存和微貸支付(當時該業(yè)務還在阿里巴巴集團下,現(xiàn)在已經(jīng)單獨拆分為螞蟻金服集團)。
第三部分, 2013年8月15日,我們發(fā)布了飛天集群5K項目,為什么叫5K呢,因為就是要突破集群中五千臺服務器這個技術瓶頸,這也讓阿里巴巴成為國內第一個獨立研發(fā)和擁有大規(guī)模通用計算集群平臺的公司。因為在2009年的時候,當時我們知道Google的單服務器集群管理的最大節(jié)點數(shù)大約是5000。所以這就是為什么我們覺得需要設定5K這么一個非常具有挑戰(zhàn)性的目標,就是在技術上,我們的計算集群至少要做到5000個節(jié)點的量級。最開始我們計劃是在2010年年底達到這個目標,但是事實證明實現(xiàn)過程比我們想象的難的多,直到三年后我們才真的實現(xiàn)了。
那么在實現(xiàn)這個目標的一段時間之后,我們設定的新的技術里程碑就是,除了要掌握這種基礎技術之外,我們的系統(tǒng)還應該比其他系統(tǒng)做的更好。所以在2015年的Sort Benchmark排序競賽上, 阿里云用不到7分鐘(377秒)就完成了100TB的數(shù)據(jù)排序,這在當時打破了世界紀錄。
再下來這個展示的里程碑,這并不能說是一個技術上的里程碑,主要是社區(qū)和開發(fā)者生態(tài)建設方面的。從2011年開始,我們舉辦各種阿里云開發(fā)者相關會議,到2016年我們已經(jīng)辦了六屆,從這些數(shù)字里我們看到,我們總共有超過四萬名開發(fā)者參加了我們的線下會議,超過700萬的觀眾在線觀看了我們的云棲大會。
那么問題來了,現(xiàn)在阿里云究竟是什么樣的一個規(guī)模和狀態(tài)?我們到底做了哪些技術上的創(chuàng)新?下圖我們看到的是一個規(guī)模迅速擴張的阿里云基礎設施分布圖,它是什么樣的呢?首先,我們數(shù)據(jù)中心是按照地域來組織,尤其是在具體地區(qū)里邊有這樣一個網(wǎng)絡,我們管它叫做Transfer network轉移網(wǎng)絡。另外,還有一個骨干網(wǎng)絡,這是一個數(shù)據(jù)中心之間的網(wǎng)絡,我們怎么樣和用戶,用戶如何和我們數(shù)據(jù)中心進行連接的這樣一個骨干網(wǎng)。
今天的阿里云數(shù)據(jù)中心可用地區(qū)全球分布,在大陸我們有6個地區(qū),華北區(qū)3個,華南區(qū)1個,還有華東區(qū)兩個,此外我們還有11個海外地區(qū),分布在北美、歐洲和東南亞等地;另外我們有超過600個PoP節(jié)點,總共20TB/s的帶寬處理能力。下面這張幻燈片顯示出我們阿里飛天超大規(guī)模云計算操作系統(tǒng)的架構圖,最底層的就是我們各個地區(qū)的數(shù)據(jù)中心。
在數(shù)據(jù)中心之上我們還有四個紅框標準出來的模塊,這些是構建分布式系統(tǒng)的最基礎的組件,比如說分布式協(xié)同,還有安全管理,日志收集、監(jiān)控、預警、追蹤、診斷等等都在這一層。在這層之上,我們有兩大系統(tǒng),其中一個叫做盤古,負責存儲管理,另一個叫伏羲,負責分布式的資源管理。實際上通過這兩大管理系統(tǒng),所有的數(shù)據(jù)中心里的計算、存儲和網(wǎng)絡等資源都可以作為統(tǒng)一的資源,進行調度、管理和存儲等操作。在右面還有一個叫天基,負責基礎設施管理和服務管理,大家可以看到,這是飛天系統(tǒng)里非常底層但也是非常重要的一部分,因為它實際上上面連接應用層,下面管理最底層的數(shù)據(jù)中心等硬件設備。所以它的重要性就是負責服務部署,擴展及服務器監(jiān)控等,比如一些服務器有問題的時候,可以迅速找到并馬上關掉它,然后下線分離它并把它單獨處理。
然后,在這個紅色的基礎設施管理和資源管理層之上,就是我們的租戶管理系統(tǒng),主要有認證,還有授權、監(jiān)控和計費等功能。在這之上,則是打包好的各種應用系統(tǒng)服務和調用,包括四大類:計算、存儲、數(shù)據(jù)庫和網(wǎng)絡;另外還有各種中間件、服務協(xié)同及Serverless 計算等;此外我們還提供一些高級的服務功能,包括各種數(shù)據(jù)智能化服務,比如BI、AI和機器學習等,另外還有一些安全的服務。再上邊那些橘黃框里的功能,實際上是提供數(shù)據(jù)交互服務的,比如說數(shù)據(jù)遷移,數(shù)據(jù)庫同步,還有內容分發(fā)(CDN),還有高速通道,這是構建混合云的核心組件,能夠讓租戶的自有機房和他們在云上的虛擬私網(wǎng)打通 。
最后,大家可以把最上面綠色的那部分看作云的應用層,我們管它叫做“云市場”。我們把這個Apsara稱作為一個超大規(guī)模的云計算操作系統(tǒng),之所以叫做操作系統(tǒng)的原因就是,實際上Apsara和一個單機的PC操作系統(tǒng)其實是很相似的。 最底層都是硬件,紅的那層對應的是內核,在內核之上,今天所有的PC都是多用戶的,有賬戶管理模塊。 所有的這些藍色的云服務對應于一個PC操作系統(tǒng)的系統(tǒng)調用、系統(tǒng)服務和原生應用。最后大多數(shù)的現(xiàn)代的操作系統(tǒng),都有一個應用(Apps)商店。
接下來,我想簡單地介紹一下阿里云飛天操作系統(tǒng)Apsara的設計亮點。首先,Apsara的目標是建立一個通用型的計算平臺,在這個平臺上各種不同的應用和關鍵應用都可以跑起來,無論是低延遲任務還是批處理任務,我們需要這么一個混合型的計算平臺來運行所有的這些應用。第二,在2013年達到5K目標后,我們并沒有止步,今天Apsara Cluster集群管理超過1w個節(jié)點,超過上百PB的存儲,以及10萬CPU核心。在整個的Apsara的設計過程中,我們從設計上就確保系統(tǒng)不會出現(xiàn)單點故障,且保證高于99.95%的服務可用性。另外,Apsara所有的數(shù)據(jù)存儲都是默認三重備份,其中數(shù)據(jù)可用性達到10個9的水平,另外Apsara系統(tǒng)所有的監(jiān)控、診斷和部署都是完全分布式的。最后,飛天安全管理嵌入在飛天內核最底層,并且使用基于權能的安全管理框架,真正有效實施“最小化權限”原理。我們管它叫做最低TCB(可信基),通過基于最小可信基原則,我們構建一個安全的系統(tǒng) 。
我想對5K再展開說一下 。大家知道在這個世界上并沒有那么多的商業(yè)化集群系統(tǒng)能夠達到5K規(guī)模的。所以這個規(guī)模對于阿里云來說是非常重要的。另外在阿里巴巴集團內部,因為有了5K,Apsara在規(guī)模上第一次超過了Hadoop集群,所以我們決定將內部更多原先放在Hadoop平臺上進行的數(shù)據(jù)處理統(tǒng)一到飛天平臺上面,這就是“登月計劃”,將阿里巴巴所有的核心業(yè)務的數(shù)據(jù)處理遷移到Apsara平臺上面運行。2014年7月1號MaxCompute正式對外開放,這是一個基于Apsara計算能力的平臺,這也標志著阿里巴巴成為世界上第一家對外公開提供5K處理能力的公司。很多公司可能有這樣一個計算能力,但從來沒有把它當作公共服務開放給社會。
另外,5K能力的對外提供公共服務,以及對這種技術的掌控,帶來的影響力超出了我們的想象,我給大家一個例子。在MaxCompute正式發(fā)布之前我們舉辦了一個天池大賽,賽題主要是將阿里巴巴真實業(yè)務場景數(shù)據(jù)通過脫敏后提供出來,讓參賽隊伍來預測未來產(chǎn)品的銷量。這次天池數(shù)據(jù)大賽居然吸引超過7000個來自全球各地的團隊參加,甚至其中351個團隊是來自于中國大陸以外。而這樣的比賽在其他會議上也有,比如KDD上也曾舉辦過,但參賽隊伍數(shù)量遠低于此,這是非常令人驚喜的。
接下來這一頁PPT,可以顯示出我們產(chǎn)品系列的全面性。因為時間原因,我就不細說了。
接下來我想說一下阿里云虛擬化技術的進展,我這里并不會講廣泛意義和通常意義上的虛擬化,我將從三個方面來講,主要分為資源隔離、服務器虛擬化和容器技術。
在講虛擬化技術之前,我先說一下開源操作系統(tǒng)Linux在阿里巴巴的情況,當前阿里云所有的物理服務器都運行著Linux操作系統(tǒng),比如Fedora、CentOS等發(fā)行版;另外,2011年阿里巴巴發(fā)布了基于2.6.32內核版本的定制化內核AliKernel;第三,從2010年開始阿里巴巴提交的將近300個kernel補丁被社區(qū)接受,這在國內互聯(lián)網(wǎng)公司中排名第一。
接下里,我們再說一下我們?yōu)槭裁匆獙⒀舆t敏感性(latency-sensitive)任務和批處理任務混跑,這是來自Google的一張圖,大家可以看到的,通常承載LS負載的集群的CPU利用率會遠遠低于承載批處理任務的集群。 所以要提升整體資源利用率,一個直觀的想法是將兩類負載做混跑。做混跑的關鍵挑戰(zhàn)是如何做到在不犧牲延遲敏感性任務的長尾延遲的情況下提升資源利用率。我們在這方面做了很多工作,具體細節(jié)因為時間原因我就不展開了,總的來說,我們在多個維度上實現(xiàn)了的資源隔離,包括CPU,網(wǎng)絡和IO等。
下面讓我們來看一下這些工作帶來的效果,下面這張幻燈片顯示出CPU資源隔離的效益。這個豎線實際上是一個CPU利用率。我們可以看到CPU利用率從35%提升到65%以上,增長率超過30%。與此同時,整個系統(tǒng)的延遲敏感性任務工作負載在吞吐量和延遲性上的性能降低也只有5%以內。所以這就顯示出CPU資源隔離的效果。
接下來再看一下網(wǎng)絡資源隔離的效果。延遲敏感性任務和批處理任務混跑的情況下,不采用網(wǎng)絡資源隔離比采用網(wǎng)絡資源隔離,平均延遲時間高出6.8倍,尾延遲更是高出11.8倍。
再看一下IO限流的效果。這里有兩個文件,一個做了限流,一個沒有做。可以看到我們的IO限流機制很有效,被限流的文件的IOPS穩(wěn)定在25K左右。
下面說一下阿里云服務器虛擬化方面的技術進展,服務器虛擬化是彈性計算的基礎,實際上阿里云第一個云服務器也就是提供這樣的基礎服務。2014年阿里云服務器虛擬化技術從Xen改到KVM;2017年阿里云升級為Linux Foundation金牌會員。
在計算虛擬化方面,我想重點講一下Hypervisor熱升級技術,因為熱升級嚴重影響服務的可用性。在2014年Xen出了一個嚴重的安全漏洞, 惡意用戶可以利用這個漏洞侵入物理機器,或者影響跑在同一臺物理服務器上的其他虛擬機, Linode公司當時為了修補這個漏洞重啟了所有服務器。
那阿里云又是如何做到Hypervisor熱升級的呢?我們在工程技術上做了很多的努力,讓所有相關模塊,比如KMOD和QEMU都可以做到全量熱升級。技術細節(jié)由于時間關系我不展開。 阿里云今天每一臺 VM平均1-2個月都會經(jīng)歷一次熱升級 ,升級過程中只會有毫秒級別的暫停,用戶不會感知 。
我們再看一下阿里云容器技術方面的進展,2016年10月,我們和Docker建立戰(zhàn)略合作伙伴關系。就在這個月DockHub服務正式落地中國;另外,2017年4月阿里云以黃金會員身份加入了CNCF基金會;到目前為止,阿里云是國內唯一同時支持Docker Swarm和 Kubernetes的云服務供應商。
在容器技術方向上,我們努力將阿里云打造成Docker Swarm原生集成的云基礎設施,更加全面和廣泛地支持Infrastructure as Code擴展;另外,Kubernetes的支持工作也在緊鑼密鼓的準備中。
此外,還有很多規(guī)模方面的增強,比如單一的Docker容器集群可以部署超過3萬個VM節(jié)點;最后,我們還運行著世界最大的基于容器的應用,那就是阿里巴巴的電商業(yè)務平臺。在2016雙11當天有超過30萬的Docker容器被部署,峰值交易能力達到17.5萬筆/秒。
最后,在我今天演講結束之前,說一下阿里云未來的技術方向。首先是輕量級虛擬化,容器方面我們將追求輕量級虛擬化技術;第二,我們會采用像NVMe存儲和25GE網(wǎng)絡這樣的超快速硬件,在此之上全面優(yōu)化文件系統(tǒng)和網(wǎng)絡性能,我覺得超快速硬件部署和優(yōu)化是非常有趣的一個方向,值得探索;最后就是異構硬件虛擬化的安全增強,比如FPGA、GPU,以及其他的定制化硬件,這些最新計算平臺的虛擬化安全方面需要注意什么,也是我們未來工作的一個重點。
以上就是我今天演講的全部內容,謝謝大家!
相關文章
- 電子商務帶來的營銷模式變革「網(wǎng)絡營銷的新模式」
- 老板喜歡員工加班嗎「一直讓員工加班的老板」
- 抖音引流是什么意思呢具體應該怎么做「抖音站外引流是什么意思」
- 電商平臺新玩法「電商推廣玩法有哪些」
- 李子柒的營銷模式「微念公司李子柒」
- 5個適合新手的網(wǎng)絡賺錢項目「現(xiàn)在有什么網(wǎng)上賺錢的項目嗎」
- 今年雙十一商家玩法「淘寶雙十一玩法」
- 跨境電商shopify獨立站「我現(xiàn)在只想簡簡單單的」
- 新手選擇哪個電商平臺「二類電商怎么推廣」
- 網(wǎng)購輪胎怎么樣,需要注意什么「網(wǎng)購輪胎靠譜嗎」
- 為什么不建議在網(wǎng)上買輪胎「輪胎在哪買比較好」
- 為什么網(wǎng)上賣的輪胎那么便宜「淘寶上輪胎好便宜靠譜嗎」
- 網(wǎng)上旗艦店買輪胎都是正品嗎「淘寶買的輪胎是正品嗎」
- app的渠道推廣「app發(fā)布渠道」
- 知道嗎網(wǎng)上不能再隨意賣輪胎了「怎么賣輪胎」
- 網(wǎng)購輪胎怎么樣「網(wǎng)購輪胎靠譜嗎」
- 移動端導航形式「移動端css」
- 新零售和o2o的區(qū)別「o2o模式與b2c模式的區(qū)別是什么」