都铎王朝第一季,少年魔法师

摘要：一個成熟的大型網(wǎng)站（如淘寶、天貓、騰訊等）的系統(tǒng)架構并不是一開始設計時就具備完整的高性能、高可用、高伸縮等特性的，它是隨著用戶量的增加，業(yè)務功能的擴展逐漸演變完善的，在這個過程中，開發(fā)模式、技術架構...

一個成熟的大型網(wǎng)站（如淘寶、天貓、騰訊等）的系統(tǒng)架構并不是一開始設計時就具備完整的高性能、高可用、高伸縮等特性的，它是隨著用戶量的增加，業(yè)務功能的擴展逐漸演變完善的，在這個過程中，開發(fā)模式、技術架構、設計思想也發(fā)生了很大的變化，就連技術人員也從幾個人發(fā)展到一個部門甚至一條產(chǎn)品線。所以成熟的系統(tǒng)架構是隨著業(yè)務的擴展而逐步完善的，并不是一蹴而就；不同業(yè)務特征的系統(tǒng)，會有各自的側重點，例如淘寶，要解決海量的商品信息的搜索、下單、支付，例如騰訊，要解決數(shù)億用戶的實時消息傳輸，百度它要處理海量的搜索請求，他們都有各自的業(yè)務特性，系統(tǒng)架構也有所不同。盡管如此我們也可以從這些不同的網(wǎng)站背景下，找出其中共用的技術，這些技術和手段廣泛運用在大型網(wǎng)站系統(tǒng)的架構中，下面就通過介紹大型網(wǎng)站系統(tǒng)的演化過程，來認識這些技術和手段。

一、最開始的網(wǎng)站架構

最初的架構，應用程序、數(shù)據(jù)庫、文件都部署在一臺服務器上，如圖：

大型網(wǎng)站系統(tǒng)架構演化之路

二、應用、數(shù)據(jù)、文件分離

隨著業(yè)務的擴展，一臺服務器已經(jīng)不能滿足性能需求，故將應用程序、數(shù)據(jù)庫、文件各自部署在獨立的服務器上，并且根據(jù)服務器的用途配置不同的硬件，達到最佳的性能效果。

大型網(wǎng)站系統(tǒng)架構演化之路

三、利用緩存改善網(wǎng)站性能

在硬件優(yōu)化性能的同時，同時也通過軟件進行性能優(yōu)化，在大部分的網(wǎng)站系統(tǒng)中，都會利用緩存技術改善系統(tǒng)的性能，使用緩存主要源于熱點數(shù)據(jù)的存在，大部分網(wǎng)站訪問都遵循28原則（即80%的訪問請求，最終落在20%的數(shù)據(jù)上），所以我們可以對熱點數(shù)據(jù)進行緩存，減少這些數(shù)據(jù)的訪問路徑，提高用戶體驗。

大型網(wǎng)站系統(tǒng)架構演化之路

緩存實現(xiàn)常見的方式是本地緩存、分布式緩存。當然還有CDN、反向代理等，這個后面再講。本地緩存，顧名思義是將數(shù)據(jù)緩存在應用服務器本地，可以存在內(nèi)存中，也可以存在文件，OSCache就是常用的本地緩存組件。本地緩存的特點是速度快，但因為本地空間有限所以緩存數(shù)據(jù)量也有限。分布式緩存的特點是，可以緩存海量的數(shù)據(jù)，并且擴展非常容易，在門戶類網(wǎng)站中常常被使用，速度按理沒有本地緩存快，常用的分布式緩存是Memcached、Redis。

四、使用集群改善應用服務器性能

應用服務器作為網(wǎng)站的入口，會承擔大量的請求，我們往往通過應用服務器集群來分擔請求數(shù)。應用服務器前面部署負載均衡服務器調(diào)度用戶請求，根據(jù)分發(fā)策略將請求分發(fā)到多個應用服務器節(jié)點。

大型網(wǎng)站系統(tǒng)架構演化之路

常用的負載均衡技術硬件的有F5，價格比較貴，軟件的有LVS、Nginx、HAProxy。LVS是四層負載均衡，根據(jù)目標地址和端口選擇內(nèi)部服務器，Nginx和HAProxy是七層負載均衡，可以根據(jù)報文內(nèi)容選擇內(nèi)部服務器，因此LVS分發(fā)路徑優(yōu)于Nginx和HAProxy，性能要高些，而Nginx和HAProxy則更具配置性，如可以用來做動靜分離（根據(jù)請求報文特征，選擇靜態(tài)資源服務器還是應用服務器）。

五、數(shù)據(jù)庫讀寫分離和分庫分表

隨著用戶量的增加，數(shù)據(jù)庫成為最大的瓶頸，改善數(shù)據(jù)庫性能常用的手段是進行讀寫分離以及分庫分表，讀寫分離顧名思義就是將數(shù)據(jù)庫分為讀庫和寫庫，通過主備功能實現(xiàn)數(shù)據(jù)同步。分庫分表則分為水平切分和垂直切分，水平切分則是對一個數(shù)據(jù)庫特大的表進行拆分，例如用戶表。垂直切分則是根據(jù)業(yè)務的不同來切分，如用戶業(yè)務、商品業(yè)務相關的表放在不同的數(shù)據(jù)庫中。

大型網(wǎng)站系統(tǒng)架構演化之路

六、使用CDN和反向代理提高網(wǎng)站性能

假如我們的服務器都部署在成都的機房，對于四川的用戶來說訪問是較快的，而對于北京的用戶訪問是較慢的，這是由于四川和北京分別屬于電信和聯(lián)通的不同發(fā)達地區(qū)，北京用戶訪問需要通過互聯(lián)路由器經(jīng)過較長的路徑才能訪問到成都的服務器，返回路徑也一樣，所以數(shù)據(jù)傳輸時間比較長。對于這種情況，常常使用CDN解決，CDN將數(shù)據(jù)內(nèi)容緩存到運營商的機房，用戶訪問時先從最近的運營商獲取數(shù)據(jù)，這樣大大減少了網(wǎng)絡訪問的路徑。比較專業(yè)的CDN運營商有藍汛、網(wǎng)宿。

而反向代理，則是部署在網(wǎng)站的機房，當用戶請求達到時首先訪問反向代理服務器，反向代理服務器將緩存的數(shù)據(jù)返回給用戶，如果沒有緩存數(shù)據(jù)才會繼續(xù)訪問應用服務器獲取，這樣做減少了獲取數(shù)據(jù)的成本。反向代理有Squid，Nginx。

大型網(wǎng)站系統(tǒng)架構演化之路

七、使用分布式文件系統(tǒng)

用戶一天天增加，業(yè)務量越來越大，產(chǎn)生的文件越來越多，單臺的文件服務器已經(jīng)不能滿足需求，這時就需要分布式文件系統(tǒng)的支撐。常用的分布式文件系統(tǒng)有GFS、HDFS、TFS。

大型網(wǎng)站系統(tǒng)架構演化之路

八、使用NoSql和搜索引擎

對于海量數(shù)據(jù)的查詢和分析，我們使用nosql數(shù)據(jù)庫加上搜索引擎可以達到更好的性能。并不是所有的數(shù)據(jù)都要放在關系型數(shù)據(jù)中。常用的NOSQL有mongodb、hbase、redis，搜索引擎有l(wèi)ucene、solr、elasticsearch。

大型網(wǎng)站系統(tǒng)架構演化之路