大型网站的可伸缩性架构如何设计?
1. 網站架構的伸縮性設計
1.1. 不同功能進行物理分離實現伸縮
縱向分離(分層后分離):將業務處理流程上的不同部分分離部署,實現系統伸縮性。
橫向分離(業務分割后分離):將不同的業務模塊分離部署,實現系統伸縮性。
1.2. 單一功能通過集群規模實現伸縮
將不同功能分離部署可以實現一定程度的伸縮性,但是隨著網站的訪問量逐步增加,即使分離到最小粒度的獨立部署,單一的服務器也不能滿足業務規模的要求。因此必須使用服務器集群,即將相同服務部署在多態服務器上構成一個集群整體對外提供服務。
2. 應用服務器集群的伸縮性設計
2.1. HTTP 重定向負載均衡
利用 HTTP 重定向協議實現負載均衡。
這種負載均衡方案的優點是比較簡單。缺點是瀏覽器需要兩次請求服務器才能完成一次訪問,性能較差:重定向服務器自身的處理能力有可能成為瓶頸,整個集群的伸縮性規模有限;使用 HTTP 302 響應碼重定向,可能使搜索引擎判斷為 SEO 作弊,降低搜索排名。
2.2. DNS 域名解析負載均衡
利用 DNS 處理域名解析請求的同時進行負載均衡處理的一種方案。
在 DNS 服務器中配置多個 A 記錄,如:
114.100.40.1?www.mysite.com114.100.40.2?www.mysite.com114.100.40.3?www.mysite.com每次域名解析請求都會根據負載均衡算法計算一個不同的 IP 地址返回,這樣 A 記錄中配置的多個服務器就構成一個集群,并可以實現負載均衡。
DNS 域名解析負載均衡的優點:
將負載均衡的工作轉交給了 DNS,省掉了網站管理維護的麻煩。
同時,許多 DNS 服務器還支持基于地理位置的域名解析,即將域名解析成距離用戶地理最近的一個服務器地址,這樣可以加快用戶訪問速度,改善性能。
DNS 域名解析負載均衡的缺點:
DNS 是多級解析,每一級 DNS 都可能緩存 A 記錄,當某臺服務器下線后,即使修改了 DNS 的 A 記錄,要使其生效也需要較長時間。這段時間,依然會域名解析到已經下線的服務器,導致用戶訪問失敗。
DNS 的負載均衡的控制權在域名服務商那里,網站無法對其做更多改善和更強大的管理。
2.3. 反向代理負載均衡
大多數反向代理服務器同時提供反向代理和負載均衡的功能。
反向代理服務器的優點是部署簡單。缺點是反向代理服務器時所有請求和響應的中轉站,其性能可能會成為瓶頸。
2.4. IP 負載均衡
在網絡層通過修改請求目標地址進行負載均衡。負載均衡服務器(網關服務器)在操作系統內核獲取網絡數據包,根據負載均衡算法計算得到一臺真實 Web 服務器 10.0.0.1,然后將目的 IP 地址修改為 10.0.0.1,不需要通過用戶進程。真實 Web 服務器處理完成后,響應數據包回到負載均衡服務器,負載均衡服務器再將數據包原地址修改為自身的 IP 地址(114.100.80.10)發送給瀏覽器。
IP 負載均衡在內核完成數據分發,所以處理性能優于反向代理負載均衡。但是因為所有請求響應都要經過負載均衡服務器,集群的最大響應數據吞吐量受制于負載均衡服務器網卡帶寬。
2.5. 數據鏈路層負載均衡
數據鏈路層負載均衡是指在通信協議的數據鏈路層修改 mac 地址進行負載均衡。
這種方式又稱作三角傳輸方式,負載均衡數據分發過程中不修改 IP 地址,只修改目的 mac 地址,通過配置真實物理服務器集群所有機器虛擬 IP 和負載均衡服務器 IP 地址一致,從而達到不修改數據包的源地址和目的地址就可以進行數據分發的目的,由于實際處理請求的真實物理服務器 IP 和數據請求目的 IP 一致,不需要通過負載均衡服務器進行地址轉換,可將響應數據包直接返回給用戶瀏覽器,避免負載均衡服務器網卡帶寬成為瓶頸。這種負載方式又稱作直接路由方式。
在 Linux 平臺上最好的鏈路層負載均衡開源產品是 LVS(Linux Virtual Server)。
2.6. 負載均衡算法
負載均衡服務器的實現可以分為兩個部分:
根據負載均衡算法和 Web 服務器列表計算得到集群中一臺 Web 服務器的地址。
將請求數據發送到該地址對應的 Web 服務器上。
負載均衡算法通常有以下幾種:
輪詢(Round Robin)?- 所有請求被依次分發到每臺應用服務器上,即每臺服務器需要處理的請求數據都相同,適合于所有服務器硬件都相同的場景。
加權輪詢(Weighted Round Robin)?- 根據服務器硬件性能情況,在輪詢的基礎上,按照配置權重將請求分發到每個服務器,高性能服務器能分配更多請求。
隨機(Random)?- 請求被隨機分配到各個應用服務器,在許多場合下,這種方案都很簡單實用,因為好的隨機數本身就很平均,即使應用服務器硬件配置不同,也可以使用加權隨機算法。
最少連接(Least Connection)?- 記錄每個應用服務器正在處理的連接數,將新到的請求分發到最少連接的服務器上,應該說,這是最符合負載均衡定義的算法。
源地址 Hash(Source Hash)?- 根據請求來源的 IP 地址進行 Hash 計算,得到應用服務器,這樣來自同一個 IP 地址的請求總在同一個服務器上處理,該請求的上下文信息可以存儲在這臺服務器上,在一個會話周期內重復使用,從而實現會話粘滯。
3. 分布式緩存集群的伸縮性設計
一致性 HASH 算法
4. 數據存儲服務器集群的伸縮性設計
4.1. 關系型數據庫的伸縮性設計
主從復制?- 主流關系型數據庫一般都支持主從復制。
分庫?- 根據業務對數據庫進行分割。制約條件是跨庫的表不能進行 Join 操作。
分表?- 使用數據庫分片中間件,如 Cobar 等。
4.2. NoSql 數據庫的伸縮性設計
一般而言,Nosql 不支持 SQL 和 ACID,但是強化了對于高可用和伸縮性的支持。
轉載于:https://blog.51cto.com/13672983/2386633
總結
以上是生活随笔為你收集整理的大型网站的可伸缩性架构如何设计?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常见算法:C语言求最小公倍数和最大公约数
- 下一篇: 收集经常使用的.net开源项目