反向代理- 提到反向代理,就不得不提到正向代理。两者虽然都是代理,但方式却截然不同。所以,在我们介绍反向代理之前,先看一下什么是正向代理1 w7 c5 j) Y7 c# D0 B; Z
复制代码 正向代理介绍- 正向代理(forward proxy):是一个位于客户端和目标服务器之间的服务器(代理服务器),为了从目标服务器取得内容,客户端向代理服务器发送一个请求并指定目标,然后代理服务器向目标服务器转交请求并将获得的内容返回给客户端。! h' _7 ?0 _) n
复制代码有时候,用户想要访问某国外网站,该网站无法在国内直接访问,但是我们可以访问到一个代理服务器,这个代理服务器可以访问到这个国外网站。这样呢,用户对该国外网站的访问就需要通过代理服务器来转发请求,并且该代理服务器也会将请求的响应再返回给用户。这个上网的过程就是用到了正向代理。
, M3 |; n! I, u. o. ]* z7 Z; Y) y8 d5 j! s0 @7 P# c9 W8 P
6 u9 n1 ]6 h6 w+ s6 i, h
这个过程其实和租房子很像。 5 o9 P; j8 b$ l- O9 c- Z m
租房子的时候,一般情况下,我们很难联系到房东,因为有些房东为了图方便,只把自己的房屋信息和钥匙交给中介了。而房客想要租房子,只能通过中介才能联系到房东。而对于房东来说,他可能根本不知道真正要租他的房子的人是谁,他只知道是中介在联系他。这里面一共有三个角色,租客(用户)、中介(代理服务器)和房东(国外网站,目标服务器)。引入中介(代理服务器)的原因是用户无法联系上房东(用户无法访问国外网站)。
( F. d+ Z4 Z1 }( [; {1 `# J& y; D1 b2 `" ]
所以,正向代理,其实是"代理服务器"代理了"客户端",去和"目标服务器"进行交互。通过正向代理服务器访问目标服务器,目标服务器是不知道真正的客户端是谁的,甚至不知道访问自己的是一个代理(有时候中介也直接冒充租客)。
% Z& m: Q* c9 f* J
( B7 R2 D2 m; I正向代理的用途! P) Z; C8 j ^* l4 d5 h+ z
3 A2 O9 Y2 `/ G$ r% J+ B反向代理介绍3 A3 }7 o1 `; B9 f2 h
( y/ W$ H9 d' l3 M3 ^! U- 反向代理(reverse proxy):是指以代理服务器来接收internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就变现为一个反向代理服务器。
h# {2 V w/ w: v3 H) X7 U
复制代码 反向代理(reverse proxy):是指以代理服务器来接收internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就变现为一个反向代理服务器。, j: v7 M& ?: p- m* x& D9 P
9 q- X( v; Y$ D; K, r0 m5 I8 T p& h h
前面提到过了,为了提升网站的各方面能力,我们一般会把多台机器组成一个集群对外提供服务。然而,我们的网站对外提供的访问入口都是一个的,比如 www.taobao.com。那么当用户在浏览器输入www.taobao.com的时候如何将用户的请求分发到集群中不同的机器上呢,这就是负载均衡在做的事情。 7 C8 o& h" X7 y: ^8 P
# E# `, L2 i* _/ W1 e# h; f6 i) S
# \8 r/ }; G( A9 ]3 I$ k在这七层模型种,高层次都是依赖于低层次的。层次越高,使用起来越方便。
6 O5 E% n& h* \9 S- @' `
( r1 R3 A# C' n) j2 I+ i6 z4 f4 T) }- V+ X0 a' i6 _& R' X; C. k' p% ~
) u, Z2 i: Q5 D+ m0 g8 r$ e5 W3 a1 N. l+ }* O4 i
7 `& _' U" z) S* T, W2 a1 v
1 T2 Q1 f$ e Y) B1 Y! @我们经常听到的一些和计算机网络有关的概念中:- telnet、HTTP、FTP、NFS、SMTP、DNS等属于第七层应用层的概念。
: I. Y1 X: ]$ I7 s4 J( a i
2 C* _- ^& {& j7 T: d- TCP、UDP、SPX等属于第四层传输层的概念。! M" `3 D6 e3 E5 C. s
- % E \/ Y2 J" M7 [# d( C' g
- IP、IPX等属于第三层网络层的概念。9 Z6 u: N0 }- j1 ?& N
+ T3 W% J/ X& i0 m- ATM、FDDI等属于第二层数据链路层的概念。/ W. }, o9 a# C( A& p# }/ u
2 x% j* D% n- W% R7 u
复制代码 4 A$ @7 Y* u( V9 m
了解了网络协议的七层模型以后,再来看看负载均衡。我们可以很明确的一点是,负载均衡是要在网络传输中做文章的。而要在网络传输过程搞事情,那么这七层模型就势必躲不开。
# s, L( g3 M, N# t& \" Q
+ O* c2 I& K: L5 ~" k% y" S" E所以,根据负载均衡技术实现在OSI七层模型的不同层次,是可以给负载均衡分类的。 Q7 ]' P4 O- j' Z
' n7 Z2 k% P& d* N- H# {常见的实现方式中,主要可以在应用层、传输层、网络层和数据传输层做文章。所以,工作在应用层的负载均衡,我们通常称之为七层负载均衡、工作在传输层的我们称之为四层负载均衡。0 S2 b- u6 T7 j
9 h o2 }% G" h) y8 b& A" L% O# a
大致可以分为以下几种,其中最常用的是四层和七层负载均衡:% Z# d* r6 [4 Y6 _; c9 l/ }
0 y d6 C3 Q/ A9 h3 o
- 二层负载均衡6 z9 Y& n$ E9 y6 z- \$ X9 H
负载均衡服务器对外依然提供一个VIP(虚IP),集群中不同的机器采用相同IP地址,但是机器的MAC地址不一样。当负载均衡服务器接受到请求之后,通过改写报文的目标MAC地址的方式将请求转发到目标机器实现负载均衡。 - 三层负载均衡
6 V7 t7 x/ p4 O) V' M' W# j! _和二层负载均衡类似,负载均衡服务器对外依然提供一个VIP(虚IP),但是集群中不同的机器采用不同的IP地址。当负载均衡服务器接受到请求之后,根据不同的负载均衡算法,通过IP将请求转发至不同的真实服务器。 - 四层负载均衡- G- z* g7 X2 c
四层负载均衡工作在OSI模型的传输层,由于在传输层,只有TCP/UDP协议,这两种协议中除了包含源IP、目标IP以外,还包含源端口号及目的端口号。四层负载均衡服务器在接受到客户端请求后,以后通过修改数据包的地址信息(IP+端口号)将流量转发到应用服务器。 - 七层负载均衡
0 _* B5 S6 g o0 V七层负载均衡工作在OSI模型的应用层,应用层协议较多,常用http、radius、dns等。七层负载就可以基于这些协议来负载。这些应用层协议中会包含很多有意义的内容。比如同一个Web服务器的负载均衡,除了根据IP加端口进行负载外,还可根据七层的URL、浏览器类别、语言来决定是否要进行负载均衡。
* |2 G( U6 U r& L : d$ E1 g2 ~. u* z1 T* m
负载均衡工具
& v! m* g! H7 ?; f; K市面上有很多开源的负载均衡的工具或软件,基本都是基于前面提到的方案实现的,大多数是工作在第七层和第四层的。Nginx/LVS/HAProxy 是目前使用最广泛的三种负载均衡软件。( c, q% R& _: _
1 H. g/ Y" [) J$ H( W' lLVS( _. Z. N! g7 [- I' n
LVS(Linux Virtual Server),也就是Linux虚拟服务器, 是一个由章文嵩博士发起的自由软件项目。使用LVS技术要达到的目标是:通过LVS提供的负载均衡技术和Linux操作系统实现一个高性能、高可用的服务器群集,它具有良好可靠性、可扩展性和可操作性。从而以低廉的成本实现最优的服务性能。
$ }! ~$ p$ W+ |
4 s' a1 ^6 F9 M5 r, k) A# ^LVS主要用来做四层负载均衡。% T# Q. G |6 ]4 }" \
7 i2 V2 o/ ?, N6 p+ PNginx
' b: c2 Y$ ?0 c7 p. `Nginx(发音同engine x)是一个网页服务器,它能反向代理HTTP, HTTPS, SMTP, POP3, IMAP的协议链接,以及一个负载均衡器和一个HTTP缓存。
) [$ m9 W1 v3 m
" D p. ? ?% D& p7 ^2 T1 M4 pNginx主要用来做七层负载均衡。( K. L* S5 {3 N
2 b/ U+ q E* ?
HAProxy( U+ B! P5 p# B4 e N
HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载均衡,以及基于TCP和HTTP的应用程序代理。1 k" u! c* X: t7 m! U) i
6 ~; G9 X# k' @% T
HAProxy主要用来做七层负载均衡。
! Y3 z5 w+ K- M$ U! F% m2 g( m& r+ `. L5 m; x' N' T& g" @
负载均衡核心:负载均衡算法实现8 y& l& E& \' J9 ?2 x/ V6 `
负载均衡服务器在决定将请求转发到具体哪台真实服务器的时候,是通过负载均衡算法来实现的。负载均衡算法,是一个负载均衡服务器的核心。
0 [# n: [$ U7 c2 C0 ?( e
/ @0 f5 k: t4 y: a D6 V z就像电影院门口的引导员一样,他根据什么把排队人员分配到具体的入口呢?是哪个入口人少吗?还是哪个入口速度最快?还是哪个入口最近呢?如果来了一个VIP怎么办呢?
" k$ h' Q) w7 J
, v/ t. p6 w* ^$ x负载均衡算法可以分为两类:静态负载均衡算法和动态负载均衡算法。0 k2 v. T& U& j% I* } E0 e) J
1 N' u9 V+ Q: m g0 t& c$ i
静态负载均衡算法包括:轮询,比率,优先权
% ?" b$ ~; F9 `. g- T8 I! O# N
; {% C' y m; H5 r0 k3 _8 @动态负载均衡算法包括: 最少连接数,最快响应速度,观察方法,预测法,动态性能分配,动态服务器补充,服务质量,服务类型,规则模式。" I: b0 i9 P9 c4 S- x9 y, q8 {- }( ~
2 e* W. R% _" x9 ` {4 @
- 轮询(Round Robin):顺序循环将请求一次顺序循环地连接每个服务器。当其中某个服务器发生第二到第7 层的故障,BIG-IP 就把其从顺序循环队列中拿出,不参加下一次的轮询,直到其恢复正常。
- 比率(Ratio):给每个服务器分配一个加权值为比例,根椐这个比例,把用户的请求分配到每个服务器。当其中某个服务器发生第二到第7 层的故障,BIG-IP 就把其从服务器队列中拿出,不参加下一次的用户请求的分配, 直到其恢复正常。
- 优先权(Priority):给所有服务器分组,给每个组定义优先权,BIG-IP 用户的请求,分配给优先级最高的服务器组(在同一组内,采用轮询或比率算法,分配用户的请求);当最高优先级中所有服务器出现故障,BIG-IP 才将请求送给次优先级的服务器组。这种方式,实际为用户提供一种热备份的方式。
- 最少的连接方式(Least Connection):传递新的连接给那些进行最少连接处理的服务器。当其中某个服务器发生第二到第7 层的故障,BIG-IP 就把其从服务器队列中拿出,不参加下一次的用户请求的分配, 直到其恢复正常。
- 最快模式(Fastest):传递连接给那些响应最快的服务器。当其中某个服务器发生第二到第7 层的故障,BIG-IP 就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。
- 观察模式(Observed):连接数目和响应时间以这两项的最佳平衡为依据为新的请求选择服务器。当其中某个服务器发生第二到第7 层的故障,BIG-IP就把其从服务器队列中拿出,不参加下一次的用户请求的分配,直到其恢复正常。
- 预测模式(Predictive):BIG-IP利用收集到的服务器当前的性能指标,进行预测分析,选择一台服务器在下一个时间片内,其性能将达到最佳的服务器相应用户的请求。(被BIG-IP 进行检测)
- 动态性能分配(Dynamic Ratio-APM):BIG-IP 收集到的应用程序和应用服务器的各项性能参数,动态调整流量分配。
- 动态服务器补充(Dynamic Server Act.):当主服务器群中因故障导致数量减少时,动态地将备份服务器补充至主服务器群。
- 服务质量(QoS):按不同的优先级对数据流进行分配。
- 服务类型(ToS): 按不同的服务类型(在Type of Field中标识)负载均衡对数据流进行分配。
- 规则模式:针对不同的数据流设置导向规则,用户可自行。 d; M% x/ h0 B3 n. W# {+ @# \
& A% |* a' I8 Y$ ?以上,就是目前实现负载均衡的主流算法。不同的负载均衡服务器会选择不同的算法。就像电影院和火车站可能会选用不同的引导策略一样。火车站可能会把行李少的旅客分配到一个专门的入口,可能给即将发车的旅客分派到特快入口,手持可扫描车票的用户单独分配到特殊入口等。
' C# Y; N5 _0 O1 E
% ~% o5 c/ W" @$ f/ k4 A4 g/ S% [) E2 }9 C$ L2 l
: ~' n; r: o h1 N* H& E- K" q
! P2 U2 k8 L- G1 g% P
9 c; C' j0 C- U2 n3 X
+ w8 @. N: q( H3 M/ t% l9 Z* t5 ? F6 o1 {; d) b; A
|