很多人一提到HTTPS,第一反应就是安全,对于普通用户来说这就足够了;
对于运维来说,有必要了解下HTTP到底有什么问题?HTTPS是如何解决的?其背后的解决思路和方法是什么?
下面坐下简单的描述,HTTPS体系非常复杂,自己无法做到很详细和精准的分析。
性能
HTTP有典型的几个问题,第一就是性能,HTTP是基于TCP的,所以网络层就不说了(快慢不是HTTP的问题)。
比较严重的问题在于HTTP头是不能压缩的,每次要传递很大的数据包。另外HTTP的请求模型是每个连接只能支持一个请求,所以会显得很慢。
那么HTTPS是解决这些问题的吗?
不是,实际上HTTPS是在HTTP协议上又加了一层,会更慢,相信未来会逐步解决的。同时HTTPS用到了很多加密算法,这些算法的执行也是会影响速度的。
为什么说HTTPS提升了性能呢,因为只有支持了HTTPS,才能部署HTTP/2,而HTTP/2协议会提升速度,能够有效减轻客户端和服务器端的压力,让响应更快速,HTTP/2未来会写一篇文章说说,这里只要知道一点:HTTP/2能够加快速度的主要原因在于多路复用,同一个连接能够并行发送和接收多个请求。
安全性
当用户在浏览器输入一个网址的时候,在地址栏上看到小锁图标,就会安心,潜意识的认为自己的上网行为是安全的,当然对于小白用户来说可能还不明白,但是未来会慢慢改善的(万事开头难嘛)。
那么HTTP到底有什么安全问题呢,看几个例子:
(1)由于互联网传输是能够被拦截的,所以假如你的上网方式被别人控制了(没有绝对的安全),那么你的任何行为和信息攻击者都会知道,比如我们连上一个匿名的WIFI,当你上网的时候,输入的网站密码可能就已经泄漏了。
(2)当我们在上一个网站的时候,莫名其妙跳出一个广告(这个广告并不是这个网站的),那是因为访问的页面可能被运营商强制修改了(加入了他自己的内容,比如广告)。
HTTP最大的问题就在于数据没有加密,以及通信双方没有办法进行身份验证(confidentiality and authentication),由于数据没有加密,那么只要数据包被攻击者劫持,信息就泄漏了。
身份验证的意思就是服务器并不知道连接它的客户端到底是谁,而客户端也不确定他连接的服务器就是他想连接的服务器,双方之间没有办法进行身份确认。
HTTPS背后的密码学
为了解决HTTP的两个核心问题,HTTPS出现了,HTTPS包含了核心的几个部分,TLS协议、OpenSSL,证书。
什么是OpenSSL呢,它实现了世界上非常重要和多的密码算法,而密码学是解决问题最重要的一个环节。
TLS最重要的是握手的处理方式。证书的体系也很大,但是他们背后都是基于同样的密码学。
(1)既然HTTP没有数据加密,那么我们就加密下,对称加密算法上场了,这种算法加密和解密要使用同一个密钥,通信双方需要知道这个密钥(或者每次协商一个),实际上这种方法不太可能,这涉及到密钥保密和配送的问题,一旦被攻击者知道了密钥,那么传输的数据等同没有加密。
(2)这个时候非对称加密算法上场了,公钥和私钥是分开的,客户端保存公钥,服务器保存私钥(不会公开),这时候好像能够完美解决问题了。
但实际上会存在两个问题,第一就是非对称加密算法运算很慢,第二就是会遇到中间人攻击问题。
先说说中间人攻击的问题,假如使用非对称加密算法,对于客户端来说它拿到的公钥可能并不是真正服务器的公钥,因为客户端上网的时候可能不会仔细分辨某个公钥是和某个公司绑定的,假如错误的拿到攻击者的公钥,那么他发送出去的数据包被劫持后,攻击者用自己的私钥就能反解了。
(5)接下来如何解决公钥认证的问题呢?证书出现了,证书是由CA机构认证的,客户端都充分信任它,它能够证明你拿到的公钥是特定机构的,然后就能使用非对称加密算法加密了。
证书是怎么加密的呢?实际上也是通过非对称加密算法,但是区别在于证书是用私钥加密,公钥解密。
CA机构会用自己的私钥加密服务器用户的公钥,而客户端则用CA机构的公钥解出服务器的公钥。听上去有点晕,仔细体会下。
(6)上面说了非对称加密算法加密解密非常耗时,对于HTTP这样的大数据包,速度就更慢了,这时候可以使用对称加密算法,这个密钥是由客户端和服务器端协商出来,并由服务器的公钥进行加密传递,所以不存在安全问题。
(7)另外客户端拿到证书后会验证证书是否正确,它验证的手段就是通过Hash摘要算法,CA机构会将证书信息通过Hash算法运算后再用私钥加密,客户端用CA的公钥解出后,再计算证书的Hash摘要值,两者一致就说明验证身份通过。
(8)HTTPS解决的第三个问题是完整性问题,就是信息有没有被篡改(信息能够被反解),用的是HMAC算法,这个算法和Hash方法差不多,但是需要传递一个密钥,这个密钥就是客户端和服务器端上面协商出来的。