轻松易懂，一文带你http协议入门？

2023-06-20 10:26 157 0

👇👇关注后回复 “进群” ，拉你进程序员交流群👇👇

作者丨土豆居士

来源丨一口Linux（ID：yikoulinux）

一、什么是http？

Http协议即超文本传送协议 (HTTP-Hypertext transfer protocol) 。

它定义了浏览器（即万维网客户进程）怎样向万维网服务器请求万维网文档，以及服务器怎样把文档传送给浏览器。从层次的角度看，HTTP是面向（transaction-oriented)应用层协议，它是万维网上能够可靠地交换文件（包括文本、声音、图像等各种多媒体文件）的重要基础。并且详细的规定了客户端浏览器与服务器之间互相通信的规则。

二、抓包

下面是一口君抓取的访问自己搭建的web服务器交互的所有数据包。以下是浏览器显示信息：以下是实际 index.html内容

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" >
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>一口Linux</title>
</head>
<body  >
<div align="center">
 <table width="900" border="0">
   <tr><td>
    <form  onsubmit="return isValidate(myform)" action="cgi-bin/login.cgi" method="post">
  用户名: <input type="text" name="username" id="username" > 
  <td>&nbsp;</td>
    <tr><td>
  密  &nbsp;&nbsp;码: <input type="password" name="userpass" id="userpass"> 
   <td>&nbsp;</td>
    <tr><td>
  <input type="submit" value="登录" id="button"  >
   </form>

   </td></tr>
 </table>
</div>

   <div align="center">
    <table width="900" height="467" border="0" background="./image/yikou.png">
      <tr>
        <td width="126" height="948">&nbsp;</td>
        <td width="351"></td>
        <td width="101">&nbsp;</td>
      </tr>  
  </div>
</body>
</html>

下面是用抓包工具抓取的所有HTTP数据包：

浏览器发送的GET请求数据包：服务器回复的页面对应的数据包：

完整的浏览访问服务器数据包交互流程如下：

数据包交互流程，简单总如下：

浏览器会向web服务器发起tcp 3次握手，（http是基于tcp，上图数据包1-3）
浏览器会根据网址栏输入的url，通过DNS协议查找该domain对应的IP地址（如果url中直接给出IP地址，则省略该步骤）
浏览器发送HTTP协议的GET请求，web服务器会回复对应的页面（没有指定的话，一般由配置文件指定默认文件比如index.html，见数据包4-6）
因为页面有图片信息，浏览器再请求获取对应的图片文件（见数据包7-24）
最后会关闭tcp连接，执行4握手（见数据包25-28）

三、页面交互流程

下面我们来看一下，从网页输入URL到加载，http究竟做了哪些工作？

浏览器负责发起请求和最后的响应请求，服务器接收请求后，处理请求。

1、输入URL。

不管是链接还是地址栏的输入，情况都是一样的。http协议已经规定了URL的格式，通过http协议中的域名或IP找到服务器。

2、找到服务器的同时，会有http的请求发送过来，告诉服务器我求你做什么？http协议规定了发送请求的格式，这个格式有三部分组成请求行、请求头、请求体。

请求行包括请求的方式（get、post或其他）、要求响应的文件、http版本。请求头包括本机信息、浏览器信息等等，当然，也包括URL中？后面的参数。

请求体包括POST传递数据的相关信息，Get方式传值时，请求体为空。

3、请求信息发送至服务器以后，服务器会获取传递过来的相关信息进行后端程序的处理。服务器可以通过数据包中信息获取URL传递过来的值，通过form(表单)获取POST传递过来的值，当然，也是可以获取到所有的其他请求过来的信息，如浏览器信息、cookie信息、操作系统信息等。获取相关的数据以后，服务器就会根据程序进行处理。

4、处理完成以后，服务器会做出响应，向浏览器输出相关信息。http对响应的格式也做出了规定，响应的信息主要包括，响应码、响应头、响应体。

响应码用来标识服务器响应的结果，如我们常看到的200、404等。大致的分类如下：

1开头的表示消息，
2开头表示成功，
3开头表示重定向，
4开头表示失败，
5开头表示服务器异常。

响应头记录服务器相关信息如服务器是否启用压缩、服务器为IIS或Ngnix、程序所用服务端语言等等。当然，缓存也是在这里设置的，通过修改响应头可以修改html在本地缓存的情况，如设置浏览器缓存过期的时间。

响应体主要是我看到的html的相关内容了。

完成以上4步操作以后，浏览器就断开了与服务器的数据连接，不能在进行数据传输，如果需要再次进行数据传输，那么一切就要从输入URL开始。

如此，便是一个完整的网页流程，http从中的作用就是对整个流程进行规定，包括执行步骤，每一步的数据格式。只有了解http协议以及网页是如何产生的以后，才能对网页进行更好的控制，例如控制浏览器缓存、通过非浏览器发送http请求、get和post传值的选择，甚至是建立长连接，这些都是以http协议为基础。