注:内容根据《计算机网络第七版》以及相关PPT整理制作,图片主要源于{电子工程出版社},部分图片源于学校老师上课所画的图以及自己制作的思维导图

特点

每个应用层协议都是为了解决某一类应用问题,而问题的解决又往往是通过位于不同主机中的多个应用进程之间的通信和协同工作来完成的。应用层的具体内容就是规定应用进程在通信时所遵循的协议。

应用层的许多协议都是基于客户服务器方式。客户 (client) 和服务器 (server) 都是指通信中所涉及的两个应用进程。客户服务器方式所描述的是进程之间服务和被服务的关系。客户是服务请求方,服务器是服务提供方。

域名系统 DNS

域名系统概述

许多应用层软件经常直接使用域名系统 DNS (Domain Name System),但计算机的用户只是间接而不是直接使用域名系统。

互联网采用层次结构的命名树作为主机的名字,并使用分布式的域名系统 DNS。

名字到 IP 地址的解析是由若干个域名服务器程序完成的。域名服务器程序在专设的结点上运行,运行该程序的机器称为域名服务器。

互联网的域名结构

互联网采用了层次树状结构的命名方法。

任何一个连接在互联网上的主机或路由器,都有一个唯一的层次结构的名字,即域名。

域名的结构由标号序列组成,各标号之间用点隔开:

… . 三级域名 . 二级域名 . 顶级域名

各标号分别代表不同级别的域名。

在这里,域名只是个逻辑概念,并不代表计算机所在的物理地点。

变长的域名和使用有助记忆的字符串,是为了便于人来使用。而 IP 地址是定长的 32 位二进制数字则非常便于机器进行处理。

域名中的“点”和点分十进制 IP 地址中的“点”并无一一对应的关系。点分十进制 IP 地址中一定是包含三个“点”,但每一个域名中“点”的数目则不一定正好是三个。

顶级域名

国家顶级域名 nTLD,例如:

  1. .cn 表示中国,
  2. .us 表示美国,
  3. .uk 表示英国,等。

通用顶级域名 gTLD,最早的顶级域名是:

  1. .com(公司和企业)
  2. .net(网络服务机构
  3. .org(非赢利性组织)
  4. .edu(美国专用的教育机构)
  5. .gov(美国专用的政府部门)
  6. .mil(美国专用的军事部门)
  7. .int(国际组织)

基础结构域名

  1. 这种顶级域名只有一个,即 arpa,用于反向域名解析,因此又称为反向域名。

直接上图表示这些域名关系

image-20210408200642243

域名服务器

一个服务器所负责管辖的(或有权限的)范围叫做区 (zone)。

各单位根据具体情况来划分自己管辖范围的区。但在一个区中的所有节点必须是能够连通的。

每一个区设置相应的权限域名服务器,用来保存该区中的所有主机的域名到 IP 地址的映射。

DNS 服务器的管辖范围不是以“域”为单位,而是以“区”为单位。

image-20210408200752803

树状结构的 DNS 域名服务器

image-20210408201212011

域名服务器分为四种:

  1. 根域名服务器
  2. 顶级域名服务器
  3. 权限域名服务器
  4. 本地域名服务器

根域名服务器

根域名服务器是最高层次的域名服务器,也是最重要的域名服务器。所有的根域名服务器都知道所有的顶级域名服务器的域名和 IP 地址。

不管是哪一个本地域名服务器,若要对互联网上任何一个域名进行解析,只要自己无法解析,就首先求助于根域名服务器。

在互联网上共有 13 个不同 IP 地址的根域名服务器,它们的名字是用一个英文字母命名,从 a 一直到 m(前 13 个字母)。

这里注意:13个不同IP地址的根域名服务器并不意味着只有13个机器,而是共有13套装置

a.rootservers.net
b.rootservers.net
… 
m.rootservers.net

到2016年2月,全世界已经在 588 个地点安装了根域名服务器,使世界上大部分 DNS 域名服务器都能就近找到一个根域名服务器。

image-20210408202756097

根域名服务器并不直接把域名直接转换成 IP 地址。
在使用迭代查询时,根域名服务器把下一步应当找的顶级域名服务器的 IP 地址告诉本地域名服务器。

顶级域名服务器

顶级域名服务器(即 TLD 服务器)负责管理在该顶级域名服务器注册的所有二级域名。

当收到 DNS 查询请求时,就给出相应的回答(可能是最后的结果,也可能是下一步应当找的域名服务器的 IP 地址)。

权限域名服务器

负责一个区的域名服务器。

当一个权限域名服务器还不能给出最后的查询回答时,就会告诉发出查询请求的 DNS 客户,下一步应当找哪一个权限域名服务器。

本地域名服务器

本地域名服务器对域名系统非常重要。

当一个主机发出 DNS 查询请求时,这个查询请求报文就发送给本地域名服务器。

每一个互联网服务提供者 ISP,或一个大学,甚至一个大学里的系,都可以拥有一个本地域名服务器,这种域名服务器有时也称为默认域名服务器。

提高域名服务器的可靠性

DNS 域名服务器都把数据复制到几个域名服务器来保存,其中的一个是主域名服务器,其他的是辅助域名服务器。

当主域名服务器出故障时,辅助域名服务器可以保证 DNS 的查询工作不会中断。

主域名服务器定期把数据复制到辅助域名服务器中,而更改数据只能在主域名服务器中进行。这样就保证了数据的一致性。

域名的解析过程

主机向本地域名服务器的查询一般都是采用递归查询。如果主机所询问的本地域名服务器不知道被查询域名的 IP 地址,那么本地域名服务器就以 DNS 客户的身份(替前一个主机继续查询),向其他根域名服务器继续发出查询请求报文。

image-20210408204141405

本地域名服务器向根域名服务器进行递归查询的比较少采用,主要使用下面的迭代查询进行

本地域名服务器向根域名服务器的查询通常是采用迭代查询。当根域名服务器收到本地域名服务器的迭代查询请求报文时,要么给出所要查询的 IP 地址,要么告诉本地域名服务器:“你下一步应当向哪一个域名服务器进行查询”。然后让本地域名服务器进行后续的查询。

image-20210408203800415

高速缓存

每个域名服务器都维护一个高速缓存,存放最近用过的名字以及从何处获得名字映射信息的记录。

可大大减轻根域名服务器的负荷,使互联网上的 DNS 查询请求和回答报文的数量大为减少。

为保持高速缓存中的内容正确,域名服务器应为每项内容设置计时
器,并处理超过合理时间的项(例如,每个项目只存放两天)。

当权限域名服务器回答一个查询请求时,在响应中都指明绑定有效存在的时间值。增加此时间值可减少网络开销,而减少此时间值可提高域名转换的准确性。

文件传送协议

FTP 概述

文件传送协议 FTP (File Transfer Protocol) 是互联网上使用得最广泛的文件传送协议。

FTP 提供交互式的访问,允许客户指明文件的类型与格式,并允许文件具有存取权限。

FTP 屏蔽了各计算机系统的细节,因而适合于在异构网络中任意计算机之间传送文件。

RFC 959 很早就成为了互联网的正式标准。

要知道,文件传送可不是一件简单的事情

网络环境中的一项基本应用就是将文件从一台计算机中复制到另一台可能相距很远的计算机中。

初看起来,在两个主机之间传送文件是很简单的事情。

其实这往往非常困难。原因是众多的计算机厂商研制出的文件系统多达数百种,且差别很大。

FTP 的基本工作原理

网络环境下复制文件的复杂性:

  1. 计算机存储数据的格式不同。
  2. 文件的目录结构和文件命名的规定不同。
  3. 对于相同的文件存取功能,操作系统使用的命令不同。
  4. 访问控制方法不同。

FTP工作特点

文件传送协议 FTP 只提供文件传送的一些基本的服务,它使用 TCP 可靠的运输服务。

FTP 的主要功能是减少或消除在不同操作系统下处理文件的不兼容性。

FTP 使用客户服务器方式。一个 FTP 服务器进程可同时为多个客户进程提供服务。FTP 的服务器进程由两大部分组成:一个主进程,负责接受新的请求;另外有若干个从属进程,负责处理单个请求。

工作步骤

  1. 打开熟知端口(端口号为 21),使客户进程能够连接上。

  2. 等待客户进程发出连接请求。

  3. 启动从属进程来处理客户进程发来的请求。从属进程对客户进程的请求处理完毕后即终止,但从属进程在运行期间根据需要还可能创建其他一些子进程。

  4. 回到等待状态,继续接受其他客户进程发来的请求。主进程与从属进程的处理是并发地进行。

FTP 使用的两个 TCP 连接

控制连接在整个会话期间一直保持打开,FTP 客户发出的传送请求通过控制连接发送给服务器端的控制进程,但控制连接不用来传送文件。

实际用于传输文件的是“数据连接”。服务器端的控制进程在接收到 FTP 客户发送来的文件传输请求后就创建“数据传送进程”和“数据连接”,用来连接客户端和服务器端的数据传送进程。

数据传送进程实际完成文件的传送,在传送完毕后关闭“数据传送连接”并结束运行。

image-20210408214816503

那么这个过程是否就需要占用两个端口号来建立两个不同的连接嘞,答案是肯定的

  1. 当客户进程向服务器进程发出建立连接请求时,要寻找连接服务器进程的熟知端口 (21),同时还要告诉服务器进程自己的另一个端口号码,用于建立数据传送连接。
  2. 接着,服务器进程用自己传送数据的熟知端口 (20) 与客户进程所提供的端口号码建立数据传送连接。
  3. 由于 FTP 使用了两个不同的端口号,所以数据连接与控制连接不会发生混乱。

这样的好处是啥

  1. 使协议更加简单和更容易实现。
  2. 在传输文件时还可以利用控制连接(例如,客户发送请求终止传输)。

简单文件传送协议 TFTP

TFTP (Trivial File Transfer Protocol) 是一个很小且易于实现的文件传送协议。

TFTP 使用客户服务器方式和使用 UDP 数据报,因此 TFTP 需要有自己的差错改正措施。

TFTP 只支持文件传输而不支持交互。

TFTP 没有一个庞大的命令集,没有列目录的功能,也不能对用户进行身份鉴别。

主要特点

  • 每次传送的数据 PDU 中有 512 字节的数据,但最后一次可不足 512 字节。
  • 数据 PDU 也称为文件块 (block),每个块按序编号,从 1 开始。
  • 支持 ASCII 码或二进制传送。
  • 可对文件进行读或写。
  • 使用很简单的首部。

如同停止等待协议

  • 发送完一个文件块后就等待对方的确认,确认时应指明所确认的块编号。
  • 发完数据后在规定时间内收不到确认就要重发数据 PDU
  • 发送确认 PDU 的一方若在规定时间内收不到下一个文件块,也要重发确认 PDU。这样就可保证文件的传送不致因某一个数据报的丢失而告失败。
  • 开始工作时,TFTP 客户进程发送一个读请求 PDU 或写请求 PDU 给 TFTP 服务器进程,其熟知端口号码为 69。
  • TFTP 服务器进程要选择一个新的端口和 TFTP 客户进程进行通信。
  • 若文件长度恰好为 512 字节的整数倍,则在文件传送完毕后,还必须在最后发送一个只含首部而无数据的数据 PDU。
  • 若文件长度不是 512 字节的整数倍,则最后传送数据 PDU 的数据字段一定不满 512 字节,这正好可作为文件结束的标志。

远程终端协议 TELNET

TELNET 是一个简单的远程终端协议,也是互联网的正式标准。

用户用 TELNET 就可在其所在地通过 TCP 连接注册(即登录)到远地的另一个主机上(使用主机名或 IP 地址)。

TELNET 能将用户的击键传到远地主机,同时也能将远地主机的输出通过 TCP 连接返回到用户屏幕。这种服务是透明的,因为用户感觉到好像键盘和显示器是直接连在远地主机上。

现在由于 PC 的功能越来越强,用户已较少使用 TELNET 了。

TELNET 也使用客户服务器方式。在本地系统运行 TELNET 客户进程,而在远地主机则运行 TELNET 服务器进程。

和 FTP 的情况相似,服务器中的主进程等待新的请求,并产生从属进程来处理每一个连接。

image-20210409070642758

工作流程

客户软件把用户的击键和命令转换成 NVT 格式,并送交服务器。

服务器软件把收到的数据和命令,从 NVT 格式转换成远地系统所需的格式

向用户返回数据时,服务器把远地系统的格式转换为 NVT 格式,本地客户再从 NVT 格式转换到本地系统所需的格式

万维网 WWW🔺

万维网概述

万维网 WWW (World Wide Web) 并非某种特殊的计算机网络。
万维网是一个大规模的、联机式的信息储藏所。
万维网用链接的方法能非常方便地从互联网上的一个站点访问另一个站点,从而主动地按需获取丰富的信息。
这种访问方式称为“链接”。

万维网提供分布式服务

image-20210409070913440

万维网是分布式超媒体 (hypermedia) 系统,它是超文本 (hypertext) 系统的扩充。

一个超文本由多个信息源链接成。利用一个链接可使用户找到另一个文档。这些文档可以位于世界上任何一个接在互联网上的超文本系统中。超文本是万维网的基础。

超媒体与超文本的区别是文档内容不同。超文本文档仅包含文本信息,而超媒体文档还包含其他表示方式的信息,如图形、图像、声音、动画,甚至活动视频图像。

工作方式

万维网以客户 - 服务器方式工作。

浏览器就是在用户计算机上的万维网客户程序。万维网文档所驻留的计算机则运行服务器程序,因此这个计算机也称为万维网服务器。

客户程序向服务器程序发出请求,服务器程序向客户程序送回客户所要的万维网文档

在一个客户程序主窗口上显示出的万维网文档称为页面 (page)。

好的,问题来了,通过以下问题,我们将直接引出后几节的内容

(1) 怎样标志分布在整个互联网上的万维网文档?
使用统一资源定位符 URL (Uniform Resource Locator) 来标志万维网上的各种文档。使每一个文档在整个互联网的范围内具有唯一的标识符 URL。

(2) 用何协议实现万维网上各种超链的链接?
在万维网客户程序与万维网服务器程序之间进行交互所使用的协议,是超文本传送协议 HTTP (HyperText Transfer Protocol)
HTTP 是一个应用层协议,它使用 TCP 连接进行可靠的传送

(3) 怎样使各种万维网文档都能在互联网上的各种计算机上显示出来,同时使用户清楚地知道在什么地方存在着超链?
超文本标记语言 HTML (HyperText Markup Language) 使得万维网页面的设计者可以很方便地用一个超链从本页面的某处链接到互联网上的任何一个万维网页面,并且能够在自己的计算机屏幕上将这些页面显示出来。

(4) 怎样使用户能够很方便地找到所需的信息?
为了在万维网上方便地查找信息,用户可使用各种的搜索工具(即搜索引擎)

统一资源定位符 URL

资源定位符 URL 是对可以从互联网上得到的资源的位置和访问方法的一种简洁表示。
URL 给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。
只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。
URL 相当于一个文件名在网络范围的扩展。因此 URL 是与互联网相连的机器上的任何可访问对象的一个指针

URL 的一般形式

由以冒号隔开的两大部分组成,并且在 URL 中的字符对大写或小写没有要求。

注意:对大小写没有要求,也就是说不管你输入home还是HOME,它的意思都是一样的

image-20210409072803806

<主机> 是存放资源的主机在互联网中的域名

现在有些浏览器为了方便用户,在输入 URL 时,可以把最前面的“http://”甚至把主机名最前面的“www”省略,然后浏览器替用户把省略的字符添上。
例如,用户只要键入 ypigy.gitee.io,浏览器就自动把未键入的字符补齐,变成https://ypigy.gitee.io/。

HTTP格式的URL,点击了解完整url的含义

超文本传送协议 HTTP

为了使超文本的链接能够高效率地完成,需要用 HTTP 协议来传送一切必须的信息。
从层次的角度看,HTTP 是面向事务的 (transaction-oriented) 应用层协议,它是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。

万维网的工作过程

image-20210409073310895

每个万维网网点都有一个服务器进程,它不断地监听 TCP 的端口 80,以便发现是否有浏览器向它发出连接建立请求。
一旦监听到连接建立请求并建立了 TCP 连接之后,浏览器就向万维网服务器发出浏览某个页面的请求,服务器接着就返回所请求的页面作为响应。最后,TCP 连接就被释放了。

在浏览器和服务器之间的请求响应的交互,必须按照规定的格式和遵循一定的规则。这些格式和规则就是超文本传送协议 HTTP

HTTP 规定在 HTTP 客户与 HTTP 服务器之间的每次交互,都由一个 ASCII 码串构成的请求和一个类似的通用互联网扩充,即“类 MIME (MIME-like)”的响应组成。

最后再强调一遍:HTTP 报文通常都使用 TCP 连接传送。

HTTP 的主要特点

  1. HTTP 使用了面向连接的 TCP 作为运输层协议,保证了数据的可靠传输。
  2. HTTP 协议本身也是无连接的,虽然它使用了面向连接的 TCP 向上提供的服务。
  3. HTTP 是面向事务的客户服务器协议。
  4. HTTP 1.0 协议是无状态的 (stateless)。

下面我们通过三报文握手来了解http协议的工作

image-20210409082643731

通过图可以看到:http请求报文是作为第三次报文发送的,这时连接也建立好了,服务器就会将请求所需要的资源发送给客户端

这个过程过后,客户端接收到了资源后,便会断开tcp连接,然后下一次需要的时候继续建立连接,然后传递数据,而如果说现在你要请求一个包含很多资源(比如很多图片)的网页,那么客户端首先建立第一次tcp连接用于请求html页面,之后资源收到断开连接后又继续发起一次tcp连接,记住:http连接是无状态,也就意味着你每次建立连接都是全新的,耗时是一样的,且如果需要登录的话,会重复登陆,这次请求是一张图片,接下来还有其它资源,就要重复发起一次又一次的tcp连接,这样会很没有效率,如何解决这个问题呢

持续连接

HTTP/1.1 协议使用持续连接 (persistent connection)。

万维网服务器在发送响应后仍然在一段时间内保持这条连接,使同一个客户(浏览器)和该服务器可以继续在这条连接上传送后续的 HTTP 请求报文和响应报文。

这并不局限于传送同一个页面上链接的文档,而是只要这些文档都在同一个服务器上就行。

大部分主流浏览器默认用的就是持久连接

工作方式

非流水线方式:客户在收到前一个响应后才能发出下一个请求。这比非持续连接的两倍 RTT 的开销节省了建立 TCP 连接所需的一个 RTT 时间。但服务器在发送完一个对象后,其 TCP 连接就处于空闲状态,浪费了服务器资源。

这和之前的应用层tcp停止等待协议类似,好比你妈叫你帮忙拿酱油,你屁颠屁颠跑去拿,然后递给妈妈,这时候妈妈又叫你帮忙拿盐,你又屁颠屁颠跑去拿盐,再回来递给妈妈,再然后,你妈又叫你……,就不能一次性说完吗,你愤怒的吼着,这不,你也会流水线方式嘛。

流水线方式:客户在收到 HTTP 的响应报文之前就能够接着发送新的请求报文。一个接一个的请求报文到达服务器后,服务器就可连续发回响应报文。使用流水线方式时,客户访问所有的对象只需花费一个 RTT时间,使 TCP 连接中的空闲时间减少,提高了下载文档效率。

老妈一听,哦对吼,拿起一张小纸条,写下要拿的东西,笑眯眯(毫无内疚)的递给你:宝贝你辛苦了,然后你就又屁颠屁颠跑去把几样东西一起拿过来递给妈妈

好的,让我们再看一种情况,如果服务器那边的资源没有更新,而浏览器已经请求过一次服务器的资源了,这时候浏览器这边每次打开该网址都要发起一次tcp连接去重复请求资源,是不是同样浪费资源呢,可不可以把这些没有更改过的资源存起来呢

代理服务器(高速缓存)

当当当当,便是代理服务器啦

代理服务器 (proxy server) 又称为万维网高速缓存 (Web cache),它代表浏览器发出 HTTP 请求。

万维网高速缓存把最近的一些请求和响应暂存在本地磁盘中。

当与暂时存放的请求相同的新请求到达时,万维网高速缓存就把暂存的响应发送出去,而不需要按 URL 的地址再去互联网访问该资源。

让我们来看一张图,在没有高速缓存的情况下,多台主机对资源发起请求

image-20210409084722171

那么这条链路上的时延会很大,因为所有万维网通信量都经过这条链路

那么,使用高速缓存呢

image-20210409085015793

具体步骤为

(1) 浏览器访问互联网的服务器时,要先与校园网的高速缓存建立 TCP 连接,并向高速缓存发出 HTTP 请求报文。

(2) 若高速缓存已经存放了所请求的对象,则将此对象放入 HTTP 响应报文中返回给浏览器。

(3) 否则,高速缓存就代表发出请求的用户浏览器,与互联网上的源点服务器建立 TCP 连接,并发送 HTTP 请求报文。

image-20210409085130673

(4) 源点服务器将所请求的对象放在 HTTP 响应报文中返回给校园网的高速缓存。

(5) 高速缓存收到此对象后,先复制在其本地存储器中(为今后使用),然后再将该对象放在 HTTP 响应报文中,通过已建立的 TCP 连接,返回给请求该对象的浏览器。

image-20210409085015793

HTTP 的报文结构

既然客户端要发起请求,是不是要写个什么东西告诉服务器呢,当然要,你要东西你不得先说出来你要啥让被请求方知道嘛,服务器响应也同样要给予客户端响应的,那这个东西是什么

HTTP 有两类报文:
请求报文——从客户向服务器发送请求报文。
响应报文——从服务器到客户的回答。

由于 HTTP 是面向正文的 (text-oriented),因此在报文中的每一个字段都是一些 ASCII 码串,因而每个字段的长度都是不确定的。

先来看看请求报文的结构

image-20210409085755836

报文由三个部分组成,即开始行、首部行和实体主体。在请求报文中,开始行就是请求行。

  1. “方法”是面向对象技术中使用的专门名词。所谓“方法”就是对所请求的对象进行的操作,因此这些方法实际上也就是一些命令。因此,请求报文的类型是由它所采用的方法决定的。

    点击这里查看请求方法

  2. “URL”是所请求的资源的 URL。

  3. “版本”是 HTTP 的版本。

再来看看响应报文

image-20210409090024473

响应报文的开始行是状态行。状态行包括三项内容,即 HTTP 的版本,状态码,以及解释状态码的简单短语。

  1. 状态码都是三位数字,具体查看这里
    • 1xx 表示通知信息的,如请求收到了或正在进行处理。
    • 2xx 表示成功,如接受或知道了。
    • 3xx 表示重定向,表示要完成请求还必须采取进一步的行动。
    • 4xx 表示客户的差错,如请求中有错误的语法或不能完成。
    • 5xx 表示服务器的差错,如服务器失效无法完成请求。

万维网站点可以使用 Cookie 来跟踪用户。具体可以点击这里

Cookie 表示在 HTTP 服务器和客户之间传递的状态信息。
使用 Cookie 的网站服务器为用户产生一个唯一的识别码。利用此识别码,网站就能够跟踪该用户在该网站的活动。

万维网的文档

超文本标记语言 HTML

超文本标记语言 HTML 中的 Markup 的意思就是“设置标记”。

HTML 定义了许多用于排版的命令(即标签)。

HTML 把各种标签嵌入到万维网的页面中。这样就构成了所谓的HTML 文档。HTML 文档是一种可以用任何文本编辑器创建的 ASCII 码文件。

仅当 HTML 文档是以 .html 或 .htm 为后缀时,浏览器才对此文档的各种标签进行解释。

如 HTML 文档改换以 .txt 为其后缀,则 HTML 解释程序就不对标签进行解释,而浏览器只能看见原来的文本文件。

当浏览器从服务器读取 HTML 文档后,就按照 HTML 文档中的各种标签,根据浏览器所使用的显示器的尺寸和分辨率大小,重新进行排版并恢复出所读取的页面。详细了解html点击这里

1
2
3
4
5
6
7
8
9
10
11
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Document</title>
</head>
<body>
<p>你好</p>
</body>
</html>

XML

XML (Extensible Markup Language) 是可扩展标记语言,它和 HTML 很相似。

但 XML 的设计宗旨是传输数据,而不是显示数据(HTML 是为了在浏览器上显示数据)。

XML 不是要替换 HTML,而是对 HTML 的补充。

XHTML

XHTML (Extensible HTML) 是可扩展超文本标记语言,它与 HTML 4.01 几乎是相同的。

但 XHTML 是更严格的 HTML 版本,也是一个 W3C 标准(2000年1月),是作为一种 XML 应用被重新定义的 HTML,并将逐渐取代 HTML。

新的浏览器都支持 XHTML。

CSS

CSS (Cascading Style Sheets) 是层叠样式表,它是一种样式表语言,用于为 HTML 文档定义布局

CSS 与 HTML 的区别就是:HTML 用于结构化内容,而 CSS 则用于格式化结构化的内容。

通俗的讲便是,html用于定义页面架构,而css则是决定这些

动态万维网文档

当你在自己电脑上写了一个页面,不包括任何从服务器上请求过来的数据(比如使用AJAX),然后用浏览器打开看的时候,这个时候它便是一个静态页面,如果你把它放到服务器上,那么它也依然是静态页面,因为里面的数据不能也不会发生改变,它是一个死页面

静态文档是指该文档创作完毕后就存放在万维网服务器中,在被用户浏览的过程中,内容不会改变。

动态文档是指文档的内容是在浏览器访问万维网服务器时才由应用程序动态创建。

动态文档和静态文档之间的主要差别体现在服务器一端。这主要是文档内容的生成方法不同。而从浏览器的角度看,这两种文档并没有区别。

那么,我们如何动态改变页面的显示数据呢,毕竟,一个新闻网站每天的新闻都是新的把,购物网站的商品每天也会推荐给你不同的吧,总不能一天写一个新页面放到服务器上吧

万维网服务器功能的扩充

  1. 增加另一个应用程序,用来处理浏览器发来的数据,并创建动态文档。

  2. 增加一个机制,用来使万维网服务器把浏览器发来的数据传送给这个应用程序,然后万维网服务器能够解释这个应用程序的输出,并向浏览器返回 HTML 文档。

image-20210409092216962

就是如图所示:使用CGI来创建动态文档,那么CGI是啥

CGI 程序

CGI 程序的正式名字是 CGI 脚本 (script)。

“脚本”指的是一个程序,它被另一个程序(解释程序)而不是计算机的处理机来解释或执行。

脚本运行起来要比一般的编译程序要慢,因为它的每一条指令先要被另一个程序来处理(这就要一些附加的指令),而不是直接被指令处理器来处理。

活动万维网文档

活动文档 (active document) 技术把所有的工作都转移给浏览器端。

每当浏览器请求一个活动文档时,服务器就返回一段程序副本在浏览器端运行。

活动文档程序可与用户直接交互,并可连续地改变屏幕的显示。
由于活动文档技术不需要服务器的连续更新传送,对网络带宽的要求也不会太高。

image-20210409093246471

JAVA是活动文档技术的一部分,这里不展开,可自行百度

万维网的信息检索系统

在万维网中用来进行搜索的程序叫做搜索引擎。

全文检索搜索

全文检索搜索引擎是一种纯技术型的检索工具。它的工作原理是通过搜索软件到互联网上的各网站收集信息,找到一个网站后可以从这个网站再链接到另一个网站。然后按照一定的规则建立一个很大的在线数据库供用户查询。

用户在查询时只要输入关键词,就从已经建立的索引数据库上进行查询(并不是实时地在互联网上检索到的信息)。

著名的有google、baidu 以及bing

分类目录搜索

分类目录搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交的网站信息时填写的关键词和网站描述等信息,经过人工审核编辑后,如果认为符合网站登录的条件,则输入到分类目录的数据库中,供网上用户查询。

分类目录搜索也叫做分类网站搜索

著名的有雅虎、新浪以及网易

垂直搜索引擎

垂直搜索引擎 (Vertical Search Engine) 针对某一特定领域、特定人群或某一特定需求提供搜索服务。
垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息、消息、条目等。

博客和微博

博客

博客是万维网日志 (weblog) 的简称。也有人把 blog 进行音译,译为“部落格”,或“部落阁”。还有人用“博文”来表示“博客文章”。

Weblog 这个新词是 Jorn Barger 于 1997 年创造的。

简写的 blog(这是今天最常用的术语)则是 Peter Merholz 于 1999 年创造的。

有人把 blog 既当作名词,也当作动词,表示编辑博客或写博客。

博客已经极大地扩充了互联网的应用和影响 。

在博客出现以前,网民是互联网上内容的消费者。

但博客改变了这种情况,网民不仅是互联网上内容的消费者,而且还是互联网上内容的生产者 。

微博

没啥好说的,大部分人都在用,它和博客最大的区别就是,博客更像是一个个人网站,用来写一些比较大型的文章或技术内容,而微博更多则是分享自己的片段、碎语,三言两语

社交网络

社交网站 SNS (Social Networking Site) 是近年来发展非常迅速的一种网站,其作用是为一群拥有相同兴趣与活动的人创建在线社区

电子邮件

电子邮件概述

电子邮件 (e-mail):指使用电子设备交换的邮件及其方法。电子邮件是互联网上使用得最多的和最受用户欢迎的一种应用。

优点:使用方便,传递迅速,费用低廉,可以传送多种类型的信息(包括:文字信息,声音和图像等)。

电子邮件的重要标准包括以下部分

  1. 简单邮件发送协议:SMTP
  2. 互联网文本报文格式
  3. 通用互联网邮件扩充 MIME
  4. 邮件读取协议:POP3 和 IMAP

通过以下图片理解邮件通信的各个组成部分

image-20210409100723015

用户代理 UA (User Agent)

用户代理 UA 就是用户与电子邮件系统的接口,是电子邮件客户端软件。
用户代理的功能:撰写、显示、处理和通信。

邮件服务器的功能是发送和接收邮件,同时还要向发信人报告邮件传送的情况(已交付、被拒绝、丢失等)。

邮件服务器按照客户 - 服务器方式工作。邮件服务器需要使用发送和读取两个不同的协议。

用户与电子邮件系统的接口。又被称为电子邮件客户端软件。

基本功能:撰写、显示、处理和通信。

邮件服务器 (Mail Server)

又被称为邮件传输代理。

功能:发送和接收邮件,同时还要向发信人报告邮件传送的情况。
按照客户 – 服务器方式工作。

在发送和读取邮件时使用两个不同的协议:SMTP,POP3。

邮件发送和读取协议

邮件发送和读取使用不同的协议协议。

  1. 简单邮件发送协议 SMTP:用于在用户代理向邮件服务器或邮件服务器之间发送邮件。

  2. 邮局协议 POP3:用于用户代理从邮件服务器读取邮件。

通信双发既可以是客户也可以是服务器,当你是写信方时,你便是客户,收信方是服务器,放过来便是相反,对方是客户,你是服务器

还要注意的是:SMTP和POP3(或IMAP)都是使用TCP连接来传送邮件的,目的是为了可靠地传送邮件。

仔细观察下面的图

image-20210409101409058

发送方发送邮件是通过一条跨越互联网的线过去到达服务器端端,所以请注意:邮件不会在互联网中的某个中间邮件服务器落地

发送方是通过“推(push)”的方式讲邮件发送出去,而接收方则是通过“拉(pull)”的方式接收邮件的

发送和接收电子邮件的几个重要步骤

  1. 发件人调用 PC 中的用户代理撰写和编辑要发送的邮件。
  2. 发件人的用户代理把邮件用 SMTP 协议发给发送方邮件服务器。
  3. SMTP 服务器把邮件临时存放在邮件缓存队列中,等待发送。
  4. 发送方邮件服务器的 SMTP 客户与接收方邮件服务器的 SMTP服务器建立 TCP 连接,然后就把邮件缓存队列中的邮件依次发送出去。
  5. 运行在接收方邮件服务器中的SMTP服务器进 程收到邮件后,把邮件放入收件人的用户邮箱中,等待收件人进行读取。
  6. 收件人在打算收信时,就运行PC机中的用户代理,使用POP3(或 IMAP)协议读取发送给自己的邮件。

电子邮件的组成

电子邮件由信封 (envelope) 和内容 (content) 两部分组成。

电子邮件的传输程序根据邮件信封上的信息来传送邮件。用户在从自己的邮箱中读取邮件时才能见到邮件的内容。

在邮件的信封上,最重要的就是收件人的地址。

电子邮件地址的格式

收件人邮箱名@邮箱所在主机的域名

这便是TCP/IP 体系的电子邮件系统规定电子邮件地址的格式

符号“@”读作“at”,表示“在”的意思。
例如电子邮件地址 xiexiren@tsinghua.org.cn

这里要注意两点

  1. 这个用户名( xiexiren)在该域名的范围内是唯一的。

  2. 邮箱所在的主机的域名(tsinghua.org.cn)在全世界必须是唯一的

简单邮件传送协议 SMTP

image-20210409100723015

SMTP 规定了在两个相互通信的 SMTP 进程交换信息的方法。

SMTP 使用客户–服务器方式。

SMTP 基于 TCP 实现客户与服务器的通信。

image-20210409102248512

SMTP 是一个基于文本的 (即 ASCII 码) 的协议。

SMTP 客户与服务器之间采用命令-响应方式进行交互。

image-20210409102308510

SMTP 基于 TCP 实现客户与服务器之间的通信。

SMTP 通信的三个阶段

连接建立:连接是在发送主机的 SMTP 客户和接收主机的 SMTP 服务器之间建立的。SMTP不使用中间的邮件服务器。

邮件传送

连接释放:邮件发送完毕后,SMTP 应释放 TCP 连接。

通过图来理解这个过程(这个过程其实和http协议进行通信有点类似)

  1. 首先是建立连接用于传送邮件

    image-20210409102449163

  2. 接着就是传送邮件了

    image-20210409102751440

  3. 然后就是邮件传送完,连接释放

    image-20210409102825471

电子邮件的信息格式

一个电子邮件分为信封和内容两大部分。

RFC 5322 只规定了邮件内容中的首部 (header) 格式,而对邮件的主体 (body) 部分则让用户自由撰写。

image-20210409103109432

对图中各个名词进行解释

  1. “To:” 后面填入一个或多个收件人的电子邮件地址。用户只需打开地址簿,点击收件人名字,收件人的电子邮件地址就会自动地填入到合适的位置上。
  2. “Subject:” 是邮件的主题。它反映了邮件的主要内容,便于用户查找邮件。
  3. “Cc:” 表示应给某某人发送一个邮件副本。
  4. “From” 和 “Date” 表示发信人的电子邮件地址和发信日期。
  5. “Reply-To” 是对方回信所用的地址。

邮件读取协议 POP3 和 IMAP

正如标题:现在有两个常用的邮件读取协议:

  1. POP3:邮局协议 (Post Office Protocol) 第3个版本
  2. IMAP:网际报文存取协议 (Internet Message Access Protocol)

首先了解下POP3协议

POP3 协议

POP3 使用客户–服务器方式。

POP3 基于TCP实现客户与服务器的通信。

POP3 支持用户鉴别。

POP3 服务器会删除被用户读取了的邮件。(也就是阅完即焚)

image-20210409103251660

IMAP 协议

IMAP 使用客户–服务器方式。

IMAP 基于TCP实现客户与服务器的通信。

IMAP是一个联机协议。

image-20210409103428001

IMAP的特点如下

  1. 连接后只下载邮件首部(部分下载)。
  2. 用户直接在IMAP服务器上创建和管理文件夹。
  3. 用户可以搜索邮件内容。
  4. 用户可以在不同的地方使用不同的计算机随时上网阅读和处理自己的邮件。
  5. 允许收信人只读取邮件中的某一个部分
  6. 缺点:要想查阅邮件,必须先联网。

IMAP 与 POP3 比较

操作位置 操作内容 IMAP POP3
收件箱 阅读、标记、移动、删除邮件等 客户端与邮箱更新同步 仅在客户端内
发件箱 保存到已发送 客户端与邮箱更新同步 仅在客户端内
创建文件夹 新建自定义的文件夹 客户端与邮箱更新同步 仅在客户端内
草稿 保存草稿 客户端与邮箱更新同步 仅在客户端内
垃圾文件夹 接收并移入垃圾文件夹的邮件 支持 不支持
广告邮件 接收并移入广告邮件夹的邮 支持 不支持

image-20210409104202426

这里要好好区别,邮件读取协议 POP 或 IMAP 与邮件传送协议 SMTP 完全不同。

发信人的用户代理向源邮件服务器发送邮件,以及源邮件服务器向目的邮件服务器发送邮件,都是使用 SMTP 协议。
而 POP 协议或 IMAP 协议则是用户从目的邮件服务器上读取邮件所使用的协议。

简单来说:发邮件是用SMTP协议,而收文件是在pop3imap协议中挑一个去收

image-20210409104425895

基于万维网的电子邮件

用户代理 (UA) 的缺点:必须在计算机中安装用户代理软件可能不能安装或不允许安装。所以会导致不方便收邮件,而且,很重要的是,你要收发文件,两个人都要开着电脑,啊这……

而这时候通过之前学的万维网以及http协议,我们是否可以把这个平台搬到互联网上呢,答案是可以的,你现在的用的邮箱不就是吗,所以,万维网电子邮件的优点是啥

  • 不需要在计算机中再安装用户代理软件。
  • 计算机能联网,就能非常方便地收发电子邮件。
  • 电子邮件界面非常友好。

image-20210409104824166

通过图可以了解到其有两个特点

  1. 发送、接收电子邮件时使用 HTTP 协议。
  2. 两个邮件服务器之间传送邮件时使用 SMTP。

好的,互联网解决了我们之间的电子邮件交流,现在另一个问题来了,我们使用的SMTP协议好像没法发图片或者其他多媒体文件(SMTP 不能传送可执行文件或其他的二进制对象。),这咋整,我想发鸭,而且还有一个问题:SMTP 限于传送 7 位的 ASCII 码。许多其他非英语国家的文字(如中文、俄文,甚至带重音符号的法文或德文)就无法传送。甚至还存在这个问题:SMTP 服务器会拒绝超过一定长度的邮件。那怎么解决呢

通用互联网邮件扩充 MIME

对的,就是它,它可以帮我们解决上面遇到的问题,那是不是意味着就可以直接用他来取代SMTP呢,并不是这样的

MIME 的意图是继续使用目前的 [RFC 822] 格式,但增加了邮件主体的结构,并定义了传送非 ASCII 码的编码规则

image-20210409105253804

它主要包括三个部分

  1. 5 个新的邮件首部字段,它们可包含在原有首部中。这些字段提供了有关邮件主体的信息。

    MIME首部

  2. 定义了许多邮件内容的格式,对多媒体电子邮件的表示方法进行了标准化。

  3. 定义了传送编码,可对任何内容格式进行转换,而不会被邮件系统改变。

    编码方法 说明
    7bit 7 位 ASCII 编码,每行不能超过 1000 个字符(包括回车和换行)。缺省编码方法。
    8bit 8 位非 ASCII 编码,每行不能超过 1000 个字节(包括回车和换行)。
    Binary 8 位非 ASCII 编码,任意长度的字节串。
    Base64 将任意长度的字节串转换为用 7 位 ASCII 编码表示的字符串。可用于二进制和非文本数据的编码。
    Quoted-printable 将任意长度的字节串转换为 ASCII 编码表示的字符串。可用于二进制和非文本数据的编码。

这里对各个编码方法就不继续展开了,详细可以通过书本理解

内容类型

MIME 着标准规定 Content-Type 说明必须含有两个标识符,即内容类型(type)和子类型(subtype),中间用“/”分开。

MIME 标准原先定义了 7 个基本内容类型和 15 种子类型。

MIME允许发件人和收件人自己定义专用的内容类型。但为避免可能出现名字冲突,标准要求为专用的内容类型选择的名字要以字符串 X-开始。

内容类型 子类型举例 说明
text(文本) plain, html, xml, css 不同格式的文本
image(图像) gif, jpeg, tiff 不同格式的静止图像
audio(音频) basic, mpeg, mp4 可听见的声音
video(视频) mpeg, mp4, quicktime 不同格式的影片
model(模型) vrml 3D模型
application(应用) octet-stream, pdf, javascript, zip 不同应用程序产生的数据
message(报文) http, rfc822 封装的报文
multipart(多部分) mixed, alternative, parallel, digest 多种类型的组合

举个例子

image-20210409110200263

动态主机配置协议 DHCP

互联网广泛使用的动态主机配置协议 DHCP (Dynamic Host Configuration Protocol) 提供了即插即用连网 (plug-and-play networking) 的机制。

这种机制允许一台计算机加入新的网络和获取 IP 地址,而不用手工配置。

DHCP给运行服务器软件、且位置固定的计算机指派一个永久地址,给运行客户端软件的计算机分配一个临时地址。

步骤大致如下

  1. 需要 IP 地址的主机在启动时就向 DHCP 服务器广播发送发现报文(DHCPDISCOVER),这时该主机就成为 DHCP 客户。

    为什么要广播,因为这时候A并不知道DHCP服务器是哪一台,所以全都发,而此时它并没有IP地址,所以这个报文的源地址也都会是0

    image-20210409111807042

  2. 本地网络上所有主机都能收到此广播报文,但只有 DHCP 服务器才回答此广播报文。

  3. DHCP 服务器先在其数据库中查找该计算机的配置信息。

    • 若找到,则返回找到的信息。
    • 若找不到,则从服务器的 IP 地址池 (address pool) 中取一个地址分配给该计算机。DHCP服务器的回答报文叫做提供报文(DHCPOFFER)。

    image-20210409111829348

并不是每个网络上都有DHCP服务器,这样会使DHCP服务器的数量太多。现在是每一个网络至少有一个 DHCP 中继代理,它配置了 DHCP 服务器的 IP 地址信息。

当 DHCP 中继代理收到主机发送的发现报文后,就以单播方式向 DHCP 服务器转发此报文,并等待其回答。收到 DHCP 服务器回答的提供报文后,DHCP 中继代理再将此提供报文发回给主机。

image-20210409111903379

租用期 (lease period)

DHCP 服务器分配给 DHCP 客户的 IP 地址的临时的,因此 DHCP 客户只能在一段有限的时间内使用这个分配到的 IP 地址。DHCP 协议称这段时间为租用期
租用期的数值应由 DHCP 服务器自己决定。
DHCP 客户也可在自己发送的报文中(例如,发现报文)提出对租用期的要求。

不是很理解为啥要租用,不能分配好了就一直用吗,可能是因为怕使用了该ip地址的主机很久不用导致ip地址浪费吧

image-20210409112048314

梳理图中的过程

  1. DHCP 服务器被动打开 UDP 端口 67, 等待客户端发来的报文。

  2. DHCP 客户从 UDP 端口 68 发送 DHCP 发现报文 DHCPDISCOVER。

  3. 凡收到 DHCP 发现报文的 DHCP 服务器都发出 DHCP 提供报文 DHCPOFFER,因此,DHCP 客户可能收到多个 DHCP 提供报文 。

  4. DHCP 客户从几个 DHCP 服务器中选择其中的一个,并向所选择的 DHCP 服务器发送 DHCP 请求报文 DHCPREQUEST。

  5. 被选择的 DHCP 服务器发送确认报文DHCPACK,进入已绑定状态,并可开始使用得到的临时 IP 地址了。

    DHCP 客户现在要根据服务器提供的租用期 T 设置两个计时器 T1 和 T2,它们的超时时间分别是 0.5T 和 0.875T。当超时时间到就要请求更新租用期。

  6. 租用期过了一半(T1 时间到),DHCP 客户发送请求报文 DHCPREQUEST,要求更新租用期。

  7. DHCP 服务器若同意,则发回确认报文 DHCPACK。DHCP 客户得到了新的租用期,重新设置计时器。

  8. DHCP 服务器若不同意,则发回否认报 DHCPNACK。这时 DHCP 客户必须立即停止使用原来的 IP 地址,而必须重新申请 IP 地址(回到步骤 ❷)。

    若 DHCP 服务器不响应步骤 ❻ 的请求报文 DHCPREQUEST,则在租用期过了 87.5% 时,DHCP 客户必须重新发送请求报文 DHCPREQUEST(重复步骤 ❻),然后又继续后面的步骤。

  9. DHCP 客户可随时提前终止服务器所提供的租用期,这时只需向 DHCP 服务器发送释放报文 DHCPRELEASE 即可。

简单网络管理协议 SNMP

基本概念

网络管理包括对硬件、软件和人力的使用、综合与协调,以便对网络资源进行监视、测试、配置、分析、评价和控制,这样就能以合理的价格满足网络的一些需求,如实时运行性能,服务质量等。网络管理常简称为网管。

网络管理并不是指对网络进行行政上的管理。网络管理分为五大功能

  1. 故障管理:故障检测、隔离和纠正。
  2. 配置管理:初始化网络、并配置网络。
  3. 计费管理:记录网络资源的使用。
  4. 性能管理:估价系统资源的运行状况及通信效率等。
  5. 网络安全管理:对授权机制、访问控制、加密和加密关键字的管理。

网络管理长这样的

image-20210409113609272

  • 管理站也常称为网络运行中心 NOC (Network Operations Center),是网络管理系统的核心。
  • 管理程序在运行时就成为管理进程。
  • 管理站(硬件)或管理程序(软件)都可称为管理者(manager)。Manager 不是指人,而是指机器或软件。
  • 网络管理员 (administrator) 指的是负责网络管理的人员。
  • 大型网络往往实行多级管理,因而有多个管理者,而一个管理者一般只管理本地网络的设备。
  • 被管对象
    • 网络的每一个被管设备中可能有多个被管对象。
    • 被管设备有时可称为网络元素或网元。
    • 在被管设备中也会有一些不能被管的对象。

代理

在每一个被管设备中都要运行一个程序以便和管理站中的管理程序进行通信。这些运行着的程序叫做网络管理代理程序,或简称为代理。

代理程序在管理程序的命令和控制下在被管设备上采取本地的行动。

网络管理协议

网络管理协议简称为网管协议。

网络管理协议是管理程序和代理程序之间进行通信的规则。

网络管理员利用网络管理协议,通过管理站对网络中的被管设备进行管理。

需要注意的是,网管协议本身不管理网络。

简单网络管理协议 SNMP

简单网络管理协议SNMP (Simple Network Management Protocol) 中的管理程序和代理程序按客户–服务器方式工作。

管理程序运行 SNMP 客户程序,向某个代理程序发出请求(或命令),代理程序运行 SNMP 服务器程序,返回响应(或执行某个动作)。

在网管系统中,往往是一个(或少数几个)客户程序与很多的服务器程序进行交互。

指导思想

  • SNMP 最重要的指导思想就是要尽可能简单。
  • SNMP 的基本功能包括监视网络性能、检测分析网络差错和配置网络设备等。
  • 在网络正常工作时,SNMP 可实现统计、配置、和测试等功能。当网络出故障时,可实现各种差错检测和恢复功能。
  • 虽然 SNMP 是在 TCP/IP 基础上的网络管理协议,但也可扩展到其他类型的网络设备上。

基本功能

  1. 监视网络性能
  2. 检测分析网络差错
  3. 配置网络设备等。

委托代理

整个系统必须有一个管理站。

若网络元素使用的不是 SNMP 而是另一种网络管理协议,SNMP 协议就无法控制该网络元素。这时可使用委托代理 (proxy agent)。

委托代理能提供协议转换和过滤操作等功能,对被管对象进行管理。

image-20210409114208398

SNMP 的网络管理组成

  1. SNMP 本身
  2. 管理信息结构 SMI (Structure of Management Information)
  3. 管理信息库 MIB (Management Information Base)。

管理信息结构 SMI

功能:

  1. 被管对象应怎样命名;
  2. 用来存储被管对象的数据类型有哪些;
  3. 在网络上传送的管理数据应如何编码。

SMI 定义了命名对象和定义对象类型(包括范围和长度)的通用规则,以及把对象和对象的值进行编码的规则。这样做是为了确保网络管理数据的语法和语义的无二义性。但从 SMI 的名称并不能看出它的功能。SMI 并不定义一个实体应管理的对象数目,也不定义被管对象名以及对象名及其值之间的关联。

首先从第一个功能,被管对象的命名上来讲

被管对象命名

SMI 规定所有被管对象必须在命名树上,如下图

image-20210411101957301

SMI 标准指明:所有的 MIB 变量必须使用抽象语法记法 1(ASN.1)来定义。
SMI 既是 ASN.1 的子集,又是 ASN.1 的超集。
ASN.1 的记法很严格,它使得数据的含义不存在任何可能的二义性。

数据类型

image-20210411102208973

SMI 把数据类型分为两大类(如下图):

  1. 简单类型
  2. 结构化类型。

image-20210411102306749

基本编码规则 BER

ISO 在制订 ASN.1 语言的同时也为它定义了一种标准的编码方案,即基本编码规则 BER (Basic Encoding Rule)。
BER 指明了每种数据类型中每个数据的值的表示。
发送端用 BER 编码,可将用 ASN.1 所表述的报文转换成唯一的比特序列。
接收端用 BER 进行解码,得到该比特序列所表示的 ASN.1 报文。

ASN.1把所有的数据元素都表示为T-L-V三个字段的组成的序列,T字段定义数据的类型,L字段定义V字段的长度,V字段定义数据值

image-20210411102353190

TLV 中的 T 字段定义数据的类型

image-20210411102504033

L 字段定义 V 字段的长度

单字节的L字段第一位为0,后续七位定义V字段的长度

当L字段为多字节时,其最高为时1,后面七位定义后续字节的字节数(二进制整数表示),这时,所有后续字节并置起来的二进制整数定义V字段的长度

image-20210411102742467

V 字段定义数据的值

类 型 大 小 说 明
INTEGER 4 字节 在 –231 到 231 – 1 之间的整数
Interger32 4 字节 和 INTEGER 相同
Unsigned32 4 字节 在 0 到 232 – 1 之间的无符号数
OCTET STRING 可变 不超过 65535 字节长的字节串
OBJECT IDENTIFIER 可变 对象标识符
IPAddress 4 字节 由 4 个整数组成的IP地址
Counter32 4 字节 可从 0 增加到 232 的整数;当它到达最大值时就返回到 0
TimeTicks 4 字节 记录时间的计数值,以 1/100 秒为单位
BITS 比特串
Opaque 可变 不解释的串

例如,INTEGER 15,其 T 字段是02, INTEGER 类型要用 4 字节编码。最后得出 TLV 编码为 02 04 00 00 00 0F。

image-20210411104028469

V 字段可嵌套其他数据元素的 TLV 字段

image-20210411103814658

管理信息库 MIB

被管对象必须维持可供管理程序读写的若干控制和状态信息。这些信息总称为管理信息库 MIB (Management Information Base) 。
管理程序使用 MIB 中这些信息的值对网络进行管理(如读取或重新设置这些值)。
只有在 MIB 中的对象才是 SNMP 所能够管理的。

节点 mib-2 所包含的信息类别举例

类 别 标 号 所包含的信息
system (1) 主机或路由器的操作系统
interfaces (2) 各种网络接口
address translation (3) 地址转换(例如,ARP 映射)
ip (4) IP 软件
icmp (5) ICMP 软件
tcp (6) TCP 软件
udp (7) UDP 软件
egp (8) EGP 软件

MIB 变量的例子

image-20210411104236265

SNMP 的协议数据单元和报文

SNMP 的操作只有两种基本的管理功能:

  1. “读”操作,用 get 报文来检测各被管对象的状况;
  2. “写”操作,用 set 报文来改变各被管对象的状况。

SNMP 的这些功能通过探询操作来实现。

探寻操作

探询操作 —— SNMP 管理进程定时向被管理设备周期性地发送探询信息。

探询的好处:

  1. 可使系统相对简单。
  2. 能限制通过网络所产生的管理信息的通信量。

探询的缺点:

  1. 不够灵活,而且所能管理的设备数目不能太多。
  2. 开销也较大。

陷阱

SNMP 不是完全的探询协议,它允许不经过询问就能发送某些信息。这种信息称为陷阱,表示它能够捕捉“事件”。

当被管对象的代理检测到有事件发生时,就检查其门限值。代理只向管理进程报告达到某些门限值的事件(即过滤)。

过滤的好处是:

  1. 仅在严重事件发生时才发送陷阱;
  2. 陷阱信息很简单且所需字节数很少。

使用探询(至少是周期性地)以维持对网络资源的实时监视。
同时也采用陷阱机制报告特殊事件,使得 SNMP 成为一种有效的网络管理协议。

SNMP 使用无连接的 UDP

SNMP 使用无连接的 UDP。但 UDP 不保证可靠交付。

在运行代理程序的服务器端用熟知端口 161 来接收 get 或 set 报文和发送响应报文(与熟知端口通信的客户端使用临时端口)。
运行管理程序的客户端则使用熟知端口 162 来接收来自各代理的 trap 报文。

SNMPv1 定义的协议数据单元 (PDU) 类型

image-20210411104738807

SNMP 的报文格式

image-20210411104820927

Get-request 报文 ASN.1 编码

image-20210411104856701

ASN.1 定义

image-20210411104933471

Get-request 报文的 BER 编码

image-20210411104957973

BER 编码

image-20210411105021274

应用进程跨越网络的通信

系统调用和应用编程接口

大多数操作系统使用系统调用 (system call ) 的机制在应用程序和操作系统之间传递控制权。

对程序员来说,每一个系统调用和一般程序设计中的函数调用非常相似,只是系统调用是将控制权传递给了操作系统

image-20210409144949026

应用编程接口 API

系统调用接口实际上就是应用进程的控制权和操作系统的控制权进行转换的一个接口。

使用系统调用之前要编写一些程序,特别是需要设置系统调用中的许多参数,因此这种系统调用接口又称为应用编程接口 API (Application Programming Interface) 。

几种常用的系统调用

Berkeley UNIX 操作系统定义了一种 API,它又称为套接字接口 (socket interface)

微软公司在其操作系统中采用了套接字接口 API,形成了一个稍有不同的 API,并称之为 Windows Socket。

AT&T 为其 UNIX 系统 V 定义了一种 API,简写为 TLI (Transport Layer Interface)。

image-20210409145218013

套接字特点及使用

当应用进程需要使用网络进行通信时就发出系统调用,请求操作系统为其创建“套接字”,以便把网络通信所需要的系统资源分配给该应用进程。

操作系统为这些资源的总和用一个叫做套接字描述符的号码来表示。

应用进程所进行的网络操作都必须使用这个套接字描述符。
通信完毕后,应用进程通过一个关闭套接字的系统调用通知操作系统回收与该套接字描述符相关的所有资源。

image-20210409145449361

下面来讲一下如何通过套接字来调用TCP 提供面向连接的服务

总共分为三个阶段,和运输层的tcp三报文握手类似,结合图理解该过程

image-20210409151143953

  1. 连接建立阶段

    当套接字被创建后,它的端口号和 IP 地址都是空的,因此应用进程要调用 bind(绑定)来指明套接字的本地地址。在服务器端调用 bind 时就是把熟知端口号和本地 IP 地址填写到已创建的套接字中。这就叫做把本地地址绑定到套接字。

    服务器在调用 bind 后,还必须调用 listen(收听)把套接字设置为被动方式,以便随时接受客户的服务请求。UDP 服务器由于只提供无连接服务,不使用 listen 系统调用。

    服务器紧接着就调用 accept(接受),以便把远地客户进程发来的连接请求提取出来。系统调用 accept 的一个变量就是要指明从哪一个套接字发起的连接。

    image-20210409151632523

  2. 数据传送阶段

    客户和服务器都在 TCP 连接上使用 send 系统调用传送数据,使用 recv 系统调用接收数据

    通常客户使用 send 发送请求,而服务器使用 send 发送回答。
    服务器使用 recv 接收客户用 send 调用发送的请求。客户在发完请求后用 recv 接收回答。

  3. 连接释放阶段

    一旦客户或服务器结束使用套接字,就把套接字撤消。这时就调用 close 释放连接撤销套接字

P2P 应用

具有集中目录服务器的 P2P 工作方式

在 P2P 工作方式下,所有的音频/视频文件都是在普通的互联网用户之间传输。

这种工作方式解决了集中式媒体服务器可能出现的瓶颈问题。

在互联网流量中,P2P 工作方式下的文件分发已占据了最大的份额,比万维网应用所占的比例大得多

世界上最早使用P2P方式的是Napster,Napster 将所有音乐文件的索引信息都集中存放在 Napster 目录服务器中。使用者只要查找目录服务器,就可知道应从何处下载所要的MP3文件。用户要及时向 Napster 的目录服务器报告自己存有的音乐文件。Napster 的文件传输是分散的,文件的定位则是集中的。

让我们通过一张图理解该过程

image-20210409155704154

  1. 用户 X 向 Napster 目录服务器查询(客户–服务器方式)谁有音乐文件 MP3#。
  2. Napster 目录服务器回答 X:有三个地点有文件 MP3#,即 A, B 和 C(给出了这三个地点的IP地址)。于是用户 X 得知所需的文件 MP3# 的三个下载地点。
  3. 用户 X 可以随机地选择三个地点中的任一个。假定 X 向 A 发送下载文件 MP3#的请求报文。双方都使用 P2P 方式通信。
  4. 对等方A(现在作为服务器)把文件MP3#发送给X。

集中式目录服务器同样也存在问题:可靠性差。会成为性能的瓶颈。

具有全分布式结构的 P2P 文件共享程序

Gnutella

Gnutella 是第二代 P2P 文件共享程序,采用全分布方法定位内容的 P2P 文件共享应用程序。

Gnutella 与 Napster 最大的区别是:不使用集中式的目录服务器,而是使用洪泛法在大量 Gnutella 用户之间进行查询

为了不使查询的通信量过大,Gnutella 设计了一种有限范围的洪泛查询,以减少倾注到互联网的查询流量,但也影响到查询定位的准确性

eMule

eMule 使用了一些服务器。这些服务器并不是保存音频/视频文件,而是保存用户的有关信息,因而可以告诉用户从哪些地方可以下载到所需的文件。

eMule 使用了专门定义的文件夹,让用户存放可以和其他用户共享的文件。

eMule 的下载文件规则是鼓励用户向其他用户上传文件。用户上传文件越多,其下载文件的优先级就越高(因而下载就越快)。

BitTorrent

BitTorrent 所有对等方集合称为一个洪流 (torrent),下载文件的数据单元为长度固定的文件块 (chunk)。基础设施结点,叫做追踪器 (tracker)。

A 就和这些对等方建立了 TCP 连接。所有与 A 建立了 TCP 连接的对等方为“相邻对等方”(neighboring peers)。

image-20210409161511009

在请求的过程中,A 使用最稀有的优先 (rarest first) 的技术,首先向其相邻对等方请求对应的文件块。
所谓稀有是指:如果A所缺少的文件块在相邻对等方中的副本很少,那就是“很稀有的”。

而当很多对等方需要请求文件块时,A如何决定先向谁提供呢?
凡当前以最高数据率向 A 传送文件块的某相邻对等方,A 就优先把所请求的文件块传送给该相邻对等方(原来计算机也这么现实)

image-20210409161524959

从互联网传送数据到主机,叫做下载 (download),从主机向互联网传送,则称为上传 (upload) 或上载

P2P 文件分发的分析

让我们来分析下传统的客户-服务器方式下进行数据请求的过程(结合图中的变量名)

有 N 台主机从服务器下载一个大文件,其长度为 F bit。假定主机与互联网连接的链路的上传速率和下载速率分别为 ui 和 di ,单位都是 bit/s。

image-20210409161917270

从服务器端考虑,所有主机分发完毕的最短时间 Tcs 不可能小于 NF/us (每次都要建立连接);
下载速率最慢的主机的下载速率为 dmin,则 Tcs 不可能小于 F/dmin 。
由此可得出所有主机都下载完文件 F 的最少时间是:

Tcs = max( NF/us,F/dmin )

而在P2P下的最短时间呢

初始服务器文件分发的最少时间不可能小于 F/us (只需要上传一次);
下载文件分发的最少时间不可能小于 F/dmin ;
上载文件分发的最少时间不可能小于 NF/uT ,其中是 uT 是上传速率之和。
所有主机都下载完文件 F 的最少时间的下限是:
Tp2p >= max( F/us , F/dmin, NF/uT )

举个栗子比较一下(好吧其实书里这个例子我没法理解,0.75怎么得出来的搞不懂)

设所有的对等方的上传速率都是 u,并且 F/u = 1 小时。
设服务器的上传速率 us = 10u。
当 N = 30 时,
P2P方式:最少时间的下限是 0.75 小时 < 1 小时(不管 N 多大)。
客户−服务器方式:最少时间是 3 小时。

看不懂?那就对了,我也看不懂(大佬给我走开),反正我就这样理解,如果采用传统的客户-服务器模式传输文件,那么你有几个主机需要文件,你就要和服务器建立几次连接,然后服务器上传文件,接着将服务器资源平均分给多台主机,然后传文件,而P2P则是服务器可以先传给一台(当然也可以多台),这时候服务器所有资源都可以给这一台主机(效率提高)单独传文件,然后服务器记录一下这台主机有这个资源,接着这台得到文件的主机可以通过服务器介绍和另外一台主机进行点对点连接传输文件,同时,服务器也可以继续和另一台传文件,如此下去,1变2,2变4,4变8,指数传递,效率提高,速度变快,服务器压力变小,一举多得啊。

在 P2P 对等方中搜索对象

在前面我们知道:Napster在一个集中式目录服务器中构建的查找数据库虽然很简单,但性能上却有瓶颈。

Gnutella是一种采用全分布方法定位内容的P2P文件共享应用程序,它解决了集中式目录服务器所造成的瓶颈问题。然而Gnutella是在非结构化的覆盖网络中采用查询洪泛的方法来进行查找的,因此查找的效率较低。

现在广泛使用的索引和查找技术叫做分布式散列表 DHT (Distributed Hash Table)。DHT 也可译为分布式哈希表,它是由大量对等方共同维护的散列表。广泛使用的 Chord 算法是美国麻省理工大学于2001 年提出的。

分布式散列表 DHT 利用散列函数,把资源名 K 及其存放的结点 IP 地址 N 都分别映射为资源名标识符 KID 和结点标识符 NID。
Chord 把结点按标识符数值从小到大沿顺时针排列成一个环形覆盖网络。

如下图所示

image-20210409162434921

每个资源由 Chord 环上与其标识符值最接近的下一个结点提供服务。

当N13加进来到节点后,N10的下一个节点就会从N20变成N13,从而资源点标识符K12也会移至该N13上

但是这个速度还不够,为了加速查找,在 Chord 环上可以增加一些指针表(finger table),它又称为路由表或查找器表。对于结点 N4, 第 1 列第 i 行计算(N4 + 2i – 1),得出后继结点。

image-20210409162724943