learn-tech/专栏/周志明的架构课/09_RESTful服务(上):从面向过程编程到面向资源编程.md
2024-10-16 06:37:41 +08:00

24 KiB
Raw Blame History

                        因收到Google相关通知网站将会择期关闭。相关通知内容
                        
                        
                        09 _ RESTful服务从面向过程编程到面向资源编程
                        你好我是周志明。前面两节课我们学习了远程方法调用RPC今天我们接着学习另一种主流的远程服务访问风格RESTful服务。

REST与RPC的对比

很多人都会拿REST来跟RPC对比优劣其实无论是思想上、概念上还是使用范围上REST与RPC都不完全一样它们在本质上并不是同一个类型的东西充其量只算是有一些相似在应用中会有一部分功能重合的地方。

REST与RPC在思想上存在差异的核心是抽象的目标不一样也就是面向资源的编程思想与面向过程的编程思想之间的区别。

面向过程编程和面向对象编程想必你应该都听说过但什么是面向资源编程呢这个问题等我一会儿介绍完REST的特征之后再回头细说。

那么二者在概念上的不同是指REST并不是一种远程服务调用协议甚至我们可以把定语也去掉它就不是一种协议。

因为协议都带有一定的规范性和强制性最起码也该有个规约文档比如JSON-RPC它哪怕再简单也要有个《JSON-RPC Specification》来规定协议的格式细节、异常、响应码等信息。但是REST并没有定义这些内容虽然它有一些指导原则但实际上并不受任何强制的约束。

经常会有人批评说某个系统接口“设计得不够RESTful”其实这句话本身就有些争议。因为REST只能说是一种风格而不是规范、协议并且能完全达到REST所有指导原则的系统也是很少见的。这个问题我们会在下一讲中详细讨论。

至于使用范围上REST与RPC作为主流的两种远程调用方式在使用上确实有重合之处但重合的区域有多大就见仁见智了。

上一节课我提到了当前的RPC协议框架各有侧重点并且列举了RPC的一些典型发展方向比如分布式对象、提升调用效率、简化调用复杂性等等。

其中的分布式对象这一条线的应用对于REST就可以说是毫无关系而能够重视远程服务调用效率的应用场景就基本上已经排除了REST应用得最多的供浏览器端消费的远程服务。因为以浏览器作为前端对于传输协议、序列化器这两点都没有什么选择权哪怕想要更高效率也有心无力。

而在移动端、桌面端或者分布式服务端的节点之间通讯这一块REST虽然照样有宽阔的用武之地只要支持HTTP就可以用于任何语言之间的交互不过使用REST的前提是网络没有成为性能上的瓶颈。但是在需要追求传输效率的场景里REST提升传输效率的潜力有限死磕REST又想要好的网络性能一般不会有好的效果。

另外对于追求简化调用的场景我在前面提到的浏览器端就属于这一类的典型在众多RPC里也就JSON-RPC有机会与REST竞争其他RPC协议与框架哪怕是能够支持HTTP协议哪怕提供了JavaScript版本的客户端如gRPC-Web也只是具备前端使用的理论可行性很少能看到有实际项目把它们真的用到浏览器上的。

可是尽管有着种种不同REST跟RPC还是产生了很频繁的比较与争论这两种分别面向资源和面向过程的远程调用方式就像当年面向对象与面向过程的编程思想一样非得分出个高低不可。

理解REST

REST概念的提出来自于罗伊·菲尔丁Roy Fielding在2000年发表的博士论文《Architectural Styles and the Design of Network-based Software Architectures》架构风格与网络的软件架构设计。这篇文章的确是REST的源头但我们也不能忽略Fielding的身份和他之前的工作背景这对理解REST的设计思想也是非常重要的。

首先Fielding是一名很优秀的软件工程师他是Apache服务器的核心开发者后来成为了著名的Apache软件基金会的联合创始人同时Fielding也是HTTP 1.0协议1996年发布的专家组成员后来还成为了HTTP 1.1协议1999年发布的负责人。

HTTP 1.1协议设计得非常成功以至于在发布后长达十年的时间里都没有多少人认为有修订的必要。而用来指导设计HTTP 1.1协议的理论和思想最初是以备忘录的形式在专家组成员之间交流这个备忘录其实就是REST的雏形。

那么从时间上看当起草完HTTP 1.1协议之后Fielding就回到了加州大学欧文分校继续攻读博士学位。然后到了第二年也就是2000年Fielding更为系统、严谨地阐述了这套理论框架并且以这套理论框架为基础导出了一种新的编程风格他把这种风格命名为了我们今天所熟知的REST即“表征状态转移”Representational State Transfer的缩写。

不过哪怕是对编程和网络都很熟悉的同学单从“表征状态转移”这个标题上看也不太可能直接弄明白什么叫“表征”、啥东西的“状态”、从哪“转移”到哪。虽然在论文当中Fielding有论述过这些概念但他写得确实非常晦涩不想读英文的话你可以参考一下中文翻译版本

这里呢我推荐你一种比较容易理解REST思想的方式就是你先去理解什么是HTTP再配合一些实际例子来进行类比你就会发现“REST”实际上是“HTT”Hyper Text Transfer超文本传输的进一步抽象它们就像是接口与实现类之间的关系。

HTTP中使用的“超文本”一词是美国社会学家泰德·H·尼尔森Theodor Holm Nelson在1967年于《Brief Words on the Hypertext》一文里提出的这里引用的是他本人在1992年修正后的定义

Hypertext- By now the word “hypertext” has become generally accepted for branching and responding text, but the corresponding word “hypermedia”, meaning complexes of branching and responding graphics, movies and sound as well as text is much less used. Instead they use the strange term “interactive multimedia”: this is four syllables longer, and does not express the idea of extending hypertext.- —— Theodor Holm Nelson Literary Machines, 1992

可以看到“超文本或超媒体”指的是一种“能够对操作进行判断和响应的文本或声音、图像等这个概念在上个世纪60年代提出的时候应该还属于科幻的范畴但是到了今天我们已经完全接受了它互联网中的一段文字可以点击、可以触发脚本执行、可以调用服务端都已经非常平常毫不稀奇了。

所以接下来我们就尝试着从理解“超文本”的含义开始根据一个具体的阅读文章的例子来理解一下什么是“表征”以及REST中的其他关键概念。

资源Resource

假设你现在正在阅读一篇名为《REST设计风格》的文章这篇文章的内容本身可以将其视作是某种信息、数据我们称之为“资源”。无论你是在网上看的网页还是打印出来看的文字稿或者是在电脑屏幕上阅读、手机上浏览尽管它呈现出来的样子都不一样但其中的信息是不变的你阅读的仍是同一个“资源”。

表征Representation

当你通过电脑浏览器阅读这篇文章的时候浏览器会向服务端发出请求“我需要这个资源的HTML格式”那么服务端向浏览器返回的这个HTML就被称之为“表征”你通过其他方式拿到了文章的PDF、Markdown、RSS等其他形式的版本它们也同样是一个资源的多种表征。可见“表征”这个概念是指信息与用户交互时的表示形式这跟应用分层中我们常说的“表示层”Presentation Layer的语义其实是一致的。

状态State

当你读完了这篇文章,想再接着看看下一篇文章的内容时,你向服务器发出请求“给我下一篇文章”。但是“下一篇”是个相对概念,必须依赖“当前你正在阅读的文章是哪一篇”,这样服务器才能正确回应,那么这类在特定语境中才能产生的上下文信息就被称为“状态”。

这里我们要注意有状态Stateful还是无状态Stateless都是只相对于服务端来说的服务器要完成“取下一篇”的请求要么是自己记住用户的状态这个用户现在阅读的是哪一篇文章这是有状态要么是客户端来记住状态在请求的时候明确告诉服务器我正在阅读某某文章现在要读下一篇这是无状态

转移Transfer

要知道,无论状态是由服务端还是客户端来提供的,“取下一篇文章”这个行为逻辑必然只能由服务端来提供。服务器通过某种方式,把“用户当前阅读的文章”转变成“下一篇文章”,这就被称为“表征状态转移”。

通过这个“阅读文章”的例子对资源等概念进行通俗的解释现在你应该就能理解REST所说的“表征状态转移”的含义了。

那么借着这个例子的上下文我再给你介绍几个现在不涉及但在后面解读REST的6大核心特征时要用到的概念名词

第一个统一接口Uniform Interface

在了解这个概念之前,我们先来思考一个问题,前面所说的“服务器通过某种方式”,让表征状态发生转移,具体指的是什么方式呢?

如果你现在正在使用Web端来学习这一讲的内容你可以看到页面的左半部分有下一讲或者是下面几讲的URI超链接地址这是服务端在渲染这讲内容时就预置好的点击它让页面跳转到下一讲就是所谓“某种方式”的其中一种方式不过若下一讲还未更新出来时你只能看到之前的课程内容道理其实也差不多

现在我们其实并不会对点击超链接网页出现跳转而感到奇怪但你再细想一下URI的含义是统一资源标识符是一个名词那它如何能表达出“转移”这个动作的含义呢

答案是HTTP协议中已经提前约定好了一套“统一接口”它包括GET、HEAD、POST、PUT、DELETE、TRACE、OPTIONS七种基本操作任何一个支持HTTP协议的服务器都会遵守这套规定对特定的URI采取这些操作服务器就会触发相应的表征状态转移。

第二个超文本驱动Hypertext Driven

尽管表征状态转移是由浏览器主动向服务器发出请求所引发的该请求导致了“在浏览器屏幕上显示出了下一篇文章的内容”这个结果的出现。但是你我都清楚这不可能真的是浏览器的主动意图浏览器是根据用户输入的URI地址来找到服务器给予的首页超文本内容通过超文本内部的链接导航到了这篇文章阅读结束时也是通过超文本内部的链接再导航到下一篇。

浏览器作为所有网站的通用的客户端,任何网站的导航(状态转移)行为都不可能是预置于浏览器代码之中,而是由服务器发出的请求响应信息(超文本)来驱动的。这点与其他带有客户端的软件有十分本质的区别,在那些软件中,业务逻辑往往是预置于程序代码之中的,有专门的页面控制器(无论在服务端还是在客户端中)来驱动页面的状态转移。

第三个自描述消息Self-Descriptive Messages

前面我们知道了资源的表征可能存在多种不同形态因此在传输给浏览器的消息中应当有明确的信息来告知客户端该消息的类型以及该如何处理这条消息。一种被广泛采用的自描述方法是在名为“Content-Type”的HTTP Header中标识出互联网媒体类型MIME type比如“Content-Type : application/json; charset=utf-8”就说明了该资源会以JSON的格式返回请使用UTF-8字符集进行处理。

除了以上列出的这些看名字不容易弄懂的概念外在理解REST的时候你还要注意一个常见的误区。Fielding在提出REST时所谈论的范围是“架构风格与网络的软件架构设计”Architectural Styles and Design of Network-based Software Architectures而不是现在被人们所狭义理解的一种“远程服务设计风格”。

这两者的范围差别,就好比这门课程所谈论的话题“软件架构”与这个小章节所谈论的话题“访问远程服务”的关系那样,前者是后者的一个很大的超集。尽管考虑到这节课的主题和多数人的关注点,我们确实是会以“远程服务设计风格”作为讨论的重点,但至少我们要知道它们在范围上的差别。

RESTful风格的系统特征

OK理解了前面解读的这些概念以后现在我们就可以开始讨论面向资源的编程思想以及Fielding所提出的具体的软件架构设计特征了。Fielding认为一套理想的、完全满足REST的系统应该满足以下六个特征。

服务端与客户端分离Client-Server

现在,有越来越多的开发者认可,分离开用户界面和数据存储所关注的逻辑,有助于提高用户界面跨平台的可移植性。

以前完全基于服务端控制和渲染如JSF这类框架的实际用户现在已经很少见了。另外在服务端进行界面控制Controller通过服务端或者客户端的模版渲染引擎来进行界面渲染的框架如Struts、SpringMVC这类也受到了颇大的冲击。而推动这个局面发展的主要原因实际上跟REST的关系并不大随着前端技术从ES规范到语言实现到前端框架等近年来的高速发展前端表达能力的大幅度加强才是真正的幕后推手。

此外由于前端的日渐强势现在还流行起由前端代码反过来驱动服务端进行渲染的SSRServer-Side Rendering技术在Serverless、SEO等场景中已经占领了一块领地。

无状态Stateless

这是REST的一条关键原则部分开发者在做服务接口规划时觉得RESTful风格的API怎么设计都别扭一个很可能的原因就是服务端持有着比较重的状态。

REST希望服务器能不负责维护状态每一次从客户端发送的请求中应该包括所有必要的上下文信息会话信息也由客户端保存维护服务器端依据客户端传递的状态信息来进行业务处理并且驱动整个应用的状态变迁。

至于客户端承担状态维护职责后的认证、授权等各方面的可信问题,都会有针对性的解决方案(这部分内容,我会在后面讲解安全架构时展开介绍)。

但必须承认的现状是,目前大多数的系统是达不到这个要求的,越复杂、越大型的系统越是如此。服务端无状态可以在分布式环境中获得很高价值的好处,但大型系统的上下文状态数量,完全可能膨胀到,客户端在每次发送请求时,根本无法全部囊括系统里所有必要的上下文信息。在服务端的内存、会话、数据库或者缓存等地方,持有一定的状态是一种现实情况,而且会是长期存在、被广泛使用的主流方案。

可缓存Cacheability

前面我们提到的无状态服务,虽然提升了系统的可见性、可靠性和可伸缩性,但也降低了系统的网络性。这句话通俗的解释就是,某个功能使用有状态的架构只需要一次请求就能完成,而无状态的服务则可能会需要多个请求,或者在请求中带有冗余的信息。

所以为了缓解这个矛盾REST希望软件系统能够像万维网一样客户端和中间的通讯传递者代理可以将部分服务端的应答缓存起来。当然应答中必须明确或者间接地表明本身是否可以进行缓存以避免客户端在将来进行请求的时候得到过时的数据。

运作良好的缓存机制可以减少客户端、服务器之间的交互,甚至有些场景中可以完全避免交互,这就进一步提高了性能。

分层系统Layered System

这里所指的并不是表示层、服务层、持久层这种意义上的分层,而是指客户端一般不需要知道是否直接连接到了最终的服务器,或者是连接到路径上的中间服务器。中间服务器可以通过负载均衡和共享缓存的机制,提高系统的可扩展性,这样也便于缓存、伸缩和安全策略的部署。

统一接口Uniform Interface

REST希望开发者面向资源编程希望软件系统设计的重点放在抽象系统该有哪些资源上而不是抽象系统该有哪些行为服务上。

这个特征你可以类比计算机中对文件管理的操作。我们知道管理文件可能会进行创建、修改、删除、移动等操作这些操作数量是可数的而且对所有文件都是固定的、统一的。如果面向资源来设计系统同样会具有类似的操作特征由于REST并没有设计新的协议所以这些操作都借用了HTTP协议中固有的操作命令来完成。

统一接口也是REST最容易陷入争论的地方基于网络的软件系统到底是面向资源更好还是面向服务更合适这件事情在很长的时间里恐怕都不会有个定论也许永远都没有。但是有一个已经基本清晰的结论是面向资源编程的抽象程度通常更高。

抽象程度高有好处但也有坏处。坏处是往往距离人类的思维方式更远,而好处是往往通用程度会更好。

不过这样来诠释REST大概本身就挺抽象的你可能不太好理解我还是举个例子来说明。

几乎每个系统都有登录和注销功能如果你理解成登录对应于login()、注销对应于logout()这样两个独立服务这是“符合人类思维”的如果你理解成登录是PUT Session注销是DELETE Session这样你只需要设计一种“Session资源”即可满足需求甚至以后对Session的其他需求如查询登录用户的信息就是GET Session而已其他操作如修改用户信息等等都可以被这同一套设计囊括在内这便是“抽象程度更高”带来的好处。

而如果你想要在架构设计中合理恰当地利用统一接口Fielding给出了三个建议第一系统要能做到每次请求中都包含资源的ID所有操作均通过资源ID来进行第二每个资源都应该是自描述的消息第三通过超文本来驱动应用状态的转移。

按需代码Code-On-Demand

按需代码被Fielding列为了一条可选原则原因其实并非是它特别难以达到更多是出于必要性和性价比的实际考虑。按需代码是指任何按照客户端如浏览器的请求将可执行的软件程序从服务器发送到客户端的技术。它赋予了客户端无需事先知道所有来自服务端的信息应该如何处理、如何运行的宽容度。

举个具体例子以前的Java Applet技术、今天的WebAssembly等都属于典型的按需代码蕴含着具体执行逻辑的代码存放在了服务端只有当客户端请求了某个Java Applet之后代码才会被传输并在客户端机器中运行结束后通常也会随即在客户端中被销毁掉。

到这里REST中的主要概念与思想原则就介绍完了那么现在我们再回过头来讨论一下这节课开篇中提出的REST与RPC在思想上的差异。

REST与RPC在思想上的差异

我在前面提到REST的基本思想是面向资源来抽象问题它与此前流行的面向过程的编程思想在抽象主体上有本质的差别。

在REST提出以前人们设计分布式系统服务的唯一方案就只有RPCRPC是将本地的方法调用思路迁移到远程方法调用上开发者是围绕着“远程方法”去设计两个系统间的交互的比如CORBA、RMI、DCOM等等。

这样做的坏处不仅是“如何在异构系统间表示一个方法”“如何获得接口能够提供的方法清单”都成了需要专门协议去解决的问题RPC的三大基本问题之一更在于服务的每个方法都是不同的服务使用者必须逐个学习才能正确地使用它们。Google在《Google API Design Guide》中曾经写下这样一段话

Traditionally, people design RPC APIs in terms of API interfaces and methods, such as CORBA and Windows COM. As time goes by, more and more interfaces and methods are introduced. The end result can be an overwhelming number of interfaces and methods, each of them different from the others. Developers have to learn each one carefully in order to use it correctly, which can be both time consuming and error prone.- 以前人们面向方法去设计RPC API比如CORBA和DCOM随着时间推移接口与方法越来越多却又各不相同开发人员必须了解每一个方法才能正确使用它们这样既耗时又容易出错。- —— Google API Design Guide, 2017

而REST提出以资源为主体进行服务设计的风格就为它带来了不少好处。我举几个典型例子。

第一,降低了服务接口的学习成本。

统一接口是REST的重要标志它把对资源的标准操作都映射到了标准的HTTP方法上去这些方法对每个资源的语义都是一致的我们不需要刻意学习更不会有什么Interface Description Language之类的协议存在。

第二,资源天然具有集合与层次结构。

以方法为中心抽象的接口,由于方法是动词,逻辑上决定了每个接口都是互相独立的;但以资源为中心抽象的接口,由于资源是名词,天然就可以产生集合与层次结构。

我举个例子。你可以想像一个商城用户中心的接口设计:用户资源会拥有多个不同的下级的资源,比如若干条短消息资源、一份用户资料资源、一部购物车资源,而购物车中又会有自己的下级资源,比如多本书籍资源。

这样你就很容易在程序接口中构造出这些资源的集合关系与层次关系而且能符合人们长期在单机或网络环境中管理数据的直觉。我相信你并不需要专门去阅读接口说明书也能轻易推断出获取用户icyfenix的购物车中第2本书的REST接口应该表示为

GET /users/icyfenix/cart/2

第三REST绑定于HTTP协议。

面向资源编程并不是必须构筑在HTTP之上但对于REST来说这是优点也是缺点。

因为HTTP本来就是面向资源而设计的网络协议纯粹只用HTTP而不是SOAP over HTTP那样在再构筑协议带来的好处是不需要再去考虑RPC中的Wire Protocol问题了REST可以复用HTTP协议中已经定义的语义和相关基础支持来解决。HTTP协议已经有效运作了30年与其相关的技术基础设施已是千锤百炼无比成熟。而它的坏处自然就是当你想去考虑那些HTTP不提供的特性时就束手无策了。

小结

在这节课中虽然我列举了一些面向资源的优点但我并非要证明它比面向过程、面向对象更优秀。是否选用REST的API设计风格需要权衡的是你的需求场景、你团队的设计以及开发人员是否能够适应面向资源的思想来设计软件、来编写代码。

在互联网中面向资源来进行网络传输是这三十年来HTTP协议精心培养出来的用户习惯如果开发者能够适应REST不太符合人类思维习惯的抽象方式那REST通常能够更好地匹配在HTTP基础上构建的互联网在效率与扩展性方面也会有可观的收益。

一课一思

与远端服务通讯除了以资源为中心的REST和以方法为中心的RPC外还有基于长连接、消息管道等其他方式想一想你还知道哪些通讯手段它们能解决什么问题有什么应用场景

欢迎给我留言,分享你的答案。如果觉得有收获,也欢迎你把今天的内容分享给更多的朋友。

好,感谢你的阅读,我们下一讲再见。