first commit

This commit is contained in:
张乾
2024-10-16 00:01:16 +08:00
parent ac7d1ed7bc
commit 84ae12296c
322 changed files with 104488 additions and 0 deletions

View File

@@ -0,0 +1,71 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
00 导读 写给0基础入门的Go语言学习者
你好我是郝林今天我分享的内容是0基础的你如何开始入门学习Go语言。
你需要遵循怎样的学习路径来学习Go语言
————————
我们发现,订阅本专栏的同学们都在非常积极的学习和讨论,这让我们非常欣慰,并且和你一样干劲十足。不过,我在留言中发现,大家的基础好像都不太一样,大致可以分为这么几类。
零基础的同学:可能正准备入行或者刚刚对编程感兴趣,可以熟练操作电脑,但是对计算机、操作系统以及网络方面的知识不太了解。
无编程经验或者编程经验较少的同学:可能正在从事其他的技术相关工作,也许可以熟练编写脚本,但是对程序设计的通用知识和技巧还不太了解。
有其他语言编程经验的同学可能已成为程序员或软件工程师可以用其他的编程语言熟练编写程序但是对Go语言还不太了解。
有一定Go语言编程经验的同学已有Go语言编程基础写过一些Go语言程序但是急需进阶却看不清途径。
基于以上分类我为大家制定了一份Go语言学习路径。不论你属于上面的哪一类都可以按照此路径去学习深造。具体请看下面的思维导图。
(长按保存大图)
学习本专栏前,你需要有哪些基础知识储备?
————————
在这个专栏里,我会假设你有一定的计算机基础,比如,知道操作系统是什么、环境变量怎么设置、命令行怎样使用,等等。
另外,我还会假定你具备一点点编程知识,比如,知道程序是什么、程序通常会以怎样的形式存在,以及程序与操作系统和计算机有哪些关系,等等。
对了,还有在这个早已成熟的移动互联网时代,想学编程的你,一定也应该知道那些最最基本的网络知识。
我在本专栏里只会讨论Go语言的代码和程序而不会提及太多计算机体系结构或软件工程方面的事情。所以你即使没有专门学过计算机系统或者软件工程也没有关系我会尽量连带讲一些必要的基础概念和知识。
从2018年开始随着Google逐渐重回中国Go语言的官方网站在Google中国的域名下也有了镜像毕竟中国是Go语言爱好者最多的国家同时也是Go语言使用最广泛的一片土地。如果你在国内可以敲入这个网址来访问Go语言的官网。
这个专栏专注于Go语言的核心知识因此我并不会深入说明所有关于语法和命令的细枝末节。如果你想去全面了解Go语言的所有语法那么可以去Go语言官网的语言规范页面仔细查阅。
当然了这里的语言规范是全英文的如果你想看汉化的内容也是有选择的我记得先后有几拨国内的Go语言爱好者自发组织翻译过。不过我都没有仔细看过不知道质量如何所以在这里就不特别推荐了。
对于从事计算机和软件开发相关工作的同学,我强烈建议你们要有意地训练快速阅读英文文档的能力,不论是否借助字典和翻译工具。
不过如果你想专门学习一下Go命令方面的知识和技巧那么我推荐你看看我之前写的免费开源教程《Go命令教程》。这份教程的内容虽然稍显陈旧但是帮助你学会使用Go语言自带的常用命令和工具肯定是没问题的。
好了其实即使你是个编程小白也不用过于担心我们会一起帮助你的。至于我刚刚说的Go语言规范和Go命令教程你也可以在学习本专栏的过程中根据实际需要去有针对性的阅读。
3.这里有一份基础知识列表,请查收
如果你阅读本专栏的第一个模块时感觉有些吃力那可能是你还没有熟悉Go语言的一些基础概念和知识。我为你精心制作了一张Go语言基础知识的导图里面几乎包含了入门Go语言所需的所有知识点。
-
(长按保存大图)
有了这些,你是否已经感觉学习本专栏会更加轻松了呢?
总之教程、资料和助推就交给我和极客时间的编辑、运营们来共同负责。而你需要做的就是保存好这一份对Go语言学习的决心你可以自己去尝试整理一份Go语言的学习笔记遇见不懂的地方你也可以在文章下面留言我们一起讨论。
好了,感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,68 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
00 导读 学习专栏的正确姿势
你好,我是郝林,今天我分享的主题是,学习专栏的正确姿势。
到了这里,专栏的全部内容已经都推送到你的面前了。如果你已经同步学习完了,那么我要给你点一个大大的赞!
还没有看完的同学也不要着急,因为推送的速度肯定要比你们的学习速度快上不少。如果是我的话,我肯定无法用很快的速度,去认真地学习和理解专栏内容的。不过,粗读一遍的话,这个时间倒是绰绰有余的。我今天就想跟你聊聊学习专栏的正确姿势。
专栏应该怎样学
我们做互联网技术的人,应该对这种索引+摘要+详情的数据存取方案并不陌生。我希望我的专栏文章也可以达成这样的一种状态:它是你需要时,即能查阅的知识手册。
在第一次听音频或浏览文章的时候,你可以走马观花,并不用去细扣每一个概念和每一句话。让自己对每一个主题、每一个问题和每一个要点都有一个大概的印象就可以了。
如此一来,当想到或遇到某方面的疑惑的时候,你就可以有一个大致的方向,并且知道怎样从专栏里找出相应的内容。
这就是所谓的粗读,相当于在你的脑袋里面存了一份索引,甚至是一份摘要。利用这种快速的学习方式,你往往可以在有限的精力和无限的知识之间做出适合你的权衡。
极客时间可以让我们无限期地查阅专栏的全部内容。所以你完全不用心急,可以按照自己的节奏先粗读、再细读,然后再拿这个专栏当做知识手册来用。重要的是真正的理解和积极的实践,而不是阅读的速度。
实践的正确姿势
最近一段时间,有不少同学问我说:“老师,我快要学完这个专栏了,也买了你的书,那我后边怎么去实践呢?”
问我此类问题的同学大多数都是很少有机会在工作中使用Go语言的程序员或者是对Go语言感兴趣的互联网领域的从业者还有一些是在校的大学生。
我给大家的第一个建议一般都是“去写网络爬虫吧”。
互联网络的世界很庞杂,但又有一定的规律可循,是非常好的技术学习环境。你编写一个网络服务程序,即使放到了公共的网络上,也还需要考虑清楚一系列的问题,才能让你有足够多的技术磨炼机会,比如,服务的种类、功能、规则、安全、界面、受众、宣传和访问途径,以及日常的非技术性维护。
我认为,这已经不是纯粹的技术实践了,对于初期的技术技能增长是不利的。当然了,如果你有信心和精力去搞定这一系列问题,并乐于从中学习到各种各样的技能,那就放手去做吧。
我在我的书和专栏中一直都在释放这样几个信号:“并发程序”“互联网络”“客户端”“网络爬虫”。这其实就是我们实践的最佳切入点。它成本低,收效明显,既有深度又有广度。
有的同学还问我:“我的程序爬取了某某网站,可是只爬了两三下就好像被人家封掉了”。原因很明显,你暴力获取人家的网站内容,肯定会封你的啊。
我们要让程序去模拟人的行为,模拟人使用网络浏览器访问网站内容的过程,而不是用尽计算力去疯狂地霸占人家的带宽和服务,否则那不就成了网络攻击了。这是一个非常重要的自我实践的技巧,请大家记住,“利己,但不要损人”。
注意,正常爬取网站内容并不意味着失去了高并发的应用场景。把内容下载下来只是一个开始,后边还有不少的工作要做呢。
单单“模拟人”这一点就需要花一些心思。而且,你可以同时爬取成千上万的同类甚至不同类的网站。这已经足够你研究和实践很长一段时间了。我在这里还要郑重地提示一下,做这类技术研究一定不要跨越道德的底线,更不能违反法律。
再进一步,我们最好以结构化的形式把爬取到的网络内容存储下来。当得到足够多的数据之后,你的选择就很多了。比如,对某类数据进行整理、提取和分析,从而挖掘出更有价值的东西。这就属于数据挖掘的范畴了。
在如今这个数据过剩的时代,这也是一项很重要的技能。又比如,基于这些数据提供统一的访问接口,制作成搜索引擎,甚至对外提供服务。这也是一个很有深度的选择。
当然,技术实践的方式远不止这些。不过鉴于篇幅,我就先说这么多。
优秀Go项目推荐
最后我再给大家推荐一些优秀的Go项目。别忘了阅读优秀的项目源码也是一个很重要的学习途径。请看下图。
-
(长按保存大图查看)
这幅图包含了我之前私藏的所有高Star且近期依然活跃的Go项目。不得不说在Github这个全球最大的程序员交友社区中好东西真的是不少。
在这幅图的左上角,有我对图中各种符号的说明,大家在进一步读图之前需要先看一下。参看这些项目的顺序完全由你自己决定,不过我建议从“贴近你实际工作的那个方面”入手,然后可以是“你感兴趣的方面”,最后有机会再看其他的项目。千万不要贪多,要循序渐进着来。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,61 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
00 开篇词 跟着学你也能成为Go语言高手
你好我是郝林。今天想跟你聊聊我和Go语言的故事。
Go语言是由Google出品的一门通用型计算机编程语言。作为在近年来快速崛起的编程语言Go已经成功跻身主流编程语言的行列。
它的种种亮点都受到了广大编程爱好者的追捧。特别是一些对团队协作有较高要求的公司和技术团队已经在有意识地大量使用Go语言编程并且使用的人群还在持续迅猛增长。
我个人很喜欢Go语言。我是从2012年底开始关注Go语言的虽然这个日期与Go语言诞生的2009年11月10日相比并不算早但我也算得上国内比较早期的使用者了。
Go程序可以在装有Windows、Linux、FreeBSD等操作系统的服务器上运行并用于提供基础软件支撑、API服务、Web服务、网页服务等等。
Go语言也在移动端进行了积极的探索现在在Android和iOS上都可以运行其程序。另外Go语言也已经与WebAssembly强强联合加入了WASM平台。这意味着过不了多久互联网浏览器也可以运行Go编写的程序了。
从业务维度看在云计算、微服务、大数据、区块链、物联网等领域Go语言早已蓬勃发展。有的使用率已经非常之高有的已有一席之地。即使是在Python为王的数据科学和人工智能领域Go语言也在缓慢渗透并初露头角。
从公司角度看许多大厂都已经拥抱Go语言包括以Java打天下的阿里巴巴更别提深爱着Go语言的滴滴、今日头条、小米、奇虎360、京东等明星公司。同时创业公司也很喜欢Go语言主要因为其入门快、程序库多、运行迅速很适合快速构建互联网软件产品比如轻松筹、快手、知乎、探探、美图、猎豹移动等等。
我从2013年开始准备撰写《Go并发编程实战》这本书在经历了一些艰辛和坎坷之后本书终于在2014年底由人民邮电出版社的图灵公司正式出版。
时至今日《Go并发编程实战》的第2版已经出版一年多了也受到了广大Go语言爱好者的欢迎。同时我也发起和维护着一个Go语言爱好者组织GoHackers至今已有近4000人的规模。我们每年都会举办一些活动交流技术、互通有无。当然我们平常都会在一些线上的群组里交流。欢迎你的加入。
2015年初我开始帮助公司和团队招聘Go程序员。我面试过的Go程序员应该已经有几百个了。虽然一场面试的交流内容远不止技术能力这种硬技能更别提只限于一门编程语言。
但是就事论事我在这里只说Go语言。在所有的应聘者当中真正掌握Go语言基础知识的比例恐怕超不过50%而真正熟悉Go语言高阶技术的比例也不超过30%。当然了,情况是明显一年比一年好的,尤其是今年。
我写此专栏的初衷是让希望迅速掌握Go语言的爱好者们通过一种比较熟悉和友好的路径去学习。我并不想事无巨细地去阐述Go语言规范的每个细节以及其标准库中的每个API更不想写那种填鸭式的教学文章我更想去做的是详细论述这门语言的重点和主线。
我会努力探究我们对新技能,尤其是编程语言的学习方式,并以这种方式一步步带领和引导你去记忆和实践。我几乎总会以一道简单的题目为引子,并以一连串相关且重要的概念和知识为主线,而后再进行扩充,以助你进行发散性的思考。
我希望用这种先点、后线、再面的方式帮你占领一个个重要的阵地。别的不敢说如果你认真地跟我一起走完这个专栏那么基本掌握Go语言是肯定的。
为什么说基本掌握因为软件技术尤其是编程技术必须经过很多的实践甚至历练才能完全掌握这需要时间而不能速成。不过本专栏一定会成为你学习Go语言最重要的敲门砖和垫脚石。
下面我们一起浏览一下本专栏的主要模块一共分成3大模块5个章节。
基础概念我会讲述Go语言基础中的基础包括一些基本概念和运作机制。它们都应该是你初识Go语言时必须知道的同时也有助于你理解后面的知识。
数据类型和语句Go语言中的数据类型大都是很有特色的你只有理解了它们才能真正玩转Go语言。我将和你一起与探索它们的奥妙。另外我也会一一揭示怎样使用各种语法和语句操纵它们。
Go程序的测试很多程序员总以为测试是另一个团队的事情其实不然。单元测试甚至接口测试其实都应该是程序员去做的并且应该受到重视。在Go语言中怎样做好测试这件事我会跟你说清楚、讲明白。
标准库的用法虽然Go语言提供了自己的高效并发编程方式但是同步方法依然不容忽视。这些方法集中在sync代码包及其子包中。这部分还涉及了字节和字符问题、OS操控方法和Web服务写法等这些都是我们在日常工作中很可能会用到的。
Go语言拾遗这部分将会讲述一些我们使用Go语言做软件项目的过程中很可能会遇到的问题至少会包含两篇文章是附赠给广大Go语言爱好者的。虽然我已经有一个计划了但是具体会讲哪些内容我还是选择暂时保密。请你和我一起小期待一下吧。
我希望本专栏能帮助或推动你去做更多的实践和思考。同时我也希望你能通过学习本专栏感受到学习的快乐并能够在应聘Go语言相关岗位的时候更加游刃有余。
所以,如果学,请深学。我不敢自称布道师,但很愿意去做推广优秀技术的事情。如果我的输出能为你的宝塔添砖加瓦,那将会是我的快乐之源。我也相信这几十篇文章可以做到这一点。

View File

@@ -0,0 +1,220 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
01 工作区和GOPATH
这门课中Go语言的代码比较多建议你配合文章收听音频。
你好我是郝林。从今天开始我将和你一起梳理Go语言的整个知识体系。
在过去的几年里我与广大爱好者一起见证了Go语言的崛起。
从Go 1.5版本的自举即用Go语言编写程序来实现Go语言自身到Go 1.7版本的极速GC也称垃圾回收器再到2018年2月发布的Go 1.10版本对其自带工具的全面升级以及可预见的后续版本关键特性比如用来做程序依赖管理的go mod命令这一切都令我们欢欣鼓舞。Go语言在一步步走向辉煌的同时显然已经成为软件工程师们最喜爱的编程语言之一。
我开办这个专栏的主要目的是要与你一起探索Go语言的奥秘并帮助你在学习和实践的过程中获取更多。
我假设本专栏的读者已经具备了一定的计算机基础,比如,你要知道操作系统是什么、环境变量怎么设置、怎样正确使用命令行,等等。
当然了如果你已经有了编程经验尤其是一点点Go语言编程经验那就更好了毕竟我想教给你的都是Go语言中非常核心的技术。
如果你对Go语言中最基本的概念和语法还不够了解那么可能需要在学习本专栏的过程中去查阅Go语言规范文档也可以把预习篇的基础知识图拿出来好好研究一下。
最后我来说一下专栏的讲述模式。我总会以一道Go语言的面试题开始针对它进行解答我会告诉你为什么我要关注这道题这道题的背后隐藏着哪些知识并且我会对这部分的内容进行相关的知识扩展。
好了,准备就绪,我们一起开始。
我们学习Go语言时要做的第一件事都是根据自己电脑的计算架构比如是32位的计算机还是64位的计算机以及操作系统比如是Windows还是Linux从Go语言官网下载对应的二进制包也就是可以拿来即用的安装包。
随后我们会解压缩安装包、放置到某个目录、配置环境变量并通过在命令行中输入go version来验证是否安装成功。
在这个过程中我们还需要配置3个环境变量也就是GOROOT、GOPATH和GOBIN。这里我可以简单介绍一下。
GOROOTGo语言安装根目录的路径也就是GO语言的安装路径。
GOPATH若干工作区目录的路径。是我们自己定义的工作空间。
GOBINGO程序生成的可执行文件executable file的路径。
其中GOPATH背后的概念是最多的也是最重要的。那么今天我们的面试问题是你知道设置GOPATH有什么意义吗
关于这个问题,它的典型回答是这样的:
你可以把GOPATH简单理解成Go语言的工作目录它的值是一个目录的路径也可以是多个目录路径每个目录都代表Go语言的一个工作区workspace
我们需要利用这些工作区去放置Go语言的源码文件source file以及安装install后的归档文件archive file也就是以“.a”为扩展名的文件和可执行文件executable file
事实上由于Go语言项目在其生命周期内的所有操作编码、依赖管理、构建、测试、安装等基本上都是围绕着GOPATH和工作区进行的。所以它的背后至少有3个知识点分别是
1. Go语言源码的组织方式是怎样的
2.你是否了解源码安装后的结果只有在安装后Go语言源码才能被我们或其他代码使用
3.你是否理解构建和安装Go程序的过程这在开发程序以及查找程序问题的时候都很有用否则你很可能会走弯路
下面我就重点来聊一聊这些内容。
知识扩展
Go语言源码的组织方式
—————
与许多编程语言一样Go语言的源码也是以代码包为基本组织单位的。在文件系统中这些代码包其实是与目录一一对应的。由于目录可以有子目录所以代码包也可以有子包。
一个代码包中可以包含任意个以.go为扩展名的源码文件这些源码文件都需要被声明属于同一个代码包。
代码包的名称一般会与源码文件所在的目录同名。如果不同名,那么在构建、安装的过程中会以代码包名称为准。
每个代码包都会有导入路径。代码包的导入路径是其他代码在使用该包中的程序实体时需要引入的路径。在实际使用程序实体之前我们必须先导入其所在的代码包。具体的方式就是import该代码包的导入路径。就像这样
import "github.com/labstack/echo"
在工作区中一个代码包的导入路径实际上就是从src子目录到该包的实际存储位置的相对路径。
所以说Go语言源码的组织方式就是以环境变量GOPATH、工作区、src目录和代码包为主线的。一般情况下Go语言的源码文件都需要被存放在环境变量GOPATH包含的某个工作区目录中的src目录下的某个代码包目录中。
了解源码安装后的结果
————–
了解了Go语言源码的组织方式后我们很有必要知道Go语言源码在安装后会产生怎样的结果。
源码文件以及安装后的结果文件都会放到哪里呢我们都知道源码文件通常会被放在某个工作区的src子目录下。
那么在安装后如果产生了归档文件(以“.a”为扩展名的文件就会放进该工作区的pkg子目录如果产生了可执行文件就可能会放进该工作区的bin子目录。
我再讲一下归档文件存放的具体位置和规则。
源码文件会以代码包的形式组织起来,一个代码包其实就对应一个目录。安装某个代码包而产生的归档文件是与这个代码包同名的。
放置它的相对目录就是该代码包的导入路径的直接父级。比如,一个已存在的代码包的导入路径是
github.com/labstack/echo
那么执行命令
go install github.com/labstack/echo
生成的归档文件的相对目录就是 github.com/labstack 文件名为echo.a 。
顺便说一下上面这个代码包导入路径还有另外一层含义那就是该代码包的源码文件存在于GitHub网站的labstack组的代码仓库echo中。
再说回来归档文件的相对目录与pkg目录之间还有一级目录叫做平台相关目录。平台相关目录的名称是由build也称“构建”的目标操作系统、下划线和目标计算架构的代号组成的。
比如构建某个代码包时的目标操作系统是Linux目标计算架构是64位的那么对应的平台相关目录就是linux_amd64。
因此上述代码包的归档文件就会被放置在当前工作区的子目录pkg/linux_amd64/github.com/labstack中。
-
GOPATH与工作区
总之你需要记住的是某个工作区的src子目录下的源码文件在安装后一般会被放置到当前工作区的pkg子目录下对应的目录中或者被直接放置到该工作区的bin子目录中。
理解构建和安装Go程序的过程
——————
我们再来说说构建和安装Go程序的过程都是怎样的以及它们的异同点。
构建使用命令go build安装使用命令go install。构建和安装代码包的时候都会执行编译、打包等操作并且这些操作生成的任何文件都会先被保存到某个临时的目录中。
如果构建的是库源码文件,那么操作后产生的结果文件只会存在于临时目录中。这里的构建的主要意义在于检查和验证。
如果构建的是命令源码文件,那么操作的结果文件会被搬运到源码文件所在的目录中。(这里讲到的两种源码文件我在[“预习篇”的基础知识图]中提到过,在后面的文章中我也会带你详细了解。)
安装操作会先执行构建,然后还会进行链接操作,并且把结果文件搬运到指定目录。
进一步说如果安装的是库源码文件那么结果文件会被搬运到它所在工作区的pkg目录下的某个子目录中。
如果安装的是命令源码文件那么结果文件会被搬运到它所在工作区的bin目录中或者环境变量GOBIN指向的目录中。
这里你需要记住的是,构建和安装的不同之处,以及执行相应命令后得到的结果文件都会出现在哪里。
总结
工作区和GOPATH的概念和含义是每个Go工程师都需要了解的。虽然它们都比较简单但是说它们是Go程序开发的核心知识并不为过。
然而我在招聘面试的过程中仍然发现有人忽略掉了它们。Go语言提供的很多工具都是在GOPATH和工作区的基础上运行的比如上面提到的go build、go install和go get这三个命令也是我们最常用到的。
思考题
说到Go程序中的依赖管理其实还有很多问题值得我们探索。我在这里留下两个问题供你进一步思考。
Go语言在多个工作区中查找依赖包的时候是以怎样的顺序进行的
如果在多个工作区中都存在导入路径相同的代码包会产生冲突吗?
这两个问题之间其实是有一些关联的。答案并不复杂你做几个试验几乎就可以找到它了。你也可以看一下Go语言标准库中go build包及其子包的源码。那里面的宝藏也很多可以助你深刻理解Go程序的构建过程。
补充阅读
go build命令一些可选项的用途和用法
在运行go build命令的时候默认不会编译目标代码包所依赖的那些代码包。当然如果被依赖的代码包的归档文件不存在或者源码文件有了变化那它还是会被编译。
如果要强制编译它们,可以在执行命令的时候加入标记-a。此时不但目标代码包总是会被编译它依赖的代码包也总会被编译即使依赖的是标准库中的代码包也是如此。
另外,如果不但要编译依赖的代码包,还要安装它们的归档文件,那么可以加入标记-i。
那么我们怎么确定哪些代码包被编译了呢?有两种方法。
运行go build命令时加入标记-x这样可以看到go build命令具体都执行了哪些操作。另外也可以加入标记-n这样可以只查看具体操作而不执行它们。
运行go build命令时加入标记-v这样可以看到go build命令编译的代码包的名称。它在与-a标记搭配使用时很有用。
下面再说一说与Go源码的安装联系很紧密的一个命令go get。
命令go get会自动从一些主流公用代码仓库比如GitHub下载目标代码包并把它们安装到环境变量GOPATH包含的第1工作区的相应目录中。如果存在环境变量GOBIN那么仅包含命令源码文件的代码包会被安装到GOBIN指向的那个目录。
最常用的几个标记有下面几种。
-u下载并安装代码包不论工作区中是否已存在它们。
-d只下载代码包不安装代码包。
-fix在下载代码包后先运行一个用于根据当前Go语言版本修正代码的工具然后再安装代码包。
-t同时下载测试所需的代码包。
-insecure允许通过非安全的网络协议下载和安装代码包。HTTP就是这样的协议。
Go语言官方提供的go get命令是比较基础的其中并没有提供依赖管理的功能。目前GitHub上有很多提供这类功能的第三方工具比如glide、gb以及官方出品的dep、vgo等等它们在内部大都会直接使用go get。
有时候,我们可能会出于某种目的变更存储源码的代码仓库或者代码包的相对路径。这时,为了让代码包的远程导入路径不受此类变更的影响,我们会使用自定义的代码包导入路径。
对代码包的远程导入路径进行自定义的方法是:在该代码包中的库源码文件的包声明语句的右边加入导入注释,像这样:
package semaphore // import "golang.org/x/sync/semaphore"
这个代码包原本的完整导入路径是github.com/golang/sync/semaphore。这与实际存储它的网络地址对应的。该代码包的源码实际存在GitHub网站的golang组的sync代码仓库的semaphore目录下。而加入导入注释之后用以下命令即可下载并安装该代码包了
go get golang.org/x/sync/semaphore
而Go语言官网golang.org下的路径/x/sync/semaphore并不是存放semaphore包的真实地址。我们称之为代码包的自定义导入路径。
不过这还需要在golang.org这个域名背后的服务端程序上添加一些支持才能使这条命令成功。
关于自定义代码包导入路径的完整说明可以参看这里。
好了对于go build命令和go get命令的简短介绍就到这里。如果你想查阅更详细的文档那么可以访问Go语言官方的命令文档页面或者在命令行下输入诸如go help build这类的命令。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,254 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
02 命令源码文件
我们已经知道环境变量GOPATH指向的是一个或多个工作区每个工作区中都会有以代码包为基本组织形式的源码文件。
这里的源码文件又分为三种,即:命令源码文件、库源码文件和测试源码文件,它们都有着不同的用途和编写规则。( 我在[“预习篇”的基础知识图]介绍过这三种文件的基本情况。)
(长按保存大图查看)
今天,我们就沿着命令源码文件的知识点,展开更深层级的学习。
一旦开始学习用编程语言编写程序,我们就一定希望在编码的过程中及时地得到反馈,只有这样才能清楚对错。实际上,我们的有效学习和进步,都是通过不断地接受反馈和执行修正实现的。
对于Go语言学习者来说你在学习阶段中也一定会经常编写可以直接运行的程序。这样的程序肯定会涉及命令源码文件的编写而且命令源码文件也可以很方便地用go run命令启动。
那么,我今天的问题就是:命令源码文件的用途是什么,怎样编写它?
这里,我给出你一个参考的回答:命令源码文件是程序的运行入口,是每个可独立运行的程序必须拥有的。我们可以通过构建或安装,生成与其对应的可执行文件,后者一般会与该命令源码文件的直接父目录同名。
如果一个源码文件声明属于main包并且包含一个无参数声明且无结果声明的main函数那么它就是命令源码文件。 就像下面这段代码:
package main
import "fmt"
func main() {
fmt.Println("Hello, world!")
}
如果你把这段代码存成demo1.go文件那么运行go run demo1.go命令后就会在屏幕标准输出中看到Hello, world!
当需要模块化编程时我们往往会将代码拆分到多个文件甚至拆分到不同的代码包中。但无论怎样对于一个独立的程序来说命令源码文件永远只会也只能有一个。如果有与命令源码文件同包的源码文件那么它们也应该声明属于main包。
问题解析
命令源码文件如此重要以至于它毫无疑问地成为了我们学习Go语言的第一助手。不过只会打印Hello, world是远远不够的咱们千万不要成为“Hello, world”党。既然决定学习Go语言你就应该从每一个知识点深入下去。
无论是Linux还是Windows如果你用过命令行command line的话肯定就会知道几乎所有命令command都是可以接收参数argument的。通过构建或安装命令源码文件生成的可执行文件就可以被视为“命令”既然是命令那么就应该具备接收参数的能力。
下面,我就带你深入了解一下与命令参数的接收和解析有关的一系列问题。
知识精讲
1. 命令源码文件怎样接收参数
我们先看一段不完整的代码:
package main
import (
// 需在此处添加代码。[1]
"fmt"
)
var name string
func init() {
// 需在此处添加代码。[2]
}
func main() {
// 需在此处添加代码。[3]
fmt.Printf("Hello, %s!\n", name)
}
如果邀请你帮助我,在注释处添加相应的代码,并让程序实现”根据运行程序时给定的参数问候某人”的功能,你会打算怎样做?
如果你知道做法,请现在就动手实现它。如果不知道也不要着急,咱们一起来搞定。
首先Go语言标准库中有一个代码包专门用于接收和解析命令参数。这个代码包的名字叫flag。
我之前说过,如果想要在代码中使用某个包中的程序实体,那么应该先导入这个包。因此,我们需要在[1]处添加代码"flag"。注意这里应该在代码包导入路径的前后加上英文半角的引号。如此一来上述代码导入了flag和fmt这两个包。
其次,人名肯定是由字符串代表的。所以我们要在[2]处添加调用flag包的StringVar函数的代码。就像这样
flag.StringVar(&name, "name", "everyone", "The greeting object.")
函数flag.StringVar接受4个参数。
第1个参数是用于存储该命令参数值的地址具体到这里就是在前面声明的变量name的地址了由表达式&name表示。
第2个参数是为了指定该命令参数的名称这里是name。
第3个参数是为了指定在未追加该命令参数时的默认值这里是everyone。
至于第4个函数参数即是该命令参数的简短说明了这在打印命令说明时会用到。
顺便说一下还有一个与flag.StringVar函数类似的函数叫flag.String。这两个函数的区别是后者会直接返回一个已经分配好的用于存储命令参数值的地址。如果使用它的话我们就需要把
var name string
改为
var name = flag.String("name", "everyone", "The greeting object.")
所以如果我们使用flag.String函数就需要改动原有的代码。这样并不符合上述问题的要求。
再说最后一个填空。我们需要在[3]处添加代码flag.Parse()。函数flag.Parse用于真正解析命令参数并把它们的值赋给相应的变量。
对该函数的调用必须在所有命令参数存储载体的声明这里是对变量name的声明和设置这里是在[2]处对flag.StringVar函数的调用之后并且在读取任何命令参数值之前进行。
正因为如此我们最好把flag.Parse()放在main函数的函数体的第一行。
2. 怎样在运行命令源码文件的时候传入参数,又怎样查看参数的使用说明
如果我们把上述代码存成名为demo2.go的文件那么运行如下命令就可以为参数name传值
go run demo2.go -name="Robert"
运行后打印到标准输出stdout的内容会是
Hello, Robert!
另外,如果想查看该命令源码文件的参数说明,可以这样做:
$ go run demo2.go --help
其中的$表示我们是在命令提示符后运行go run命令的。运行后输出的内容会类似
Usage of /var/folders/ts/7lg_tl_x2gd_k1lm5g_48c7w0000gn/T/go-build155438482/b001/exe/demo2:
-name string
The greeting object. (default "everyone")
exit status 2
你可能不明白下面这段输出代码的意思。
/var/folders/ts/7lg_tl_x2gd_k1lm5g_48c7w0000gn/T/go-build155438482/b001/exe/demo2
这其实是go run命令构建上述命令源码文件时临时生成的可执行文件的完整路径。
如果我们先构建这个命令源码文件再运行生成的可执行文件,像这样:
$ go build demo2.go
$ ./demo2 --help
那么输出就会是
Usage of ./demo2:
-name string
The greeting object. (default "everyone")
3. 怎样自定义命令源码文件的参数使用说明
这有很多种方式最简单的一种方式就是对变量flag.Usage重新赋值。flag.Usage的类型是func(),即一种无参数声明且无结果声明的函数类型。
flag.Usage变量在声明时就已经被赋值了所以我们才能够在运行命令go run demo2.go --help时看到正确的结果。
注意对flag.Usage的赋值必须在调用flag.Parse函数之前。
现在我们把demo2.go另存为demo3.go然后在main函数体的开始处加入如下代码。
flag.Usage = func() {
fmt.Fprintf(os.Stderr, "Usage of %s:\n", "question")
flag.PrintDefaults()
}
那么当运行
$ go run demo3.go --help
后,就会看到
Usage of question:
-name string
The greeting object. (default "everyone")
exit status 2
现在再深入一层我们在调用flag包中的一些函数比如StringVar、Parse等等的时候实际上是在调用flag.CommandLine变量的对应方法。
flag.CommandLine相当于默认情况下的命令参数容器。所以通过对flag.CommandLine重新赋值我们可以更深层次地定制当前命令源码文件的参数使用说明。
现在我们把main函数体中的那条对flag.Usage变量的赋值语句注销掉然后在init函数体的开始处添加如下代码
flag.CommandLine = flag.NewFlagSet("", flag.ExitOnError)
flag.CommandLine.Usage = func() {
fmt.Fprintf(os.Stderr, "Usage of %s:\n", "question")
flag.PrintDefaults()
}
再运行命令go run demo3.go --help后其输出会与上一次的输出的一致。不过后面这种定制的方法更加灵活。比如当我们把为flag.CommandLine赋值的那条语句改为
flag.CommandLine = flag.NewFlagSet("", flag.PanicOnError)
再运行go run demo3.go --help命令就会产生另一种输出效果。这是由于我们在这里传给flag.NewFlagSet函数的第二个参数值是flag.PanicOnError。flag.PanicOnError和flag.ExitOnError都是预定义在flag包中的常量。
flag.ExitOnError的含义是告诉命令参数容器当命令后跟--help或者参数设置的不正确的时候在打印命令参数使用说明后以状态码2结束当前程序。
状态码2代表用户错误地使用了命令而flag.PanicOnError与之的区别是在最后抛出“运行时恐慌panic”。
上述两种情况都会在我们调用flag.Parse函数时被触发。顺便提一句“运行时恐慌”是Go程序错误处理方面的概念。关于它的抛出和恢复方法我在本专栏的后续部分中会讲到。
下面再进一步我们索性不用全局的flag.CommandLine变量转而自己创建一个私有的命令参数容器。我们在函数外再添加一个变量声明
var cmdLine = flag.NewFlagSet("question", flag.ExitOnError)
然后我们把对flag.StringVar的调用替换为对cmdLine.StringVar调用再把flag.Parse()替换为cmdLine.Parse(os.Args[1:])。
其中的os.Args[1:]指的就是我们给定的那些命令参数。这样做就完全脱离了flag.CommandLine。*flag.FlagSet类型的变量cmdLine拥有很多有意思的方法。你可以去探索一下。我就不在这里一一讲述了。
这样做的好处依然是更灵活地定制命令参数容器。但更重要的是你的定制完全不会影响到那个全局变量flag.CommandLine。
总结
恭喜你你现在已经走出了Go语言编程的第一步。你可以用Go编写命令并可以让它们像众多操作系统命令那样被使用甚至可以把它们嵌入到各种脚本中。
虽然我为你讲解了命令源码文件的基本编写方法,并且也谈到了为了让它接受参数而需要做的各种准备工作,但这并不是全部。
别担心我在后面会经常提到它的。另外如果你想详细了解flag包的用法可以到这个网址查看文档。或者直接使用godoc命令在本地启动一个Go语言文档服务器。怎样使用godoc命令你可以参看这里。
思考题
我们已经见识过为命令源码文件传入字符串类型的参数值的方法,那还可以传入别的吗?这就是今天我留下的思考题。
默认情况下,我们可以让命令源码文件接受哪些类型的参数值?
我们可以把自定义的数据类型作为参数值的类型吗?如果可以,怎样做?
你可以通过查阅文档获得第一个问题的答案。记住,快速查看和理解文档是一项必备的技能。
至于第二个问题,你回答起来可能会有些困难,因为这涉及了另一个问题:“怎样声明自己的数据类型?”这个问题我在专栏的后续部分中也会讲到。如果是这样,我希望你记下它和这里说的另一问题,并在能解决后者之后再来回答前者。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,206 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
04 程序实体的那些事儿(上)
我已经为你打开了Go语言编程之门并向你展示了“程序从初建到拆分再到模块化”的基本演化路径。
一个编程老手让程序完成基本演化,可能也就需要几十分钟甚至十几分钟,因为他们一开始就会把车开到模块化编程的道路上。我相信,等你真正理解了这个过程之后,也会驾轻就熟的。
上述套路是通用的不是只适用于Go语言。但从本篇开始我会开始向你介绍Go语言中的各种特性以及相应的编程方法和思想。
我在讲解那两种源码文件基本编写方法的时候,声明和使用了一些程序实体。你也许已经若有所觉,也许还在云里雾里。没关系,我现在就与你一起梳理这方面的重点。
还记得吗Go语言中的程序实体包括变量、常量、函数、结构体和接口。 Go语言是静态类型的编程语言所以我们在声明变量或常量的时候都需要指定它们的类型或者给予足够的信息这样才可以让Go语言能够推导出它们的类型。
在Go语言中变量的类型可以是其预定义的那些类型也可以是程序自定义的函数、结构体或接口。常量的合法类型不多只能是那些Go语言预定义的基本类型。它的声明方式也更简单一些。
好了,下面这个简单的问题你需要了解一下。
问题:声明变量有几种方式?
先看段代码。
package main
import (
"flag"
"fmt"
)
func main() {
var name string // [1]
flag.StringVar(&name, "name", "everyone", "The greeting object.") // [2]
flag.Parse()
fmt.Printf("Hello, %v!\n", name)
}
这是一个很简单的命令源码文件我把它命名为demo7.go。它是demo2.go的微调版。我只是把变量name的声明和对flag.StringVar函数的调用都移动到了main函数中这分别对应代码中的注释[1]和[2]。
具体的问题是除了var name string这种声明变量name的方式还有其他方式吗你可以选择性地改动注释[1]和[2]处的代码。
典型回答
这有几种做法,我在这里只说最典型的两种。
第一种方式需要先对注释[2]处的代码稍作改动把被调用的函数由flag.StringVar改为flag.String传参的列表也需要随之修改这是为了[1]和[2]处代码合并的准备工作。
var name = flag.String("name", "everyone", "The greeting object.")
合并后的代码看起来更简洁一些。我把注释[1]处的代码中的string去掉了右边添加了一个=,然后再拼接上经过修改的[2]处代码。
注意flag.String函数返回的结果值的类型是*string而不是string。类型*string代表的是字符串的指针类型而不是字符串类型。因此这里的变量name代表的是一个指向字符串值的指针。
关于Go语言中的指针我在后面会有专门的介绍。你在这里只需要知道我们可以通过操作符*把这个指针指向的字符串值取出来了。因此在这种情况下那个被用来打印内容的函数调用就需要微调一下把其中的参数name改为*namefmt.Printf("Hello, %v!\n", *name)。
好了,我想你已经基本理解了这行代码中的每一个部分。
下面我接着说第二种方式。第二种方式与第一种方式非常类似,它基于第一种方式的代码,赋值符号=右边的代码不动左边只留下name再把=变成:=。
name := flag.String("name", "everyone", "The greeting object.")
问题解析
这个问题的基本考点有两个。一个是你要知道Go语言中的类型推断以及它在代码中的基本体现另一个是短变量声明的用法。
第一种方式中的代码在声明变量name的同时还为它赋了值而这时声明中并没有显式指定name的类型。
还记得吗之前的变量声明语句是var name string。这里利用了Go语言自身的类型推断而省去了对该变量的类型的声明。
简单地说类型推断是一种编程语言在编译期自动解释表达式类型的能力。什么是表达式详细的解释你可以参看Go语言规范中的表达式和表达式语句章节。我在这里就不赘述了。
你可以认为表达式类型就是对表达式进行求值后得到结果的类型。Go语言中的类型推断是很简约的这也是Go语言整体的风格。
它只能用于对变量或常量的初始化就像上述回答中描述的那样。对flag.String函数的调用其实就是一个调用表达式而这个表达式的类型是*string即字符串的指针类型。
这也是调用flag.String函数后得到结果的类型。随后Go语言把这个调用了flag.String函数的表达式类型直接作为了变量name的类型这就是“推断”一词所指代的操作了。
至于第二种方式所用的短变量声明实际上就是Go语言的类型推断再加上一点点语法糖。
我们只能在函数体内部使用短变量声明。在编写if、for或switch语句的时候我们经常把它安插在初始化子句中并用来声明一些临时的变量。而相比之下第一种方式更加通用它可以被用在任何地方。
(变量的多种声明方式)
短变量声明还有其他的玩法,我稍后就会讲到。
知识扩展
1. Go语言的类型推断可以带来哪些好处
如果面试官问你这个问题,你应该怎样回答?
当然在写代码时我们通过使用Go语言的类型推断而节省下来的键盘敲击次数几乎可以忽略不计。但它真正的好处往往会体现在我们写代码之后的那些事情上比如代码重构。
为了更好的演示我们先要做一点准备工作。我们依然通过调用一个函数在声明name变量的同时为它赋值但是这个函数不是flag.String而是由我们自己定义的某个函数比如叫getTheFlag。
package main
import (
"flag"
"fmt"
)
func main() {
var name = getTheFlag()
flag.Parse()
fmt.Printf("Hello, %v!\n", *name)
}
func getTheFlag() *string {
return flag.String("name", "everyone", "The greeting object.")
}
我们可以用getTheFlag函数包裹或者说包装那个对flag.String函数的调用并把其结果直接作为getTheFlag函数的结果结果的类型是*string。
这样一来var name =右边的表达式可以变为针对getTheFlag函数的调用表达式了。这实际上是对“声明并赋值name变量的那行代码”的重构。
我们通常把不改变某个程序与外界的任何交互方式和规则,而只改变其内部实现”的代码修改方式,叫做对该程序的重构。重构的对象可以是一行代码、一个函数、一个功能模块,甚至一个软件系统。
好了在准备工作做完之后你会发现你可以随意改变getTheFlag函数的内部实现及其返回结果的类型而不用修改main函数中的任何代码。
这个命令源码文件依然可以通过编译,并且构建和运行也都不会有问题。也许你能感觉得到,这是一个关于程序灵活性的质变。
我们不显式地指定变量name的类型使得它可以被赋予任何类型的值。也就是说变量name的类型可以在其初始化时由其他程序动态地确定。
在你改变getTheFlag函数的结果类型之后Go语言的编译器会在你再次构建该程序的时候自动地更新变量name的类型。如果你使用过Python或Ruby这种动态类型的编程语言的话一定会觉得这情景似曾相识。
没错,通过这种类型推断,你可以体验到动态类型编程语言所带来的一部分优势,即程序灵活性的明显提升。但在那些编程语言中,这种提升可以说是用程序的可维护性和运行效率换来的。
Go语言是静态类型的所以一旦在初始化变量时确定了它的类型之后就不可能再改变。这就避免了在后面维护程序时的一些问题。另外请记住这种类型的确定是在编译期完成的因此不会对程序的运行效率产生任何影响。
现在,你应该已经对这个问题有一个比较深刻的理解了。
如果只用一两句话回答这个问题的话我想可以是这样的Go语言的类型推断可以明显提升程序的灵活性使得代码重构变得更加容易同时又不会给代码的维护带来额外负担实际上它恰恰可以避免散弹式的代码修改更不会损失程序的运行效率。
2. 变量的重声明是什么意思?
这涉及了短变量声明。通过使用它,我们可以对同一个代码块中的变量进行重声明。
既然说到了代码块我先来解释一下它。在Go语言中代码块一般就是一个由花括号括起来的区域里面可以包含表达式和语句。Go语言本身以及我们编写的代码共同形成了一个非常大的代码块也叫全域代码块。
这主要体现在,只要是公开的全局变量,都可以被任何代码所使用。相对小一些的代码块是代码包,一个代码包可以包含许多子代码包,所以这样的代码块也可以很大。
接下来每个源码文件也都是一个代码块每个函数也是一个代码块每个if语句、for语句、switch语句和select语句都是一个代码块。甚至switch或select语句中的case子句也都是独立的代码块。
走个极端我就在main函数中写一对紧挨着的花括号算不算一个代码块当然也算这甚至还有个名词叫“空代码块”。
回到变量重声明的问题上。其含义是对已经声明过的变量再次声明。变量重声明的前提条件如下。
由于变量的类型在其初始化时就已经确定了,所以对它再次声明时赋予的类型必须与其原本的类型相同,否则会产生编译错误。
变量的重声明只可能发生在某一个代码块中。如果与当前的变量重名的是外层代码块中的变量,那么就是另外一种含义了,我在下一篇文章中会讲到。
变量的重声明只有在使用短变量声明时才会发生否则也无法通过编译。如果要在此处声明全新的变量那么就应该使用包含关键字var的声明语句但是这时就不能与同一个代码块中的任何变量有重名了。
被“声明并赋值”的变量必须是多个,并且其中至少有一个是新的变量。这时我们才可以说对其中的旧变量进行了重声明。
这样来看,变量重声明其实算是一个语法糖(或者叫便利措施)。它允许我们在使用短变量声明时不用理会被赋值的多个变量中是否包含旧变量。可以想象,如果不这样会多写不少代码。
我把一个简单的例子写在了“Golang_Puzzlers”项目的puzzlers/article4/q3包中的demo9.go文件中你可以去看一下。
这其中最重要的两行代码如下:
var err error
n, err := io.WriteString(os.Stdout, "Hello, everyone!\n")
我使用短变量声明对新变量n和旧变量err进行了“声明并赋值”这时也是对后者的重声明。
总结
在本篇中我们聚焦于最基本的Go语言程序实体变量。并详细解说了变量声明和赋值的基本方法及其背后的重要概念和知识。我们使用关键字var和短变量声明都可以实现对变量的“声明并赋值”。
这两种方式各有千秋,有着各自的特点和适用场景。前者可以被用在任何地方,而后者只能被用在函数或者其他更小的代码块中。
不过通过前者我们无法对已有的变量进行重声明也就是说它无法处理新旧变量混在一起的情况。不过它们也有一个很重要的共同点基于类型推断Go语言的类型推断只应用在了对变量或常量的初始化方面。
思考题
本次的思考题只有一个:如果与当前的变量重名的是外层代码块中的变量,那么这意味着什么?
这道题对于你来说可能有些难,不过我鼓励你多做几次试验试试,你可以在代码中多写一些打印语句,然后运行它,并记录下每次试验的结果。如果有疑问也一定要写下来,答案将在下篇文章中揭晓。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,158 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
05 程序实体的那些事儿(中)
在前文中我解释过代码块的含义。Go语言的代码块是一层套一层的就像大圆套小圆。
一个代码块可以有若干个子代码块;但对于每个代码块,最多只会有一个直接包含它的代码块(后者可以简称为前者的外层代码块)。
这种代码块的划分,也间接地决定了程序实体的作用域。我们今天就来看看它们之间的关系。
我先说说作用域是什么?大家都知道,一个程序实体被创造出来,是为了让别的代码引用的。那么,哪里的代码可以引用它呢,这就涉及了它的作用域。
我在前面说过程序实体的访问权限有三种包级私有的、模块级私有的和公开的。这其实就是Go语言在语言层面依据代码块对程序实体作用域进行的定义。
包级私有和模块级私有访问权限对应的都是代码包代码块,公开的访问权限对应的是全域代码块。然而,这个颗粒度是比较粗的,我们往往需要利用代码块再细化程序实体的作用域。
比如,我在一个函数中声明了一个变量,那么在通常情况下,这个变量是无法被这个函数以外的代码引用的。这里的函数就是一个代码块,而变量的作用域被限制在了该代码块中。当然了,还有例外的情况,这部分内容,我留到讲函数的时候再说。
总之,请记住,一个程序实体的作用域总是会被限制在某个代码块中,而这个作用域最大的用处,就是对程序实体的访问权限的控制。对“高内聚,低耦合”这种程序设计思想的实践,恰恰可以从这里开始。
你应该可以通过下面的问题进一步感受代码块和作用域的魅力。
今天的问题是:如果一个变量与其外层代码块中的变量重名会出现什么状况?
我把此题的代码存到了demo10.go文件中了。你可以在“Golang_Puzzlers”项目的puzzlers/article5/q1包中找到它。
package main
import "fmt"
var block = "package"
func main() {
block := "function"
{
block := "inner"
fmt.Printf("The block is %s.\n", block)
}
fmt.Printf("The block is %s.\n", block)
}
这个命令源码文件中有四个代码块它们是全域代码块、main包代表的代码块、main函数代表的代码块以及在main函数中的一个用花括号包起来的代码块。
我在后三个代码块中分别声明了一个名为block的变量并分别把字符串值"package"、"function"和"inner"赋给了它们。此外我在后两个代码块的最后分别尝试用fmt.Printf函数打印出“The block is %s.”。这里的“%s”只是为了占位程序会用block变量的实际值替换掉。
具体的问题是:该源码文件中的代码能通过编译吗?如果不能,原因是什么?如果能,运行它后会打印出什么内容?
典型回答
能通过编译。运行后打印出的内容是:
The block is inner.
The block is function.
问题解析
初看这道题,你可能会认为它无法通过编译,因为三处代码都声明了相同名称的变量。的确,声明重名的变量是无法通过编译的,用短变量声明对已有变量进行重声明除外,但这只是对于同一个代码块而言的。
对于不同的代码块来说其中的变量重名没什么大不了照样可以通过编译。即使这些代码块有直接的嵌套关系也是如此就像demo10.go中的main包代码块、main函数代码块和那个最内层的代码块那样。
这样规定显然很方便也很合理,否则我们会每天为了选择变量名而烦恼。但是这会导致另外一个问题,我引用变量时到底用的是哪一个?这也是这道题的第二个考点。
这其实有一个很有画面感的查找过程。这个查找过程不只针对于变量,还适用于任何程序实体。如下面所示。
首先,代码引用变量的时候总会最优先查找当前代码块中的那个变量。注意,这里的“当前代码块”仅仅是引用变量的代码所在的那个代码块,并不包含任何子代码块。
其次,如果当前代码块中没有声明以此为名的变量,那么程序会沿着代码块的嵌套关系,从直接包含当前代码块的那个代码块开始,一层一层地查找。
一般情况下程序会一直查到当前代码包代表的代码块。如果仍然找不到那么Go语言的编译器就会报错了。
还记得吗?如果我们在当前源码文件中导入了其他代码包,那么引用其中的程序实体时,是需要以限定符为前缀的。所以程序在找代表变量未加限定符的名字(即标识符)的时候,是不会去被导入的代码包中查找的。
但有个特殊情况如果我们把代码包导入语句写成import . "XXX"的形式(注意中间的那个“.”那么就会让这个“XXX”包中公开的程序实体被当前源码文件中的代码视为当前代码包中的程序实体。
比如如果有代码包导入语句import . fmt那么我们在当前源码文件中引用fmt.Printf函数的时候直接用Printf就可以了。在这个特殊情况下程序在查找当前源码文件后会先去查用这种方式导入的那些代码包。
好了当你明白了上述过程之后再去看demo10.go中的代码。是不是感觉清晰了很多
从作用域的角度也可以说虽然通过var block = "package"声明的变量作用域是整个main代码包但是在main函数中它却被那两个同名的变量“屏蔽”了。
相似的虽然main函数首先声明的block的作用域是整个main函数但是在最内层的那个代码块中它却是不可能被引用到的。反过来讲最内层代码块中的block也不可能被该块之外的代码引用到这也是打印内容的第二行是“The block is function.”的另一半原因。
你现在应该知道了,这道题看似简单,但是它考察以及可延展的范围并不窄。
知识扩展
不同代码块中的重名变量与变量重声明中的变量区别到底在哪儿?
为了方便描述我就把不同代码块中的重名变量叫做“可重名变量”吧。注意在同一个代码块中不允许出现重名的变量这违背了Go语言的语法。关于这两者的表象和机理我们已经讨论得足够充分了。你现在可以说出几条区别请想一想然后再看下面的列表。
变量重声明中的变量一定是在某一个代码块内的。注意,这里的“某一个代码块内”并不包含它的任何子代码块,否则就变成了“多个代码块之间”。而可重名变量指的正是在多个代码块之间由相同的标识符代表的变量。
变量重声明是对同一个变量的多次声明,这里的变量只有一个。而可重名变量中涉及的变量肯定是有多个的。
不论对变量重声明多少次,其类型必须始终一致,具体遵从它第一次被声明时给定的类型。而可重名变量之间不存在类似的限制,它们的类型可以是任意的。
如果可重名变量所在的代码块之间,存在直接或间接的嵌套关系,那么它们之间一定会存在“屏蔽”的现象。但是这种现象绝对不会在变量重声明的场景下出现。
当然了,我们之前谈论过,对变量进行重声明还有一些前提条件,不过在这里并不是重点。我就不再赘述了。
以上4大区别中的第3条需要你再注意一下。既然可重名变量的类型可以是任意的那么当它们之间存在“屏蔽”时你就更需要注意了。
不同类型的值大都有着不同的特性和用法。当你在某一种类型的值上施加只有在其他类型值上才能做的操作时Go语言编译器一定会告诉你“这不可以”。
这种情况很好,甚至值得庆幸,因为你的程序存在的问题被提前发现了。如若不然,程序没准儿会在运行过程中由此引发很隐晦的问题,让你摸不着头脑。
相比之下那时候排查问题的成本可就太高了。所以我们应该尽量利用Go语言的语法、规范和命令来约束我们的程序。
具体到不同类型的可重名变量的问题上让我们先来看一下puzzlers/article5/q2包中的源码文件demo11.go。它是一个很典型的例子。
package main
import "fmt"
var container = []string{"zero", "one", "two"}
func main() {
container := map[int]string{0: "zero", 1: "one", 2: "two"}
fmt.Printf("The element is %q.\n", container[1])
}
在demo11.go中有两个都叫做container的变量分别位于main包代码块和main函数代码块。main包代码块中的变量是切片slice类型的另一个是字典map类型的。在main函数的最后我试图打印出container变量的值中索引为1的那个元素。
如果你熟悉这两个类型肯定会知道在它们的值上我们都可以施加索引表达式比如container[0]。只要中括号里的整数在有效范围之内(这里是[0, 2]),它就可以把值中的某一个元素取出来。
如果container的类型不是数组、切片或字典类型那么索引表达式就会引发编译错误。这正是利用Go语言语法帮我们约束程序的一个例子但是当我们想知道container确切类型的时候利用索引表达式的方式就不够了。
当可重名变量的值被转换成某个接口类型值,或者它们的类型本身就是接口类型的时候,严格的类型检查就很有必要了。至于怎么检查,我们在下篇文章中再讨论。
总结
我们先讨论了代码块并且也谈到了它与程序实体的作用域以及访问权限控制之间的巧妙关系。Go语言本身对程序实体提供了相对粗粒度的访问控制。但我们自己可以利用代码块和作用域精细化控制它们。
如果在具有嵌套关系的不同代码块中存在重名的变量那么我们应该特别小心它们之间可能会发生“屏蔽”的现象。这样你在不同代码块中引用到变量很可能是不同的。具体的鉴别方式需要参考Go语言查找代表了程序实体的标识符的过程。
另外请记住变量重声明与可重名变量之间的区别以及它们的重要特征。其中最容易产生隐晦问题的一点是可重名变量可以各有各的类型。这时候我们往往应该在真正使用它们之前先对其类型进行检查。利用Go语言的语法、规范和命令做辅助的检查是很好的办法但有些时候并不充分。
思考题
我们在讨论Go语言查找标识符时的范围的时候提到过import . XXX这种导入代码包的方式。这里有个思考题
如果通过这种方式导入的代码包中的变量与当前代码包中的变量重名了那么Go语言是会把它们当做“可重名变量”看待还是会报错呢
其实我们写个例子一试便知,但重点是为什么?请你尝试从代码块和作用域的角度解释试验得到的答案。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,221 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
06 程序实体的那些事儿 (下)
在上一篇文章,我们一直都在围绕着可重名变量,也就是不同代码块中的重名变量,进行了讨论。
还记得吗?最后我强调,如果可重名变量的类型不同,那么就需要引起我们的特别关注了,它们之间可能会存在“屏蔽”的现象。
必要时,我们需要严格地检查它们的类型,但是怎样检查呢?咱们现在就说。
我今天的问题是:怎样判断一个变量的类型?
我们依然以在上一篇文章中展示过的demo11.go为基础。
package main
import "fmt"
var container = []string{"zero", "one", "two"}
func main() {
container := map[int]string{0: "zero", 1: "one", 2: "two"}
fmt.Printf("The element is %q.\n", container[1])
}
那么怎样在打印其中元素之前正确判断变量container的类型
典型回答
答案是使用“类型断言”表达式。具体怎么写呢?
value, ok := interface{}(container).([]string)
这里有一条赋值语句。在赋值符号的右边,是一个类型断言表达式。
它包括了用来把container变量的值转换为空接口值的interface{}(container)。
以及一个用于判断前者的类型是否为切片类型 []string 的 .([]string)。
这个表达式的结果可以被赋给两个变量在这里由value和ok代表。变量ok是布尔bool类型的它将代表类型判断的结果true或false。
如果是true那么被判断的值将会被自动转换为[]string类型的值并赋给变量value否则value将被赋予nil即“空”
顺便提一下这里的ok也可以没有。也就是说类型断言表达式的结果可以只被赋给一个变量在这里是value。
但是这样的话,当判断为否时就会引发异常。
这种异常在Go语言中被叫做panic我把它翻译为运行时恐慌。因为它是一种在Go程序运行期间才会被抛出的异常而“恐慌”二字是英文Panic的中文直译。
除非显式地“恢复”这种“恐慌”否则它会使Go程序崩溃并停止。所以在一般情况下我们还是应该使用带ok变量的写法。
问题解析
正式说明一下类型断言表达式的语法形式是x.(T)。其中的x代表要被判断类型的值。这个值当下的类型必须是接口类型的不过具体是哪个接口类型其实是无所谓的。
所以当这里的container变量类型不是任何的接口类型时我们就需要先把它转成某个接口类型的值。
如果container是某个接口类型的那么这个类型断言表达式就可以是container.([]string)。这样看是不是清晰一些了?
在Go语言中interface{}代表空接口,任何类型都是它的实现类型。我在下个模块,会再讲接口及其实现类型的问题。现在你只要知道,任何类型的值都可以很方便地被转换成空接口的值就行了。
这里的具体语法是interface{}(x)例如前面展示的interface{}(container)。
你可能会对这里的{}产生疑惑为什么在关键字interface的右边还要加上这个东西
请记住,一对不包裹任何东西的花括号,除了可以代表空的代码块之外,还可以用于表示不包含任何内容的数据结构(或者说数据类型)。
比如你今后肯定会遇到的struct{},它就代表了不包含任何字段和方法的、空的结构体类型。
而空接口interface{}则代表了不包含任何方法定义的、空的接口类型。
当然了,对于一些集合类的数据类型来说,{}还可以用来表示其值不包含任何元素,比如空的切片值[]string{}以及空的字典值map[int]string{}。
(类型断言表达式)
我们再向答案的最右边看。圆括号中[]string是一个类型字面量。所谓类型字面量就是用来表示数据类型本身的若干个字符。
比如string是表示字符串类型的字面量uint8是表示8位无符号整数类型的字面量。
再复杂一些的就是我们刚才提到的[]string用来表示元素类型为string的切片类型以及map[int]string用来表示键类型为int、值类型为string的字典类型。
还有更复杂的结构体类型字面量、接口类型字面量,等等。这些描述起来占用篇幅较多,我在后面再说吧。
针对当前的这个问题我写了demo12.go。它是demo11.go的修改版。我在其中分别使用了两种方式来实施类型断言一种用的是我上面讲到的方式另一种用的是我们还没讨论过的switch语句先供你参考。
可以看到,当前问题的答案可以只有一行代码。你可能会想,这一行代码解释起来也太复杂了吧?
千万不要为此烦恼,这其中很大一部分都是一些基本语法和概念,你只要记住它们就好了。但这也正是我要告诉你的,一小段代码可以隐藏很多细节。面试官可以由此延伸到几个方向继续提问。这有点儿像泼墨,可以迅速由点及面。
知识扩展
问题1. 你认为类型转换规则中有哪些值得注意的地方?
类型转换表达式的基本写法我已经在前面展示过了。它的语法形式是T(x)。
其中的x可以是一个变量也可以是一个代表值的字面量比如1.23和struct{}{}),还可以是一个表达式。
注意如果是表达式那么该表达式的结果只能是一个值而不能是多个值。在这个上下文中x可以被叫做源值它的类型就是源类型而那个T代表的类型就是目标类型。
如果从源类型到目标类型的转换是不合法的那么就会引发一个编译错误。那怎样才算合法具体的规则可参见Go语言规范中的转换部分。
我们在这里要关心的并不是那些Go语言编译器可以检测出的问题。恰恰相反那些在编程语言层面很难检测的东西才是我们应该关注的。
很多初学者所说的陷阱(或者说坑),大都源于他们需要了解但却不了解的那些知识和技巧。因此,在这些规则中,我想抛出三个我认为很常用并且非常值得注意的知识点,提前帮你标出一些“陷阱”。
首先,对于整数类型值、整数常量之间的类型转换,原则上只要源值在目标类型的可表示范围内就是合法的。
比如之所以uint8(255)可以把无类型的常量255转换为uint8类型的值是因为255在[0, 255]的范围内。
但需要特别注意的是源整数类型的可表示范围较大而目标类型的可表示范围较小的情况比如把值的类型从int16转换为int8。请看下面这段代码
var srcInt = int16(-255)
dstInt := int8(srcInt)
变量srcInt的值是int16类型的-255而变量dstInt的值是由前者转换而来的类型是int8。int16类型的可表示范围可比int8类型大了不少。问题是dstInt的值是多少
首先你要知道整数在Go语言以及计算机中都是以补码的形式存储的。这主要是为了简化计算机对整数的运算过程。负数的补码其实就是原码各位求反再加1。
比如int16类型的值-255的补码是1111111100000001。如果我们把该值转换为int8类型的值那么Go语言会把在较高位置或者说最左边位置上的8位二进制数直接截掉从而得到00000001。
又由于其最左边一位是0表示它是个正整数以及正整数的补码就等于其原码所以dstInt的值就是1。
一定要记住,当整数值的类型的有效范围由宽变窄时,只需在补码形式下截掉一定数量的高位二进制数即可。
类似的快刀斩乱麻规则还有:当把一个浮点数类型的值转换为整数类型值时,前者的小数部分会被全部截掉。
第二虽然直接把一个整数值转换为一个string类型的值是可行的但值得关注的是被转换的整数值应该可以代表一个有效的Unicode代码点否则转换的结果将会是"<22>"(仅由高亮的问号组成的字符串值)。
字符'<27>'的Unicode代码点是U+FFFD。它是Unicode标准中定义的Replacement Character专用于替换那些未知的、不被认可的以及无法展示的字符。
我肯定不会去问“哪个整数值转换后会得到哪个字符串”,这太变态了!但是我会写下:
string(-1)
并询问会得到什么?这可是完全不同的问题啊。由于-1肯定无法代表一个有效的Unicode代码点所以得到的总会是"<22>"。在实际工作中我们在排查问题时可能会遇到<E98187>你需要知道这可能是由于什么引起的。
第三个知识点是关于string类型与各种切片类型之间的互转的。
你先要理解的是一个值在从string类型向[]byte类型转换时代表着以UTF-8编码的字符串会被拆分成零散、独立的字节。
除了与ASCII编码兼容的那部分字符集以UTF-8编码的某个单一字节是无法代表一个字符的。
string([]byte{'\xe4', '\xbd', '\xa0', '\xe5', '\xa5', '\xbd'}) // 你好
比如UTF-8编码的三个字节\xe4、\xbd和\xa0合在一起才能代表字符'你',而\xe5、\xa5和\xbd合在一起才能代表字符'好'。
其次一个值在从string类型向[]rune类型转换时代表着字符串会被拆分成一个个Unicode字符。
string([]rune{'\u4F60', '\u597D'}) // 你好
当你真正理解了Unicode标准及其字符集和编码方案之后上面这些内容就会显得很容易了。什么是Unicode标准我会首先推荐你去它的官方网站一探究竟。
问题2. 什么是别名类型?什么是潜在类型?
我们可以用关键字type声明自定义的各种类型。当然了这些类型必须在Go语言基本类型和高级类型的范畴之内。在它们当中有一种被叫做“别名类型”的类型。我们可以像下面这样声明它
type MyString = string
这条声明语句表示MyString是string类型的别名类型。顾名思义别名类型与其源类型的区别恐怕只是在名称上它们是完全相同的。
源类型与别名类型是一对概念是两个对立的称呼。别名类型主要是为了代码重构而存在的。更详细的信息可参见Go语言官方的文档Proposal: Type Aliases。
Go语言内建的基本类型中就存在两个别名类型。byte是uint8的别名类型而rune是int32的别名类型。
一定要注意,如果我这样声明:
type MyString2 string // 注意,这里没有等号。
MyString2和string就是两个不同的类型了。这里的MyString2是一个新的类型不同于其他任何类型。
这种方式也可以被叫做对类型的再定义。我们刚刚把string类型再定义成了另外一个类型MyString2。
-
(别名类型、类型再定义与潜在类型)
对于这里的类型再定义来说string可以被称为MyString2的潜在类型。潜在类型的含义是某个类型在本质上是哪个类型。
潜在类型相同的不同类型的值之间是可以进行类型转换的。因此MyString2类型的值与string类型的值可以使用类型转换表达式进行互转。
但对于集合类的类型[]MyString2与[]string来说这样做却是不合法的因为[]MyString2与[]string的潜在类型不同分别是[]MyString2和[]string。另外即使两个不同类型的潜在类型相同它们的值之间也不能进行判等或比较它们的变量之间也不能赋值。
总结
在本篇文章中我们聚焦于类型。Go语言中的每个变量都是有类型的我们可以使用类型断言表达式判断变量是哪个类型的。
正确使用该表达式需要一些小技巧,比如总是应该把结果赋给两个变量。另外还要保证被判断的变量是接口类型的,这可能会用到类型转换表达式。
我们在使用类型转换表达式对变量的类型进行转换的时候,会受到一套规则的严格约束。
我们必须关注这套规则中的一些细节尤其是那些Go语言命令不会帮你检查的细节否则就会踩进所谓的“陷阱”中。
此外,你还应该搞清楚别名类型声明与类型再定义之间的区别,以及由此带来的它们的值在类型转换、判等、比较和赋值操作方面的不同。
思考题
本篇文章的思考题有两个。
除了上述提及的那些,你还认为类型转换规则中有哪些值得注意的地方?
你能具体说说别名类型在代码重构过程中可以起到哪些作用吗?
这些问题的答案都在文中提到的官方文档之中。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,176 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
07 数组和切片
从本篇文章开始我们正式进入了模块2的学习。在这之前我们已经聊了很多的Go语言和编程方面的基础知识相信你已经对Go语言的开发环境配置、常用源码文件写法以及程序实体尤其是变量及其相关的各种概念和编程技巧比如类型推断、变量重声明、可重名变量、类型断言、类型转换、别名类型和潜在类型等都有了一定的理解。
它们都是我认为的Go语言编程基础中比较重要的部分同时也是后续文章的基石。如果你在后面的学习过程中感觉有些吃力那可能是基础仍未牢固可以再回去复习一下。
我们这次主要讨论Go语言的数组array类型和切片slice类型。数组和切片有时候会让初学者感到困惑。
它们的共同点是都属于集合类的类型,并且,它们的值也都可以用来存储某一种类型的值(或者说元素)。
不过,它们最重要的不同是:数组类型的值(以下简称数组)的长度是固定的,而切片类型的值(以下简称切片)是可变长的。
数组的长度在声明它的时候就必须给定,并且之后不会再改变。可以说,数组的长度是其类型的一部分。比如,[1]string和[2]string就是两个不同的数组类型。
而切片的类型字面量中只有元素的类型,而没有长度。切片的长度可以自动地随着其中元素数量的增长而增长,但不会随着元素数量的减少而减小。
(数组与切片的字面量)
我们其实可以把切片看做是对数组的一层简单的封装,因为在每个切片的底层数据结构中,一定会包含一个数组。数组可以被叫做切片的底层数组,而切片也可以被看作是对数组的某个连续片段的引用。
也正因为如此Go语言的切片类型属于引用类型同属引用类型的还有字典类型、通道类型、函数类型等而Go语言的数组类型则属于值类型同属值类型的有基础数据类型以及结构体类型。
注意Go语言里不存在像Java等编程语言中令人困惑的“传值或传引用”问题。在Go语言中我们判断所谓的“传值”或者“传引用”只要看被传递的值的类型就好了。
如果传递的值是引用类型的,那么就是“传引用”。如果传递的值是值类型的,那么就是“传值”。从传递成本的角度讲,引用类型的值往往要比值类型的值低很多。
我们在数组和切片之上都可以应用索引表达式,得到的都会是某个元素。我们在它们之上也都可以应用切片表达式,也都会得到一个新的切片。
我们通过调用内建函数len得到数组和切片的长度。通过调用内建函数cap我们可以得到它们的容量。
但要注意,数组的容量永远等于其长度,都是不可变的。切片的容量却不是这样,并且它的变化是有规律可寻的。
下面我们就通过一道题来了解一下。我们今天的问题就是:怎样正确估算切片的长度和容量?
为此我编写了一个简单的命令源码文件demo15.go。
package main
import "fmt"
func main() {
// 示例1。
s1 := make([]int, 5)
fmt.Printf("The length of s1: %d\n", len(s1))
fmt.Printf("The capacity of s1: %d\n", cap(s1))
fmt.Printf("The value of s1: %d\n", s1)
s2 := make([]int, 5, 8)
fmt.Printf("The length of s2: %d\n", len(s2))
fmt.Printf("The capacity of s2: %d\n", cap(s2))
fmt.Printf("The value of s2: %d\n", s2)
}
我描述一下它所做的事情。
首先我用内建函数make声明了一个[]int类型的变量s1。我传给make函数的第二个参数是5从而指明了该切片的长度。我用几乎同样的方式声明了切片s2只不过多传入了一个参数8以指明该切片的容量。
现在具体的问题是切片s1和s2的容量都是多少
这道题的典型回答切片s1和s2的容量分别是5和8。
问题解析
解析一下这道题。s1的容量为什么是5呢因为我在声明s1的时候把它的长度设置成了5。当我们用make函数初始化切片时如果不指明其容量那么它就会和长度一致。如果在初始化时指明了容量那么切片的实际容量也就是它了。这也正是s2的容量是8的原因。
我们顺便通过s2再来明确下长度、容量以及它们的关系。我在初始化s2代表的切片时同时也指定了它的长度和容量。
我在刚才说过,可以把切片看做是对数组的一层简单的封装,因为在每个切片的底层数据结构中,一定会包含一个数组。数组可以被叫做切片的底层数组,而切片也可以被看作是对数组的某个连续片段的引用。
在这种情况下切片的容量实际上代表了它的底层数组的长度这里是8。注意切片的底层数组等同于我们前面讲到的数组其长度不可变。
现在你需要跟着我一起想象:有一个窗口,你可以通过这个窗口看到一个数组,但是不一定能看到该数组中的所有元素,有时候只能看到连续的一部分元素。
现在这个数组就是切片s2的底层数组而这个窗口就是切片s2本身。s2的长度实际上指明的就是这个窗口的宽度决定了你透过s2可以看到其底层数组中的哪几个连续的元素。
由于s2的长度是5所以你可以看到底层数组中的第1个元素到第5个元素对应的底层数组的索引范围是[0, 4]。
切片代表的窗口也会被划分成一个一个的小格子,就像我们家里的窗户那样。每个小格子都对应着其底层数组中的某一个元素。
我们继续拿s2为例这个窗口最左边的那个小格子对应的正好是其底层数组中的第一个元素即索引为0的那个元素。因此可以说s2中的索引从0到4所指向的元素恰恰就是其底层数组中索引从0到4代表的那5个元素。
请记住当我们用make函数或切片值字面量比如[]int{1, 2, 3}初始化一个切片时该窗口最左边的那个小格子总是会对应其底层数组中的第1个元素。
但是当我们通过切片表达式基于某个数组或切片生成新切片的时候,情况就变得复杂起来了。
我们再来看一个例子:
s3 := []int{1, 2, 3, 4, 5, 6, 7, 8}
s4 := s3[3:6]
fmt.Printf("The length of s4: %d\n", len(s4))
fmt.Printf("The capacity of s4: %d\n", cap(s4))
fmt.Printf("The value of s4: %d\n", s4)
切片s3中有8个元素分别是从1到8的整数。s3的长度和容量都是8。然后我用切片表达式s3[3:6]初始化了切片s4。问题是这个s4的长度和容量分别是多少
这并不难,用减法就可以搞定。首先你要知道,切片表达式中的方括号里的那两个整数都代表什么。我换一种表达方式你也许就清楚了,即:[3, 6)。
这是数学中的区间表示法,常用于表示取值范围,我其实已经在本专栏用过好几次了。由此可知,[3:6]要表达的就是透过新窗口能看到的s3中元素的索引范围是从3到5注意不包括6
这里的3可被称为起始索引6可被称为结束索引。那么s4的长度就是6减去3即3。因此可以说s4中的索引从0到2指向的元素对应的是s3及其底层数组中索引从3到5的那3个元素。
(切片与数组的关系)
再来看容量。我在前面说过切片的容量代表了它的底层数组的长度但这仅限于使用make函数或者切片值字面量初始化切片的情况。
更通用的规则是:一个切片的容量可以被看作是透过这个窗口最多可以看到的底层数组中元素的个数。
由于s4是通过在s3上施加切片操作得来的所以s3的底层数组就是s4的底层数组。
又因为,在底层数组不变的情况下,切片代表的窗口可以向右扩展,直至其底层数组的末尾。
所以s4的容量就是其底层数组的长度8,减去上述切片表达式中的那个起始索引3即5。
注意切片代表的窗口是无法向左扩展的。也就是说我们永远无法透过s4看到s3中最左边的那3个元素。
最后顺便提一下把切片的窗口向右扩展到最大的方法。对于s4来说切片表达式s4[0:cap(s4)]就可以做到。我想你应该能看懂。该表达式的结果值(即一个新的切片)会是[]int{4, 5, 6, 7, 8}其长度和容量都是5。
知识扩展
问题1怎样估算切片容量的增长
一旦一个切片无法容纳更多的元素Go语言就会想办法扩容。但它并不会改变原来的切片而是会生成一个容量更大的切片然后将把原有的元素和新元素一并拷贝到新切片中。在一般的情况下你可以简单地认为新切片的容量以下简称新容量将会是原切片容量以下简称原容量的2倍。
但是当原切片的长度以下简称原长度大于或等于1024时Go语言将会以原容量的1.25倍作为新容量的基准以下新容量基准。新容量基准会被调整不断地与1.25相乘),直到结果不小于原长度与要追加的元素数量之和(以下简称新长度)。最终,新容量往往会比新长度大一些,当然,相等也是可能的。
另外如果我们一次追加的元素过多以至于使新长度比原容量的2倍还要大那么新容量就会以新长度为基准。注意与前面那种情况一样最终的新容量在很多时候都要比新容量基准更大一些。更多细节可参见runtime包中slice.go文件里的growslice及相关函数的具体实现。
我把展示上述扩容策略的一些例子都放到了demo16.go文件中。你可以去试运行看看。
问题 2切片的底层数组什么时候会被替换
确切地说一个切片的底层数组永远不会被替换。为什么虽然在扩容的时候Go语言一定会生成新的底层数组但是它也同时生成了新的切片。
它只是把新的切片作为了新底层数组的窗口,而没有对原切片,及其底层数组做任何改动。
请记住在无需扩容时append函数返回的是指向原底层数组的原切片而在需要扩容时append函数返回的是指向新底层数组的新切片。所以严格来讲“扩容”这个词用在这里虽然形象但并不合适。不过鉴于这种称呼已经用得很广泛了我们也没必要另找新词了。
顺便说一下只要新长度不会超过切片的原容量那么使用append函数对其追加元素的时候就不会引起扩容。这只会使紧邻切片窗口右边的底层数组中的元素被新的元素替换掉。你可以运行demo17.go文件以增强对这些知识的理解。
总结
总结一下,我们今天一起探讨了数组和切片以及它们之间的关系。切片是基于数组的,可变长的,并且非常轻快。一个切片的容量总是固定的,而且一个切片也只会与某一个底层数组绑定在一起。
此外,切片的容量总会是在切片长度和底层数组长度之间的某一个值,并且还与切片窗口最左边对应的元素在底层数组中的位置有关系。那两个分别用减法计算切片长度和容量的方法你一定要记住。
另外如果新的长度比原有切片的容量还要大那么底层数组就一定会是新的而且append函数也会返回一个新的切片。还有你其实不必太在意切片“扩容”策略中的一些细节只要能够理解它的基本规律并可以进行近似的估算就可以了。
思考题
这里仍然是聚焦于切片的问题。
如果有多个切片指向了同一个底层数组,那么你认为应该注意些什么?
怎样沿用“扩容”的思想对切片进行“缩容”?请写出代码。
这两个问题都是开放性的,你需要认真思考一下。最好在动脑的同时动动手。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,158 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
08 container包中的那些容器
我们在上次讨论了数组和切片当我们提到数组的时候往往会想起链表。那么Go语言的链表是什么样的呢
Go语言的链表实现在标准库的container/list代码包中。这个代码包中有两个公开的程序实体——List和ElementList实现了一个双向链表以下简称链表而Element则代表了链表中元素的结构。
那么我今天的问题是可以把自己生成的Element类型值传给链表吗
我们在这里用到了List的四种方法。
MoveBefore方法和MoveAfter方法它们分别用于把给定的元素移动到另一个元素的前面和后面。
MoveToFront方法和MoveToBack方法分别用于把给定的元素移动到链表的最前端和最后端。
在这些方法中,“给定的元素”都是*Element类型的*Element类型是Element类型的指针类型*Element的值就是元素的指针。
func (l *List) MoveBefore(e, mark *Element)
func (l *List) MoveAfter(e, mark *Element)
func (l *List) MoveToFront(e *Element)
func (l *List) MoveToBack(e *Element)
具体问题是,如果我们自己生成这样的值,然后把它作为“给定的元素”传给链表的方法,那么会发生什么?链表会接受它吗?
这里给出一个典型回答不会接受这些方法将不会对链表做出任何改动。因为我们自己生成的Element值并不在链表中所以也就谈不上“在链表中移动元素”。更何况链表不允许我们把自己生成的Element值插入其中。
问题解析
在List包含的方法中用于插入新元素的那些方法都只接受interface{}类型的值。这些方法在内部会使用Element值包装接收到的新元素。
这样做正是为了避免直接使用我们自己生成的元素,主要原因是避免链表的内部关联,遭到外界破坏,这对于链表本身以及我们这些使用者来说都是有益的。
List的方法还有下面这几种
Front和Back方法分别用于获取链表中最前端和最后端的元素-
InsertBefore和InsertAfter方法分别用于在指定的元素之前和之后插入新元素PushFront和PushBack方法则分别用于在链表的最前端和最后端插入新元素。
func (l *List) Front() *Element
func (l *List) Back() *Element
func (l *List) InsertBefore(v interface{}, mark *Element) *Element
func (l *List) InsertAfter(v interface{}, mark *Element) *Element
func (l *List) PushFront(v interface{}) *Element
func (l *List) PushBack(v interface{}) *Element
这些方法都会把一个Element值的指针作为结果返回它们就是链表留给我们的安全“接口”。拿到这些内部元素的指针我们就可以去调用前面提到的用于移动元素的方法了。
知识扩展
1. 问题:为什么链表可以做到开箱即用?
List和Element都是结构体类型。结构体类型有一个特点那就是它们的零值都会是拥有特定结构但是没有任何定制化内容的值相当于一个空壳。值中的字段也都会被分别赋予各自类型的零值。
广义来讲,所谓的零值就是只做了声明,但还未做初始化的变量被给予的缺省值。每个类型的零值都会依据该类型的特性而被设定。
比如经过语句var a [2]int声明的变量a的值将会是一个包含了两个0的整数数组。又比如经过语句var s []int声明的变量s的值将会是一个[]int类型的、值为nil的切片。
那么经过语句var l list.List声明的变量l的值将会是什么呢[1] 这个零值将会是一个长度为0的链表。这个链表持有的根元素也将会是一个空壳其中只会包含缺省的内容。那这样的链表我们可以直接拿来使用吗
答案是可以的。这被称为“开箱即用”。Go语言标准库中很多结构体类型的程序实体都做到了开箱即用。这也是在编写可供别人使用的代码包或者说程序库我们推荐遵循的最佳实践之一。那么语句var l list.List声明的链表l可以直接使用这是怎么做到的呢
关键在于它的“延迟初始化”机制。
所谓的延迟初始化,你可以理解为把初始化操作延后,仅在实际需要的时候才进行。延迟初始化的优点在于“延后”,它可以分散初始化操作带来的计算量和存储空间消耗。
例如如果我们需要集中声明非常多的大容量切片的话那么那时的CPU和内存空间的使用量肯定都会一个激增并且只有设法让其中的切片及其底层数组被回收内存使用量才会有所降低。
如果数组是可以被延迟初始化的,那么计算量和存储空间的压力就可以被分散到实际使用它们的时候。这些数组被实际使用的时间越分散,延迟初始化带来的优势就会越明显。
实际上Go语言的切片就起到了延迟初始化其底层数组的作用你可以想一想为什么会这么说的理由。
延迟初始化的缺点恰恰也在于“延后”。你可以想象一下,如果我在调用链表的每个方法的时候,它们都需要先去判断链表是否已经被初始化,那这也会是一个计算量上的浪费。在这些方法被非常频繁地调用的情况下,这种浪费的影响就开始显现了,程序的性能将会降低。
在这里的链表实现中一些方法是无需对是否初始化做判断的。比如Front方法和Back方法一旦发现链表的长度为0,直接返回nil就好了。
又比如,在用于删除元素、移动元素,以及一些用于插入元素的方法中,只要判断一下传入的元素中指向所属链表的指针,是否与当前链表的指针相等就可以了。
如果不相等,就一定说明传入的元素不是这个链表中的,后续的操作就不用做了。反之,就一定说明这个链表已经被初始化了。
原因在于链表的PushFront方法、PushBack方法、PushBackList方法以及PushFrontList方法总会先判断链表的状态并在必要时进行初始化这就是延迟初始化。
而且,我们在向一个空的链表中添加新元素的时候,肯定会调用这四个方法中的一个,这时新元素中指向所属链表的指针,一定会被设定为当前链表的指针。所以,指针相等是链表已经初始化的充分必要条件。
明白了吗List利用了自身以及Element在结构上的特点巧妙地平衡了延迟初始化的优缺点使得链表可以开箱即用并且在性能上可以达到最优。
问题 2Ring与List的区别在哪儿
container/ring包中的Ring类型实现的是一个循环链表也就是我们俗称的环。其实List在内部就是一个循环链表。它的根元素永远不会持有任何实际的元素值而该元素的存在就是为了连接这个循环链表的首尾两端。
所以也可以说List的零值是一个只包含了根元素但不包含任何实际元素值的空链表。那么既然Ring和List在本质上都是循环链表那它们到底有什么不同呢
最主要的不同有下面几种。
Ring类型的数据结构仅由它自身即可代表而List类型则需要由它以及Element类型联合表示。这是表示方式上的不同也是结构复杂度上的不同。
一个Ring类型的值严格来讲只代表了其所属的循环链表中的一个元素而一个List类型的值则代表了一个完整的链表。这是表示维度上的不同。
在创建并初始化一个Ring值的时候我们可以指定它包含的元素的数量但是对于一个List值来说却不能这样做也没有必要这样做。循环链表一旦被创建其长度是不可变的。这是两个代码包中的New函数在功能上的不同也是两个类型在初始化值方面的第一个不同。
仅通过var r ring.Ring语句声明的r将会是一个长度为1的循环链表而List类型的零值则是一个长度为0的链表。别忘了List中的根元素不会持有实际元素值因此计算长度时不会包含它。这是两个类型在初始化值方面的第二个不同。
Ring值的Len方法的算法复杂度是O(N)的而List值的Len方法的算法复杂度则是O(1)的。这是两者在性能方面最显而易见的差别。
其他的不同基本上都是方法方面的了。比如,循环链表也有用于插入、移动或删除元素的方法,不过用起来都显得更抽象一些,等等。
总结
我们今天主要讨论了container/list包中的链表实现。我们详细讲解了链表的一些主要的使用技巧和实现特点。由于此链表实现在内部就是一个循环链表所以我们还把它与container/ring包中的循环链表实现做了一番比较包括结构、初始化以及性能方面。
思考题
container/ring包中的循环链表的适用场景都有哪些
你使用过container/heap包中的堆吗它的适用场景又有哪些呢
在这里,我们先不求对它们的实现了如指掌,能用对、用好才是我们进阶之前的第一步。好了,感谢你的收听,我们下次再见。
[1]List这个结构体类型有两个字段一个是Element类型的字段root另一个是int类型的字段len。顾名思义前者代表的就是那个根元素而后者用于存储链表的长度。注意它们都是包级私有的也就是说使用者无法查看和修改它们。
像前面那样声明的l其字段root和len都会被赋予相应的零值。len的零值是0正好可以表明该链表还未包含任何元素。由于root是Element类型的所以它的零值就是该类型的空壳用字面量表示的话就是Element{}。
Element类型包含了几个包级私有的字段分别用于存储前一个元素、后一个元素以及所属链表的指针值。另外还有一个名叫Value的公开的字段该字段的作用就是持有元素的实际值它是interface{}类型的。在Element类型的零值中这些字段的值都会是nil。
参考阅读
切片与数组的比较
切片本身有着占用内存少和创建便捷等特点,但它的本质上还是数组。切片的一大好处是可以让我们通过窗口快速地定位并获取,或者修改底层数组中的元素。
不过,当我们想删除切片中的元素的时候就没那么简单了。元素复制一般是免不了的,就算只删除一个元素,有时也会造成大量元素的移动。这时还要注意空出的元素槽位的“清空”,否则很可能会造成内存泄漏。
另一方面,在切片被频繁“扩容”的情况下,新的底层数组会不断产生,这时内存分配的量以及元素复制的次数可能就很可观了,这肯定会对程序的性能产生负面的影响。
尤其是当我们没有一个合理、有效的”缩容“策略的时候,旧的底层数组无法被回收,新的底层数组中也会有大量无用的元素槽位。过度的内存浪费不但会降低程序的性能,还可能会使内存溢出并导致程序崩溃。
由此可见正确地使用切片是多么的重要。不过一个更重要的事实是任何数据结构都不是银弹。不是吗数组的自身特点和适用场景都非常鲜明切片也是一样。它们都是Go语言原生的数据结构使用起来也都很方便.不过,你的集合类工具箱中不应该只有它们。这就是我们使用链表的原因。
不过,对比来看,一个链表所占用的内存空间,往往要比包含相同元素的数组所占内存大得多。这是由于链表的元素并不是连续存储的,所以相邻的元素之间需要互相保存对方的指针。不但如此,每个元素还要存有它所属链表的指针。
有了这些关联,链表的结构反倒更简单了。它只持有头部元素(或称为根元素)基本上就可以了。当然了,为了防止不必要的遍历和计算,链表的长度记录在内也是必须的。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,162 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
09 字典的操作和约束
至今为止,我们讲过的集合类的高级数据类型都属于针对单一元素的容器。
它们或用连续存储,或用互存指针的方式收纳元素,这里的每个元素都代表了一个从属某一类型的独立值。
我们今天要讲的字典map却不同它能存储的不是单一值的集合而是键值对的集合。
什么是键值对它是从英文key-value pair直译过来的一个词。顾名思义一个键值对就代表了一对键和值。
注意,一个“键”和一个“值”分别代表了一个从属于某一类型的独立值,把它们两个捆绑在一起就是一个键值对了。
在Go语言规范中应该是为了避免歧义他们将键值对换了一种称呼叫做“键-元素对”。我们也沿用这个看起来更加清晰的词来讲解。
知识前导:为什么字典的键类型会受到约束?
Go语言的字典类型其实是一个哈希表hash table的特定实现在这个实现中键和元素的最大不同在于键的类型是受限的而元素却可以是任意类型的。
如果要探究限制的原因,我们就先要了解哈希表中最重要的一个过程:映射。
你可以把键理解为元素的一个索引,我们可以在哈希表中通过键查找与它成对的那个元素。
键和元素的这种对应关系在数学里就被称为“映射”这也是“map”这个词的本意哈希表的映射过程就存在于对键-元素对的增、删、改、查的操作之中。
aMap := map[string]int{
"one": 1,
"two": 2,
"three": 3,
}
k := "two"
v, ok := aMap[k]
if ok {
fmt.Printf("The element of key %q: %d\n", k, v)
} else {
fmt.Println("Not found!")
}
比如,我们要在哈希表中查找与某个键值对应的那个元素值,那么我们需要先把键值作为参数传给这个哈希表。
哈希表会先用哈希函数hash function把键值转换为哈希值。哈希值通常是一个无符号的整数。一个哈希表会持有一定数量的桶bucket我们也可以叫它哈希桶这些哈希桶会均匀地储存其所属哈希表收纳的键-元素对。
因此,哈希表会先用这个键哈希值的低几位去定位到一个哈希桶,然后再去这个哈希桶中,查找这个键。
由于键-元素对总是被捆绑在一起存储的,所以一旦找到了键,就一定能找到对应的元素值。随后,哈希表就会把相应的元素值作为结果返回。
只要这个键-元素对存在哈希表中就一定会被查找到,因为哈希表增、改、删键-元素对时的映射过程,与前文所述如出一辙。
现在我们知道了,映射过程的第一步就是:把键值转换为哈希值。
在Go语言的字典中每一个键值都是由它的哈希值代表的。也就是说字典不会独立存储任何键的值但会独立存储它们的哈希值。
你是不是隐约感觉到了什么?我们接着往下看。
我们今天的问题是:字典的键类型不能是哪些类型?
这个问题你可以在Go语言规范中找到答案但却没那么简单。它的典型回答是Go语言字典的键类型不可以是函数类型、字典类型和切片类型。
问题解析
我们来解析一下这个问题。
Go语言规范规定在键类型的值之间必须可以施加操作符==和!=。换句话说,键类型的值必须要支持判等操作。由于函数类型、字典类型和切片类型的值并不支持判等操作,所以字典的键类型不能是这些类型。
另外如果键的类型是接口类型的那么键值的实际类型也不能是上述三种类型否则在程序运行过程中会引发panic即运行时恐慌
我们举个例子:
var badMap2 = map[interface{}]int{
"1": 1,
[]int{2}: 2, // 这里会引发panic。
3: 3,
}
这里的变量badMap2的类型是键类型为interface{}、值类型为int的字典类型。这样声明并不会引起什么错误。或者说我通过这样的声明躲过了Go语言编译器的检查。
注意,我用字面量在声明该字典的同时对它进行了初始化,使它包含了三个键-元素对。其中第二个键-元素对的键值是[]int{2}元素值是2。这样的键值也不会让Go语言编译器报错因为从语法上说这样做是可以的。
但是当我们运行这段代码的时候Go语言的运行时runtime系统就会发现这里的问题它会抛出一个panic并把根源指向字面量中定义第二个键-元素对的那一行。我们越晚发现问题,修正问题的成本就会越高,所以最好不要把字典的键类型设定为任何接口类型。如果非要这么做,请一定确保代码在可控的范围之内。
还要注意,如果键的类型是数组类型,那么还要确保该类型的元素类型不是函数类型、字典类型或切片类型。
比如,由于类型[1][]string的元素类型是[]string所以它就不能作为字典类型的键类型。另外如果键的类型是结构体类型那么还要保证其中字段的类型的合法性。无论不合法的类型被埋藏得有多深比如map[[1][2][3][]string]intGo语言编译器都会把它揪出来。
你可能会有疑问为什么键类型的值必须支持判等操作我在前面说过Go语言一旦定位到了某一个哈希桶那么就会试图在这个桶中查找键值。具体是怎么找的呢
首先每个哈希桶都会把自己包含的所有键的哈希值存起来。Go语言会用被查找键的哈希值与这些哈希值逐个对比看看是否有相等的。如果一个相等的都没有那么就说明这个桶中没有要查找的键值这时Go语言就会立刻返回结果了。
如果有相等的,那就再用键值本身去对比一次。为什么还要对比?原因是,不同值的哈希值是可能相同的。这有个术语,叫做“哈希碰撞”。
所以,即使哈希值一样,键值也不一定一样。如果键类型的值之间无法判断相等,那么此时这个映射的过程就没办法继续下去了。最后,只有键的哈希值和键值都相等,才能说明查找到了匹配的键-元素对。
以上内容涉及的示例都在demo18.go中。
知识扩展
问题1应该优先考虑哪些类型作为字典的键类型
你现在已经清楚了在Go语言中有些类型的值是支持判等的有些是不支持的。那么在这些值支持判等的类型当中哪些更适合作为字典的键类型呢
这里先抛开我们使用字典时的上下文,只从性能的角度看。在前文所述的映射过程中,“把键值转换为哈希值”以及“把要查找的键值与哈希桶中的键值做对比”, 明显是两个重要且比较耗时的操作。
因此,可以说,求哈希和判等操作的速度越快,对应的类型就越适合作为键类型。
对于所有的基本类型、指针类型以及数组类型、结构体类型和接口类型Go语言都有一套算法与之对应。这套算法中就包含了哈希和判等。以求哈希的操作为例宽度越小的类型速度通常越快。对于布尔类型、整数类型、浮点数类型、复数类型和指针类型来说都是如此。对于字符串类型由于它的宽度是不定的所以要看它的值的具体长度长度越短求哈希越快。
类型的宽度是指它的单个值需要占用的字节数。比如bool、int8和uint8类型的一个值需要占用的字节数都是1因此这些类型的宽度就都是1。
以上说的都是基本类型,再来看高级类型。对数组类型的值求哈希实际上是依次求得它的每个元素的哈希值并进行合并,所以速度就取决于它的元素类型以及它的长度。细则同上。
与之类似,对结构体类型的值求哈希实际上就是对它的所有字段值求哈希并进行合并,所以关键在于它的各个字段的类型以及字段的数量。而对于接口类型,具体的哈希算法,则由值的实际类型决定。
我不建议你使用这些高级数据类型作为字典的键类型,不仅仅是因为对它们的值求哈希,以及判等的速度较慢,更是因为在它们的值中存在变数。
比如,对一个数组来说,我可以任意改变其中的元素值,但在变化前后,它却代表了两个不同的键值。
对于结构体类型的值情况可能会好一些,因为如果我可以控制其中各字段的访问权限的话,就可以阻止外界修改它了。把接口类型作为字典的键类型最危险。
还记得吗如果在这种情况下Go运行时系统发现某个键值不支持判等操作那么就会立即抛出一个panic。在最坏的情况下这足以使程序崩溃。
那么,在那些基本类型中应该优先选择哪一个?答案是,优先选用数值类型和指针类型,通常情况下类型的宽度越小越好。如果非要选择字符串类型的话,最好对键值的长度进行额外的约束。
那什么是不通常的情况笼统地说Go语言有时会对字典的增、删、改、查操作做一些优化。
比如在字典的键类型为字符串类型的情况下又比如在字典的键类型为宽度为4或8的整数类型的情况下。
问题2在值为nil的字典上执行读操作会成功吗那写操作呢
好了为了避免烧脑太久我们再来说一个简单些的问题。由于字典是引用类型所以当我们仅声明而不初始化一个字典类型的变量的时候它的值会是nil。
在这样一个变量上试图通过键值获取对应的元素值,或者添加键-元素对,会成功吗?这个问题虽然简单,但却是我们必须铭记于心的,因为这涉及程序运行时的稳定性。
我来说一下答案。除了添加键-元素对我们在一个值为nil的字典上做任何操作都不会引起错误。当我们试图在一个值为nil的字典中添加键-元素对的时候Go语言的运行时系统就会立即抛出一个panic。你可以运行一下demo19.go文件试试看。
总结
我们这次主要讨论了与字典类型有关的,一些容易让人困惑的问题。比如,为什么字典的键类型会受到约束?又比如,我们通常应该选取什么样的类型作为字典的键类型。
我以Go语言规范为起始并以Go语言源码为依据回答了这些问题。认真看了这篇文章之后你应该对字典中的映射过程有了一定的理解。
另外对于Go语言在那些合法的键类型上所做的求哈希和判等的操作你也应该有所了解了。
再次强调永远要注意那些可能引发panic的操作比如像一个值为nil的字典添加键-元素对。
思考题
今天的思考题是关于并发安全性的。更具体地说在同一时间段内但在不同的goroutine或者说go程中对同一个值进行操作是否是安全的。这里的安全是指该值不会因这些操作而产生混乱或其它不可预知的问题。
具体的思考题是:字典类型的值是并发安全的吗?如果不是,那么在我们只在字典上添加或删除键-元素对的情况下,依然不安全吗?感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,179 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
10 通道的基本操作
作为Go语言最有特色的数据类型通道channel完全可以与goroutine也可称为go程并驾齐驱共同代表Go语言独有的并发编程模式和编程哲学。
Dont communicate by sharing memory; share memory by communicating. (不要通过共享内存来通信,而应该通过通信来共享内存。)
这是作为Go语言的主要创造者之一的Rob Pike的至理名言这也充分体现了Go语言最重要的编程理念。而通道类型恰恰是后半句话的完美实现我们可以利用通道在多个goroutine之间传递数据。
前导内容:通道的基础知识
通道类型的值本身就是并发安全的这也是Go语言自带的、唯一一个可以满足并发安全性的类型。它使用起来十分简单并不会徒增我们的心智负担。
在声明并初始化一个通道的时候我们需要用到Go语言的内建函数make。就像用make初始化切片那样我们传给这个函数的第一个参数应该是代表了通道的具体类型的类型字面量。
在声明一个通道类型变量的时候,我们首先要确定该通道类型的元素类型,这决定了我们可以通过这个通道传递什么类型的数据。
比如类型字面量chan int其中的chan是表示通道类型的关键字而int则说明了该通道类型的元素类型。又比如chan string代表了一个元素类型为string的通道类型。
在初始化通道的时候make函数除了必须接收这样的类型字面量作为参数还可以接收一个int类型的参数。
后者是可选的用于表示该通道的容量。所谓通道的容量就是指通道最多可以缓存多少个元素值。由此虽然这个参数是int类型的但是它是不能小于0的。
当容量为0时我们可以称通道为非缓冲通道也就是不带缓冲的通道。而当容量大于0时我们可以称为缓冲通道也就是带有缓冲的通道。非缓冲通道和缓冲通道有着不同的数据传递方式这个我在后面会讲到。
一个通道相当于一个先进先出FIFO的队列。也就是说通道中的各个元素值都是严格地按照发送的顺序排列的先被发送通道的元素值一定会先被接收。元素值的发送和接收都需要用到操作符<-我们也可以叫它接送操作符一个左尖括号紧接着一个减号形象地代表了元素值的传输方向
package main
import "fmt"
func main() {
ch1 := make(chan int, 3)
ch1 <- 2
ch1 <- 1
ch1 <- 3
elem1 := <-ch1
fmt.Printf("The first element received from channel ch1: %v\n",
elem1)
}
在demo20.go文件中我声明并初始化了一个元素类型为int容量为3的通道ch1并用三条语句向该通道先后发送了三个元素值21和3
这里的语句需要这样写依次敲入通道变量的名称比如ch1)、接送操作符<-以及想要发送的元素值比如2并且这三者之间最好用空格进行分割
这显然表达了这个元素值将被发送该通道这个语义由于该通道的容量为3所以我可以在通道不包含任何元素值的时候连续地向该通道发送三个值此时这三个值都会被缓存在通道之中
当我们需要从通道接收元素值的时候同样要用接送操作符<-只不过这时需要把它写在变量名的左边用于表达要从该通道接收一个元素值的语义
比如<-ch1这也可以被叫做接收表达式在一般情况下接收表达式的结果将会是通道中的一个元素值
如果我们需要把如此得来的元素值存起来那么在接收表达式的左边就需要依次添加赋值符号=或:=和用于存值的变量的名字。因此语句elem1 := <-ch1会将最先进入ch1的元素2接收来并存入变量elem1。
现在我们来看一道与此有关的题目今天的问题是对通道的发送和接收操作都有哪些基本的特性
这个问题的背后隐藏着很多的知识点我们来看一下典型回答
它们的基本特性如下
对于同一个通道发送操作之间是互斥的接收操作之间也是互斥的
发送操作和接收操作中对元素值的处理都是不可分割的
发送操作在完全完成之前会被阻塞接收操作也是如此
问题解析
我们先来看第一个基本特性 在同一时刻Go语言的运行时系统以下简称运行时系统只会执行对同一个通道的任意个发送操作中的某一个
直到这个元素值被完全复制进该通道之后其他针对该通道的发送操作才可能被执行
类似的在同一时刻运行时系统也只会执行对同一个通道的任意个接收操作中的某一个
直到这个元素值完全被移出该通道之后其他针对该通道的接收操作才可能被执行即使这些操作是并发执行的也是如此
这里所谓的并发执行你可以这样认为多个代码块分别在不同的goroutine之中并有机会在同一个时间段内被执行
另外对于通道中的同一个元素值来说发送操作和接收操作之间也是互斥的例如虽然会出现正在被复制进通道但还未复制完成的元素值但是这时它绝不会被想接收它的一方看到和取走
这里要注意的一个细节是元素值从外界进入通道时会被复制更具体地说进入通道的并不是在接收操作符右边的那个元素值而是它的副本
另一方面元素值从通道进入外界时会被移动这个移动操作实际上包含了两步第一步是生成正在通道中的这个元素值的副本并准备给到接收方第二步是删除在通道中的这个元素值
顺着这个细节再来看第二个基本特性 这里的不可分割的意思是它们处理元素值时都是一气呵成的绝不会被打断
例如发送操作要么还没复制元素值要么已经复制完毕绝不会出现只复制了一部分的情况
又例如接收操作在准备好元素值的副本之后一定会删除掉通道中的原值绝不会出现通道中仍有残留的情况
这既是为了保证通道中元素值的完整性也是为了保证通道操作的唯一性对于通道中的同一个元素值来说它只可能是某一个发送操作放入的同时也只可能被某一个接收操作取出
再来说第三个基本特性 一般情况下发送操作包括了复制元素值放置副本到通道内部这两个步骤
在这两个步骤完全完成之前发起这个发送操作的那句代码会一直阻塞在那里也就是说在它之后的代码不会有执行的机会直到这句代码的阻塞解除
更细致地说在通道完成发送操作之后运行时系统会通知这句代码所在的goroutine以使它去争取继续运行代码的机会
另外接收操作通常包含了复制通道内的元素值”“放置副本到接收方”“删掉原值三个步骤
在所有这些步骤完全完成之前发起该操作的代码也会一直阻塞直到该代码所在的goroutine收到了运行时系统的通知并重新获得运行机会为止
说到这里你可能已经感觉到如此阻塞代码其实就是为了实现操作的互斥和元素值的完整
下面我来说一个关于通道操作阻塞的问题
知识扩展
问题1发送操作和接收操作在什么时候可能被长时间的阻塞
先说针对缓冲通道的情况如果通道已满那么对它的所有发送操作都会被阻塞直到通道中有元素值被接收走
这时通道会优先通知最早因此而等待的那个发送操作所在的goroutine后者会再次执行发送操作
由于发送操作在这种情况下被阻塞后它们所在的goroutine会顺序地进入通道内部的发送等待队列所以通知的顺序总是公平的
相对的如果通道已空那么对它的所有接收操作都会被阻塞直到通道中有新的元素值出现这时通道会通知最早等待的那个接收操作所在的goroutine并使它再次执行接收操作
因此而等待的所有接收操作所在的goroutine都会按照先后顺序被放入通道内部的接收等待队列
对于非缓冲通道情况要简单一些无论是发送操作还是接收操作一开始执行就会被阻塞直到配对的操作也开始执行才会继续传递由此可见非缓冲通道是在用同步的方式传递数据也就是说只有收发双方对接上了数据才会被传递
并且数据是直接从发送方复制到接收方的中间并不会用非缓冲通道做中转相比之下缓冲通道则在用异步的方式传递数据
在大多数情况下缓冲通道会作为收发双方的中间件正如前文所述元素值会先从发送方复制到缓冲通道之后再由缓冲通道复制给接收方
但是当发送操作在执行的时候发现空的通道中正好有等待的接收操作那么它会直接把元素值复制给接收方
以上说的都是在正确使用通道的前提下会发生的事情下面我特别说明一下由于错误使用通道而造成的阻塞
对于值为nil的通道不论它的具体类型是什么对它的发送操作和接收操作都会永久地处于阻塞状态它们所属的goroutine中的任何代码都不再会被执行
注意由于通道类型是引用类型所以它的零值就是nil换句话说当我们只声明该类型的变量但没有用make函数对它进行初始化时该变量的值就会是nil我们一定不要忘记初始化通道
你可以去看一下demo21.go我在里面用代码罗列了一下会造成阻塞的几种情况
问题2发送操作和接收操作在什么时候会引发panic
对于一个已初始化但并未关闭的通道来说收发操作一定不会引发panic但是通道一旦关闭再对它进行发送操作就会引发panic
另外如果我们试图关闭一个已经关闭了的通道也会引发panic注意接收操作是可以感知到通道的关闭的并能够安全退出
更具体地说当我们把接收表达式的结果同时赋给两个变量时第二个变量的类型就是一定bool类型它的值如果为false就说明通道已经关闭并且再没有元素值可取了
注意如果通道关闭时里面还有元素值未被取出那么接收表达式的第一个结果仍会是通道中的某一个元素值而第二个结果值一定会是true
因此通过接收表达式的第二个结果值来判断通道是否关闭是可能有延时的
由于通道的收发操作有上述特性所以除非有特殊的保障措施我们千万不要让接收方关闭通道而应当让发送方做这件事这在demo22.go中有一个简单的模式可供参考
总结
今天我们讲到了通道的一些常规操作包括初始化发送接收和关闭通道类型是Go语言特有的所以你一开始肯定会感到陌生其中的一些规则和奥妙还需要你铭记于心并细心体会
首先是在初始化通道时设定其容量的意义这有时会让通道拥有不同的行为模式对通道的发送操作和接收操作都有哪些基本特性也是我们必须清楚的
这涉及了它们什么时候会互斥什么时候会造成阻塞什么时候会引起panic以及它们收发元素值的顺序是怎样的它们是怎样保证元素值的完整性的元素值通常会被复制几次等等
最后别忘了通道也是Go语言的并发编程模式中重要的一员
思考题
我希望你能通过试验获得下述问题的答案
通道的长度代表着什么它在什么时候会通道的容量相同
元素值在经过通道传递时会被复制那么这个复制是浅表复制还是深层复制呢
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,233 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
11 通道的高级玩法
我们已经讨论过了通道的基本操作以及背后的规则。今天,我再来讲讲通道的高级玩法。
首先来说说单向通道。我们在说“通道”的时候指的都是双向通道,即:既可以发也可以收的通道。
所谓单向通道就是,只能发不能收,或者只能收不能发的通道。一个通道是双向的,还是单向的是由它的类型字面量体现的。
还记得我们在上篇文章中说过的接收操作符<-吗如果我们把它用在通道的类型字面量中那么它代表的就不是发送接收的动作了而是表示通道的方向
比如
var uselessChan = make(chan<- int, 1)
我声明并初始化了一个名叫uselessChan的变量这个变量的类型是chan<- int容量是1
请注意紧挨在关键字chan右边的那个<-这表示了这个通道是单向的并且只能发而不能收
类似的如果这个操作符紧挨在chan的左边那么就说明该通道只能收不能发所以前者可以被简称为发送通道后者可以被简称为接收通道
注意与发送操作和接收操作对应这里的都是站在操作通道的代码的角度上说的
从上述变量的名字上你也能猜到这样的通道是没用的通道就是为了传递数据而存在的声明一个只有一端发送端或者接收端能用的通道没有任何意义那么单向通道的用途究竟在哪儿呢
问题单向通道有什么应用价值
你可以先自己想想然后再接着往下看
典型回答
概括地说单向通道最主要的用途就是约束其他代码的行为
问题解析
这需要从两个方面讲都跟函数的声明有些关系先来看下面的代码
func SendInt(ch chan<- int) {
ch <- rand.Intn(1000)
}
我用func关键字声明了一个叫做SendInt的函数这个函数只接受一个chan<- int类型的参数在这个函数中的代码只能向参数ch发送元素值而不能从它那里接收元素值这就起到了约束函数行为的作用
你可能会问我自己写的函数自己肯定能确定操作通道的方式为什么还要再约束好吧这个例子可能过于简单了在实际场景中这种约束一般会出现在接口类型声明中的某个方法定义上请看这个叫Notifier的接口类型声明
type Notifier interface {
SendInt(ch chan<- int)
}
在接口类型声明的花括号中每一行都代表着一个方法的定义接口中的方法定义与函数声明很类似但是只包含了方法名称参数列表和结果列表
一个类型如果想成为一个接口类型的实现类型那么就必须实现这个接口中定义的所有方法因此如果我们在某个方法的定义中使用了单向通道类型那么就相当于在对它的所有实现做出约束
在这里Notifier接口中的SendInt方法只会接受一个发送通道作为参数所以在该接口的所有实现类型中的SendInt方法都会受到限制这种约束方式还是很有用的尤其是在我们编写模板代码或者可扩展的程序库的时候
顺便说一下我们在调用SendInt函数的时候只需要把一个元素类型匹配的双向通道传给它就行了没必要用发送通道因为Go语言在这种情况下会自动地把双向通道转换为函数所需的单向通道
intChan1 := make(chan int, 3)
SendInt(intChan1)
在另一个方面我们还可以在函数声明的结果列表中使用单向通道如下所示
func getIntChan() <-chan int {
num := 5
ch := make(chan int, num)
for i := 0; i < num; i++ {
ch <- i
}
close(ch)
return ch
}
函数getIntChan会返回一个<-chan int类型的通道这就意味着得到该通道的程序只能从通道中接收元素值这实际上就是对函数调用方的一种约束了
另外我们在Go语言中还可以声明函数类型如果我们在函数类型中使用了单向通道那么就相等于在约束所有实现了这个函数类型的函数
我们再顺便看一下调用getIntChan的代码
intChan2 := getIntChan()
for elem := range intChan2 {
fmt.Printf("The element in intChan2: %v\n", elem)
}
我把调用getIntChan得到的结果值赋给了变量intChan2然后用for语句循环地取出了该通道中的所有元素值并打印出来
这里的for语句也可以被称为带有range子句的for语句它的用法我在后面讲for语句的时候专门说明现在你只需要知道关于它的三件事
上述for语句会不断地尝试从通道intChan2中取出元素值即使intChan2已经被关闭了它也会在取出所有剩余的元素值之后再结束执行
通常当通道intChan2中没有元素值时这条for语句会被阻塞在有for关键字的那一行直到有新的元素值可取不过由于这里的getIntChan函数会事先将intChan2关闭所以它在取出intChan2中的所有元素值之后会直接结束执行
倘若通道intChan2的值为nil那么这条for语句就会被永远地阻塞在有for关键字的那一行
这就是带range子句的for语句与通道的联用方式不过它是一种用途比较广泛的语句还可以被用来从其他一些类型的值中获取元素除此之外Go语言还有一种专门为了操作通道而存在的语句select语句
知识扩展
问题1select语句与通道怎样联用应该注意些什么
select语句只能与通道联用它一般由若干个分支组成每次执行这种语句的时候一般只有一个分支中的代码会被运行
select语句的分支分为两种一种叫做候选分支另一种叫做默认分支候选分支总是以关键字case开头后跟一个case表达式和一个冒号然后我们可以从下一行开始写入当分支被选中时需要执行的语句
默认分支其实就是default case因为当且仅当没有候选分支被选中时它才会被执行所以它以关键字default开头并直接后跟一个冒号同样的我们可以在default:的下一行写入要执行的语句
由于select语句是专为通道而设计的所以每个case表达式中都只能包含操作通道的表达式比如接收表达式
当然如果我们需要把接收表达式的结果赋给变量的话还可以把这里写成赋值语句或者短变量声明下面展示一个简单的例子
// 准备好几个通道
intChannels := [3]chan int{
make(chan int, 1),
make(chan int, 1),
make(chan int, 1),
}
// 随机选择一个通道并向它发送元素值
index := rand.Intn(3)
fmt.Printf("The index: %d\n", index)
intChannels[index] <- index
// 哪一个通道中有可取的元素值哪个对应的分支就会被执行
select {
case <-intChannels[0]:
fmt.Println("The first candidate case is selected.")
case <-intChannels[1]:
fmt.Println("The second candidate case is selected.")
case elem := <-intChannels[2]:
fmt.Printf("The third candidate case is selected, the element is %d.\n", elem)
default:
fmt.Println("No candidate case is selected!")
}
我先准备好了三个类型为chan int容量为1的通道并把它们存入了一个叫做intChannels的数组
然后我随机选择一个范围在[0, 2]的整数把它作为索引在上述数组中选择一个通道并向其中发送一个元素值
最后我用一个包含了三个候选分支的select语句分别尝试从上述三个通道中接收元素值哪一个通道中有值哪一个对应的候选分支就会被执行后面还有一个默认分支不过在这里它是不可能被选中的
在使用select语句的时候我们首先需要注意下面几个事情
如果像上述示例那样加入了默认分支那么无论涉及通道操作的表达式是否有阻塞select语句都不会被阻塞如果那几个表达式都阻塞了或者说都没有满足求值的条件那么默认分支就会被选中并执行
如果没有加入默认分支那么一旦所有的case表达式都没有满足求值条件那么select语句就会被阻塞直到至少有一个case表达式满足条件为止
还记得吗我们可能会因为通道关闭了而直接从通道接收到一个其元素类型的零值所以在很多时候我们需要通过接收表达式的第二个结果值来判断通道是否已经关闭一旦发现某个通道关闭了我们就应该及时地屏蔽掉对应的分支或者采取其他措施这对于程序逻辑和程序性能都是有好处的
select语句只能对其中的每一个case表达式各求值一次所以如果我们想连续或定时地操作其中的通道的话就往往需要通过在for语句中嵌入select语句的方式实现但这时要注意简单地在select语句的分支中使用break语句只能结束当前的select语句的执行而并不会对外层的for语句产生作用这种错误的用法可能会让这个for语句无休止地运行下去
下面是一个简单的示例
intChan := make(chan int, 1)
// 一秒后关闭通道
time.AfterFunc(time.Second, func() {
close(intChan)
})
select {
case _, ok := <-intChan:
if !ok {
fmt.Println("The candidate case is closed.")
break
}
fmt.Println("The candidate case is selected.")
}
我先声明并初始化了一个叫做intChan的通道然后通过time包中的AfterFunc函数约定在一秒钟之后关闭该通道
后面的select语句只有一个候选分支我在其中利用接收表达式的第二个结果值对intChan通道是否已关闭做了判断并在得到肯定结果后通过break语句立即结束当前select语句的执行
这个例子以及前面那个例子都可以在demo24.go文件中被找到你应该运行下看看结果如何
上面这些注意事项中的一部分涉及到了select语句的分支选择规则我觉得很有必要再专门整理和总结一下这些规则
问题2select语句的分支选择规则都有哪些
规则如下面所示
对于每一个case表达式都至少会包含一个代表发送操作的发送表达式或者一个代表接收操作的接收表达式同时也可能会包含其他的表达式比如如果case表达式是包含了接收表达式的短变量声明时那么在赋值符号左边的就可以是一个或两个表达式不过此处的表达式的结果必须是可以被赋值的当这样的case表达式被求值时它包含的多个表达式总会以从左到右的顺序被求值-
select语句包含的候选分支中的case表达式都会在该语句执行开始时先被求值并且求值的顺序是依从代码编写的顺序从上到下的结合上一条规则在select语句开始执行时排在最上边的候选分支中最左边的表达式会最先被求值然后是它右边的表达式仅当最上边的候选分支中的所有表达式都被求值完毕后从上边数第二个候选分支中的表达式才会被求值顺序同样是从左到右然后是第三个候选分支第四个候选分支以此类推-
对于每一个case表达式如果其中的发送表达式或者接收表达式在被求值时相应的操作正处于阻塞状态那么对该case表达式的求值就是不成功的在这种情况下我们可以说这个case表达式所在的候选分支是不满足选择条件的-
仅当select语句中的所有case表达式都被求值完毕后它才会开始选择候选分支这时候它只会挑选满足选择条件的候选分支执行如果所有的候选分支都不满足选择条件那么默认分支就会被执行如果这时没有默认分支那么select语句就会立即进入阻塞状态直到至少有一个候选分支满足选择条件为止一旦有一个候选分支满足选择条件select语句或者说它所在的goroutine就会被唤醒这个候选分支就会被执行-
如果select语句发现同时有多个候选分支满足选择条件那么它就会用一种伪随机的算法在这些分支中选择一个并执行注意即使select语句是在被唤醒时发现的这种情况也会这样做-
一条select语句中只能够有一个默认分支并且默认分支只在无候选分支可选时才会被执行这与它的编写位置无关-
select语句的每次执行包括case表达式求值和分支选择都是独立的不过至于它的执行是否是并发安全的就要看其中的case表达式以及分支中是否包含并发不安全的代码了
我把与以上规则相关的示例放在demo25.go文件中了你一定要去试运行一下然后尝试用上面的规则去解释它的输出内容
总结
今天我们先讲了单向通道的表示方法操作符“<-仍然是关键如果只用一个词来概括单向通道存在的意义的话那就是约束”,也就是对代码的约束
我们可以使用带range子句的for语句从通道中获取数据也可以通过select语句操纵通道
select语句是专门为通道而设计的它可以包含若干个候选分支每个分支中的case表达式都会包含针对某个通道的发送或接收操作
当select语句被执行时它会根据一套分支选择规则选中某一个分支并执行其中的代码如果所有的候选分支都没有被选中那么默认分支如果有的话就会被执行注意发送和接收操作的阻塞是分支选择规则的一个很重要的依据
思考题
今天的思考题都由上述内容中的线索延伸而来
如果在select语句中发现某个通道已关闭那么应该怎样屏蔽掉它所在的分支
在select语句与for语句联用时怎样直接退出外层的for语句
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,257 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
12 使用函数的正确姿势
在前几期文章中我们分了几次把Go语言自身提供的所有集合类的数据类型都讲了一遍额外还讲了标准库的container包中的几个类型。
在几乎所有主流的编程语言中,集合类的数据类型都是最常用和最重要的。我希望通过这几次的讨论,能让你对它们的运用更上一层楼。
从今天开始我会开始向你介绍使用Go语言进行模块化编程时必须了解的知识这包括几个重要的数据类型以及一些模块化编程的技巧。首先我们需要了解的是Go语言的函数以及函数类型。
前导内容:函数是一等的公民
在Go语言中函数可是一等的first-class公民函数类型也是一等的数据类型。这是什么意思呢
简单来说,这意味着函数不但可以用于封装代码、分割功能、解耦逻辑,还可以化身为普通的值,在其他函数间传递、赋予变量、做类型判断和转换等等,就像切片和字典的值那样。
而更深层次的含义就是:函数值可以由此成为能够被随意传播的独立逻辑组件(或者说功能模块)。
对于函数类型来说它是一种对一组输入、输出进行模板化的重要工具它比接口类型更加轻巧、灵活它的值也借此变成了可被热替换的逻辑组件。比如我在demo26.go文件中是这样写的
package main
import "fmt"
type Printer func(contents string) (n int, err error)
func printToStd(contents string) (bytesNum int, err error) {
return fmt.Println(contents)
}
func main() {
var p Printer
p = printToStd
p("something")
}
这里我先声明了一个函数类型名叫Printer。
注意这里的写法在类型声明的名称右边的是func关键字我们由此就可知道这是一个函数类型的声明。
在func右边的就是这个函数类型的参数列表和结果列表。其中参数列表必须由圆括号包裹而只要结果列表中只有一个结果声明并且没有为它命名我们就可以省略掉外围的圆括号。
书写函数签名的方式与函数声明的是一致的。只是紧挨在参数列表左边的不是函数名称而是关键字func。这里函数名称和func互换了一下位置而已。
函数的签名其实就是函数的参数列表和结果列表的统称,它定义了可用来鉴别不同函数的那些特征,同时也定义了我们与函数交互的方式。
注意,各个参数和结果的名称不能算作函数签名的一部分,甚至对于结果声明来说,没有名称都可以。
只要两个函数的参数列表和结果列表中的元素顺序及其类型是一致的,我们就可以说它们是一样的函数,或者说是实现了同一个函数类型的函数。
严格来说,函数的名称也不能算作函数签名的一部分,它只是我们在调用函数时,需要给定的标识符而已。
我在下面声明的函数printToStd的签名与Printer的是一致的因此前者是后者的一个实现即使它们的名称以及有的结果名称是不同的。
通过main函数中的代码我们就可以证实这两者的关系了我顺利地把printToStd函数赋给了Printer类型的变量p并且成功地调用了它。
总之“函数是一等的公民”是函数式编程functional programming的重要特征。Go语言在语言层面支持了函数式编程。我们下面的问题就与此有关。
今天的问题是:怎样编写高阶函数?
先来说说什么是高阶函数?简单地说,高阶函数可以满足下面的两个条件:
1. 接受其他的函数作为参数传入;-
2. 把其他的函数作为结果返回。
只要满足了其中任意一个特点,我们就可以说这个函数是一个高阶函数。高阶函数也是函数式编程中的重要概念和特征。
具体的问题是我想通过编写calculate函数来实现两个整数间的加减乘除运算但是希望两个整数和具体的操作都由该函数的调用方给出那么这样一个函数应该怎样编写呢。
典型回答
首先我们来声明一个名叫operate的函数类型它有两个参数和一个结果都是int类型的。
type operate func(x, y int) int
然后我们编写calculate函数的签名部分。这个函数除了需要两个int类型的参数之外还应该有一个operate类型的参数。
该函数的结果应该有两个一个是int类型的代表真正的操作结果另一个应该是error类型的因为如果那个operate类型的参数值为nil那么就应该直接返回一个错误。
顺便说一下函数类型属于引用类型它的值可以为nil而这种类型的零值恰恰就是nil。
func calculate(x int, y int, op operate) (int, error) {
if op == nil {
return 0, errors.New("invalid operation")
}
return op(x, y), nil
}
calculate函数实现起来就很简单了。我们需要先用卫述语句检查一下参数如果operate类型的参数op为nil那么就直接返回0和一个代表了具体错误的error类型值。
卫述语句是指被用来检查关键的先决条件的合法性并在检查未通过的情况下立即终止当前代码块执行的语句。在Go语言中if 语句常被作为卫述语句。
如果检查无误那么就调用op并把那两个操作数传给它最后返回op返回的结果和代表没有错误发生的nil。
问题解析
其实只要你搞懂了“函数是一等的公民”这句话背后的含义,这道题就会很简单。我在上面已经讲过了,希望你已经清楚了。我在上一个例子中展示了其中一点,即:把函数作为一个普通的值赋给一个变量。
在这道题中,我问的其实是怎样实现另一点,即:让函数在其他函数间传递。
在答案中calculate函数的其中一个参数是operate类型的而且后者就是一个函数类型。在调用calculate函数的时候我们需要传入一个operate类型的函数值。这个函数值应该怎么写
只要它的签名与operate类型的签名一致并且实现得当就可以了。我们可以像上一个例子那样先声明好一个函数再把它赋给一个变量也可以直接编写一个实现了operate类型的匿名函数。
op := func(x, y int) int {
return x + y
}
calculate函数就是一个高阶函数。但是我们说高阶函数的特点有两个而该函数只展示了其中一个特点接受其他的函数作为参数传入。
那另一个特点把其他的函数作为结果返回。这又是怎么玩的呢你可以看看我在demo27.go文件中声明的函数类型calculateFunc和函数genCalculator。其中genCalculator函数的唯一结果的类型就是calculateFunc。
这里先给出使用它们的代码。
x, y = 56, 78
add := genCalculator(op)
result, err = add(x, y)
fmt.Printf("The result: %d (error: %v)\n", result, err)
你可以自己写出calculateFunc类型和genCalculator函数的实现吗你可以动手试一试
知识扩展
问题1如何实现闭包
闭包又是什么?你可以想象一下,在一个函数中存在对外来标识符的引用。所谓的外来标识符,既不代表当前函数的任何参数或结果,也不是函数内部声明的,它是直接从外边拿过来的。
还有个专门的术语称呼它,叫自由变量,可见它代表的肯定是个变量。实际上,如果它是个常量,那也就形成不了闭包了,因为常量是不可变的程序实体,而闭包体现的却是由“不确定”变为“确定”的一个过程。
我们说的这个函数(以下简称闭包函数)就是因为引用了自由变量,而呈现出了一种“不确定”的状态,也叫“开放”状态。
也就是说,它的内部逻辑并不是完整的,有一部分逻辑需要这个自由变量参与完成,而后者到底代表了什么在闭包函数被定义的时候却是未知的。
即使对于像Go语言这种静态类型的编程语言而言我们在定义闭包函数的时候最多也只能知道自由变量的类型。
在我们刚刚提到的genCalculator函数内部实际上就实现了一个闭包而genCalculator函数也是一个高阶函数。
func genCalculator(op operate) calculateFunc {
return func(x int, y int) (int, error) {
if op == nil {
return 0, errors.New("invalid operation")
}
return op(x, y), nil
}
}
genCalculator函数只做了一件事那就是定义一个匿名的、calculateFunc类型的函数并把它作为结果值返回。
而这个匿名的函数就是一个闭包函数。它里面使用的变量op既不代表它的任何参数或结果也不是它自己声明的而是定义它的genCalculator函数的参数所以是一个自由变量。
这个自由变量究竟代表了什么这一点并不是在定义这个闭包函数的时候确定的而是在genCalculator函数被调用的时候确定的。
只有给定了该函数的参数op我们才能知道它返回给我们的闭包函数可以用于什么运算。
看到if op == nil {那一行了吗Go语言编译器读到这里时会试图去寻找op所代表的东西它会发现op代表的是genCalculator函数的参数然后它会把这两者联系起来。这时可以说自由变量op被“捕获”了。
当程序运行到这里的时候op就是那个参数值了。如此一来这个闭包函数的状态就由“不确定”变为了“确定”或者说转到了“闭合”状态至此也就真正地形成了一个闭包。
看出来了吗?我们在用高阶函数实现闭包。这也是高阶函数的一大功用。
(高阶函数与闭包)
那么,实现闭包的意义又在哪里呢?表面上看,我们只是延迟实现了一部分程序逻辑或功能而已,但实际上,我们是在动态地生成那部分程序逻辑。
我们可以借此在程序运行的过程中根据需要生成功能不同的函数继而影响后续的程序行为。这与GoF设计模式中的“模板方法”模式有着异曲同工之妙不是吗
问题2传入函数的那些参数值后来怎么样了
让我们把目光再次聚焦到函数本身。我们先看一个示例。
package main
import "fmt"
func main() {
array1 := [3]string{"a", "b", "c"}
fmt.Printf("The array: %v\n", array1)
array2 := modifyArray(array1)
fmt.Printf("The modified array: %v\n", array2)
fmt.Printf("The original array: %v\n", array1)
}
func modifyArray(a [3]string) [3]string {
a[1] = "x"
return a
}
这个命令源码文件也就是demo28.go在运行之后会输出什么这是我常出的一道考题。
我在main函数中声明了一个数组array1然后把它传给了函数modifymodify对参数值稍作修改后将其作为结果值返回。main函数中的代码拿到这个结果之后打印了它即array2以及原来的数组array1。关键问题是原数组会因modify函数对参数值的修改而改变吗
答案是:原数组不会改变。为什么呢?原因是,所有传给函数的参数值都会被复制,函数在其内部使用的并不是参数值的原值,而是它的副本。
由于数组是值类型所以每一次复制都会拷贝它以及它的所有元素值。我在modify函数中修改的只是原数组的副本而已并不会对原数组造成任何影响。
注意,对于引用类型,比如:切片、字典、通道,像上面那样复制它们的值,只会拷贝它们本身而已,并不会拷贝它们引用的底层数据。也就是说,这时只是浅表复制,而不是深层复制。
以切片值为例,如此复制的时候,只是拷贝了它指向底层数组中某一个元素的指针,以及它的长度值和容量值,而它的底层数组并不会被拷贝。
另外还要注意,就算我们传入函数的是一个值类型的参数值,但如果这个参数值中的某个元素是引用类型的,那么我们仍然要小心。
比如:
complexArray1 := [3][]string{
[]string{"d", "e", "f"},
[]string{"g", "h", "i"},
[]string{"j", "k", "l"},
}
变量complexArray1是[3][]string类型的也就是说虽然它是一个数组但是其中的每个元素又都是一个切片。这样一个值被传入函数的话函数中对该参数值的修改会影响到complexArray1本身吗我想这可以留作今天的思考题。
总结
我们今天主要聚焦于函数的使用手法。在Go语言中函数可是一等的first-class公民。它既可以被独立声明也可以被作为普通的值来传递或赋予变量。除此之外我们还可以在其他函数的内部声明匿名函数并把它直接赋给变量。
你需要记住Go语言是怎样鉴别一个函数的函数的签名在这里起到了至关重要的作用。
函数是Go语言支持函数式编程的主要体现。我们可以通过“把函数传给函数”以及“让函数返回函数”来编写高阶函数也可以用高阶函数来实现闭包并以此做到部分程序逻辑的动态生成。
我们在最后还说了一下关于函数传参的一个注意事项,这很重要,可能会关系到程序的稳定和安全。
一个相关的原则是:既不要把你程序的细节暴露给外界,也尽量不要让外界的变动影响到你的程序。你可以想想这个原则在这里可以起到怎样的指导作用。
思考题
今天我给你留下两道思考题。
complexArray1被传入函数的话这个函数中对该参数值的修改会影响到它的原值吗
函数真正拿到的参数值其实只是它们的副本,那么函数返回给调用方的结果值也会被复制吗?
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,252 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
13 结构体及其方法的使用法门
我们都知道,结构体类型表示的是实实在在的数据结构。一个结构体类型可以包含若干个字段,每个字段通常都需要有确切的名字和类型。
前导内容:结构体类型基础知识
当然了,结构体类型也可以不包含任何字段,这样并不是没有意义的,因为我们还可以为类型关联上一些方法,这里你可以把方法看做是函数的特殊版本。
函数是独立的程序实体。我们可以声明有名字的函数,也可以声明没名字的函数,还可以把它们当做普通的值传来传去。我们能把具有相同签名的函数抽象成独立的函数类型,以作为一组输入、输出(或者说一类逻辑组件)的代表。
方法却不同它需要有名字不能被当作值来看待最重要的是它必须隶属于某一个类型。方法所属的类型会通过其声明中的接收者receiver声明体现出来。
接收者声明就是在关键字func和方法名称之间的圆括号包裹起来的内容其中必须包含确切的名称和类型字面量。
接收者的类型其实就是当前方法所属的类型,而接收者的名称,则用于在当前方法中引用它所属的类型的当前值。
我们举个例子来看一下。
// AnimalCategory 代表动物分类学中的基本分类法。
type AnimalCategory struct {
kingdom string // 界。
phylum string // 门。
class string // 纲。
order string // 目。
family string // 科。
genus string // 属。
species string // 种。
}
func (ac AnimalCategory) String() string {
return fmt.Sprintf("%s%s%s%s%s%s%s",
ac.kingdom, ac.phylum, ac.class, ac.order,
ac.family, ac.genus, ac.species)
}
结构体类型AnimalCategory代表了动物的基本分类法其中有7个string类型的字段分别表示各个等级的分类。
下边有个名叫String的方法从它的接收者声明可以看出它隶属于AnimalCategory类型。
通过该方法的接收者名称ac我们可以在其中引用到当前值的任何一个字段或者调用到当前值的任何一个方法也包括String方法自己
这个String方法的功能是提供当前值的字符串表示形式其中的各个等级分类会按照从大到小的顺序排列。使用时我们可以这样表示
category := AnimalCategory{species: "cat"}
fmt.Printf("The animal category: %s\n", category)
这里我用字面量初始化了一个AnimalCategory类型的值并把它赋给了变量category。为了不喧宾夺主我只为其中的species字段指定了字符串值"cat",该字段代表最末级分类“种”。
在Go语言中我们可以通过为一个类型编写名为String的方法来自定义该类型的字符串表示形式。这个String方法不需要任何参数声明但需要有一个string类型的结果声明。
正因为如此我在调用fmt.Printf函数时使用占位符%s和category值本身就可以打印出后者的字符串表示形式而无需显式地调用它的String方法。
fmt.Printf函数会自己去寻找它。此时的打印内容会是The animal category: cat。显而易见category的String方法成功地引用了当前值的所有字段。
方法隶属的类型其实并不局限于结构体类型,但必须是某个自定义的数据类型,并且不能是任何接口类型。
一个数据类型关联的所有方法,共同组成了该类型的方法集合。同一个方法集合中的方法不能出现重名。并且,如果它们所属的是一个结构体类型,那么它们的名称与该类型中任何字段的名称也不能重复。
我们可以把结构体类型中的一个字段看作是它的一个属性或者一项数据再把隶属于它的一个方法看作是附加在其中数据之上的一个能力或者一项操作。将属性及其能力或者说数据及其操作封装在一起是面向对象编程object-oriented programming的一个主要原则。
Go语言摄取了面向对象编程中的很多优秀特性同时也推荐这种封装的做法。从这方面看Go语言其实是支持面向对象编程的但它选择摒弃了一些在实际运用过程中容易引起程序开发者困惑的特性和规则。
现在,让我们再把目光放到结构体类型的字段声明上。我们来看下面的代码:
type Animal struct {
scientificName string // 学名。
AnimalCategory // 动物基本分类。
}
我声明了一个结构体类型名叫Animal。它有两个字段。一个是string类型的字段scientificName代表了动物的学名。而另一个字段声明中只有AnimalCategory它正是我在前面编写的那个结构体类型的名字。这是什么意思呢
那么我们今天的问题是Animal类型中的字段声明AnimalCategory代表了什么
更宽泛地讲,如果结构体类型的某个字段声明中只有一个类型名,那么该字段代表了什么?
这个问题的典型回答是字段声明AnimalCategory代表了Animal类型的一个嵌入字段。Go语言规范规定如果一个字段的声明中只有字段的类型名而没有字段的名称那么它就是一个嵌入字段也可以被称为匿名字段。我们可以通过此类型变量的名称后跟“.”,再后跟嵌入字段类型的方式引用到该字段。也就是说,嵌入字段的类型既是类型也是名称。
问题解析
说到引用结构体的嵌入字段Animal类型有个方法叫Category它是这么写的
func (a Animal) Category() string {
return a.AnimalCategory.String()
}
Category方法的接收者类型是Animal接收者名称是a。在该方法中我通过表达式a.AnimalCategory选择到了a的这个嵌入字段然后又选择了该字段的String方法并调用了它。
顺便提一下,在某个代表变量的标识符的右边加“.”,再加上字段名或方法名的表达式被称为选择表达式,它用来表示选择了该变量的某个字段或者方法。
这是Go语言规范中的说法与“引用结构体的某某字段”或“调用结构体的某某方法”的说法是相通的。我在以后会混用这两种说法。
实际上,把一个结构体类型嵌入到另一个结构体类型中的意义不止如此。嵌入字段的方法集合会被无条件地合并进被嵌入类型的方法集合中。例如下面这种:
animal := Animal{
scientificName: "American Shorthair",
AnimalCategory: category,
}
fmt.Printf("The animal: %s\n", animal)
我声明了一个Animal类型的变量animal并对它进行初始化。我把字符串值"American Shorthair"赋给它的字段scientificName并把前面声明过的变量category赋给它的嵌入字段AnimalCategory。
我在后面使用fmt.Printf函数和%s占位符试图打印animal的字符串表示形式相当于调用animal的String方法。虽然我们还没有为Animal类型编写String方法但这样做是没问题的。因为在这里嵌入字段AnimalCategory的String方法会被当做animal的方法调用。
那如果我也为Animal类型编写一个String方法呢这里会调用哪一个呢
答案是animal的String方法会被调用。这时我们说嵌入字段AnimalCategory的String方法被“屏蔽”了。注意只要名称相同无论这两个方法的签名是否一致被嵌入类型的方法都会“屏蔽”掉嵌入字段的同名方法。
类似的,由于我们同样可以像访问被嵌入类型的字段那样,直接访问嵌入字段的字段,所以如果这两个结构体类型里存在同名的字段,那么嵌入字段中的那个字段一定会被“屏蔽”。这与我们在前面讲过的,可重名变量之间可能存在的“屏蔽”现象很相似。
正因为嵌入字段的字段和方法都可以“嫁接”到被嵌入类型上,所以即使在两个同名的成员一个是字段,另一个是方法的情况下,这种“屏蔽”现象依然会存在。
不过即使被屏蔽了我们仍然可以通过链式的选择表达式选择到嵌入字段的字段或方法就像我在Category方法中所做的那样。这种“屏蔽”其实还带来了一些好处。我们看看下面这个Animal类型的String方法的实现
func (a Animal) String() string {
return fmt.Sprintf("%s (category: %s)",
a.scientificName, a.AnimalCategory)
}
在这里我们把对嵌入字段的String方法的调用结果融入到了Animal类型的同名方法的结果中。这种将同名方法的结果逐层“包装”的手法是很常见和有用的也算是一种惯用法了。
-
(结构体类型中的嵌入字段)
最后我还要提一下多层嵌入的问题。也就是说嵌入字段本身也有嵌入字段的情况。请看我声明的Cat类型
type Cat struct {
name string
Animal
}
func (cat Cat) String() string {
return fmt.Sprintf("%s (category: %s, name: %q)",
cat.scientificName, cat.Animal.AnimalCategory, cat.name)
}
结构体类型Cat中有一个嵌入字段Animal而Animal类型还有一个嵌入字段AnimalCategory。
在这种情况下,“屏蔽”现象会以嵌入的层级为依据,嵌入层级越深的字段或方法越可能被“屏蔽”。
例如当我们调用Cat类型值的String方法时如果该类型确有String方法那么嵌入字段Animal和AnimalCategory的String方法都会被“屏蔽”。
如果该类型没有String方法那么嵌入字段Animal的String方法会被调用而它的嵌入字段AnimalCategory的String方法仍然会被屏蔽。
只有当Cat类型和Animal类型都没有String方法的时候AnimalCategory的String方法菜会被调用。
最后的最后,如果处于同一个层级的多个嵌入字段拥有同名的字段或方法,那么从被嵌入类型的值那里,选择此名称的时候就会引发一个编译错误,因为编译器无法确定被选择的成员到底是哪一个。
以上关于嵌入字段的所有示例都在demo29.go中希望能对你有所帮助。
知识扩展
问题1Go语言是用嵌入字段实现了继承吗
这里强调一下Go语言中根本没有继承的概念它所做的是通过嵌入字段的方式实现了类型之间的组合。这样做的具体原因和理念请见Go语言官网的FAQ中的Why is there no type inheritance?。
简单来说,面向对象编程中的继承,其实是通过牺牲一定的代码简洁性来换取可扩展性,而且这种可扩展性是通过侵入的方式来实现的。
类型之间的组合采用的是非声明的方式,我们不需要显式地声明某个类型实现了某个接口,或者一个类型继承了另一个类型。
同时,类型组合也是非侵入式的,它不会破坏类型的封装或加重类型之间的耦合。
我们要做的只是把类型当做字段嵌入进来,然后坐享其成地使用嵌入字段所拥有的一切。如果嵌入字段有哪里不合心意,我们还可以用“包装”或“屏蔽”的方式去调整和优化。
另外,类型间的组合也是灵活的,我们总是可以通过嵌入字段的方式把一个类型的属性和能力“嫁接”给另一个类型。
这时候被嵌入类型也就自然而然地实现了嵌入字段所实现的接口。再者组合要比继承更加简洁和清晰Go语言可以轻而易举地通过嵌入多个字段来实现功能强大的类型却不会有多重继承那样复杂的层次结构和可观的管理成本。
接口类型之间也可以组合。在Go语言中接口类型之间的组合甚至更加常见我们常常以此来扩展接口定义的行为或者标记接口的特征。与此有关的内容我在下一篇文章中再讲。
在我面试过的众多Go工程师中有很多人都在说“Go语言用嵌入字段实现了继承”而且深信不疑。
要么是他们还在用其他编程语言的视角和理念来看待Go语言要么就是受到了某些所谓的“Go语言教程”的误导。每当这时我都忍不住当场纠正他们并建议他们去看看官网上的解答。
问题2值方法和指针方法都是什么意思有什么区别
我们都知道,方法的接收者类型必须是某个自定义的数据类型,而且不能是接口类型或接口的指针类型。所谓的值方法,就是接收者类型是非指针的自定义数据类型的方法。
比如我们在前面为AnimalCategory、Animal以及Cat类型声明的那些方法都是值方法。就拿Cat来说它的String方法的接收者类型就是Cat一个非指针类型。那什么叫指针类型呢请看这个方法
func (cat *Cat) SetName(name string) {
cat.name = name
}
方法SetName的接收者类型是*Cat。Cat左边再加个*代表的就是Cat类型的指针类型。
这时Cat可以被叫做*Cat的基本类型。你可以认为这种指针类型的值表示的是指向某个基本类型值的指针。
我们可以通过把取值操作符*放在这样一个指针值的左边来组成一个取值表达式,以获取该指针值指向的基本类型值,也可以通过把取址操作符&放在一个可寻址的基本类型值的左边来组成一个取址表达式,以获取该基本类型值的指针值。
所谓的指针方法,就是接收者类型是上述指针类型的方法。
那么值方法和指针方法之间有什么不同点呢?它们的不同如下所示。
值方法的接收者是该方法所属的那个类型值的一个副本。我们在该方法内对该副本的修改一般都不会体现在原值上,除非这个类型本身是某个引用类型(比如切片或字典)的别名类型。-
而指针方法的接收者,是该方法所属的那个基本类型值的指针值的一个副本。我们在这样的方法内对该副本指向的值进行修改,却一定会体现在原值上。-
一个自定义数据类型的方法集合中仅会包含它的所有值方法,而该类型的指针类型的方法集合却囊括了前者的所有方法,包括所有值方法和所有指针方法。-
严格来讲我们在这样的基本类型的值上只能调用到它的值方法。但是Go语言会适时地为我们进行自动地转译使得我们在这样的值上也能调用到它的指针方法。-
比如在Cat类型的变量cat之上之所以我们可以通过cat.SetName("monster")修改猫的名字是因为Go语言把它自动转译为了(&cat).SetName("monster")先取cat的指针值然后在该指针值上调用SetName方法。
在后边你会了解到,一个类型的方法集合中有哪些方法与它能实现哪些接口类型是息息相关的。如果一个基本类型和它的指针类型的方法集合是不同的,那么它们具体实现的接口类型的数量就也会有差异,除非这两个数量都是零。-
比如,一个指针类型实现了某某接口类型,但它的基本类型却不一定能够作为该接口的实现类型。
能够体现值方法和指针方法之间差异的小例子我放在demo30.go文件里了你可以参照一下。
总结
结构体类型的嵌入字段比较容易让Go语言新手们迷惑所以我在本篇文章着重解释了它的编写方法、基本的特性和规则以及更深层次的含义。在理解了结构体类型及其方法的组成方式和构造套路之后这些知识应该是你重点掌握的。
嵌入字段是其声明中只有类型而没有名称的字段,它可以以一种很自然的方式为被嵌入的类型带来新的属性和能力。在一般情况下,我们用简单的选择表达式就可以直接引用到它们的字段和方法。
不过,我们需要小心可能产生“屏蔽”现象的地方,尤其是当存在多个嵌入字段或者多层嵌入的时候。“屏蔽”现象可能会让你的实际引用与你的预期不符。
另外,你一定要梳理清楚值方法和指针方法的不同之处,包括这两种方法各自能做什么、不能做什么以及会影响到其所属类型的哪些方面。这涉及值的修改、方法集合和接口实现。
最后再次强调嵌入字段是实现类型间组合的一种方式这与继承没有半点儿关系。Go语言虽然支持面向对象编程但是根本就没有“继承”这个概念。
思考题
我们可以在结构体类型中嵌入某个类型的指针类型吗?如果可以,有哪些注意事项?
字面量struct{}代表了什么?又有什么用处?
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,221 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
14 接口类型的合理运用
你好,我是郝林,今天我们来聊聊接口的相关内容。
前导内容:正确使用接口的基础知识
在Go语言的语境中当我们在谈论“接口”的时候一定指的是接口类型。因为接口类型与其他数据类型不同它是没法被实例化的。
更具体地说我们既不能通过调用new函数或make函数创建出一个接口类型的值也无法用字面量来表示一个接口类型的值。
对于某一个接口类型来说,如果没有任何数据类型可以作为它的实现,那么该接口的值就不可能存在。
我已经在前面展示过通过关键字type和interface我们可以声明出接口类型。
接口类型的类型字面量与结构体类型的看起来有些相似,它们都用花括号包裹一些核心信息。只不过,结构体类型包裹的是它的字段声明,而接口类型包裹的是它的方法定义。
这里你要注意的是:接口类型声明中的这些方法所代表的就是该接口的方法集合。一个接口的方法集合就是它的全部特征。
对于任何数据类型,只要它的方法集合中完全包含了一个接口的全部特征(即全部的方法),那么它就一定是这个接口的实现类型。比如下面这样:
type Pet interface {
SetName(name string)
Name() string
Category() string
}
我声明了一个接口类型Pet它包含了3个方法定义方法名称分别为SetName、Name和Category。这3个方法共同组成了接口类型Pet的方法集合。
只要一个数据类型的方法集合中有这3个方法那么它就一定是Pet接口的实现类型。这是一种无侵入式的接口实现方式。这种方式还有一个专有名词叫“Duck typing”中文常译作“鸭子类型”。你可以到百度的百科页面上去了解一下详情。
顺便说一句,怎样判定一个数据类型的某一个方法实现的就是某个接口类型中的某个方法呢?
这有两个充分必要条件,一个是“两个方法的签名需要完全一致”,另一个是“两个方法的名称要一模一样”。显然,这比判断一个函数是否实现了某个函数类型要更加严格一些。
如果你查阅了上篇文章附带的最后一个示例的话那么就一定会知道虽然结构体类型Cat不是Pet接口的实现类型但它的指针类型*Cat却是这个的实现类型。
如果你还不知道原因那么请跟着我一起来看。我已经把Cat类型的声明搬到了demo31.go文件中并进行了一些简化以便你看得更清楚。对了由于Cat和Pet的发音过于相似我还把Cat重命名为了Dog。
我声明的类型Dog附带了3个方法。其中有2个值方法分别是Name和Category另外还有一个指针方法SetName。
这就意味着Dog类型本身的方法集合中只包含了2个方法也就是所有的值方法。而它的指针类型*Dog方法集合却包含了3个方法
也就是说它拥有Dog类型附带的所有值方法和指针方法。又由于这3个方法恰恰分别是Pet接口中某个方法的实现所以*Dog类型就成为了Pet接口的实现类型。
dog := Dog{"little pig"}
var pet Pet = &dog
正因为如此我可以声明并初始化一个Dog类型的变量dog然后把它的指针值赋给类型为Pet的变量pet。
这里有几个名词需要你先记住。对于一个接口类型的变量来说例如上面的变量pet我们赋给它的值可以被叫做它的实际值也称动态值而该值的类型可以被叫做这个变量的实际类型也称动态类型
比如,我们把取址表达式&dog的结果值赋给了变量pet这时这个结果值就是变量pet的动态值而此结果值的类型*Dog就是该变量的动态类型。
动态类型这个叫法是相对于静态类型而言的。对于变量pet来讲它的静态类型就是Pet并且永远是Pet但是它的动态类型却会随着我们赋给它的动态值而变化。
比如,只有我把一个*Dog类型的值赋给变量pet之后该变量的动态类型才会是*Dog。如果还有一个Pet接口的实现类型*Fish并且我又把一个此类型的值赋给了pet那么它的动态类型就会变为*Fish。
还有,在我们给一个接口类型的变量赋予实际的值之前,它的动态类型是不存在的。
你需要想办法搞清楚接口类型的变量(以下简称接口变量)的动态值、动态类型和静态类型都是什么意思。因为我会在后面基于这些概念讲解更深层次的知识。
好了我下面会就“怎样用好Go语言的接口”这个话题提出一系列问题也请你跟着我一起思考这些问题。
那么今天的问题是:当我们为一个接口变量赋值时会发生什么?
为了突出问题我把Pet接口的声明简化了一下。
type Pet interface {
Name() string
Category() string
}
我从中去掉了Pet接口的那个名为SetName的方法。这样一来Dog类型也就变成Pet接口的实现类型了。你可以在demo32.go文件中找到本问题的代码。
现在我先声明并初始化了一个Dog类型的变量dog这时它的name字段的值是"little pig"。然后我把该变量赋给了一个Pet类型的变量pet。最后我通过调用dog的方法SetName把它的name字段的值改成了"monster"。
dog := Dog{"little pig"}
var pet Pet = dog
dog.SetName("monster")
所以我要问的具体问题是在以上代码执行后pet变量的字段name的值会是什么
这个题目的典型回答是pet变量的字段name的值依然是"little pig"。
问题解析
首先由于dog的SetName方法是指针方法所以该方法持有的接收者就是指向dog的指针值的副本因而其中对接收者的name字段的设置就是对变量dog的改动。那么当dog.SetName("monster")执行之后dog的name字段的值就一定是"monster"。如果你理解到了这一层,那么请小心前方的陷阱。
为什么dog的name字段值变了而pet的却没有呢这里有一条通用的规则需要你知晓如果我们使用一个变量给另外一个变量赋值那么真正赋给后者的并不是前者持有的那个值而是该值的一个副本。
例如我声明并初始化了一个Dog类型的变量dog1这时它的name是"little pig"。然后我在把dog1赋给变量dog2之后修改了dog1的name字段的值。这时dog2的name字段的值是什么
dog1 := Dog{"little pig"}
dog2 := dog1
dog1.name = "monster"
这个问题与前面那道题几乎一样只不过这里没有涉及接口类型。这时的dog2的name仍然会是"little pig"。这就是我刚刚告诉你的那条通用规则的又一个体现。
当你知道了这条通用规则之后,确实可以把前面那道题做对。不过,如果当我问你为什么的时候你只说出了这一个原因,那么,我只能说你仅仅答对了一半。
那么另一半是什么这就需要从接口类型值的存储方式和结构说起了。我在前面说过接口类型本身是无法被值化的。在我们赋予它实际的值之前它的值一定会是nil这也是它的零值。
反过来讲一旦它被赋予了某个实现类型的值它的值就不再是nil了。不过要注意即使我们像前面那样把dog的值赋给了petpet的值与dog的值也是不同的。这不仅仅是副本与原值的那种不同。
当我们给一个接口变量赋值的时候,该变量的动态类型会与它的动态值一起被存储在一个专用的数据结构中。
严格来讲这样一个变量的值其实是这个专用数据结构的一个实例而不是我们赋给该变量的那个实际的值。所以我才说pet的值与dog的值肯定是不同的无论是从它们存储的内容还是存储的结构上来看都是如此。不过我们可以认为这时pet的值中包含了dog值的副本。
我们就把这个专用的数据结构叫做iface吧在Go语言的runtime包中它其实就叫这个名字。
iface的实例会包含两个指针一个是指向类型信息的指针另一个是指向动态值的指针。这里的类型信息是由另一个专用数据结构的实例承载的其中包含了动态值的类型以及使它实现了接口的方法和调用它们的途径等等。
总之,接口变量被赋予动态值的时候,存储的是包含了这个动态值的副本的一个结构更加复杂的值。你明白了吗?
知识扩展
问题 1接口变量的值在什么情况下才真正为nil
这个问题初看起来就不是个问题。对于一个引用类型的变量它的值是否为nil完全取决于我们赋给它了什么是这样吗我们先来看一段代码
var dog1 *Dog
fmt.Println("The first dog is nil. [wrap1]")
dog2 := dog1
fmt.Println("The second dog is nil. [wrap1]")
var pet Pet = dog2
if pet == nil {
fmt.Println("The pet is nil. [wrap1]")
} else {
fmt.Println("The pet is not nil. [wrap1]")
}
在demo33.go文件的这段代码中我先声明了一个*Dog类型的变量dog1并且没有对它进行初始化。这时该变量的值是什么显然是nil。然后我把该变量赋给了dog2后者的值此时也必定是nil对吗
现在问题来了当我把dog2赋给Pet类型的变量pet之后变量pet的值会是什么答案是nil吗
如果你真正理解了我在上一个问题的解析中讲到的知识,尤其是接口变量赋值及其值的数据结构那部分,那么这道题就不难回答。你可以先思考一下,然后再接着往下看。
当我们把dog2的值赋给变量pet的时候dog2的值会先被复制不过由于在这里它的值是nil所以就没必要复制了。
然后Go语言会用我上面提到的那个专用数据结构iface的实例包装这个dog2的值的副本这里是nil。
虽然被包装的动态值是nil但是pet的值却不会是nil因为这个动态值只是pet值的一部分而已。
顺便说一句这时的pet的动态类型就存在了是*Dog。我们可以通过fmt.Printf函数和占位符%T来验证这一点另外reflect包的TypeOf函数也可以起到类似的作用。
换个角度来看。我们把nil赋给了pet但是pet的值却不是nil。
这很奇怪对吗其实不然。在Go语言中我们把由字面量nil表示的值叫做无类型的nil。这是真正的nil因为它的类型也是nil的。虽然dog2的值是真正的nil但是当我们把这个变量赋给pet的时候Go语言会把它的类型和值放在一起考虑。
也就是说这时Go语言会识别出赋予pet的值是一个*Dog类型的nil。然后Go语言就会用一个iface的实例包装它包装后的产物肯定就不是nil了。
只要我们把一个有类型的nil赋给接口变量那么这个变量的值就一定不会是那个真正的nil。因此当我们使用判等符号==判断pet是否与字面量nil相等的时候答案一定会是false。
那么怎样才能让一个接口变量的值真正为nil呢要么只声明它但不做初始化要么直接把字面量nil赋给它。
问题 2怎样实现接口之间的组合
接口类型间的嵌入也被称为接口的组合。我在前面讲过结构体类型的嵌入字段,这其实就是在说结构体类型间的嵌入。
接口类型间的嵌入要更简单一些,因为它不会涉及方法间的“屏蔽”。只要组合的接口之间有同名的方法就会产生冲突,从而无法通过编译,即使同名方法的签名彼此不同也会是如此。因此,接口的组合根本不可能导致“屏蔽”现象的出现。
与结构体类型间的嵌入很相似,我们只要把一个接口类型的名称直接写到另一个接口类型的成员列表中就可以了。比如:
type Animal interface {
ScientificName() string
Category() string
}
type Pet interface {
Animal
Name() string
}
接口类型Pet包含了两个成员一个是代表了另一个接口类型的Animal一个是方法Name的定义。它们都被包含在Pet的类型声明的花括号中并且都各自独占一行。此时Animal接口包含的所有方法也就成为了Pet接口的方法。
Go语言团队鼓励我们声明体量较小的接口并建议我们通过这种接口间的组合来扩展程序、增加程序的灵活性。
这是因为相比于包含很多方法的大接口而言,小接口可以更加专注地表达某一种能力或某一类特征,同时也更容易被组合在一起。
Go语言标准库代码包io中的ReadWriteCloser接口和ReadWriter接口就是这样的例子它们都是由若干个小接口组合而成的。以io.ReadWriteCloser接口为例它是由io.Reader、io.Writer和io.Closer这三个接口组成的。
这三个接口都只包含了一个方法是典型的小接口。它们中的每一个都只代表了一种能力分别是读出、写入和关闭。我们编写这几个小接口的实现类型通常都会很容易。并且一旦我们同时实现了它们就等于实现了它们的组合接口io.ReadWriteCloser。
即使我们只实现了io.Reader和io.Writer那么也等同于实现了io.ReadWriter接口因为后者就是前两个接口组成的。可以看到这几个io包中的接口共同组成了一个接口矩阵。它们既相互关联又独立存在。
我在demo34.go文件中写了一个能够体现接口组合优势的小例子你可以去参看一下。总之善用接口组合和小接口可以让你的程序框架更加稳定和灵活。
总结
好了,我们来简要总结一下。
Go语言的接口常用于代表某种能力或某类特征。首先我们要弄清楚的是接口变量的动态值、动态类型和静态类型都代表了什么。这些都是正确使用接口变量的基础。当我们给接口变量赋值时接口变量会持有被赋予值的副本而不是它本身。
更重要的是,接口变量的值并不等同于这个可被称为动态值的副本。它会包含两个指针,一个指针指向动态值,一个指针指向类型信息。
基于此即使我们把一个值为nil的某个实现类型的变量赋给了接口变量后者的值也不可能是真正的nil。虽然这时它的动态值会为nil但它的动态类型确是存在的。
请记住除非我们只声明而不初始化或者显式地赋给它nil否则接口变量的值就不会为nil。
后面的一个问题相对轻松一些,它是关于程序设计方面的。用好小接口和接口组合总是有益的,我们可以以此形成接口矩阵,进而搭起灵活的程序框架。如果在实现接口时再配合运用结构体类型间的嵌入手法,那么接口组合就可以发挥更大的效用。
思考题
如果我们把一个值为nil的某个实现类型的变量赋给了接口变量那么在这个接口变量上仍然可以调用该接口的方法吗如果可以有哪些注意事项如果不可以原因是什么
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,227 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
15 关于指针的有限操作
在前面的文章中,我们已经提到过很多次“指针”了,你应该已经比较熟悉了。不过,我们那时大多指的是指针类型及其对应的指针值,今天我们讲的则是更为深入的内容。
让我们先来复习一下。
type Dog struct {
name string
}
func (dog *Dog) SetName(name string) {
dog.name = name
}
对于基本类型Dog来说*Dog就是它的指针类型。而对于一个Dog类型值不为nil的变量dog取址表达式&dog的结果就是该变量的值也就是基本值的指针值。
如果一个方法的接收者是*Dog类型的那么该方法就是基本类型Dog的指针方法。
在这种情况下,这个方法的接收者,实际上就是当前的基本值的指针值。
我们可以通过指针值无缝地访问到基本值包含的任何字段以及调用与之关联的任何方法。这应该就是我们在编写Go程序的过程中用得最频繁的“指针”了。
从传统意义上说,指针是一个指向某个确切的内存地址的值。这个内存地址可以是任何数据或代码的起始地址,比如,某个变量、某个字段或某个函数。
我们刚刚只提到了其中的一种情况在Go语言中还有其他几样东西可以代表“指针”。其中最贴近传统意义的当属uintptr类型了。该类型实际上是一个数值类型也是Go语言内建的数据类型之一。
根据当前计算机的计算架构的不同它可以存储32位或64位的无符号整数可以代表任何指针的位bit模式也就是原始的内存地址。
再来看Go语言标准库中的unsafe包。unsafe包中有一个类型叫做Pointer也代表了“指针”。
unsafe.Pointer可以表示任何指向可寻址的值的指针同时它也是前面提到的指针值和uintptr值之间的桥梁。也就是说通过它我们可以在这两种值之上进行双向的转换。这里有一个很关键的词——可寻址的addressable。在我们继续说unsafe.Pointer之前需要先要搞清楚这个词的确切含义。
今天的问题是你能列举出Go语言中的哪些值是不可寻址的吗
这道题的典型回答是以下列表中的值都是不可寻址的。
常量的值。
基本类型值的字面量。
算术操作的结果值。
对各种字面量的索引表达式和切片表达式的结果值。不过有一个例外,对切片字面量的索引结果值却是可寻址的。
对字符串变量的索引表达式和切片表达式的结果值。
对字典变量的索引表达式的结果值。
函数字面量和方法字面量,以及对它们的调用表达式的结果值。
结构体字面量的字段值,也就是对结构体字面量的选择表达式的结果值。
类型转换表达式的结果值。
类型断言表达式的结果值。
接收表达式的结果值。
问题解析
初看答案中的这些不可寻址的值好像并没有什么规律。不过别急我们一起来梳理一下。你可以对照着demo35.go文件中的代码来看这样应该会让你理解起来更容易一些。
常量的值总是会被存储到一个确切的内存区域中,并且这种值肯定是不可变的。基本类型值的字面量也是一样,其实它们本就可以被视为常量,只不过没有任何标识符可以代表它们罢了。
第一个关键词不可变的。由于Go语言中的字符串值也是不可变的所以对于一个字符串类型的变量来说基于它的索引或切片的结果值也都是不可寻址的因为即使拿到了这种值的内存地址也改变不了什么。
算术操作的结果值属于一种临时结果。在我们把这种结果值赋给任何变量或常量之前,即使能拿到它的内存地址也是没有任何意义的。
第二个关键词:临时结果。这个关键词能被用来解释很多现象。我们可以把各种对值字面量施加的表达式的求值结果都看做是临时结果。
我们都知道Go语言中的表达式有很多种其中常用的包括以下几种。
用于获得某个元素的索引表达式。
用于获得某个切片(片段)的切片表达式。
用于访问某个字段的选择表达式。
用于调用某个函数或方法的调用表达式。
用于转换值的类型的类型转换表达式。
用于判断值的类型的类型断言表达式。
向通道发送元素值或从通道那里接收元素值的接收表达式。
我们把以上这些表达式施加在某个值字面量上一般都会得到一个临时结果。比如,对数组字面量和字典字面量的索引结果值,又比如,对数组字面量和切片字面量的切片结果值。它们都属于临时结果,都是不可寻址的。
一个需要特别注意的例外是,对切片字面量的索引结果值是可寻址的。因为不论怎样,每个切片值都会持有一个底层数组,而这个底层数组中的每个元素值都是有一个确切的内存地址的。
你可能会问,那么对切片字面量的切片结果值为什么却是不可寻址的?这是因为切片表达式总会返回一个新的切片值,而这个新的切片值在被赋给变量之前属于临时结果。
你可能已经注意到了,我一直在说针对数组值、切片值或字典值的字面量的表达式会产生临时结果。如果针对的是数组类型或切片类型的变量,那么索引或切片的结果值就都不属于临时结果了,是可寻址的。
这主要因为变量的值本身就不是“临时的”。对比而言,值字面量在还没有与任何变量(或者说任何标识符)绑定之前是没有落脚点的,我们无法以任何方式引用到它们。这样的值就是“临时的”。
再说一个例外。我们通过对字典类型的变量施加索引表达式,得到的结果值不属于临时结果,可是,这样的值却是不可寻址的。原因是,字典中的每个键-元素对的存储位置都可能会变化,而且这种变化外界是无法感知的。
我们都知道,字典中总会有若干个哈希桶用于均匀地储存键-元素对。当满足一定条件时,字典可能会改变哈希桶的数量,并适时地把其中的键-元素对搬运到对应的新的哈希桶中。
在这种情况下,获取字典中任何元素值的指针都是无意义的,也是不安全的。我们不知道什么时候那个元素值会被搬运到何处,也不知道原先的那个内存地址上还会被存放什么别的东西。所以,这样的值就应该是不可寻址的。
第三个关键词:不安全的。“不安全的”操作很可能会破坏程序的一致性,引发不可预知的错误,从而严重影响程序的功能和稳定性。
再来看函数。函数在Go语言中是一等公民所以我们可以把代表函数或方法的字面量或标识符赋给某个变量、传给某个函数或者从某个函数传出。但是这样的函数和方法都是不可寻址的。一个原因是函数就是代码是不可变的。
另一个原因是,拿到指向一段代码的指针是不安全的。此外,对函数或方法的调用结果值也是不可寻址的,这是因为它们都属于临时结果。
至于典型回答中最后列出的那几种值,由于都是针对值字面量的某种表达式的结果值,所以都属于临时结果,都不可寻址。
好了,说了这么多,希望你已经有所领悟了。我来总结一下。
不可变的值不可寻址。常量、基本类型的值字面量、字符串变量的值、函数以及方法的字面量都是如此。其实这样规定也有安全性方面的考虑。
绝大多数被视为临时结果的值都是不可寻址的。算术操作的结果值属于临时结果,针对值字面量的表达式结果值也属于临时结果。但有一个例外,对切片字面量的索引结果值虽然也属于临时结果,但却是可寻址的。
若拿到某值的指针可能会破坏程序的一致性,那么就是不安全的,该值就不可寻址。由于字典的内部机制,对字典的索引结果值的取址操作都是不安全的。另外,获取由字面量或标识符代表的函数或方法的地址显然也是不安全的。
最后说一句,如果我们把临时结果赋给一个变量,那么它就是可寻址的了。如此一来,取得的指针指向的就是这个变量持有的那个值了。
知识扩展
问题1不可寻址的值在使用上有哪些限制
首当其冲的当然是无法使用取址操作符&获取它们的指针了。不过,对不可寻址的值施加取址操作都会使编译器报错,所以倒是不用太担心,你只要记住我在前面讲述的那几条规律,并在编码的时候提前注意一下就好了。
我们来看下面这个小问题。我们依然以那个结构体类型Dog为例。
func New(name string) Dog {
return Dog{name}
}
我们再为它编写一个函数New。这个函数会接受一个名为name的string类型的参数并会用这个参数初始化一个Dog类型的值最后返回该值。我现在要问的是如果我调用该函数并直接以链式的手法调用其结果值的指针方法SetName那么可以达到预期的效果吗
New("little pig").SetName("monster")
如果你还记得我在前面讲述的内容那么肯定会知道调用New函数所得到的结果值属于临时结果是不可寻址的。
可是那又怎样呢别忘了我在讲结构体类型及其方法的时候还说过我们可以在一个基本类型的值上调用它的指针方法这是因为Go语言会自动地帮我们转译。
更具体地说对于一个Dog类型的变量dog来说调用表达式dog.SetName("monster")会被自动地转译为(&dog).SetName("monster")先取dog的指针值再在该指针值上调用SetName方法。
发现问题了吗由于New函数的调用结果值是不可寻址的所以无法对它进行取址操作。因此上边这行链式调用会让编译器报告两个错误一个是果不能在New("little pig")的结果值上调用指针方法。一个是因不能取得New("little pig")的地址。
除此之外我们都知道Go语言中的++和--并不属于操作符,而分别是自增语句和自减语句的重要组成部分。
虽然Go语言规范中的语法定义是只要在++或--的左边添加一个表达式,就可以组成一个自增语句或自减语句,但是,它还明确了一个很重要的限制,那就是这个表达式的结果值必须是可寻址的。这就使得针对值字面量的表达式几乎都无法被用在这里。
不过这有一个例外,虽然对字典字面量和字典变量索引表达式的结果值都是不可寻址的,但是这样的表达式却可以被用在自增语句和自减语句中。
与之类似的规则还有两个。一个是,在赋值语句中,赋值操作符左边的表达式的结果值必须可寻址的,但是对字典的索引结果值也是可以的。
另一个是在带有range子句的for语句中在range关键字左边的表达式的结果值也都必须是可寻址的不过对字典的索引结果值同样可以被用在这里。以上这三条规则我们合并起来记忆就可以了。
与这些定死的规则相比,我刚刚讲到的那个与指针方法有关的问题,你需要好好理解一下,它涉及了两个知识点的联合运用。起码在我面试的时候,它是一个可选择的考点。
问题 2怎样通过unsafe.Pointer操纵可寻址的值
前边的基础知识很重要。不过现在让我们再次关注指针的用法。我说过unsafe.Pointer是像*Dog类型的值这样的指针值和uintptr值之间的桥梁那么我们怎样利用unsafe.Pointer的中转和uintptr的底层操作来操纵像dog这样的值呢
首先说明这是一项黑科技。它可以绕过Go语言的编译器和其他工具的重重检查并达到潜入内存修改数据的目的。这并不是一种正常的编程手段使用它会很危险很有可能造成安全隐患。
我们总是应该优先使用常规代码包中提供的API去编写程序当然也可以把像reflect以及go/ast这样的代码包作为备选项。作为上层应用的开发者请谨慎地使用unsafe包中的任何程序实体。
不过既然说到这里了,我们还是要来一探究竟的。请看下面的代码:
dog := Dog{"little pig"}
dogP := &dog
dogPtr := uintptr(unsafe.Pointer(dogP))
我先声明了一个Dog类型的变量dog然后用取址操作符&取出了它的指针值并把它赋给了变量dogP。
最后我使用了两个类型转换先把dogP转换成了一个unsafe.Pointer类型的值然后紧接着又把后者转换成了一个uintptr的值并把它赋给了变量dogPtr。这背后隐藏着一些转换规则如下
一个指针值(比如*Dog类型的值可以被转换为一个unsafe.Pointer类型的值反之亦然。
一个uintptr类型的值也可以被转换为一个unsafe.Pointer类型的值反之亦然。
一个指针值无法被直接转换成一个uintptr类型的值反过来也是如此。
所以对于指针值和uintptr类型值之间的转换必须使用unsafe.Pointer类型的值作为中转。那么我们把指针值转换成uintptr类型的值有什么意义吗
namePtr := dogPtr + unsafe.Offsetof(dogP.name)
nameP := (*string)(unsafe.Pointer(namePtr))
这里需要与unsafe.Offsetof函数搭配使用才能看出端倪。unsafe.Offsetof函数用于获取两个值在内存中的起始存储地址之间的偏移量以字节为单位。
这两个值一个是某个字段的值另一个是该字段值所属的那个结构体值。我们在调用这个函数的时候需要把针对字段的选择表达式传给它比如dogP.name。
有了这个偏移量又有了结构体值在内存中的起始存储地址这里由dogPtr变量代表把它们相加我们就可以得到dogP的name字段值的起始存储地址了。这个地址由变量namePtr代表。
此后我们可以再通过两次类型转换把namePtr的值转换成一个*string类型的值这样就得到了指向dogP的name字段值的指针值。
你可能会问,我直接用取址表达式&(dogP.name)不就能拿到这个指针值了吗干嘛绕这么大一圈呢你可以想象一下如果我们根本就不知道这个结构体类型是什么也拿不到dogP这个变量那么还能去访问它的name字段吗
答案是只要有namePtr就可以。它就是一个无符号整数但同时也是一个指向了程序内部数据的内存地址。它可能会给我们带来一些好处比如可以直接修改埋藏得很深的内部数据。
但是一旦我们有意或无意地把这个内存地址泄露出去那么其他人就能够肆意地改动dogP.name的值以及周围的内存地址上存储的任何数据了。
即使他们不知道这些数据的结构也无所谓啊,改不好还改不坏吗?不正确地改动一定会给程序带来不可预知的问题,甚至造成程序崩溃。这可能还是最好的灾难性后果;所以我才说,使用这种非正常的编程手段会很危险。
好了,现在你知道了这种手段,也知道了它的危险性,那就谨慎对待,防患于未然吧。
总结
我们今天集中说了说与指针有关的问题。基于基本类型的指针值应该是我们最常用到的,也是我们最需要关注的,比如*Dog类型的值。怎样得到一个这样的指针值呢这需要用到取址操作和操作符&
不过这里还有个前提,那就是取址操作的操作对象必须是可寻址的。关于这方面你需要记住三个关键词:不可变的、临时结果和不安全的。只要一个值符合了这三个关键词中的任何一个,它就是不可寻址的。
但有一个例外,对切片字面量的索引结果值是可寻址的。那么不可寻址的值在使用上有哪些限制呢?一个最重要的限制是关于指针方法的,即:无法调用一个不可寻址值的指针方法。这涉及了两个知识点的联合运用。
相比于刚说到的这些unsafe.Pointer类型和uintptr类型的重要性好像就没那么高了。它们的值同样可以代表指针并且比前面说的指针值更贴近于底层和内存。
虽然我们可以利用它们去访问或修改一些内部数据,而且就灵活性而言,这种要比通用的方式高很多,但是这往往也会带来不容小觑的安全隐患。
因此,在很多时候,使用它们操纵数据是弊大于利的。不过,对于硬币的背面,我们也总是有必要去了解的。
思考题
今天的思考题是:引用类型的值的指针值是有意义的吗?如果没有意义,为什么?如果有意义,意义在哪里?
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,156 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
16 go语句及其执行规则
你很棒已经学完了关于Go语言数据类型的全部内容。我相信你不但已经知晓了怎样高效地使用Go语言内建的那些数据类型还明白了怎样正确地创造自己的数据类型。
对于Go语言的编程知识你确实已经知道了不少了。不过如果你真想玩转Go语言还需要知道它的一些特色流程和语法。
尤其是我们将会在本篇文章中讨论的go语句这也是Go语言的最大特色了。它足可以代表Go语言最重要的编程哲学和并发编程模式。
让我们再重温一下下面这句话:
Dont communicate by sharing memory; share memory by communicating.
从Go语言编程的角度解释这句话的意思就是不要通过共享数据来通讯恰恰相反要以通讯的方式共享数据。
我们已经知道通道也就是channel类型的值可以被用来以通讯的方式共享数据。更具体地说它一般被用来在不同的goroutine之间传递数据。那么goroutine到底代表着什么呢
简单来说goroutine代表着并发编程模型中的用户级线程。你可能已经知道操作系统本身提供了进程和线程这两种并发执行程序的工具。
前导内容:进程与线程
进程,描述的就是程序的执行过程,是运行着的程序的代表。换句话说,一个进程其实就是某个程序运行时的一个产物。如果说静静地躺在那里的代码就是程序的话,那么奔跑着的、正在发挥着既有功能的代码就可以被称为进程。
我们的电脑为什么可以同时运行那么多应用程序我们的手机为什么可以有那么多App同时在后台刷新这都是因为在它们的操作系统之上有多个代表着不同应用程序或App的进程在同时运行。
再来说说线程。首先,线程总是在进程之内的,它可以被视为进程中运行着的控制流(或者说代码执行的流程)。
一个进程至少会包含一个线程。如果一个进程只包含了一个线程,那么它里面的所有代码都只会被串行地执行。每个进程的第一个线程都会随着该进程的启动而被创建,它们可以被称为其所属进程的主线程。
相对应的,如果一个进程中包含了多个线程,那么其中的代码就可以被并发地执行。除了进程的第一个线程之外,其他的线程都是由进程中已存在的线程创建出来的。
也就是说,主线程之外的其他线程都只能由代码显式地创建和销毁。这需要我们在编写程序的时候进行手动控制,操作系统以及进程本身并不会帮我们下达这样的指令,它们只会忠实地执行我们的指令。
不过在Go程序当中Go语言的运行时runtime系统会帮助我们自动地创建和销毁系统级的线程。这里的系统级线程指的就是我们刚刚说过的操作系统提供的线程。
而对应的用户级线程指的是架设在系统级线程之上的,由用户(或者说我们编写的程序)完全控制的代码执行流程。用户级线程的创建、销毁、调度、状态变更以及其中的代码和数据都完全需要我们的程序自己去实现和处理。
这带来了很多优势,比如,因为它们的创建和销毁并不用通过操作系统去做,所以速度会很快,又比如,由于不用等着操作系统去调度它们的运行,所以往往会很容易控制并且可以很灵活。
但是,劣势也是有的,最明显也最重要的一个劣势就是复杂。如果我们只使用了系统级线程,那么我们只要指明需要新线程执行的代码片段,并且下达创建或销毁线程的指令就好了,其他的一切具体实现都会由操作系统代劳。
但是,如果使用用户级线程,我们就不得不既是指令下达者,又是指令执行者。我们必须全权负责与用户级线程有关的所有具体实现。
操作系统不但不会帮忙,还会要求我们的具体实现必须与它正确地对接,否则用户级线程就无法被并发地,甚至正确地运行。毕竟我们编写的所有代码最终都需要通过操作系统才能在计算机上执行。这听起来就很麻烦,不是吗?
不过别担心Go语言不但有着独特的并发编程模型以及用户级线程goroutine还拥有强大的用于调度goroutine、对接系统级线程的调度器。
这个调度器是Go语言运行时系统的重要组成部分它主要负责统筹调配Go并发编程模型中的三个主要元素Ggoroutine的缩写、Pprocessor的缩写和Mmachine的缩写
其中的M指代的就是系统级线程。而P指的是一种可以承载若干个G且能够使这些G适时地与M进行对接并得到真正运行的中介。
从宏观上说G和M由于P的存在可以呈现出多对多的关系。当一个正在与某个M对接并运行着的G需要因某个事件比如等待I/O或锁的解除而暂停运行的时候调度器总会及时地发现并把这个G与那个M分离开以释放计算资源供那些等待运行的G使用。
而当一个G需要恢复运行的时候调度器又会尽快地为它寻找空闲的计算资源包括M并安排运行。另外当M不够用时调度器会帮我们向操作系统申请新的系统级线程而当某个M已无用时调度器又会负责把它及时地销毁掉。
正因为调度器帮助我们做了很多事所以我们的Go程序才总是能高效地利用操作系统和计算机资源。程序中的所有goroutine也都会被充分地调度其中的代码也都会被并发地运行即使这样的goroutine有数以十万计也仍然可以如此。
M、P、G之间的关系简化版
由于篇幅原因关于Go语言内部的调度器和运行时系统的更多细节我在这里就不再深入讲述了。你需要知道Go语言实现了一套非常完善的运行时系统保证了我们的程序在高并发的情况下依旧能够稳定、高效地运行。
如果你对这些具体的细节感兴趣并还想进一步探索那么我推荐你去看看我写的那本《Go并发编程实战》。我在这本书中用了相当大的篇幅阐释了Go语言并发编程模型的原理、运作机制以及所有与之紧密相关的知识。
下面我会从编程实践的角度出发以go语句的用法为主线向你介绍go语句的执行规则、最佳实践和使用禁忌。
我们来看一下今天的问题什么是主goroutine它与我们启用的其他goroutine有什么不同
我们具体来看一道我在面试中经常提问的编程题。
package main
import "fmt"
func main() {
for i := 0; i < 10; i++ {
go func() {
fmt.Println(i)
}()
}
}
在demo38.go中我只在main函数中写了一条for语句这条for语句中的代码会迭代运行10次并有一个局部变量i代表着当次迭代的序号该序号是从0开始的
在这条for语句中仅有一条go语句这条go语句中也仅有一条语句这条最里面的语句调用了fmt.Println函数并想要打印出变量i的值
这个程序很简单三条语句逐条嵌套我的具体问题是这个命令源码文件被执行后会打印出什么内容
这道题的典型回答是不会有任何内容被打印出来
问题解析
与一个进程总会有一个主线程类似每一个独立的Go程序在运行时也总会有一个主goroutine这个主goroutine会在Go程序的运行准备工作完成后被自动地启用并不需要我们做任何手动的操作
想必你已经知道每条go语句一般都会携带一个函数调用这个被调用的函数常常被称为go函数而主goroutine的go函数就是那个作为程序入口的main函数
一定要注意go函数真正被执行的时间总会与其所属的go语句被执行的时间不同当程序执行到一条go语句的时候Go语言的运行时系统会先试图从某个存放空闲的G的队列中获取一个G也就是goroutine它只有在找不到空闲G的情况下才会去创建一个新的G
这也是为什么我总会说启用一个goroutine而不说创建一个goroutine的原因已存在的goroutine总是会被优先复用
然而创建G的成本也是非常低的创建一个G并不会像新建一个进程或者一个系统级线程那样必须通过操作系统的系统调用来完成在Go语言的运行时系统内部就可以完全做到了更何况一个G仅相当于为需要并发执行代码片段服务的上下文环境而已
在拿到了一个空闲的G之后Go语言运行时系统会用这个G去包装当前的那个go函数或者说该函数中的那些代码然后再把这个G追加到某个存放可运行的G的队列中
这类队列中的G总是会按照先入先出的顺序很快地由运行时系统内部的调度器安排运行虽然这会很快但是由于上面所说的那些准备工作还是不可避免的所以耗时还是存在的
因此go函数的执行时间总是会明显滞后于它所属的go语句的执行时间当然了这里所说的明显滞后是对于计算机的CPU时钟和Go程序来说的我们在大多数时候都不会有明显的感觉
在说明了原理之后我们再来看这种原理下的表象请记住只要go语句本身执行完毕Go程序完全不会等待go函数的执行它会立刻去执行后边的语句这就是所谓的异步并发地执行
这里后边的语句指的一般是for语句中的下一个迭代然而当最后一个迭代运行的时候这个后边的语句是不存在的
在demo38.go中的那条for语句会以很快的速度执行完毕当它执行完毕时那10个包装了go函数的goroutine往往还没有获得运行的机会
请注意go函数中的那个对fmt.Println函数的调用是以for语句中的变量i作为参数的你可以想象一下如果当for语句执行完毕的时候这些go函数都还没有执行那么它们引用的变量i的值将会是什么
它们都会是10对吗那么这道题的答案会是打印出10个10是这样吗
在确定最终的答案之前你还需要知道一个与主goroutine有关的重要特性一旦主goroutine中的代码也就是main函数中的那些代码执行完毕当前的Go程序就会结束运行
如此一来如果在Go程序结束的那一刻还有goroutine未得到运行机会那么它们就真的没有运行机会了它们中的代码也就不会被执行了
我们刚才谈论过当for语句的最后一个迭代运行的时候其中的那条go语句即是最后一条语句所以在执行完这条go语句之后主goroutine中的代码也就执行完了Go程序会立即结束运行那么如果这样的话还会有任何内容被打印出来吗
严谨地讲Go语言并不会去保证这些goroutine会以怎样的顺序运行由于主goroutine会与我们手动启用的其他goroutine一起接受调度又因为调度器很可能会在goroutine中的代码只执行了一部分的时候暂停以期所有的goroutine有更公平的运行机会
所以哪个goroutine先执行完哪个goroutine后执行完往往是不可预知的除非我们使用了某种Go语言提供的方式进行了人为干预然而在这段代码中我们并没有进行任何人为干预
那答案到底是什么呢就demo38.go中如此简单的代码而言绝大多数情况都会是不会有任何内容被打印出来
但是为了严谨起见无论应聘者的回答是打印出10个10还是不会有任何内容被打印出来又或是打印出乱序的0到9我都会紧接着去追问为什么因为只有你知道了这背后的原理你做出的回答才会被认为是正确的
这个原理是如此的重要以至于如果你不知道它那么就几乎无法编写出正确的可并发执行的程序如果你不知道此原理那么即使你写的并发程序看起来可以正确地运行那也肯定是运气好而已
总结
今天我描述了goroutine在操作系统的并发编程体系以及在Go语言并发编程模型中的地位和作用这些知识点会为你打下一个坚实的基础
我还提到了Go语言内部的运行时系统和调度器以及它们围绕着goroutine做的那些统筹调配和维护工作这些内容中的每句话应该都会对你正确理解goroutine起到实质性的作用你可以用这些知识去解释主问题中的那个程序在运行后为什么会产出那样的结果
下一篇内容我们还会继续围绕go语句以及执行规则谈一些扩展知识今天留给你的思考题就是用什么手段可以对goroutine的启用数量加以限制
感谢你的收听我们下次再见
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,137 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
17 go语句及其执行规则
你好我是郝林今天我们继续分享go语句执行规则的内容。
在上一篇文章中我们讲到了goroutine在操作系统的并发编程体系以及在Go语言并发编程模型中的地位和作用等一系列内容今天我们继续来聊一聊这个话题。
知识扩展
问题1怎样才能让主goroutine等待其他goroutine
我刚才说过一旦主goroutine中的代码执行完毕当前的Go程序就会结束运行无论其他的goroutine是否已经在运行了。那么怎样才能做到等其他的goroutine运行完毕之后再让主goroutine结束运行呢
其实有很多办法可以做到这一点。其中最简单粗暴的办法就是让主goroutine“小睡”一会儿。
for i := 0; i < 10; i++ {
go func() {
fmt.Println(i)
}()
}
time.Sleep(time.Millisecond * 500)
在for语句的后边我调用了time包的Sleep函数并把time.Millisecond * 500的结果作为参数值传给了它time.Sleep函数的功能就是让当前的goroutine在这里就是主goroutine暂停运行一段时间直到到达指定的恢复运行时间
我们可以把一个相对的时间传给该函数就像我在这里传入的500毫秒那样time.Sleep函数会在被调用时用当前的绝对时间再加上相对时间计算出在未来的恢复运行时间显然一旦到达恢复运行时间当前的goroutine就会从睡眠中醒来并开始继续执行后边的代码
这个办法是可行的只要睡眠的时间不要太短就好不过问题恰恰就在这里我们让主goroutine睡眠多长时间才是合适的呢如果睡眠太短则很可能不足以让其他的goroutine运行完毕而若睡眠太长则纯属浪费时间这个时间就太难把握了
你可能会想到既然不容易预估时间那我们就让其他的goroutine在运行完毕的时候告诉我们好了这个思路很好但怎么做呢
你是否想到了通道呢我们先创建一个通道它的长度应该与我们手动启用的goroutine的数量一致在每个手动启用的goroutine即将运行完毕的时候我们都要向该通道发送一个值
注意这些发送表达式应该被放在它们的go函数体的最后面对应的我们还需要在main函数的最后从通道接收元素值接收的次数也应该与手动启用的goroutine的数量保持一致关于这些你可以到demo39.go文件中去查看具体的写法
其中有一个细节你需要注意我在声明通道sign的时候是以chan struct{}作为其类型的其中的类型字面量struct{}有些类似于空接口类型interface{}它代表了既不包含任何字段也不拥有任何方法的空结构体类型
注意struct{}类型值的表示法只有一个struct{}{}并且它占用的内存空间是0字节确切地说这个值在整个Go程序中永远都只会存在一份虽然我们可以无数次地使用这个值字面量但是用到的却都是同一个值
当我们仅仅把通道当作传递某种简单信号的介质的时候用struct{}作为其元素类型是再好不过的了顺便说一句我在讲结构体及其方法的使用法门的时候留过一道与此相关的思考题你可以返回去看一看
再说回当下的问题有没有比使用通道更好的方法如果你知道标准库中的代码包sync的话那么可能会想到sync.WaitGroup类型没错这是一个更好的答案不过具体的使用方式我在后边讲sync包的时候再说
问题2怎样让我们启用的多个goroutine按照既定的顺序运行
在很多时候当我沿着上面的主问题以及第一个扩展问题一路问下来的时候应聘者往往会被这第二个扩展问题难住
所以基于上一篇主问题中的代码怎样做到让从0到9这几个整数按照自然数的顺序打印出来你可能会说我不用goroutine不就可以了嘛没错这样是可以但是如果我不考虑这样做呢你应该怎么解决这个问题
当然了众多应聘者回答的其他答案也是五花八门的有的可行有的不可行还有的把原来的代码改得面目全非我下面就来说说我的思路以及心目中的答案吧这个答案并不一定是最佳的也许你在看完之后还可以想到更优的答案
首先我们需要稍微改造一下for语句中的那个go函数要让它接受一个int类型的参数并在调用它的时候把变量i的值传进去为了不改动这个go函数中的其他代码我们可以把它的这个参数也命名为i
for i := 0; i < 10; i++ {
go func(i int) {
fmt.Println(i)
}(i)
}
只有这样Go语言才能保证每个goroutine都可以拿到一个唯一的整数其原因与go函数的执行时机有关
我在前面已经讲过了在go语句被执行时我们传给go函数的参数i会先被求值如此就得到了当次迭代的序号之后无论go函数会在什么时候执行这个参数值都不会变也就是说go函数中调用的fmt.Println函数打印的一定会是那个当次迭代的序号
然后我们在着手改造for语句中的go函数
for i := uint32(0); i < 10; i++ {
go func(i uint32) {
fn := func() {
fmt.Println(i)
}
trigger(i, fn)
}(i)
}
我在go函数中先声明了一个匿名的函数并把它赋给了变量fn这个匿名函数做的事情很简单只是调用fmt.Println函数以打印go函数的参数i的值
在这之后我调用了一个名叫trigger的函数并把go函数的参数i和刚刚声明的变量fn作为参数传给了它注意for语句声明的局部变量i和go函数的参数i的类型都变了都由int变为了uint32至于为什么我一会儿再说
再来说trigger函数该函数接受两个参数一个是uint32类型的参数i, 另一个是func()类型的参数fn你应该记得func()代表的是既无参数声明也无结果声明的函数类型
trigger := func(i uint32, fn func()) {
for {
if n := atomic.LoadUint32(&count); n == i {
fn()
atomic.AddUint32(&count, 1)
break
}
time.Sleep(time.Nanosecond)
}
}
trigger函数会不断地获取一个名叫count的变量的值并判断该值是否与参数i的值相同如果相同那么就立即调用fn代表的函数然后把count变量的值加1最后显式地退出当前的循环否则我们就先让当前的goroutine睡眠一个纳秒再进入下一个迭代
注意我操作变量count的时候使用的都是原子操作这是由于trigger函数会被多个goroutine并发地调用所以它用到的非本地变量count就被多个用户级线程共用了因此对它的操作就产生了竞态条件race condition破坏了程序的并发安全性
所以我们总是应该对这样的操作加以保护在sync/atomic包中声明了很多用于原子操作的函数
另外由于我选用的原子操作函数对被操作的数值的类型有约束所以我才对count以及相关的变量和参数的类型进行了统一的变更由int变为了uint32
纵观count变量trigger函数以及改造后的for语句和go函数我要做的是让count变量成为一个信号它的值总是下一个可以调用打印函数的go函数的序号
这个序号其实就是启用goroutine时那个当次迭代的序号也正因为如此go函数实际的执行顺序才会与go语句的执行顺序完全一致此外这里的trigger函数实现了一种自旋spinning除非发现条件已满足否则它会不断地进行检查
最后要说的是因为我依然想让主goroutine最后一个运行完毕所以还需要加一行代码不过既然有了trigger函数我就没有再使用通道
trigger(10, func(){})
调用trigger函数完全可以达到相同的效果由于当所有我手动启用的goroutine都运行完毕之后count的值一定会是10所以我就把10作为了第一个参数值又由于我并不想打印这个10所以我把一个什么都不做的函数作为了第二个参数值
总之通过上述的改造我使得异步发起的go函数得到了同步地或者说按照既定顺序地执行你也可以动手自己试一试感受一下
总结
在本篇文章中我们接着上一篇文章的主问题讨论了当我们想让运行结果更加可控的时候应该怎样去做
主goroutine的运行若过早结束那么我们的并发程序的功能就很可能无法全部完成所以我们往往需要通过一些手段去进行干涉比如调用time.Sleep函数或者使用通道我们在后面的文章中还会讨论更高级的手段
另外go函数的实际执行顺序往往与其所属的go语句的执行顺序或者说goroutine的启用顺序不同而且默认情况下的执行顺序是不可预知的那怎样才能让这两个顺序一致呢其实复杂的实现方式有不少但是可能会把原来的代码改得面目全非我在这里提供了一种比较简单清晰的改造方案供你参考
总之我希望通过上述基础知识以及三个连贯的问题帮你串起一条主线这应该会让你更快地深入理解goroutine及其背后的并发编程模型从而更加游刃有余地使用go语句
思考题
1.runtime包中提供了哪些与模型三要素GP和M相关的函数模型三要素内容在上一篇
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,249 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
18 if语句、for语句和switch语句
在上两篇文章中我主要为你讲解了与go语句、goroutine和Go语言调度器有关的知识和技法。
内容很多,你不用急于完全消化,可以在编程实践过程中逐步理解和感悟,争取夯实它们。
现在让我们暂时走下神坛回归民间。我今天要讲的if语句、for语句和switch语句都属于Go语言的基本流程控制语句。它们的语法看起来很朴素但实际上也会有一些使用技巧和注意事项。我在本篇文章中会以一系列面试题为线索为你讲述它们的用法。
那么今天的问题是使用携带range子句的for语句时需要注意哪些细节 这是一个比较笼统的问题。我还是通过编程题来讲解吧。
本问题中的代码都被放在了命令源码文件demo41.go的main函数中的。为了专注问题本身本篇文章中展示的编程题会省略掉一部分代码包声明语句、代码包导入语句和main函数本身的声明部分。
numbers1 := []int{1, 2, 3, 4, 5, 6}
for i := range numbers1 {
if i == 3 {
numbers1[i] |= i
}
}
fmt.Println(numbers1)
我先声明了一个元素类型为int的切片类型的变量numbers1在该切片中有6个元素值分别是从1到6的整数。我用一条携带range子句的for语句去迭代numbers1变量中的所有元素值。
在这条for语句中只有一个迭代变量i。我在每次迭代时都会先去判断i的值是否等于3如果结果为true那么就让numbers1的第i个元素值与i本身做按位或的操作再把操作结果作为numbers1的新的第i个元素值。最后我会打印出numbers1的值。
所以具体的问题就是,这段代码执行后会打印出什么内容?
这里的典型回答是:打印的内容会是[1 2 3 7 5 6]。
问题解析
你心算得到的答案是这样吗?让我们一起来复现一下这个计算过程。
当for语句被执行的时候在range关键字右边的numbers1会先被求值。
这个位置上的代码被称为range表达式。range表达式的结果值可以是数组、数组的指针、切片、字符串、字典或者允许接收操作的通道中的某一个并且结果值只能有一个。
对于不同种类的range表达式结果值for语句的迭代变量的数量可以有所不同。
就拿我们这里的numbers1来说它是一个切片那么迭代变量就可以有两个右边的迭代变量代表当次迭代对应的某一个元素值而左边的迭代变量则代表该元素值在切片中的索引值。
那么如果像本题代码中的for语句那样只有一个迭代变量的情况意味着什么呢这意味着该迭代变量只会代表当次迭代对应的元素值的索引值。
更宽泛地讲,当只有一个迭代变量的时候,数组、数组的指针、切片和字符串的元素值都是无处安放的,我们只能拿到按照从小到大顺序给出的一个个索引值。
因此这里的迭代变量i的值会依次是从0到5的整数。当i的值等于3的时候与之对应的是切片中的第4个元素值4。对4和3进行按位或操作得到的结果是7。这就是答案中的第4个整数是7的原因了。
现在,我稍稍修改一下上面的代码。我们再来估算一下打印内容。
numbers2 := [...]int{1, 2, 3, 4, 5, 6}
maxIndex2 := len(numbers2) - 1
for i, e := range numbers2 {
if i == maxIndex2 {
numbers2[0] += e
} else {
numbers2[i+1] += e
}
}
fmt.Println(numbers2)
注意我把迭代的对象换成了numbers2。numbers2中的元素值同样是从1到6的6个整数并且元素类型同样是int但它是一个数组而不是一个切片。
在for语句中我总是会对紧挨在当次迭代对应的元素后边的那个元素进行重新赋值新的值会是这两个元素的值之和。当迭代到最后一个元素时我会把此range表达式结果值中的第一个元素值替换为它的原值与最后一个元素值的和最后我会打印出numbers2的值。
对于这段代码,我的问题依旧是:打印的内容会是什么?你可以先思考一下。
好了,我要公布答案了。打印的内容会是[7 3 5 7 9 11]。我先来重现一下计算过程。当for语句被执行的时候在range关键字右边的numbers2会先被求值。
这里需要注意两点:
range表达式只会在for语句开始执行时被求值一次无论后边会有多少次迭代
range表达式的求值结果会被复制也就是说被迭代的对象是range表达式结果值的副本而不是原值。
基于这两个规则我们接着往下看。在第一次迭代时我改变的是numbers2的第二个元素的值新值为3也就是1和2之和。
但是被迭代的对象的第二个元素却没有任何改变毕竟它与numbers2已经是毫不相关的两个数组了。因此在第二次迭代时我会把numbers2的第三个元素的值修改为5即被迭代对象的第二个元素值2和第三个元素值3的和。
以此类推之后的numbers2的元素值依次会是7、9和11。当迭代到最后一个元素时我会把numbers2的第一个元素的值修改为1和6之和。
好了现在该你操刀了。你需要把numbers2的值由一个数组改成一个切片其中的元素值都不要变。为了避免混淆你还要把这个切片值赋给变量numbers3并且把后边代码中所有的numbers2都改为numbers3。
问题是不变的,执行这段修改版的代码后打印的内容会是什么呢?如果你实在估算不出来,可以先实际执行一下,然后再尝试解释看到的答案。提示一下,切片与数组是不同的,前者是引用类型的,而后者是值类型的。
我们可以先接着讨论后边的内容,但是我强烈建议你一定要回来,再看看我留给你的这个问题,认真地思考和计算一下。
知识扩展
问题1switch语句中的switch表达式和case表达式之间有着怎样的联系
先来看一段代码。
value1 := [...]int8{0, 1, 2, 3, 4, 5, 6}
switch 1 + 3 {
case value1[0], value1[1]:
fmt.Println("0 or 1")
case value1[2], value1[3]:
fmt.Println("2 or 3")
case value1[4], value1[5], value1[6]:
fmt.Println("4 or 5 or 6")
}
我先声明了一个数组类型的变量value1该变量的元素类型是int8。在后边的switch语句中被夹在switch关键字和左花括号{之间的是1 + 3这个位置上的代码被称为switch表达式。这个switch语句还包含了三个case子句而每个case子句又各包含了一个case表达式和一条打印语句。
所谓的case表达式一般由case关键字和一个表达式列表组成表达式列表中的多个表达式之间需要有英文逗号,分割比如上面代码中的case value1[0], value1[1]就是一个case表达式其中的两个子表达式都是由索引表达式表示的。
另外的两个case表达式分别是case value1[2], value1[3]和case value1[4], value1[5], value1[6]。
此外在这里的每个case子句中的那些打印语句会分别打印出不同的内容这些内容用于表示case子句被选中的原因比如打印内容0 or 1表示当前case子句被选中是因为switch表达式的结果值等于0或1中的某一个。另外两条打印语句会分别打印出2 or 3和4 or 5 or 6。
现在问题来了拥有这样三个case表达式的switch语句可以成功通过编译吗如果不可以原因是什么如果可以那么该switch语句被执行后会打印出什么内容。
我刚才说过只要switch表达式的结果值与某个case表达式中的任意一个子表达式的结果值相等该case表达式所属的case子句就会被选中。
并且一旦某个case子句被选中其中的附带在case表达式后边的那些语句就会被执行。与此同时其他的所有case子句都会被忽略。
当然了如果被选中的case子句附带的语句列表中包含了fallthrough语句那么紧挨在它下边的那个case子句附带的语句也会被执行。
正因为存在上述判断相等的操作以下简称判等操作switch语句对switch表达式的结果类型以及各个case表达式中子表达式的结果类型都是有要求的。毕竟在Go语言中只有类型相同的值之间才有可能被允许进行判等操作。
如果switch表达式的结果值是无类型的常量比如1 + 3的求值结果就是无类型的常量4那么这个常量会被自动地转换为此种常量的默认类型的值比如整数4的默认类型是int又比如浮点数3.14的默认类型是float64。
因此由于上述代码中的switch表达式的结果类型是int而那些case表达式中子表达式的结果类型却是int8它们的类型并不相同所以这条switch语句是无法通过编译的。
再来看一段很类似的代码:
value2 := [...]int8{0, 1, 2, 3, 4, 5, 6}
switch value2[4] {
case 0, 1:
fmt.Println("0 or 1")
case 2, 3:
fmt.Println("2 or 3")
case 4, 5, 6:
fmt.Println("4 or 5 or 6")
}
其中的变量value2与value1的值是完全相同的。但不同的是我把switch表达式换成了value2[4]并把下边那三个case表达式分别换为了case 0, 1、case 2, 3和case 4, 5, 6。
如此一来switch表达式的结果值是int8类型的而那些case表达式中子表达式的结果值却是无类型的常量了。这与之前的情况恰恰相反。那么这样的switch语句可以通过编译吗
答案是肯定的。因为如果case表达式中子表达式的结果值是无类型的常量那么它的类型会被自动地转换为switch表达式的结果类型又由于上述那几个整数都可以被转换为int8类型的值所以对这些表达式的结果值进行判等操作是没有问题的。
当然了如果这里说的自动转换没能成功那么switch语句照样通不过编译。
switch语句中的自动类型转换
通过上面这两道题你应该可以搞清楚switch表达式和case表达式之间的联系了。由于需要进行判等操作所以前者和后者中的子表达式的结果类型需要相同。
switch语句会进行有限的类型转换但肯定不能保证这种转换可以统一它们的类型。还要注意如果这些表达式的结果类型有某个接口类型那么一定要小心检查它们的动态值是否都具有可比性或者说是否允许判等操作
因为如果答案是否定的虽然不会造成编译错误但是后果会更加严重引发panic也就是运行时恐慌
问题2switch语句对它的case表达式有哪些约束
我在上一个问题的阐述中还重点表达了一点不知你注意到了没有那就是switch语句在case子句的选择上是具有唯一性的。
正因为如此switch语句不允许case表达式中的子表达式结果值存在相等的情况不论这些结果值相等的子表达式是否存在于不同的case表达式中都会是这样的结果。具体请看这段代码
value3 := [...]int8{0, 1, 2, 3, 4, 5, 6}
switch value3[4] {
case 0, 1, 2:
fmt.Println("0 or 1 or 2")
case 2, 3, 4:
fmt.Println("2 or 3 or 4")
case 4, 5, 6:
fmt.Println("4 or 5 or 6")
}
变量value3的值同value1依然是由从0到6的7个整数组成的数组元素类型是int8。switch表达式是value3[4]三个case表达式分别是case 0, 1, 2、case 2, 3, 4和case 4, 5, 6。
由于在这三个case表达式中存在结果值相等的子表达式所以这个switch语句无法通过编译。不过好在这个约束本身还有个约束那就是只针对结果值为常量的子表达式。
比如子表达式1+1和2不能同时出现1+3和4也不能同时出现。有了这个约束的约束我们就可以想办法绕过这个对子表达式的限制了。再看一段代码
value5 := [...]int8{0, 1, 2, 3, 4, 5, 6}
switch value5[4] {
case value5[0], value5[1], value5[2]:
fmt.Println("0 or 1 or 2")
case value5[2], value5[3], value5[4]:
fmt.Println("2 or 3 or 4")
case value5[4], value5[5], value5[6]:
fmt.Println("4 or 5 or 6")
}
变量名换成了value5但这不是重点。重点是我把case表达式中的常量都换成了诸如value5[0]这样的索引表达式。
虽然第一个case表达式和第二个case表达式都包含了value5[2]并且第二个case表达式和第三个case表达式都包含了value5[4]但这已经不是问题了。这条switch语句可以成功通过编译。
不过这种绕过方式对用于类型判断的switch语句以下简称为类型switch语句就无效了。因为类型switch语句中的case表达式的子表达式都必须直接由类型字面量表示而无法通过间接的方式表示。代码如下
value6 := interface{}(byte(127))
switch t := value6.(type) {
case uint8, uint16:
fmt.Println("uint8 or uint16")
case byte:
fmt.Printf("byte")
default:
fmt.Printf("unsupported type: %T", t)
}
变量value6的值是空接口类型的。该值包装了一个byte类型的值127。我在后面使用类型switch语句来判断value6的实际类型并打印相应的内容。
这里有两个普通的case子句还有一个default case子句。前者的case表达式分别是case uint8, uint16和case byte。你还记得吗byte类型是uint8类型的别名类型。
因此它们两个本质上是同一个类型只是类型名称不同罢了。在这种情况下这个类型switch语句是无法通过编译的因为子表达式byte和uint8重复了。好了以上说的就是case表达式的约束以及绕过方式你学会了吗。
总结
我们今天主要讨论了for语句和switch语句不过我并没有说明那些语法规则因为它们太简单了。我们需要多加注意的往往是那些隐藏在Go语言规范和最佳实践里的细节。
这些细节其实就是我们很多技术初学者所谓的“坑”。比如我在讲for语句的时候交代了携带range子句时只有一个迭代变量意味着什么。你必须知道在迭代数组或切片时只有一个迭代变量的话是无法迭代出其中的元素值的否则你的程序可能就不会像你预期的那样运行了。
还有range表达式的结果值是会被复制的实际迭代时并不会使用原值。至于会影响到什么那就要看这个结果值的类型是值类型还是引用类型了。
说到switch语句你要明白其中的case表达式的所有子表达式的结果值都是要与switch表达式的结果值判等的因此它们的类型必须相同或者能够都统一到switch表达式的结果类型。如果无法做到那么这条switch语句就不能通过编译。
最后同一条switch语句中的所有case表达式的子表达式的结果值不能重复不过好在这只是对于由字面量直接表示的子表达式而言的。
请记住普通case子句的编写顺序很重要最上边的case子句中的子表达式总是会被最先求值在判等的时候顺序也是这样。因此如果某些子表达式的结果值有重复并且它们与switch表达式的结果值相等那么位置靠上的case子句总会被选中。
思考题
在类型switch语句中我们怎样对被判断类型的那个值做相应的类型转换
在if语句中初始化子句声明的变量的作用域是什么
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,168 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
19 错误处理(上)
提到Go语言中的错误处理我们其实已经在前面接触过几次了。
比如我们声明过error类型的变量err也调用过errors包中的New函数。今天我会用这篇文章为你梳理Go语言错误处理的相关知识同时提出一些关键问题并与你一起探讨。
我们说过error类型其实是一个接口类型也是一个Go语言的内建类型。在这个接口类型的声明中只包含了一个方法Error。Error方法不接受任何参数但是会返回一个string类型的结果。它的作用是返回错误信息的字符串表示形式。
我们使用error类型的方式通常是在函数声明的结果列表的最后声明一个该类型的结果同时在调用这个函数之后先判断它返回的最后一个结果值是否“不为nil”。
如果这个值“不为nil”那么就进入错误处理流程否则就继续进行正常的流程。下面是一个例子代码在demo44.go文件中。
package main
import (
"errors"
"fmt"
)
func echo(request string) (response string, err error) {
if request == "" {
err = errors.New("empty request")
return
}
response = fmt.Sprintf("echo: %s", request)
return
}
func main() {
for _, req := range []string{"", "hello!"} {
fmt.Printf("request: %s\n", req)
resp, err := echo(req)
if err != nil {
fmt.Printf("error: %s\n", err)
continue
}
fmt.Printf("response: %s\n", resp)
}
}
我们先看echo函数的声明。echo函数接受一个string类型的参数request并会返回两个结果。
这两个结果都是有名称的第一个结果response也是string类型的它代表了这个函数正常执行后的结果值。
第二个结果err就是error类型的它代表了函数执行出错时的结果值同时也包含了具体的错误信息。
当echo函数被调用时它会先检查参数request的值。如果该值为空字符串那么它就会通过调用errors.New函数为结果err赋值然后忽略掉后边的操作并直接返回。
此时结果response的值也会是一个空字符串。如果request的值并不是空字符串那么它就为结果response赋一个适当的值然后返回此时结果err的值会是nil。
再来看main函数中的代码。我在每次调用echo函数之后都会把它返回的结果值赋给变量resp和err并且总是先检查err的值是否“不为nil”如果是就打印错误信息否则就打印常规的响应信息。
这里值得注意的地方有两个。第一在echo函数和main函数中我都使用到了卫述语句。我在前面讲函数用法的时候也提到过卫述语句。简单地讲它就是被用来检查后续操作的前置条件并进行相应处理的语句。
对于echo函数来说它进行常规操作的前提是传入的参数值一定要符合要求。而对于调用echo函数的程序来说进行后续操作的前提就是echo函数的执行不能出错。
我们在进行错误处理的时候经常会用到卫述语句,以至于有些人会吐槽说:“我的程序满屏都是卫述语句,简直是太难看了!”
不过,我倒认为这有可能是程序设计上的问题。每个编程语言的理念和风格几乎都会有明显的不同,我们常常需要顺应它们的纹理去做设计,而不是用其他语言的编程思想来编写当下语言的程序。
再来说第二个值得注意的地方。我在生成error类型值的时候用到了errors.New函数。
这是一种最基本的生成错误值的方式。我们调用它的时候传入一个由字符串代表的错误信息它会给返回给我们一个包含了这个错误信息的error类型值。该值的静态类型当然是error而动态类型则是一个在errors包中的包级私有的类型*errorString。
显然errorString类型拥有的一个指针方法实现了error接口中的Error方法。这个方法在被调用后会原封不动地返回我们之前传入的错误信息。实际上error类型值的Error方法就相当于其他类型值的String方法。
我们已经知道通过调用fmt.Printf函数并给定占位符%s就可以打印出某个值的字符串表示形式。
对于其他类型的值来说只要我们能为这个类型编写一个String方法就可以自定义它的字符串表示形式。而对于error类型值它的字符串表示形式则取决于它的Error方法。
在上述情况下fmt.Printf函数如果发现被打印的值是一个error类型的值那么就会去调用它的Error方法。fmt包中的这类打印函数其实都是这么做的。
顺便提一句当我们想通过模板化的方式生成错误信息并得到错误值时可以使用fmt.Errorf函数。该函数所做的其实就是先调用fmt.Sprintf函数得到确切的错误信息再调用errors.New函数得到包含该错误信息的error类型值最后返回该值。
好了我现在问一个关于对错误值做判断的问题。我们今天的问题是对于具体错误的判断Go语言中都有哪些惯用法
由于error是一个接口类型所以即使同为error类型的错误值它们的实际类型也可能不同。这个问题还可以换一种问法怎样判断一个错误值具体代表的是哪一类错误
这道题的典型回答是这样的:
对于类型在已知范围内的一系列错误值一般使用类型断言表达式或类型switch语句来判断
对于已有相应变量且类型相同的一系列错误值,一般直接使用判等操作来判断;
对于没有相应变量且类型未知的一系列错误值,只能使用其错误信息的字符串表示形式来做判断。
问题解析
如果你看过一些Go语言标准库的源代码那么对这几种情况应该都不陌生。我下面分别对它们做个说明。
类型在已知范围内的错误值其实是最容易分辨的。就拿os包中的几个代表错误的类型os.PathError、os.LinkError、os.SyscallError和os/exec.Error来说它们的指针类型都是error接口的实现类型同时它们也都包含了一个名叫Err类型为error接口类型的代表潜在错误的字段。
如果我们得到一个error类型值并且知道该值的实际类型肯定是它们中的某一个那么就可以用类型switch语句去做判断。例如
func underlyingError(err error) error {
switch err := err.(type) {
case *os.PathError:
return err.Err
case *os.LinkError:
return err.Err
case *os.SyscallError:
return err.Err
case *exec.Error:
return err.Err
}
return err
}
函数underlyingError的作用是获取和返回已知的操作系统相关错误的潜在错误值。其中的类型switch语句中有若干个case子句分别对应了上述几个错误类型。当它们被选中时都会把函数参数err的Err字段作为结果值返回。如果它们都未被选中那么该函数就会直接把参数值作为结果返回即放弃获取潜在错误值。
只要类型不同我们就可以如此分辨。但是在错误值类型相同的情况下这些手段就无能为力了。在Go语言的标准库中也有不少以相同方式创建的同类型的错误值。
我们还拿os包来说其中不少的错误值都是通过调用errors.New函数来初始化的比如os.ErrClosed、os.ErrInvalid以及os.ErrPermission等等。
注意与前面讲到的那些错误类型不同这几个都是已经定义好的、确切的错误值。os包中的代码有时候会把它们当做潜在错误值封装进前面那些错误类型的值中。
如果我们在操作文件系统的时候得到了一个错误值并且知道该值的潜在错误值肯定是上述值中的某一个那么就可以用普通的switch语句去做判断当然了用if语句和判等操作符也是可以的。例如
printError := func(i int, err error) {
if err == nil {
fmt.Println("nil error")
return
}
err = underlyingError(err)
switch err {
case os.ErrClosed:
fmt.Printf("error(closed)[%d]: %s\n", i, err)
case os.ErrInvalid:
fmt.Printf("error(invalid)[%d]: %s\n", i, err)
case os.ErrPermission:
fmt.Printf("error(permission)[%d]: %s\n", i, err)
}
}
这个由printError变量代表的函数会接受一个error类型的参数值。该值总会代表某个文件操作相关的错误这是我故意地以不正确的方式操作文件后得到的。
虽然我不知道这些错误值的类型的范围但却知道它们或它们的潜在错误值一定是某个已经在os包中定义的值。
所以我先用underlyingError函数得到它们的潜在错误值当然也可能只得到原错误值而已。然后我用switch语句对错误值进行判等操作三个case子句分别对应我刚刚提到的那三个已存在于os包中的错误值。如此一来我就能分辨出具体错误了。
对于上面这两种情况,我们都有明确的方式去解决。但是,如果我们对一个错误值可能代表的含义知之甚少,那么就只能通过它拥有的错误信息去做判断了。
好在我们总是能通过错误值的Error方法拿到它的错误信息。其实os包中就有做这种判断的函数比如os.IsExist、os.IsNotExist和os.IsPermission。命令源码文件demo45.go中包含了对它们的应用这大致跟前面展示的代码差不太多我就不在这里赘述了。
总结
今天我们一起初步学习了错误处理的内容。我们总结了错误类型、错误值的处理技巧和设计方式并一起分享了Go语言中处理错误的最基本方式。由于错误处理的内容分为上下两篇在下一次的文章中我们会站在建造者的角度一起来探索一下怎样根据实际情况给予恰当的错误值。
思考题
请列举出你经常用到或者看到的3个错误类型它们所在的错误类型体系都是怎样的你能画出一棵树来描述它们吗
感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,95 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
20 错误处理 (下)
你好,我是郝林,今天我们继续来分享错误处理。
在上一篇文章中,我们主要讨论的是从使用者的角度看“怎样处理好错误值”。那么,接下来我们需要关注的,就是站在建造者的角度,去关心“怎样才能给予使用者恰当的错误值”的问题了。
知识扩展
问题:怎样根据实际情况给予恰当的错误值?
我们已经知道,构建错误值体系的基本方式有两种,即:创建立体的错误类型体系和创建扁平的错误值列表。
先说错误类型体系。由于在Go语言中实现接口是非侵入式的所以我们可以做得很灵活。比如在标准库的net代码包中有一个名为Error的接口类型。它算是内建接口类型error的一个扩展接口因为error是net.Error的嵌入接口。
net.Error接口除了拥有error接口的Error方法之外还有两个自己声明的方法Timeout和Temporary。
net包中有很多错误类型都实现了net.Error接口比如
*net.OpError
*net.AddrError
net.UnknownNetworkError等等。
你可以把这些错误类型想象成一棵树内建接口error就是树的根而net.Error接口就是一个在根上延伸的第一级非叶子节点。
同时你也可以把这看做是一种多层分类的手段。当net包的使用者拿到一个错误值的时候可以先判断它是否是net.Error类型的也就是说该值是否代表了一个网络相关的错误。
如果是,那么我们还可以再进一步判断它的类型是哪一个更具体的错误类型,这样就能知道这个网络相关的错误具体是由于操作不当引起的,还是因为网络地址问题引起的,又或是由于网络协议不正确引起的。
当我们细看net包中的这些具体错误类型的实现时还会发现与os包中的一些错误类型类似它们也都有一个名为Err、类型为error接口类型的字段代表的也是当前错误的潜在错误。
所以说这些错误类型的值之间还可以有另外一种关系链式关系。比如说使用者调用net.DialTCP之类的函数时net包中的代码可能会返回给他一个*net.OpError类型的错误值以表示由于他的操作不当造成了一个错误。
同时,这些代码还可能会把一个*net.AddrError或net.UnknownNetworkError类型的值赋给该错误值的Err字段以表明导致这个错误的潜在原因。如果此处的潜在错误值的Err字段也有非nil的值那么将会指明更深层次的错误原因。如此一级又一级就像链条一样最终会指向问题的根源。
把以上这些内容总结成一句话就是用类型建立起树形结构的错误体系用统一字段建立起可追根溯源的链式错误关联。这是Go语言标准库给予我们的优秀范本非常有借鉴意义。
不过要注意如果你不想让包外代码改动你返回的错误值的话一定要小写其中字段的名称首字母。你可以通过暴露某些方法让包外代码有进一步获取错误信息的权限比如编写一个可以返回包级私有的err字段值的公开方法Err。
相比于立体的错误类型体系,扁平的错误值列表就要简单得多了。当我们只是想预先创建一些代表已知错误的错误值时候,用这种扁平化的方式就很恰当了。
不过由于error是接口类型所以通过errors.New函数生成的错误值只能被赋给变量而不能赋给常量又由于这些代表错误的变量需要给包外代码使用所以其访问权限只能是公开的。
这就带来了一个问题,如果有恶意代码改变了这些公开变量的值,那么程序的功能就必然会受到影响。因为在这种情况下我们往往会通过判等操作来判断拿到的错误值具体是哪一个错误,如果这些公开变量的值被改变了,那么相应的判等操作的结果也会随之改变。
这里有两个解决方案。第一个方案是,先私有化此类变量,也就是说,让它们的名称首字母变成小写,然后编写公开的用于获取错误值以及用于判等错误值的函数。
比如对于错误值os.ErrClosed先改写它的名称让其变成os.errClosed然后再编写ErrClosed函数和IsErrClosed函数。
当然了,这不是说让你去改动标准库中已有的代码,这样做的危害会很大,甚至是致命的。我只能说,对于你可控的代码,最好还是要尽量收紧访问权限。
再来说第二个方案此方案存在于syscall包中。该包中有一个类型叫做Errno该类型代表了系统调用时可能发生的底层错误。这个错误类型是error接口的实现类型同时也是对内建类型uintptr的再定义类型。
由于uintptr可以作为常量的类型所以syscall.Errno自然也可以。syscall包中声明有大量的Errno类型的常量每个常量都对应一种系统调用错误。syscall包外的代码可以拿到这些代表错误的常量但却无法改变它们。
我们可以仿照这种声明方式来构建我们自己的错误值列表,这样就可以保证错误值的只读特性了。
好了,总之,扁平的错误值列表虽然相对简单,但是你一定要知道其中的隐患以及有效的解决方案是什么。
总结
今天我从两个视角为你总结了错误类型、错误值的处理技巧和设计方式。我们先一起看了一下Go语言中处理错误的最基本方式这涉及了函数结果列表设计、errors.New函数、卫述语句以及使用打印函数输出错误值。
接下来,我提出的第一个问题是关于错误判断的。对于一个错误值来说,我们可以获取到它的类型、值以及它携带的错误信息。
如果我们可以确定其类型范围或者值的范围,那么就可以使用一些明确的手段获知具体的错误种类。否则,我们就只能通过匹配其携带的错误信息来大致区分它们的种类。
由于底层系统给予我们的错误信息还是很有规律可循的,所以用这种方式去判断效果还比较显著。但是第三方程序给出的错误信息很可能就没那么规整了,这种情况下靠错误信息去辨识种类就会比较困难。
有了以上阐释当把视角从使用者换位到建造者我们往往就会去自觉地仔细思考程序错误体系的设计了。我在这里提出了两个在Go语言标准库中使用很广泛的方案立体的错误类型体系和扁平的错误值列表。
之所以说错误类型体系是立体的,是因为从整体上看它往往呈现出树形的结构。通过接口间的嵌套以及接口的实现,我们就可以构建出一棵错误类型树。
通过这棵树,使用者就可以一步步地确定错误值的种类了。另外,为了追根溯源的需要,我们还可以在错误类型中,统一安放一个可以代表潜在错误的字段。这叫做链式的错误关联,可以帮助使用者找到错误的根源。
相比之下,错误值列表就比较简单了。它其实就是若干个名称不同但类型相同的错误值集合。
不过需要注意的是,如果它们是公开的,那就应该尽量让它们成为常量而不是变量,或者编写私有的错误值以及公开的获取和判等函数,否则就很难避免恶意的篡改。
这其实是“最小化访问权限”这个程序设计原则的一个具体体现。无论怎样设计程序错误体系,我们都应该把这一点考虑在内。
思考题
请列举出你经常用到或者看到的3个错误值它们分别在哪个错误值列表里这些错误值列表分别包含的是哪个种类的错误
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,111 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
21 panic函数、recover函数以及defer语句 (上)
我在上两篇文章中详细地讲述了Go语言中的错误处理并从两个视角为你总结了错误类型、错误值的处理技巧和设计方式。
在本篇我要给你展示Go语言的另外一种错误处理方式。不过严格来说它处理的不是错误而是异常并且是一种在我们意料之外的程序异常。
前导知识运行时恐慌panic
这种程序异常被叫做panic我把它翻译为运行时恐慌。其中的“恐慌”二字是由panic直译过来的而之所以前面又加上了“运行时”三个字是因为这种异常只会在程序运行的时候被抛出来。
我们举个具体的例子来看看。
比如说一个Go程序里有一个切片它的长度是5也就是说该切片中的元素值的索引分别为0、1、2、3、4但是我在程序里却想通过索引5访问其中的元素值显而易见这样的访问是不正确的。
Go程序确切地说是程序内嵌的Go语言运行时系统会在执行到这行代码的时候抛出一个“index out of range”的panic用以提示你索引越界了。
当然了这不仅仅是个提示。当panic被抛出之后如果我们没有在程序里添加任何保护措施的话程序或者说代表它的那个进程就会在打印出panic的详细情况以下简称panic详情之后终止运行。
现在就让我们来看一下这样的panic详情中都有什么。
panic: runtime error: index out of range
goroutine 1 [running]:
main.main()
/Users/haolin/GeekTime/Golang_Puzzlers/src/puzzlers/article19/q0/demo47.go:5 +0x3d
exit status 2
这份详情的第一行是“panic: runtime error: index out of range”。其中的“runtime error”的含义是这是一个runtime代码包中抛出的panic。在这个panic中包含了一个runtime.Error接口类型的值。runtime.Error接口内嵌了error接口并做了一点点扩展runtime包中有不少它的实现类型。
实际上此详情中的“panic”右边的内容正是这个panic包含的runtime.Error类型值的字符串表示形式。
此外panic详情中一般还会包含与它的引发原因有关的goroutine的代码执行信息。正如前述详情中的“goroutine 1 [running]”它表示有一个ID为1的goroutine在此panic被引发的时候正在运行。
注意这里的ID其实并不重要因为它只是Go语言运行时系统内部给予的一个goroutine编号我们在程序中是无法获取和更改的。
我们再看下一行“main.main()”表明了这个goroutine包装的go函数就是命令源码文件中的那个main函数也就是说这里的goroutine正是主goroutine。再下面的一行指出的就是这个goroutine中的哪一行代码在此panic被引发时正在执行。
这包含了此行代码在其所属的源码文件中的行数,以及这个源码文件的绝对路径。这一行最后的+0x3d代表的是此行代码相对于其所属函数的入口程序计数偏移量。不过一般情况下它的用处并不大。
最后“exit status 2”表明我的这个程序是以退出状态码2结束运行的。在大多数操作系统中只要退出状态码不是0都意味着程序运行的非正常结束。在Go语言中因panic导致程序结束运行的退出状态码一般都会是2。
综上所述我们从上边的这个panic详情可以看出作为此panic的引发根源的代码处于demo47.go文件中的第5行同时被包含在main包也就是命令源码文件所在的代码包的main函数中。
那么我的第一个问题也随之而来了。我今天的问题是从panic被引发到程序终止运行的大致过程是什么
这道题的典型回答是这样的。
我们先说一个大致的过程某个函数中的某行代码有意或无意地引发了一个panic。这时初始的panic详情会被建立起来并且该程序的控制权会立即从此行代码转移至调用其所属函数的那行代码上也就是调用栈中的上一级。
这也意味着,此行代码所属函数的执行随即终止。紧接着,控制权并不会在此有片刻的停留,它又会立即转移至再上一级的调用代码处。控制权如此一级一级地沿着调用栈的反方向传播至顶端,也就是我们编写的最外层函数那里。
这里的最外层函数指的是go函数对于主goroutine来说就是main函数。但是控制权也不会停留在那里而是被Go语言运行时系统收回。
随后程序崩溃并终止运行承载程序这次运行的进程也会随之死亡并消失。与此同时在这个控制权传播的过程中panic详情会被逐渐地积累和完善并会在程序终止之前被打印出来。
问题解析
panic可能是我们在无意间或者说一不小心引发的如前文所述的索引越界。这类panic是真正的、在我们意料之外的程序异常。不过除此之外我们还是可以有意地引发panic。
Go语言的内建函数panic是专门用于引发panic的。panic函数使程序开发者可以在程序运行期间报告异常。
注意这与从函数返回错误值的意义是完全不同的。当我们的函数返回一个非nil的错误值时函数的调用方有权选择不处理并且不处理的后果往往是不致命的。
这里的“不致命”的意思是,不至于使程序无法提供任何功能(也可以说僵死)或者直接崩溃并终止运行(也就是真死)。
但是当一个panic发生时如果我们不施加任何保护措施那么导致的直接后果就是程序崩溃就像前面描述的那样这显然是致命的。
为了更清楚地展示答案中描述的过程我编写了demo48.go文件。你可以先查看一下其中的代码再试着运行它并体会它打印的内容所代表的含义。
我在这里再提示一点。panic详情会在控制权传播的过程中被逐渐地积累和完善并且控制权会一级一级地沿着调用栈的反方向传播至顶端。
因此在针对某个goroutine的代码执行信息中调用栈底端的信息会先出现然后是上一级调用的信息以此类推最后才是此调用栈顶端的信息。
比如main函数调用了caller1函数而caller1函数又调用了caller2函数那么caller2函数中代码的执行信息会先出现然后是caller1函数中代码的执行信息最后才是main函数的信息。
goroutine 1 [running]:
main.caller2()
/Users/haolin/GeekTime/Golang_Puzzlers/src/puzzlers/article19/q1/demo48.go:22 +0x91
main.caller1()
/Users/haolin/GeekTime/Golang_Puzzlers/src/puzzlers/article19/q1/demo48.go:15 +0x66
main.main()
/Users/haolin/GeekTime/Golang_Puzzlers/src/puzzlers/article19/q1/demo48.go:9 +0x66
exit status 2
从panic到程序崩溃
好了到这里我相信你已经对panic被引发后的程序终止过程有一定的了解了。深入地了解此过程以及正确地解读panic详情应该是我们的必备技能这在调试Go程序或者为Go程序排查错误的时候非常重要。
总结
最近的两篇文章我们是围绕着panic函数、recover函数以及defer语句进行的。今天我主要讲了panic函数。这个函数是专门被用来引发panic的。panic也可以被称为运行时恐慌它是一种只能在程序运行期间抛出的程序异常。
Go语言的运行时系统可能会在程序出现严重错误时自动地抛出panic我们在需要时也可以通过调用panic函数引发panic。但不论怎样如果不加以处理panic就会导致程序崩溃并终止运行。
思考题
一个函数怎样才能把panic转化为error类型值并将其作为函数的结果值返回给调用方
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,176 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
22 panic函数、recover函数以及defer语句
你好我是郝林今天我们继续来聊聊panic函数、recover函数以及defer语句的内容。
我在前一篇文章提到过这样一个说法panic之中可以包含一个值用于简要解释引发此panic的原因。
如果一个panic是我们在无意间引发的那么其中的值只能由Go语言运行时系统给定。但是当我们使用panic函数有意地引发一个panic的时候却可以自行指定其包含的值。我们今天的第一个问题就是针对后一种情况提出的。
知识扩展
问题 1怎样让panic包含一个值以及应该让它包含什么样的值
这其实很简单在调用panic函数时把某个值作为参数传给该函数就可以了。由于panic函数的唯一一个参数是空接口也就是interface{})类型的,所以从语法上讲,它可以接受任何类型的值。
但是我们最好传入error类型的错误值或者其他的可以被有效序列化的值。这里的“有效序列化”指的是可以更易读地去表示形式转换。
还记得吗对于fmt包下的各种打印函数来说error类型值的Error方法与其他类型值的String方法是等价的它们的唯一结果都是string类型的。
我们在通过占位符%s打印这些值的时候它们的字符串表示形式分别都是这两种方法产出的。
一旦程序异常了,我们就一定要把异常的相关信息记录下来,这通常都是记到程序日志里。
我们在为程序排查错误的时候,首先要做的就是查看和解读程序日志;而最常用也是最方便的日志记录方式,就是记下相关值的字符串表示形式。
所以如果你觉得某个值有可能会被记到日志里那么就应该为它关联String方法。如果这个值是error类型的那么让它的Error方法返回你为它定制的字符串表示形式就可以了。
对于此你可能会想到fmt.Sprintf以及fmt.Fprintf这类可以格式化并输出参数的函数。
是的它们本身就可以被用来输出值的某种表示形式。不过它们在功能上肯定远不如我们自己定义的Error方法或者String方法。因此为不同的数据类型分别编写这两种方法总是首选。
可是这与传给panic函数的参数值又有什么关系呢其实道理是相同的。至少在程序崩溃的时候panic包含的那个值字符串表示形式会被打印出来。
另外我们还可以施加某种保护措施避免程序的崩溃。这个时候panic包含的值会被取出而在取出之后它一般都会被打印出来或者记录到日志里。
既然说到了应对panic的保护措施我们再来看下面一个问题。
问题 2怎样施加应对panic的保护措施从而避免程序崩溃
Go语言的内建函数recover专用于恢复panic或者说平息运行时恐慌。recover函数无需任何参数并且会返回一个空接口类型的值。
如果用法正确这个值实际上就是即将恢复的panic包含的值。并且如果这个panic是因我们调用panic函数而引发的那么该值同时也会是我们此次调用panic函数时传入的参数值副本。请注意这里强调用法的正确。我们先来看看什么是不正确的用法。
package main
import (
"fmt"
"errors"
)
func main() {
fmt.Println("Enter function main.")
// 引发panic。
panic(errors.New("something wrong"))
p := recover()
fmt.Printf("panic: %s\n", p)
fmt.Println("Exit function main.")
}
在上面这个main函数中我先通过调用panic函数引发了一个panic紧接着想通过调用recover函数恢复这个panic。可结果呢你一试便知程序依然会崩溃这个recover函数调用并不会起到任何作用甚至都没有机会执行。
还记得吗我提到过panic一旦发生控制权就会讯速地沿着调用栈的反方向传播。所以在panic函数调用之后的代码根本就没有执行的机会。
那如果我把调用recover函数的代码提前呢也就是说先调用recover函数再调用panic函数会怎么样呢
这显然也是不行的因为如果在我们调用recover函数时未发生panic那么该函数就不会做任何事情并且只会返回一个nil。
换句话说这样做毫无意义。那么到底什么才是正确的recover函数用法呢这就不得不提到defer语句了。
顾名思义defer语句就是被用来延迟执行代码的。延迟到什么时候呢这要延迟到该语句所在的函数即将执行结束的那一刻无论结束执行的原因是什么。
这与go语句有些类似一个defer语句总是由一个defer关键字和一个调用表达式组成。
这里存在一些限制有一些调用表达式是不能出现在这里的包括针对Go语言内建函数的调用表达式以及针对unsafe包中的函数的调用表达式。
顺便说一下对于go语句中的调用表达式限制也是一样的。另外在这里被调用的函数可以是有名称的也可以是匿名的。我们可以把这里的函数叫做defer函数或者延迟函数。注意被延迟执行的是defer函数而不是defer语句。
我刚才说了无论函数结束执行的原因是什么其中的defer函数调用都会在它即将结束执行的那一刻执行。即使导致它执行结束的原因是一个panic也会是这样。正因为如此我们需要联用defer语句和recover函数调用才能够恢复一个已经发生的panic。
我们来看一下经过修正的代码。
package main
import (
"fmt"
"errors"
)
func main() {
fmt.Println("Enter function main.")
defer func(){
fmt.Println("Enter defer function.")
if p := recover(); p != nil {
fmt.Printf("panic: %s\n", p)
}
fmt.Println("Exit defer function.")
}()
// 引发panic。
panic(errors.New("something wrong"))
fmt.Println("Exit function main.")
}
在这个main函数中我先编写了一条defer语句并在defer函数中调用了recover函数。仅当调用的结果值不为nil时也就是说只有panic确实已发生时我才会打印一行以“panic:”为前缀的内容。
紧接着我调用了panic函数并传入了一个error类型值。这里一定要注意我们要尽量把defer语句写在函数体的开始处因为在引发panic的语句之后的所有语句都不会有任何执行机会。
也只有这样defer函数中的recover函数调用才会拦截并恢复defer语句所属的函数及其调用的代码中发生的所有panic。
至此我向你展示了两个很典型的recover函数的错误用法以及一个基本的正确用法。
我希望你能够记住错误用法背后的缘由同时也希望你能真正地理解联用defer语句和recover函数调用的真谛。
在命令源码文件demo50.go中我把上述三种用法合并在了一段代码中。你可以运行该文件并体会各种用法所产生的不同效果。
下面我再来多说一点关于defer语句的事情。
问题 3如果一个函数中有多条defer语句那么那几个defer函数调用的执行顺序是怎样的
如果只用一句话回答的话那就是在同一个函数中defer函数调用的执行顺序与它们分别所属的defer语句的出现顺序更严谨地说是执行顺序完全相反。
当一个函数即将结束执行时其中的写在最下边的defer函数调用会最先执行其次是写在它上边、与它的距离最近的那个defer函数调用以此类推最上边的defer函数调用会最后一个执行。
如果函数中有一条for语句并且这条for语句中包含了一条defer语句那么显然这条defer语句的执行次数就取决于for语句的迭代次数。
并且同一条defer语句每被执行一次其中的defer函数调用就会产生一次而且这些函数调用同样不会被立即执行。
那么问题来了这条for语句中产生的多个defer函数调用会以怎样的顺序执行呢
为了彻底搞清楚我们需要弄明白defer语句执行时发生的事情。
其实也并不复杂在defer语句每次执行的时候Go语言会把它携带的defer函数及其参数值另行存储到一个链表中。
这个链表与该defer语句所属的函数是对应的并且它是先进后出FILO相当于一个栈。
在需要执行某个函数中的defer函数调用的时候Go语言会先拿到对应的链表然后从该链表中一个一个地取出defer函数及其参数值并逐个执行调用。
这正是我说“defer函数调用与其所属的defer语句的执行顺序完全相反”的原因了。
下面该你出场了我在demo51.go文件中编写了一个与本问题有关的示例其中的核心代码很简单只有几行而已。
我希望你先查看代码,然后思考并写下该示例被运行时,会打印出哪些内容。
如果你实在想不出来,那么也可以先运行示例,再试着解释打印出的内容。总之,你需要完全搞明白那几行内容为什么会以那样的顺序出现的确切原因。
总结
我们这两期的内容主要讲了两个函数和一条语句。recover函数专用于恢复panic并且调用即恢复。
它在被调用时会返回一个空接口类型的结果值。如果在调用它时并没有panic发生那么这个结果值就会是nil。
而如果被恢复的panic是我们通过调用panic函数引发的那么它返回的结果值就会是我们传给panic函数参数值的副本。
对recover函数的调用只有在defer语句中才能真正起作用。defer语句是被用来延迟执行代码的。
更确切地说它会让其携带的defer函数的调用延迟执行并且会延迟到该defer语句所属的函数即将结束执行的那一刻。
在同一个函数中延迟执行的defer函数调用会与它们分别所属的defer语句的执行顺序完全相反。还要注意同一条defer语句每被执行一次就会产生一个延迟执行的defer函数调用。
这种情况在defer语句与for语句联用时经常出现。这时更要关注for语句中同一条defer语句产生的多个defer函数调用的实际执行顺序。
以上这些就是关于Go语言中特殊的程序异常及其处理方式的核心知识。这里边可以衍生出很多面试题目。
思考题
我们可以在defer函数中恢复panic那么可以在其中引发panic吗
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,111 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
23 测试的基本规则和流程 (上)
你好,我是郝林,今天我分享的主题是:测试的基本规则和流程(上)。
你很棒已经学完了本专栏最大的一个模块这涉及了Go语言的所有内建数据类型以及非常有特色的那些流程和语句。
你已经完全可以去独立编写各种各样的Go程序了。如果忘了什么回到之前的文章再复习一下就好了。
在接下来的日子里我将带你去学习在Go语言编程进阶的道路上必须掌握的附加知识比如Go程序测试、程序监测以及Go语言标准库中各种常用代码包的正确用法。
从上个世纪到今日今时,程序员们,尤其是国内的程序员们,都对编写程序乐此不疲,甚至废寝忘食(比如我自己就是一个例子)。
因为这是我们普通人训练自我、改变生活、甚至改变世界的一种特有的途径。不过,同样是程序,我们却往往对编写用于测试的程序敬而远之。这是为什么呢?
我个人感觉从人的本性来讲我们都或多或少会否定“对自我的否定”。我们不愿意看到我们编写的程序有Bug即程序错误或缺陷尤其是刚刚倾注心血编写的并且信心满满交付的程序。
不过,我想说的是,人是否会进步以及进步得有多快,依赖的恰恰就是对自我的否定,这包括否定的深刻与否,以及否定自我的频率如何。这其实就是“不破不立”这个词表达的含义。
对于程序和软件来讲,尽早发现问题、修正问题其实非常重要。在这个网络互联的大背景下,我们所做的程序、工具或者软件产品往往可以被散布得更快、更远。但是,与此同时,它们的错误和缺陷也会是这样,并且可能在短时间内就会影响到成千上万甚至更多的用户。
你可能会说:“在开源模式下这就是优势啊,我就是要让更多的人帮我发现错误甚至修正错误,我们还可以一起协作、共同维护程序。”但这其实是两码事,协作者往往是由早期或核心的用户转换过来的,但绝对不能说程序的用户就肯定会成为协作者。
当有很多用户开始对程序抱怨的时候,很可能就预示着你对此的人设要崩塌了。你会发现,或者总有一天会发现,越是人们关注和喜爱的程序,它的测试(尤其是自动化的测试)做得就越充分,测试流程就越规范。
即使你想众人拾柴火焰高,那也得先让别人喜欢上你的程序。况且,对于优良的程序和软件来说,测试必然是非常受重视的一个环节。所以,尽快用测试为你的程序建起堡垒吧!
对于程序或软件的测试也分很多种比如单元测试、API测试、集成测试、灰度测试等等。我在本模块会主要针对单元测试进行讲解。
前导内容go程序测试基础知识
我们来说一下单元测试,它又称程序员测试。顾名思义,这就是程序员们本该做的自我检查工作之一。
Go语言的缔造者们从一开始就非常重视程序测试并且为Go程序的开发者们提供了丰富的API和工具。利用这些API和工具我们可以创建测试源码文件并为命令源码文件和库源码文件中的程序实体编写测试用例。
在Go语言中一个测试用例往往会由一个或多个测试函数来代表不过在大多数情况下每个测试用例仅用一个测试函数就足够了。测试函数往往用于描述和保障某个程序实体的某方面功能比如该功能在正常情况下会因什么样的输入产生什么样的输出又比如该功能会在什么情况下报错或表现异常等等。
我们可以为Go程序编写三类测试功能测试test、基准测试benchmark也称性能测试以及示例测试example
对于前两类测试,从名称上你就应该可以猜到它们的用途。而示例测试严格来讲也是一种功能测试,只不过它更关注程序打印出来的内容。
一般情况下,一个测试源码文件只会针对于某个命令源码文件,或库源码文件(以下简称被测源码文件)做测试,所以我们总会(并且应该)把它们放在同一个代码包内。
测试源码文件的主名称应该以被测源码文件的主名称为前导并且必须以“_test”为后缀。例如如果被测源码文件的名称为demo52.go那么针对它的测试源码文件的名称就应该是demo52_test.go。
每个测试源码文件都必须至少包含一个测试函数。并且,从语法上讲,每个测试源码文件中,都可以包含用来做任何一类测试的测试函数,即使把这三类测试函数都塞进去也没有问题。我通常就是这么做的,只要把控好测试函数的分组和数量就可以了。
我们可以依据这些测试函数针对的不同程序实体,把它们分成不同的逻辑组,并且,利用注释以及帮助类的变量或函数来做分割。同时,我们还可以依据被测源码文件中程序实体的先后顺序,来安排测试源码文件中测试函数的顺序。
此外不仅仅对测试源码文件的名称对于测试函数的名称和签名Go语言也是有明文规定的。你知道这个规定的内容吗
所以我们今天的问题就是Go语言对测试函数的名称和签名都有哪些规定
这里我给出的典型回答是下面三个内容。
对于功能测试函数来说其名称必须以Test为前缀并且参数列表中只应有一个*testing.T类型的参数声明。
对于性能测试函数来说其名称必须以Benchmark为前缀并且唯一参数的类型必须是*testing.B类型的。
对于示例测试函数来说其名称必须以Example为前缀但对函数的参数列表没有强制规定。
问题解析
我问这个问题的目的一般有两个。
第一个目的当然是考察Go程序测试的基本规则。如果你经常编写测试源码文件那么这道题应该是很容易回答的。
第二个目的是作为一个引子引出第二个问题go test命令执行的主要测试流程是什么不过在这里我就不问你了我直接说一下答案。
我们首先需要记住一点只有测试源码文件的名称对了测试函数的名称和签名也对了当我们运行go test命令的时候其中的测试代码才有可能被运行。
go test命令在开始运行时会先做一些准备工作比如确定内部需要用到的命令检查我们指定的代码包或源码文件的有效性以及判断我们给予的标记是否合法等等。
在准备工作顺利完成之后go test命令就会针对每个被测代码包依次地进行构建、执行包中符合要求的测试函数清理临时文件打印测试结果。这就是通常情况下的主要测试流程。
请注意上述的“依次”二字。对于每个被测代码包go test命令会串行地执行测试流程中的每个步骤。
但是,为了加快测试速度,它通常会并发地对多个被测代码包进行功能测试,只不过,在最后打印测试结果的时候,它会依照我们给定的顺序逐个进行,这会让我们感觉到它是在完全串行地执行测试流程。
另一方面由于并发的测试会让性能测试的结果存在偏差所以性能测试一般都是串行进行的。更具体地说只有在所有构建步骤都做完之后go test命令才会真正地开始进行性能测试。
并且,下一个代码包性能测试的进行,总会等到上一个代码包性能测试的结果打印完成才会开始,而且性能测试函数的执行也都会是串行的。
一旦清楚了Go程序测试的具体过程我们的一些疑惑就自然有了答案。比如那个名叫testIntroduce的测试函数为什么没执行又比如为什么即使是简单的性能测试执行起来也会比功能测试慢等等。
总结
在本篇文章的一开始,我就试图向你阐释程序测试的重要性。在我经历的公司中起码有一半都不重视程序测试,或者说没有精力去做程序测试。
尤其是中小型的公司,他们往往完全依靠软件质量保障团队,甚至真正的用户去帮他们测试。在这些情况下,软件错误或缺陷的发现、反馈和修复的周期通常会很长,成本也会很大,也许还会造成很不好的影响。
Go语言是一门很重视程序测试的编程语言它不但自带了testing包还有专用于程序测试的命令go test。我们要想真正用好一个工具就需要先了解它的核心逻辑。所以我今天问你的第一个问题就是关于go test命令的基本规则和主要流程的。在知道这些之后也许你对Go程序测试就会进入更深层次的了解。
思考题
除了本文中提到的你还知道或用过testing.T类型和testing.B类型的哪些方法它们都是做什么用的你可以给我留言我们一起讨论。
感谢你的收听,我们下次再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,161 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
24 测试的基本规则和流程(下)
你好,我是郝林。今天我分享的主题是测试的基本规则和流程的(下)篇。
Go语言是一门很重视程序测试的编程语言所以在上一篇中我与你再三强调了程序测试的重要性同时也介绍了关于go test命令的基本规则和主要流程的内容。今天我们继续分享测试的基本规则和流程。本篇代码和指令较多你可以点击文章查看原文。
知识扩展
问题 1怎样解释功能测试的测试结果
我们先来看下面的测试命令和结果:
$ go test puzzlers/article20/q2
ok puzzlers/article20/q2 0.008s
以$符号开头表明此行展现的是我输入的命令。在这里我输入了go test puzzlers/article20/q2这表示我想对导入路径为puzzlers/article20/q2的代码包进行测试。代码下面一行就是此次测试的简要结果。
这个简要结果有三块内容。最左边的ok表示此次测试成功也就是说没有发现测试结果不如预期的情况。
当然了这里全由我们编写的测试代码决定我们总是认定测试代码本身没有Bug并且忠诚地落实了我们的测试意图。在测试结果的中间显示的是被测代码包的导入路径。
而在最右边展现的是此次对该代码包的测试所耗费的时间这里显示的0.008s即8毫秒。不过当我们紧接着第二次运行这个命令的时候输出的测试结果会略有不同如下所示
$ go test puzzlers/article20/q2
ok puzzlers/article20/q2 (cached)
可以看到,结果最右边的不再是测试耗时,而是(cached)。这表明由于测试代码与被测代码都没有任何变动所以go test命令直接把之前缓存测试成功的结果打印出来了。
go命令通常会缓存程序构建的结果以便在将来的构建中重用。我们可以通过运行go env GOCACHE命令来查看缓存目录的路径。缓存的数据总是能够正确地反映出当时的各种源码文件、构建环境、编译器选项等等的真实情况。
一旦有任何变动缓存数据就会失效go命令就会再次真正地执行操作。所以我们并不用担心打印出的缓存数据不是实时的结果。go命令会定期地删除最近未使用的缓存数据但是如果你想手动删除所有的缓存数据运行一下go clean -cache命令就好了。
对于测试成功的结果go命令也是会缓存的。运行go clean -testcache将会删除所有的测试结果缓存。不过这样做肯定不会删除任何构建结果缓存。
此外设置环境变量GODEBUG的值也可以稍稍地改变go命令的缓存行为。比如设置值为gocacheverify=1将会导致go命令绕过任何的缓存数据而真正地执行操作并重新生成所有结果然后再去检查新的结果与现有的缓存数据是否一致。
总之我们并不用在意缓存数据的存在因为它们肯定不会妨碍go test命令打印正确的测试结果。
你可能会问如果测试失败命令打印的结果将会是怎样的如果功能测试函数的那个唯一参数被命名为t那么当我们在其中调用t.Fail方法时虽然当前的测试函数会继续执行下去但是结果会显示该测试失败。如下所示
$ go test puzzlers/article20/q2
--- FAIL: TestFail (0.00s)
demo53_test.go:49: Failed.
FAIL
FAIL puzzlers/article20/q2 0.007s
我们运行的命令与之前是相同的但是我新增了一个功能测试函数TestFail并在其中调用了t.Fail方法。测试结果显示对被测代码包的测试由于TestFail函数的测试失败而宣告失败。
注意对于失败测试的结果go test命令并不会进行缓存所以这种情况下的每次测试都会产生全新的结果。另外如果测试失败了那么go test命令将会导致失败的测试函数中的常规测试日志一并被打印出来。
在这里的测试结果中之所以显示了“demo53_test.go:49: Failed.”这一行是因为我在TestFail函数中的调用表达式t.Fail()的下边编写了代码t.Log("Failed.")。
t.Log方法以及t.Logf方法的作用就是打印常规的测试日志只不过当测试成功的时候go test命令就不会打印这类日志了。如果你想在测试结果中看到所有的常规测试日志那么可以在运行go test命令的时候加入标记-v。
若我们想让某个测试函数在执行的过程中立即失败则可以在该函数中调用t.FailNow方法。
我在下面把TestFail函数中的t.Fail()改为t.FailNow()。
与t.Fail()不同在t.FailNow()执行之后,当前函数会立即终止执行。换句话说,该行代码之后的所有代码都会失去执行机会。在这样修改之后,我再次运行上面的命令,得到的结果如下:
--- FAIL: TestFail (0.00s)
FAIL
FAIL puzzlers/article20/q2 0.008s
显然,之前显示在结果中的常规测试日志并没有出现在这里。
顺便说一下如果你想在测试失败的同时打印失败测试日志那么可以直接调用t.Error方法或者t.Errorf方法。
前者相当于t.Log方法和t.Fail方法的连续调用而后者也与之类似只不过它相当于先调用了t.Logf方法。
除此之外还有t.Fatal方法和t.Fatalf方法它们的作用是在打印失败错误日志之后立即终止当前测试函数的执行并宣告测试失败。更具体地说这相当于它们在最后都调用了t.FailNow方法。
好了,到此为止,你是不是已经会解读功能测试的测试结果了呢?
问题 2怎样解释性能测试的测试结果
性能测试与功能测试的结果格式有很多相似的地方。我们在这里仅关注前者的特殊之处。请看下面的打印结果。
$ go test -bench=. -run=^$ puzzlers/article20/q3
goos: darwin
goarch: amd64
pkg: puzzlers/article20/q3
BenchmarkGetPrimes-8 500000 2314 ns/op
PASS
ok puzzlers/article20/q3 1.192s
我在运行go test命令的时候加了两个标记。第一个标记及其值为-bench=.,只有有了这个标记,命令才会进行性能测试。该标记的值.表明需要执行任意名称的性能测试函数当然了函数名称还是要符合Go程序测试的基本规则的。
第二个标记及其值是-run=^$,这个标记用于表明需要执行哪些功能测试函数,这同样也是以函数名称为依据的。该标记的值^$意味着:只执行名称为空的功能测试函数,换句话说,不执行任何功能测试函数。
你可能已经看出来了这两个标记的值都是正则表达式。实际上它们只能以正则表达式为值。此外如果运行go test命令的时候不加-run标记那么就会使它执行被测代码包中的所有功能测试函数。
再来看测试结果重点说一下倒数第三行的内容。BenchmarkGetPrimes-8被称为单个性能测试的名称它表示命令执行了性能测试函数BenchmarkGetPrimes并且当时所用的最大P数量为8。
最大P数量相当于可以同时运行goroutine的逻辑CPU的最大个数。这里的逻辑CPU也可以被称为CPU核心但它并不等同于计算机中真正的CPU核心只是Go语言运行时系统内部的一个概念代表着它同时运行goroutine的能力。
顺便说一句一台计算机的CPU核心的个数意味着它能在同一时刻执行多少条程序指令代表着它并行处理程序指令的能力。
我们可以通过调用 runtime.GOMAXPROCS函数改变最大P数量也可以在运行go test命令时加入标记-cpu来设置一个最大P数量的列表以供命令在多次测试时使用。
至于怎样使用这个标记以及go test命令执行的测试流程会因此做出怎样的改变我们在下一篇文章中再讨论。
在性能测试名称右边的是go test命令最后一次执行性能测试函数即BenchmarkGetPrimes函数的时候被测函数即GetPrimes函数被执行的实际次数。这是什么意思呢
go test命令在执行性能测试函数的时候会给它一个正整数若该测试函数的唯一参数的名称为b则该正整数就由b.N代表。我们应该在测试函数中配合着编写代码比如
for i := 0; i < b.N; i++ {
GetPrimes(1000)
}
我在一个会迭代b.N次的循环中调用了GetPrimes函数并给予它参数值1000go test命令会先尝试把b.N设置为1然后执行测试函数
如果测试函数的执行时间没有超过上限此上限默认为1秒那么命令就会改大b.N的值然后再次执行测试函数如此往复直到这个时间大于或等于上限为止
当某次执行的时间大于或等于上限时我们就说这是命令此次对该测试函数的最后一次执行这时的b.N的值就会被包含在测试结果中也就是上述测试结果中的500000
我们可以简称该值为执行次数但要注意它指的是被测函数的执行次数而不是性能测试函数的执行次数
最后再看这个执行次数的右边2314 ns/op表明单次执行GetPrimes函数的平均耗时为2314纳秒这其实就是通过将最后一次执行测试函数时的执行时间除以被测函数的执行次数而得出的
性能测试结果的基本解读
以上这些就是对默认情况下的性能测试结果的基本解读你看明白了吗
总结
注意对于功能测试和性能测试命令执行测试流程的方式会有些不同另外一个重要的问题是我们在与go test命令交互时怎样解读它提供给我们的信息只有解读正确你才能知道测试的成功与否失败的具体原因以及严重程度等等
除此之外对于性能测试你还需要关注命令输出的计算资源使用提示以及各种性能度量
这两篇的文章中我们一起学习了不少东西但是其实还不够我们只是探讨了go test命令以及testing包的基本使用方式
在下一篇我们还会讨论更高级的内容这将涉及go test命令的各种标记testing包的更多API以及更复杂的测试结果
思考题
在编写示例测试函数的时候我们怎样指定预期的打印内容
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,209 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
25 更多的测试手法
在前面的文章中我们一起学习了Go程序测试的基础知识和基本测试手法。这主要包括了Go程序测试的基本规则和主要流程、testing.T类型和testing.B类型的常用方法、go test命令的基本使用方式、常规测试结果的解读等等。
在本篇文章我会继续为你讲解更多更高级的测试方法。这会涉及testing包中更多的API、go test命令支持的更多标记更加复杂的测试结果以及测试覆盖度分析等等。
前导内容:-cpu的功能
续接前文。我在前面提到了go test命令的标记-cpu它是用来设置测试执行最大P数量的列表的。
复习一下我在讲go语句的时候说过这里的P是processor的缩写每个processor都是一个可以承载若干个G且能够使这些G适时地与M进行对接并得到真正运行的中介。
正是由于P的存在G和M才可以呈现出多对多的关系并能够及时、灵活地进行组合和分离。
这里的G就是goroutine的缩写可以被理解为Go语言自己实现的用户级线程。M即为machine的缩写代表着系统级线程或者说操作系统内核级别的线程。
Go语言并发编程模型中的P正是goroutine的数量能够数十万计的关键所在。P的数量意味着Go程序背后的运行时系统中会有多少个用于承载可运行的G的队列存在。
每一个队列都相当于一条流水线它会源源不断地把可运行的G输送给空闲的M并使这两者对接。
一旦对接完成被对接的G就真正地运行在操作系统的内核级线程之上了。每条流水线之间虽然会有联系但都是独立运作的。
因此最大P数量就代表着Go语言运行时系统同时运行goroutine的能力也可以被视为其中逻辑CPU的最大个数。而go test命令的-cpu标记正是用于设置这个最大个数的。
也许你已经知道在默认情况下最大P数量就等于当前计算机CPU核心的实际数量。
当然了前者也可以大于或者小于后者如此可以在一定程度上模拟拥有不同的CPU核心数的计算机。
所以,也可以说,使用-cpu标记可以模拟被测程序在计算能力不同计算机中的表现。
现在,你已经知道了-cpu标记的用途及其背后的含义。那么它的具体用法以及对go test命令的影响你是否也清楚呢
我们今天的问题是:怎样设置-cpu标记的值以及它会对测试流程产生什么样的影响
这里的典型回答是:
标记-cpu的值应该是一个正整数的列表该列表的表现形式为以英文半角逗号分隔的多个整数字面量比如1,2,4。
针对于此值中的每一个正整数go test命令都会先设置最大P数量为该数然后再执行测试函数。
如果测试函数有多个那么go test命令会依照此方式逐个执行。
以1,2,4为例go test命令会先以1,2,4为最大P数量分别去执行第一个测试函数之后再用同样的方式执行第二个测试函数以此类推。
问题解析
实际上,不论我们是否追加了-cpu标记go test命令执行测试函数时流程都是相同的只不过具体执行步骤会略有不同。
go test命令在进行准备工作的时候会读取-cpu标记的值并把它转换为一个以int为元素类型的切片我们也可以称它为逻辑CPU切片。
如果该命令发现我们并没有追加这个标记那么就会让逻辑CPU切片只包含一个元素值即最大P数量的默认值也就是当前计算机CPU核心的实际数量。
在准备执行某个测试函数的时候无论该函数是功能测试函数还是性能测试函数go test命令都会迭代逻辑CPU切片并且在每次迭代时先依据当前的元素值设置最大P数量然后再去执行测试函数。
注意对于性能测试函数来说这里可能不只执行了一次。你还记得测试函数的执行时间上限以及那个由b.N代表的被测程序的执行次数吗
如果你忘了那么可以再复习一下上篇文章中的第二个扩展问题。概括来讲go test命令每一次对性能测试函数的执行都是一个探索的过程。它会在测试函数的执行时间上限不变的前提下尝试找到被测程序的最大执行次数。
在这个过程中,性能测试函数可能会被执行多次。为了以后描述方便,我们把这样一个探索的过程称为:对性能测试函数的一次探索式执行,这其中包含了对该函数的若干次执行,当然,肯定也包括了对被测程序更多次的执行。
说到多次执行测试函数,我们就不得不提及另外一个标记,即-count。-count标记是专门用于重复执行测试函数的。它的值必须大于或等于0并且默认值为1。
如果我们在运行go test命令的时候追加了-count 5那么对于每一个测试函数命令都会在预设的不同条件下比如不同的最大P数量下分别重复执行五次。
如果我们把前文所述的-cpu标记、-count标记以及探索式执行联合起来看就可以用一个公式来描述单个性能测试函数在go test命令的一次运行过程中的执行次数
性能测试函数的执行次数 = `-cpu`标记的值中正整数的个数 x `-count`标记的值 x 探索式执行中测试函数的实际执行次数
对于功能测试函数来说,这个公式会更加简单一些,即:
功能测试函数的执行次数 = `-cpu`标记的值中正整数的个数 x `-count`标记的值
(测试函数的实际执行次数)
看完了这两个公式我想你也许遇到过这种情况在对Go程序执行某种自动化测试的过程中测试日志会显得特别多而且好多都是重复的。
这时,我们首先就应该想到,上面这些导致测试函数多次执行的标记和流程。我们往往需要检查这些标记的使用是否合理、日志记录是否有必要等等,从而对测试日志进行精简。
比如对于功能测试函数来说我们通常没有必要重复执行它即使是在不同的最大P数量下也是如此。注意这里所说的重复执行指的是在被测程序的输入比如说被测函数的参数值相同情况下的多次执行。
有些时候,在输入完全相同的情况下,被测程序会因其他外部环境的不同,而表现出不同的行为。这时我们需要考虑的往往应该是:这个程序在设计上是否合理,而不是通过重复执行测试来检测风险。
还有些时候我们的程序会无法避免地依赖一些外部环境比如数据库或者其他服务。这时我们依然不应该让测试的反复执行成为检测手段而应该在测试中通过仿造mock外部环境来规避掉它们的不确定性。
其实,单元测试的意思就是:对单一的功能模块进行边界清晰的测试,并且不掺杂任何对外部环境的检测。这也是“单元”二字要表达的主要含义。
正好相反,对于性能测试函数来说,我们常常需要反复地执行,并以此试图抹平当时的计算资源调度的细微差别对被测程序性能的影响。通过-cpu标记我们还能够模拟被测程序在计算能力不同计算机中的性能表现。
不过要注意这里设置的最大P数量最好不要超过当前计算机CPU核心的实际数量。因为一旦超出计算机实际的并行处理能力Go程序在性能上就无法再得到显著地提升了。
这就像一个漏斗不论我们怎样灌水水的漏出速度总是有限的。更何况为了管理过多的PGo语言运行时系统还会耗费额外的计算资源。
显然,上述模拟得出的程序性能一定是不准确的。不过,这或多或少可以作为一个参考,因为,这样模拟出的性能一般都会低于程序在计算环境中的实际性能。
好了,关于-cpu标记以及由此引出的-count标记和测试函数多次执行的问题我们就先聊到这里。不过为了让你再巩固一下前面的知识我现在给出一段测试结果
pkg: puzzlers/article21/q1
BenchmarkGetPrimesWith100-2 10000000 218 ns/op
BenchmarkGetPrimesWith100-2 10000000 215 ns/op
BenchmarkGetPrimesWith100-4 10000000 215 ns/op
BenchmarkGetPrimesWith100-4 10000000 216 ns/op
BenchmarkGetPrimesWith10000-2 50000 31523 ns/op
BenchmarkGetPrimesWith10000-2 50000 32372 ns/op
BenchmarkGetPrimesWith10000-4 50000 32065 ns/op
BenchmarkGetPrimesWith10000-4 50000 31936 ns/op
BenchmarkGetPrimesWith1000000-2 300 4085799 ns/op
BenchmarkGetPrimesWith1000000-2 300 4121975 ns/op
BenchmarkGetPrimesWith1000000-4 300 4112283 ns/op
BenchmarkGetPrimesWith1000000-4 300 4086174 ns/op
现在我希望让你反推一下我在运行go test命令时追加的-cpu标记和-count标记的值都是什么。反推之后你可以用实验的方式进行验证。
知识扩展
问题1-parallel标记的作用是什么
我们在运行go test命令的时候可以追加标记-parallel该标记的作用是设置同一个被测代码包中的功能测试函数的最大并发执行数。该标记的默认值是测试运行时的最大P数量这可以通过调用表达式runtime.GOMAXPROCS(0)获得)。
我在上篇文章中已经说过,对于功能测试,为了加快测试速度,命令通常会并发地测试多个被测代码包。
但是在默认情况下对于同一个被测代码包中的多个功能测试函数命令会串行地执行它们。除非我们在一些功能测试函数中显式地调用t.Parallel方法。
这个时候这些包含了t.Parallel方法调用的功能测试函数就会被go test命令并发地执行而并发执行的最大数量正是由-parallel标记值决定的。不过要注意同一个功能测试函数的多次执行之间一定是串行的。
你可以运行命令go test -v puzzlers/article21/q2或者go test -count=2 -v puzzlers/article21/q2查看测试结果然后仔细地体会一下。
最后,强调一下,-parallel标记对性能测试是无效的。当然了对于性能测试来说也是可以并发进行的不过机制上会有所不同。
概括地讲这涉及了b.RunParallel方法、b.SetParallelism方法和-cpu标记的联合运用。如果想进一步了解你可以查看testing代码包的文档。
问题2性能测试函数中的计时器是做什么用的
如果你看过testing包的文档那么很可能会发现其中的testing.B类型有这么几个指针方法StartTimer、StopTimer和ResetTimer。这些方法都是用于操作当前的性能测试函数专属的计时器的。
所谓的计时器是一个逻辑上的概念它其实是testing.B类型中一些字段的统称。这些字段用于记录当前测试函数在当次执行过程中耗费的时间、分配的堆内存的字节数以及分配次数。
我在下面会以测试函数的执行时间为例,来说明此计时器的用法。不过,你需要知道的是,这三个方法在开始记录、停止记录或重新记录执行时间的同时,也会对堆内存分配字节数和分配次数的记录起到相同的作用。
实际上go test命令本身就会用到这样的计时器。当准备执行某个性能测试函数的时候命令会重置并启动该函数专属的计时器。一旦这个函数执行完毕命令又会立即停止这个计时器。
如此一来命令就能够准确地记录下我们在前面多次提到的测试函数执行时间了。然后命令就会将这个时间与执行时间上限进行比较并决定是否在改大b.N的值之后再次执行测试函数。
还记得吗?这就是我在前面讲过的,对性能测试函数的探索式执行。显然,如果我们在测试函数中自行操作这个计时器,就一定会影响到这个探索式执行的结果。也就是说,这会让命令找到被测程序的最大执行次数有所不同。
请看在demo57_test.go文件中的那个性能测试函数如下所示
func BenchmarkGetPrimes(b *testing.B) {
b.StopTimer()
time.Sleep(time.Millisecond * 500) // 模拟某个耗时但与被测程序关系不大的操作。
max := 10000
b.StartTimer()
for i := 0; i < b.N; i++ {
GetPrimes(max)
}
}
需要注意的是该函数体中的前四行代码我先停止了当前测试函数的计时器然后通过调用time.Sleep函数模拟了一个比较耗时的额外操作并且在给变量max赋值之后又启动了该计时器
你可以想象一下我们需要耗费额外的时间去确定max变量的值虽然在后面它会被传入GetPrimes函数但是针对GetPrimes函数本身的性能测试并不应该包含确定参数值的过程
因此我们需要把这个过程所耗费的时间从当前测试函数的执行时间中去除掉这样就能够避免这一过程对测试结果的不良影响了
每当这个测试函数执行完毕后go test命令拿到的执行时间都只应该包含调用GetPrimes函数所耗费的那些时间只有依据这个时间做出的后续判断以及找到被测程序的最大执行次数才是准确的
在性能测试函数中我们可以通过对b.StartTimer和b.StopTimer方法的联合运用再去除掉任何一段代码的执行时间
相比之下b.ResetTimer方法的灵活性就要差一些了它只能用于去除在调用它之前那些代码的执行时间不过无论在调用它的时候计时器是不是正在运行它都可以起作用
总结
在本篇文章中我假设你已经理解了上一篇文章涉及的内容因此我在这里围绕着几个可以被go test命令接受的重要标记进一步地阐释了功能测试和性能测试在不同条件下的测试流程
其中比较重要的有最大P数量的含义-cpu标记的作用及其对测试流程的影响针对性能测试函数的探索式执行的意义测试函数执行时间的计算方法以及-count标记的用途和适用场景
当然了学会怎样并发地执行多个功能测试函数也是很有必要的这需要联合运用-parallel标记和功能测试函数中的t.Parallel方法
另外你还需要知道性能测试函数专属计时器的内涵以及那三个方法对计时器起到的作用通过对计时器的操作我们可以达到精确化性能测试函数的执行时间的目的从而帮助go test命令找到被测程序真实的最大执行次数
到这里我们对Go程序测试的讨论就要告一段落了我们需要搞清楚的是go test命令所执行的基本测试流程是什么以及我们可以通过什么样的手段让测试流程产生变化从而满足我们的测试需求并为我们提供更加充分的测试结果
希望你已经从中学到了一些东西并能够学以致用
思考题
-benchmem标记和-benchtime标记的作用分别是什么-
怎样在测试的时候开启测试覆盖度分析如果开启会有什么副作用吗
关于这两个问题你都可以参考官方的go命令文档中的测试标记部分进行回答
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,217 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
26 sync.Mutex与sync.RWMutex
我在前面用20多篇文章为你详细地剖析了Go语言本身的一些东西这包括了基础概念、重要语法、高级数据类型、特色语句、测试方案等等。
这些都是Go语言为我们提供的最核心的技术。我想这已经足够让你对Go语言有一个比较深刻的理解了。
从本篇文章开始我们将一起探讨Go语言自带标准库中一些比较核心的代码包。这会涉及这些代码包的标准用法、使用禁忌、背后原理以及周边的知识。
既然Go语言是以独特的并发编程模型傲视群雄的语言那么我们就先来学习与并发编程关系最紧密的代码包。
前导内容: 竞态条件、临界区与同步工具
我们首先要看的就是sync包。这里的“sync”的中文意思是“同步”。我们下面就从同步讲起。
相比于Go语言宣扬的“用通讯的方式共享数据”通过共享数据的方式来传递信息和协调线程运行的做法其实更加主流毕竟大多数的现代编程语言都是用后一种方式作为并发编程的解决方案的这种方案的历史非常悠久恐怕可以追溯到上个世纪多进程编程时代伊始了
一旦数据被多个线程共享那么就很可能会产生争用和冲突的情况。这种情况也被称为竞态条件race condition这往往会破坏共享数据的一致性。
共享数据的一致性代表着某种约定,即:多个线程对共享数据的操作总是可以达到它们各自预期的效果。
如果这个一致性得不到保证,那么将会影响到一些线程中代码和流程的正确执行,甚至会造成某种不可预知的错误。这种错误一般都很难发现和定位,排查起来的成本也是非常高的,所以一定要尽量避免。
举个例子同时有多个线程连续向同一个缓冲区写入数据块如果没有一个机制去协调这些线程的写入操作的话那么被写入的数据块就很可能会出现错乱。比如在线程A还没有写完一个数据块的时候线程B就开始写入另外一个数据块了。
显然,这两个数据块中的数据会被混在一起,并且已经很难分清了。因此,在这种情况下,我们就需要采取一些措施来协调它们对缓冲区的修改。这通常就会涉及同步。
概括来讲,同步的用途有两个,一个是避免多个线程在同一时刻操作同一个数据块,另一个是协调多个线程,以避免它们在同一时刻执行同一个代码块。
由于这样的数据块和代码块的背后都隐含着一种或多种资源比如存储资源、计算资源、I/O资源、网络资源等等所以我们可以把它们看做是共享资源或者说共享资源的代表。我们所说的同步其实就是在控制多个线程对共享资源的访问。
一个线程在想要访问某一个共享资源的时候,需要先申请对该资源的访问权限,并且只有在申请成功之后,访问才能真正开始。
而当线程对共享资源的访问结束时,它还必须归还对该资源的访问权限,若要再次访问仍需申请。
你可以把这里所说的访问权限想象成一块令牌,线程一旦拿到了令牌,就可以进入指定的区域,从而访问到资源,而一旦线程要离开这个区域了,就需要把令牌还回去,绝不能把令牌带走。
如果针对某个共享资源的访问令牌只有一块,那么在同一时刻,就最多只能有一个线程进入到那个区域,并访问到该资源。
这时我们可以说多个并发运行的线程对这个共享资源的访问是完全串行的。只要一个代码片段需要实现对共享资源的串行化访问就可以被视为一个临界区critical section也就是我刚刚说的由于要访问到资源而必须进入的那个区域。
比如,在我前面举的那个例子中,实现了数据块写入操作的代码就共同组成了一个临界区。如果针对同一个共享资源,这样的代码片段有多个,那么它们就可以被称为相关临界区。
它们可以是一个内含了共享数据的结构体及其方法,也可以是操作同一块共享数据的多个函数。临界区总是需要受到保护的,否则就会产生竞态条件。施加保护的重要手段之一,就是使用实现了某种同步机制的工具,也称为同步工具。
(竞态条件、临界区与同步工具)
在Go语言中可供我们选择的同步工具并不少。其中最重要且最常用的同步工具当属互斥量mutual exclusion简称mutex。sync包中的Mutex就是与其对应的类型该类型的值可以被称为互斥量或者互斥锁。
一个互斥锁可以被用来保护一个临界区或者一组相关临界区。我们可以通过它来保证在同一时刻只有一个goroutine处于该临界区之内。
为了兑现这个保证每当有goroutine想进入临界区时都需要先对它进行锁定并且每个goroutine离开临界区时都要及时地对它进行解锁。
锁定操作可以通过调用互斥锁的Lock方法实现而解锁操作可以调用互斥锁的Unlock方法。以下是demo58.go文件中重点代码经过简化之后的片段
mu.Lock()
_, err := writer.Write([]byte(data))
if err != nil {
log.Printf("error: %s [%d]", err, id)
}
mu.Unlock()
你可能已经看出来了,这里的互斥锁就相当于我们前面说的那块访问令牌。那么,我们怎样才能用好这块访问令牌呢?请看下面的问题。
我们今天的问题是:我们使用互斥锁时有哪些注意事项?
这里有一个典型回答。
使用互斥锁的注意事项如下:
不要重复锁定互斥锁;
不要忘记解锁互斥锁必要时使用defer语句
不要对尚未锁定或者已解锁的互斥锁解锁;
不要在多个函数之间直接传递互斥锁。
问题解析
首先,你还是要把互斥锁看作是针对某一个临界区或某一组相关临界区的唯一访问令牌。
虽然没有任何强制规定来限制,你用同一个互斥锁保护多个无关的临界区,但是这样做,一定会让你的程序变得很复杂,并且也会明显地增加你的心智负担。
你要知道对一个已经被锁定的互斥锁进行锁定是会立即阻塞当前的goroutine的。这个goroutine所执行的流程会一直停滞在调用该互斥锁的Lock方法的那行代码上。
直到该互斥锁的Unlock方法被调用并且这里的锁定操作成功完成后续的代码也就是临界区中的代码才会开始执行。这也正是互斥锁能够保护临界区的原因所在。
一旦你把一个互斥锁同时用在了多个地方就必然会有更多的goroutine争用这把锁。这不但会让你的程序变慢还会大大增加死锁deadlock的可能性。
所谓的死锁指的就是当前程序中的主goroutine以及我们启用的那些goroutine都已经被阻塞。这些goroutine可以被统称为用户级的goroutine。这就相当于整个程序都已经停滞不前了。
Go语言运行时系统是不允许这种情况出现的只要它发现所有的用户级goroutine都处于等待状态就会自行抛出一个带有如下信息的panic
fatal error: all goroutines are asleep - deadlock!
注意这种由Go语言运行时系统自行抛出的panic都属于致命错误都是无法被恢复的调用recover函数对它们起不到任何作用。也就是说一旦产生死锁程序必然崩溃。
因此,我们一定要尽量避免这种情况的发生。而最简单、有效的方式就是让每一个互斥锁都只保护一个临界区或一组相关临界区。
在这个前提之下我们还需要注意对于同一个goroutine而言既不要重复锁定一个互斥锁也不要忘记对它进行解锁。
一个goroutine对某一个互斥锁的重复锁定就意味着它自己锁死了自己。先不说这种做法本身就是错误的在这种情况下想让其他的goroutine来帮它解锁是非常难以保证其正确性的。
我以前就在团队代码库中见到过这样的代码。那个作者的本意是先让一个goroutine自己锁死自己然后再让一个负责调度的goroutine定时地解锁那个互斥锁从而让前一个goroutine周期性地去做一些事情比如每分钟检查一次服务器状态或者每天清理一次日志。
这个想法本身是没有什么问题的,但却选错了实现的工具。对于互斥锁这种需要精细化控制的同步工具而言,这样的任务并不适合它。
在这种情况下即使选用通道或者time.Ticker类型然后自行实现功能都是可以的程序的复杂度和我们的心智负担也会小很多更何况还有不少已经很完备的解决方案可供选择。
话说回来,其实我们说“不要忘记解锁互斥锁”的一个很重要的原因就是:避免重复锁定。
因为在一个goroutine执行的流程中可能会出现诸如“锁定、解锁、再锁定、再解锁”的操作所以如果我们忘记了中间的解锁操作那就一定会造成重复锁定。
除此之外忘记解锁还会使其他的goroutine无法进入到该互斥锁保护的临界区这轻则会导致一些程序功能的失效重则会造成死锁和程序崩溃。
在很多时候,一个函数执行的流程并不是单一的,流程中间可能会有分叉,也可能会被中断。
如果一个流程在锁定了某个互斥锁之后分叉了或者有被中断的可能那么就应该使用defer语句来对它进行解锁而且这样的defer语句应该紧跟在锁定操作之后。这是最保险的一种做法。
忘记解锁导致的问题有时候是比较隐秘的并不会那么快就暴露出来。这也是我们需要特别关注它的原因。相比之下解锁未锁定的互斥锁会立即引发panic。
并且与死锁导致的panic一样它们是无法被恢复的。因此我们总是应该保证对于每一个锁定操作都要有且只有一个对应的解锁操作。
换句话说我们应该让它们成对出现。这也算是互斥锁的一个很重要的使用原则了。在很多时候利用defer语句进行解锁可以更容易做到这一点。
(互斥锁的重复锁定和重复解锁)
最后可能你已经知道Go语言中的互斥锁是开箱即用的。换句话说一旦我们声明了一个sync.Mutex类型的变量就可以直接使用它了。
不过要注意,该类型是一个结构体类型,属于值类型中的一种。把它传给一个函数、将它从函数中返回、把它赋给其他变量、让它进入某个通道都会导致它的副本的产生。
并且,原值和它的副本,以及多个副本之间都是完全独立的,它们都是不同的互斥锁。
如果你把一个互斥锁作为参数值传给了一个函数,那么在这个函数中对传入的锁的所有操作,都不会对存在于该函数之外的那个原锁产生任何的影响。
所以,你在这样做之前,一定要考虑清楚,这种结果是你想要的吗?我想,在大多数情况下应该都不是。即使你真的希望,在这个函数中使用另外一个互斥锁也不要这样做,这主要是为了避免歧义。
以上这些就是我想要告诉你的关于互斥锁的锁定、解锁以及传递方面的知识。这其中还包括了我的一些理解。希望能够对你有用。相关的例子我已经写在demo59.go文件中了你可以去阅读一番并运行起来看看。
知识扩展
问题1读写锁与互斥锁有哪些异同
读写锁是读/写互斥锁的简称。在Go语言中读写锁由sync.RWMutex类型的值代表。与sync.Mutex类型一样这个类型也是开箱即用的。
顾名思义,读写锁是把对共享资源的“读操作”和“写操作”区别对待了。它可以对这两种操作施加不同程度的保护。换句话说,相比于互斥锁,读写锁可以实现更加细腻的访问控制。
一个读写锁中实际上包含了两个锁读锁和写锁。sync.RWMutex类型中的Lock方法和Unlock方法分别用于对写锁进行锁定和解锁而它的RLock方法和RUnlock方法则分别用于对读锁进行锁定和解锁。
另外,对于同一个读写锁来说有如下规则。
在写锁已被锁定的情况下再试图锁定写锁会阻塞当前的goroutine。
在写锁已被锁定的情况下试图锁定读锁也会阻塞当前的goroutine。
在读锁已被锁定的情况下试图锁定写锁同样会阻塞当前的goroutine。
在读锁已被锁定的情况下再试图锁定读锁并不会阻塞当前的goroutine。
换一个角度来说,对于某个受到读写锁保护的共享资源,多个写操作不能同时进行,写操作和读操作也不能同时进行,但多个读操作却可以同时进行。
当然了,只有在我们正确使用读写锁的情况下,才能达到这种效果。还是那句话,我们需要让每一个锁都只保护一个临界区,或者一组相关临界区,并以此尽量减少误用的可能性。顺便说一句,我们通常把这种不能同时进行的操作称为互斥操作。
再来看另一个方面。对写锁进行解锁会唤醒“所有因试图锁定读锁而被阻塞的goroutine”并且这通常会使它们都成功完成对读锁的锁定。
然而对读锁进行解锁只会在没有其他读锁锁定的前提下唤醒“因试图锁定写锁而被阻塞的goroutine”并且最终只会有一个被唤醒的goroutine能够成功完成对写锁的锁定其他的goroutine还要在原处继续等待。至于是哪一个goroutine那就要看谁的等待时间最长了。
除此之外读写锁对写操作之间的互斥其实是通过它内含的一个互斥锁实现的。因此也可以说Go语言的读写锁是互斥锁的一种扩展。
最后需要强调的是与互斥锁类似解锁“读写锁中未被锁定的写锁”会立即引发panic对于其中的读锁也是如此并且同样是不可恢复的。
总之,读写锁与互斥锁的不同,都源于它把对共享资源的写操作和读操作区别对待了。这也使得它实现的互斥规则要更复杂一些。
不过,正因为如此,我们可以使用它对共享资源的操作,实行更加细腻的控制。另外,由于这里的读写锁是互斥锁的一种扩展,所以在有些方面它还是沿用了互斥锁的行为模式。比如,在解锁未锁定的写锁或读锁时的表现,又比如,对写操作之间互斥的实现方式。
总结
我们今天讨论了很多与多线程、共享资源以及同步有关的知识。其中涉及了不少重要的并发编程概念,比如,竞态条件、临界区、互斥量、死锁等。
虽然Go语言是以“用通讯的方式共享数据”为亮点的但是它依然提供了一些易用的同步工具。其中互斥锁是我们最常用到的一个。
互斥锁常常被用来保证多个goroutine并发地访问同一个共享资源时的完全串行这是通过保护针对此共享资源的一个临界区或一组相关临界区实现的。因此我们可以把它看做是goroutine进入相关临界区时必须拿到的访问令牌。
为了用对并且用好互斥锁,我们需要了解它实现的互斥规则,更要理解一些关于它的注意事项。
比如不要重复锁定或忘记解锁因为这会造成goroutine不必要的阻塞甚至导致程序的死锁。
又比如,不要传递互斥锁,因为这会产生它的副本,从而引起歧义并可能导致互斥操作的失效。
再次强调,我们总是应该让每一个互斥锁都只保护一个临界区,或一组相关临界区。
至于读写锁,它是互斥锁的一种扩展。我们需要知道它与互斥锁的异同,尤其是互斥规则和行为模式方面的异同。一个读写锁中同时包含了读锁和写锁,由此也可以看出它对于针对共享资源的读操作和写操作是区别对待的。我们可以基于这件事,对共享资源实施更加细致的访问控制。
最后需要特别注意的是无论是互斥锁还是读写锁我们都不要试图去解锁未锁定的锁因为这样会引发不可恢复的panic。
思考题
你知道互斥锁和读写锁的指针类型都实现了哪一个接口吗?
怎样获取读写锁中的读锁?
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,143 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
27 条件变量sync.Cond (上)
在上篇文章中我们主要说的是互斥锁今天我和你来聊一聊条件变量conditional variable
前导内容:条件变量与互斥锁
我们常常会把条件变量这个同步工具拿来与互斥锁一起讨论。实际上,条件变量是基于互斥锁的,它必须有互斥锁的支撑才能发挥作用。
条件变量并不是被用来保护临界区和共享资源的,它是用于协调想要访问共享资源的那些线程的。当共享资源的状态发生变化时,它可以被用来通知被互斥锁阻塞的线程。
比如说,我们两个人在共同执行一项秘密任务,这需要在不直接联系和见面的前提下进行。我需要向一个信箱里放置情报,你需要从这个信箱中获取情报。这个信箱就相当于一个共享资源,而我们就分别是进行写操作的线程和进行读操作的线程。
如果我在放置的时候发现信箱里还有未被取走的情报,那就不再放置,而先返回。另一方面,如果你在获取的时候发现信箱里没有情报,那也只能先回去了。这就相当于写的线程或读的线程阻塞的情况。
虽然我们俩都有信箱的钥匙,但是同一时刻只能有一个人插入钥匙并打开信箱,这就是锁的作用了。更何况咱们俩是不能直接见面的,所以这个信箱本身就可以被视为一个临界区。
尽管没有协调好,咱们俩仍然要想方设法的完成任务啊。所以,如果信箱里有情报,而你却迟迟未取走,那我就需要每过一段时间带着新情报去检查一次,若发现信箱空了,我就需要及时地把新情报放到里面。
另一方面,如果信箱里一直没有情报,那你也要每过一段时间去打开看看,一旦有了情报就及时地取走。这么做是可以的,但就是太危险了,很容易被敌人发现。
后来,我们又想了一个计策,各自雇佣了一个不起眼的小孩儿。如果早上七点有一个戴红色帽子的小孩儿从你家楼下路过,那么就意味着信箱里有了新情报。另一边,如果上午九点有一个戴蓝色帽子的小孩儿从我家楼下路过,那就说明你已经从信箱中取走了情报。
这样一来,咱们执行任务的隐蔽性高多了,并且效率的提升非常显著。这两个戴不同颜色帽子的小孩儿就相当于条件变量,在共享资源的状态产生变化的时候,起到了通知的作用。
当然了我们是在用Go语言编写程序而不是在执行什么秘密任务。因此条件变量在这里的最大优势就是在效率方面的提升。当共享资源的状态不满足条件的时候想操作它的线程再也不用循环往复地做检查了只要等待通知就好了。
说到这里,想考考你知道怎么使用条件变量吗?所以,我们今天的问题就是:条件变量怎样与互斥锁配合使用?
这道题的典型回答是:条件变量的初始化离不开互斥锁,并且它的方法有的也是基于互斥锁的。
条件变量提供的方法有三个等待通知wait、单发通知signal和广播通知broadcast
我们在利用条件变量等待通知的时候,需要在它基于的那个互斥锁保护下进行。而在进行单发通知或广播通知的时候,却是恰恰相反的,也就是说,需要在对应的互斥锁解锁之后再做这两种操作。
问题解析
这个问题看起来很简单,但其实可以基于它,延伸出很多其他的问题。比如,每个方法的使用时机是什么?又比如,每个方法执行的内部流程是怎样的?
下面,我们一边用代码实现前面那个例子,一边讨论条件变量的使用。
首先,我们先来创建如下几个变量。
var mailbox uint8
var lock sync.RWMutex
sendCond := sync.NewCond(&lock)
recvCond := sync.NewCond(lock.RLocker())
变量mailbox代表信箱是uint8类型的。 若它的值为0则表示信箱中没有情报而当它的值为1时则说明信箱中有情报。lock是一个类型为sync.RWMutex的变量是一个读写锁也可以被视为信箱上的那把锁。
另外基于这把锁我还创建了两个代表条件变量的变量名字分别叫sendCond和recvCond。 它们都是*sync.Cond类型的同时也都是由sync.NewCond函数来初始化的。
与sync.Mutex类型和sync.RWMutex类型不同sync.Cond类型并不是开箱即用的。我们只能利用sync.NewCond函数创建它的指针值。这个函数需要一个sync.Locker类型的参数值。
还记得吗?我在前面说过,条件变量是基于互斥锁的,它必须有互斥锁的支撑才能够起作用。因此,这里的参数值是不可或缺的,它会参与到条件变量的方法实现当中。
sync.Locker其实是一个接口在它的声明中只包含了两个方法定义Lock()和Unlock()。sync.Mutex类型和sync.RWMutex类型都拥有Lock方法和Unlock方法只不过它们都是指针方法。因此这两个类型的指针类型才是sync.Locker接口的实现类型。
我在为sendCond变量做初始化的时候把基于lock变量的指针值传给了sync.NewCond函数。
原因是lock变量的Lock方法和Unlock方法分别用于对其中写锁的锁定和解锁它们与sendCond变量的含义是对应的。sendCond是专门为放置情报而准备的条件变量向信箱里放置情报可以被视为对共享资源的写操作。
相应的recvCond变量代表的是专门为获取情报而准备的条件变量。 虽然获取情报也会涉及对信箱状态的改变,但是好在做这件事的人只会有你一个,而且我们也需要借此了解一下,条件变量与读写锁中的读锁的联用方式。所以,在这里,我们暂且把获取情报看做是对共享资源的读操作。
因此为了初始化recvCond这个条件变量我们需要的是lock变量中的读锁并且还需要是sync.Locker类型的。
可是lock变量中用于对读锁进行锁定和解锁的方法却是RLock和RUnlock它们与sync.Locker接口中定义的方法并不匹配。
好在sync.RWMutex类型的RLocker方法可以实现这一需求。我们只要在调用sync.NewCond函数时传入调用表达式lock.RLocker()的结果值,就可以使该函数返回符合要求的条件变量了。
为什么说通过lock.RLocker()得来的值就是lock变量中的读锁呢实际上这个值所拥有的Lock方法和Unlock方法在其内部会分别调用lock变量的RLock方法和RUnlock方法。也就是说前两个方法仅仅是后两个方法的代理而已。
好了我们现在有四个变量。一个是代表信箱的mailbox一个是代表信箱上的锁的lock。还有两个是代表了蓝帽子小孩儿的sendCond以及代表了红帽子小孩儿的recvCond。
(互斥锁与条件变量)
现在是一个goroutine携带的go函数想要适时地向信箱里放置情报并通知你应该怎么做呢
lock.Lock()
for mailbox == 1 {
sendCond.Wait()
}
mailbox = 1
lock.Unlock()
recvCond.Signal()
我肯定需要先调用lock变量的Lock方法。注意这个Lock方法在这里意味的是持有信箱上的锁并且有打开信箱的权利而不是锁上这个锁。
然后我要检查mailbox变量的值是否等于1也就是说要看看信箱里是不是还存有情报。如果还有情报那么我就回家去等蓝帽子小孩儿了。
这就是那条for语句以及其中的调用表达式sendCond.Wait()所表示的含义了。你可能会问为什么这里是for语句而不是if语句呢我在后面会对此进行解释的。
我们再往后看如果信箱里没有情报那么我就把新情报放进去关上信箱、锁上锁然后离开。用代码表达出来就是mailbox = 1和lock.Unlock()。
离开之后我还要做一件事那就是让红帽子小孩儿准时去你家楼下路过。也就是说我会及时地通知你“信箱里已经有新情报了”我们调用recvCond的Signal方法就可以实现这一步骤。
另一方面你现在是另一个goroutine想要适时地从信箱中获取情报然后通知我。
lock.RLock()
for mailbox == 0 {
recvCond.Wait()
}
mailbox = 0
lock.RUnlock()
sendCond.Signal()
你跟我做的事情在流程上其实基本一致只不过每一步操作的对象是不同的。你需要调用的是lock变量的RLock方法。因为你要进行的是读操作并且会使用recvCond变量作为辅助。recvCond与lock变量的读锁是对应的。
在打开信箱后你要关注的是信箱里是不是没有情报也就是检查mailbox变量的值是否等于0。如果它确实等于0那么你就需要回家去等红帽子小孩儿也就是调用recvCond的Wait方法。这里使用的依然是for语句。
如果信箱里有情报那么你就应该取走情报关上信箱、锁上锁然后离开。对应的代码是mailbox = 0和lock.RUnlock()。之后,你还需要让蓝帽子小孩儿准时去我家楼下路过。这样我就知道信箱中的情报已经被你获取了。
以上这些,就是对咱们俩要执行秘密任务的代码实现。其中的条件变量的用法需要你特别注意。
再强调一下只要条件不满足我就会通过调用sendCond变量的Wait方法去等待你的通知只有在收到通知之后我才会再次检查信箱。
另外当我需要通知你的时候我会调用recvCond变量的Signal方法。你使用这两个条件变量的方式正好与我相反。你可能也看出来了利用条件变量可以实现单向的通知而双向的通知则需要两个条件变量。这也是条件变量的基本使用规则。
你可以打开demo61.go文件看到上述例子的全部实现代码。
总结
我们这两期的文章会围绕条件变量的内容展开,条件变量是基于互斥锁的一种同步工具,它必须有互斥锁的支撑才能发挥作用。 条件变量可以协调那些想要访问共享资源的线程。当共享资源的状态发生变化时,它可以被用来通知被互斥锁阻塞的线程。我在文章举了一个两人访问信箱的例子,并用代码实现了这个过程。
思考题
*sync.Cond类型的值可以被传递吗那sync.Cond类型的值呢
感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,99 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
28 条件变量sync.Cond (下)
你好我是郝林今天我继续分享条件变量sync.Cond的内容。我们紧接着上一篇的内容进行知识扩展。
问题 1条件变量的Wait方法做了什么
在了解了条件变量的使用方式之后,你可能会有这么几个疑问。
为什么先要锁定条件变量基于的互斥锁才能调用它的Wait方法
为什么要用for语句来包裹调用其Wait方法的表达式用if语句不行吗
这些问题我在面试的时候也经常问。你需要对这个Wait方法的内部机制有所了解才能回答上来。
条件变量的Wait方法主要做了四件事。
把调用它的goroutine也就是当前的goroutine加入到当前条件变量的通知队列中。
解锁当前的条件变量基于的那个互斥锁。
让当前的goroutine处于等待状态等到通知到来时再决定是否唤醒它。此时这个goroutine就会阻塞在调用这个Wait方法的那行代码上。
如果通知到来并且决定唤醒这个goroutine那么就在唤醒它之后重新锁定当前条件变量基于的互斥锁。自此之后当前的goroutine就会继续执行后面的代码了。
你现在知道我刚刚说的第一个疑问的答案了吗?
因为条件变量的Wait方法在阻塞当前的goroutine之前会解锁它基于的互斥锁所以在调用该Wait方法之前我们必须先锁定那个互斥锁否则在调用这个Wait方法时就会引发一个不可恢复的panic。
为什么条件变量的Wait方法要这么做呢你可以想象一下如果Wait方法在互斥锁已经锁定的情况下阻塞了当前的goroutine那么又由谁来解锁呢别的goroutine吗
先不说这违背了互斥锁的重要使用原则成对的锁定和解锁就算别的goroutine可以来解锁那万一解锁重复了怎么办由此引发的panic可是无法恢复的。
如果当前的goroutine无法解锁别的goroutine也都不来解锁那么又由谁来进入临界区并改变共享资源的状态呢只要共享资源的状态不变即使当前的goroutine因收到通知而被唤醒也依然会再次执行这个Wait方法并再次被阻塞。
所以说如果条件变量的Wait方法不先解锁互斥锁的话那么就只会造成两种后果不是当前的程序因panic而崩溃就是相关的goroutine全面阻塞。
再解释第二个疑问。很显然if语句只会对共享资源的状态检查一次而for语句却可以做多次检查直到这个状态改变为止。那为什么要做多次检查呢
这主要是为了保险起见。如果一个goroutine因收到通知而被唤醒但却发现共享资源的状态依然不符合它的要求那么就应该再次调用条件变量的Wait方法并继续等待下次通知的到来。
这种情况是很有可能发生的,具体如下面所示。
有多个goroutine在等待共享资源的同一种状态。比如它们都在等mailbox变量的值不为0的时候再把它的值变为0这就相当于有多个人在等着我向信箱里放置情报。虽然等待的goroutine有多个但每次成功的goroutine却只可能有一个。别忘了条件变量的Wait方法会在当前的goroutine醒来后先重新锁定那个互斥锁。在成功的goroutine最终解锁互斥锁之后其他的goroutine会先后进入临界区但它们会发现共享资源的状态依然不是它们想要的。这个时候for循环就很有必要了。
共享资源可能有的状态不是两个而是更多。比如mailbox变量的可能值不只有0和1还有2、3、4。这种情况下由于状态在每次改变后的结果只可能有一个所以在设计合理的前提下单一的结果一定不可能满足所有goroutine的条件。那些未被满足的goroutine显然还需要继续等待和检查。
有一种可能共享资源的状态只有两个并且每种状态都只有一个goroutine在关注就像我们在主问题当中实现的那个例子那样。不过即使是这样使用for语句仍然是有必要的。原因是在一些多CPU核心的计算机系统中即使没有收到条件变量的通知调用其Wait方法的goroutine也是有可能被唤醒的。这是由计算机硬件层面决定的即使是操作系统比如Linux本身提供的条件变量也会如此。
综上所述在包裹条件变量的Wait方法的时候我们总是应该使用for语句。
好了到这里关于条件变量的Wait方法我想你知道的应该已经足够多了。
问题 2条件变量的Signal方法和Broadcast方法有哪些异同
条件变量的Signal方法和Broadcast方法都是被用来发送通知的不同的是前者的通知只会唤醒一个因此而等待的goroutine而后者的通知却会唤醒所有为此等待的goroutine。
条件变量的Wait方法总会把当前的goroutine添加到通知队列的队尾而它的Signal方法总会从通知队列的队首开始查找可被唤醒的goroutine。所以因Signal方法的通知而被唤醒的goroutine一般都是最早等待的那一个。
这两个方法的行为决定了它们的适用场景。如果你确定只有一个goroutine在等待通知或者只需唤醒任意一个goroutine就可以满足要求那么使用条件变量的Signal方法就好了。
否则使用Broadcast方法总没错只要你设置好各个goroutine所期望的共享资源状态就可以了。
此外再次强调一下与Wait方法不同条件变量的Signal方法和Broadcast方法并不需要在互斥锁的保护下执行。恰恰相反我们最好在解锁条件变量基于的那个互斥锁之后再去调用它的这两个方法。这更有利于程序的运行效率。
最后请注意条件变量的通知具有即时性。也就是说如果发送通知的时候没有goroutine为此等待那么该通知就会被直接丢弃。在这之后才开始等待的goroutine只可能被后面的通知唤醒。
你可以打开demo62.go文件并仔细观察它与demo61.go的不同。尤其是lock变量的类型以及发送通知的方式。
总结
我们今天主要讲了条件变量它是基于互斥锁的一种同步工具。在Go语言中我们需要用sync.NewCond函数来初始化一个sync.Cond类型的条件变量。
sync.NewCond函数需要一个sync.Locker类型的参数值。
*sync.Mutex类型的值以及*sync.RWMutex类型的值都可以满足这个要求。另外后者的RLocker方法可以返回这个值中的读锁也同样可以作为sync.NewCond函数的参数值如此就可以生成与读写锁中的读锁对应的条件变量了。
条件变量的Wait方法需要在它基于的互斥锁保护下执行否则就会引发不可恢复的panic。此外我们最好使用for语句来检查共享资源的状态并包裹对条件变量的Wait方法的调用。
不要用if语句因为它不能重复地执行“检查状态-等待通知-被唤醒”的这个流程。重复执行这个流程的原因是一个“因为等待通知而被阻塞”的goroutine可能会在共享资源的状态不满足其要求的情况下被唤醒。
条件变量的Signal方法只会唤醒一个因等待通知而被阻塞的goroutine而它的Broadcast方法却可以唤醒所有为此而等待的goroutine。后者比前者的适应场景要多得多。
这两个方法并不需要受到互斥锁的保护我们也最好不要在解锁互斥锁之前调用它们。还有条件变量的通知具有即时性。当通知被发送的时候如果没有任何goroutine需要被唤醒那么该通知就会立即失效。
思考题
sync.Cond类型中的公开字段L是做什么用的我们可以在使用条件变量的过程中改变这个字段的值吗
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,96 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
29 原子操作(上)
我们在前两篇文章中讨论了互斥锁、读写锁以及基于它们的条件变量,先来总结一下。
互斥锁是一个很有用的同步工具它可以保证每一时刻进入临界区的goroutine只有一个。读写锁对共享资源的写操作和读操作则区别看待并消除了读操作之间的互斥。
条件变量主要是用于协调想要访问共享资源的那些线程。当共享资源的状态发生变化时,它可以被用来通知被互斥锁阻塞的线程,它既可以基于互斥锁,也可以基于读写锁。当然了,读写锁也是一种互斥锁,前者是对后者的扩展。
通过对互斥锁的合理使用我们可以使一个goroutine在执行临界区中的代码时不被其他的goroutine打扰。不过虽然不会被打扰但是它仍然可能会被中断interruption
前导内容:原子性执行与原子操作
我们已经知道对于一个Go程序来说Go语言运行时系统中的调度器会恰当地安排其中所有的goroutine的运行。不过在同一时刻只可能有少数的goroutine真正地处于运行状态并且这个数量只会与M的数量一致而不会随着G的增多而增长。
所以为了公平起见调度器总是会频繁地换上或换下这些goroutine。换上的意思是让一个goroutine由非运行状态转为运行状态并促使其中的代码在某个CPU核心上执行。
换下的意思正好相反使一个goroutine中的代码中断执行并让它由运行状态转为非运行状态。
这个中断的时机有很多,任何两条语句执行的间隙,甚至在某条语句执行的过程中都是可以的。
即使这些语句在临界区之内也是如此。所以我们说互斥锁虽然可以保证临界区中代码的串行执行但却不能保证这些代码执行的原子性atomicity
在众多的同步工具中真正能够保证原子性执行的只有原子操作atomic operation。原子操作在进行的过程中是不允许中断的。在底层这会由CPU提供芯片级别的支持所以绝对有效。即使在拥有多CPU核心或者多CPU的计算机系统中原子操作的保证也是不可撼动的。
这使得原子操作可以完全地消除竞态条件,并能够绝对地保证并发安全性。并且,它的执行速度要比其他的同步工具快得多,通常会高出好几个数量级。不过,它的缺点也很明显。
更具体地说,正是因为原子操作不能被中断,所以它需要足够简单,并且要求快速。
你可以想象一下,如果原子操作迟迟不能完成,而它又不会被中断,那么将会给计算机执行指令的效率带来多么大的影响。因此,操作系统层面只对针对二进制位或整数的原子操作提供了支持。
Go语言的原子操作当然是基于CPU和操作系统的所以它也只针对少数数据类型的值提供了原子操作函数。这些函数都存在于标准库代码包sync/atomic中。
我一般会通过下面这道题初探一下应聘者对sync/atomic包的熟悉程度。
我们今天的问题是sync/atomic包中提供了几种原子操作可操作的数据类型又有哪些
这里的典型回答是:
sync/atomic包中的函数可以做的原子操作有加法add、比较并交换compare and swap简称CAS、加载load、存储store和交换swap
这些函数针对的数据类型并不多。但是对这些类型中的每一个sync/atomic包都会有一套函数给予支持。这些数据类型有int32、int64、uint32、uint64、uintptr以及unsafe包中的Pointer。不过针对unsafe.Pointer类型该包并未提供进行原子加法操作的函数。
此外sync/atomic包还提供了一个名为Value的类型它可以被用来存储任意类型的值。
问题解析
这个问题很简单,因为答案是明摆在代码包文档里的。不过如果你连文档都没看过,那也可能回答不上来,至少是无法做出全面的回答。
我一般会通过此问题再衍生出来几道题。下面我就来逐个说明一下。
第一个衍生问题 我们都知道传入这些原子操作函数的第一个参数值对应的都应该是那个被操作的值。比如atomic.AddInt32函数的第一个参数对应的一定是那个要被增大的整数。可是这个参数的类型为什么不是int32而是*int32呢
回答是:因为原子操作函数需要的是被操作值的指针,而不是这个值本身;被传入函数的参数值都会被复制,像这种基本类型的值一旦被传入函数,就已经与函数外的那个值毫无关系了。
所以传入值本身没有任何意义。unsafe.Pointer类型虽然是指针类型但是那些原子操作函数要操作的是这个指针值而不是它指向的那个值所以需要的仍然是指向这个指针值的指针。
只要原子操作函数拿到了被操作值的指针,就可以定位到存储该值的内存地址。只有这样,它们才能够通过底层的指令,准确地操作这个内存地址上的数据。
第二个衍生问题: 用于原子加法操作的函数可以做原子减法吗比如atomic.AddInt32函数可以用于减小那个被操作的整数值吗
回答是当然是可以的。atomic.AddInt32函数的第二个参数代表差量它的类型是int32是有符号的。如果我们想做原子减法那么把这个差量设置为负整数就可以了。
对于atomic.AddInt64函数来说也是类似的。不过要想用atomic.AddUint32和atomic.AddUint64函数做原子减法就不能这么直接了因为它们的第二个参数的类型分别是uint32和uint64都是无符号的不过这也是可以做到的就是稍微麻烦一些。
例如如果想对uint32类型的被操作值18做原子减法比如说差量是-3那么我们可以先把这个差量转换为有符号的int32类型的值然后再把该值的类型转换为uint32用表达式来描述就是uint32(int32(-3))。
不过要注意直接这样写会使Go语言的编译器报错它会告诉你“常量-3不在uint32类型可表示的范围内”换句话说这样做会让表达式的结果值溢出。
不过如果我们先把int32(-3)的结果值赋给变量delta再把delta的值转换为uint32类型的值就可以绕过编译器的检查并得到正确的结果了。
最后我们把这个结果作为atomic.AddUint32函数的第二个参数值就可以达到对uint32类型的值做原子减法的目的了。
还有一种更加直接的方式。我们可以依据下面这个表达式来给定atomic.AddUint32函数的第二个参数值
^uint32(-N-1))
其中的N代表由负整数表示的差量。也就是说我们先要把差量的绝对值减去1然后再把得到的这个无类型的整数常量转换为uint32类型的值最后在这个值之上做按位异或操作就可以获得最终的参数值了。
这么做的原理也并不复杂。简单来说,此表达式的结果值的补码,与使用前一种方法得到的值的补码相同,所以这两种方式是等价的。我们都知道,整数在计算机中是以补码的形式存在的,所以在这里,结果值的补码相同就意味着表达式的等价。
总结
今天我们一起学习了sync/atomic代码包中提供的原子操作函数和原子值类型。原子操作函数使用起来都非常简单但也有一些细节需要我们注意。我在主问题的衍生问题中对它们进行了逐一说明。
在下一篇文章中,我们会继续分享原子操作的衍生内容。如果你对原子操作有什么样的问题,都可以给我留言,我们一起讨论,感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,132 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
30 原子操作(下)
你好,我是郝林,今天我们继续分享原子操作的内容。
我们接着上一篇文章的内容继续聊上一篇我们提到了sync/atomic包中的函数可以做的原子操作有加法add、比较并交换compare and swap简称CAS、加载load、存储store和交换swap。并且以此衍生出了两个问题。
今天我们继续来看第三个衍生问题: 比较并交换操作与交换操作相比有什么不同?优势在哪里?
回答是比较并交换操作即CAS操作是有条件的交换操作只有在条件满足的情况下才会进行值的交换。
所谓的交换指的是,把新值赋给变量,并返回变量的旧值。
在进行CAS操作的时候函数会先判断被操作变量的当前值是否与我们预期的旧值相等。如果相等它就把新值赋给该变量并返回true以表明交换操作已进行否则就忽略交换操作并返回false。
可以看到CAS操作并不是单一的操作而是一种操作组合。这与其他的原子操作都不同。正因为如此它的用途要更广泛一些。例如我们将它与for语句联用就可以实现一种简易的自旋锁spinlock
for {
if atomic.CompareAndSwapInt32(&num2, 10, 0) {
fmt.Println("The second number has gone to zero.")
break
}
time.Sleep(time.Millisecond * 500)
}
在for语句中的CAS操作可以不停地检查某个需要满足的条件一旦条件满足就退出for循环。这就相当于只要条件未被满足当前的流程就会被一直“阻塞”在这里。
这在效果上与互斥锁有些类似。不过它们的适用场景是不同的。我们在使用互斥锁的时候总是假设共享资源的状态会被其他的goroutine频繁地改变。
而for语句加CAS操作的假设往往是共享资源状态的改变并不频繁或者它的状态总会变成期望的那样。这是一种更加乐观或者说更加宽松的做法。
第四个衍生问题:假设我已经保证了对一个变量的写操作都是原子操作,比如:加或减、存储、交换等等,那我对它进行读操作的时候,还有必要使用原子操作吗?
回答是:很有必要。其中的道理你可以对照一下读写锁。为什么在读写锁保护下的写操作和读操作之间是互斥的?这是为了防止读操作读到没有被修改完的值,对吗?
如果写操作还没有进行完,读操作就来读了,那么就只能读到仅修改了一部分的值。这显然破坏了值的完整性,读出来的值也是完全错误的。
所以,一旦你决定了要对一个共享资源进行保护,那就要做到完全的保护。不完全的保护基本上与不保护没有什么区别。
好了,上面的主问题以及相关的衍生问题涉及了原子操作函数的用法、原理、对比和一些最佳实践,希望你已经理解了。
由于这里的原子操作函数只支持非常有限的数据类型,所以在很多应用场景下,互斥锁往往是更加适合的。
不过,一旦我们确定了在某个场景下可以使用原子操作函数,比如:只涉及并发地读写单一的整数类型值,或者多个互不相关的整数类型值,那就不要再考虑互斥锁了。
这主要是因为原子操作函数的执行速度要比互斥锁快得多。而且它们使用起来更加简单不会涉及临界区的选择以及死锁等问题。当然了在使用CAS操作的时候我们还是要多加注意的因为它可以被用来模仿锁并有可能“阻塞”流程。
知识扩展
问题怎样用好sync/atomic.Value
为了扩大原子操作的适用范围Go语言在1.4版本发布的时候向sync/atomic包中添加了一个新的类型Value。此类型的值相当于一个容器可以被用来“原子地”存储和加载任意的值。
atomic.Value类型是开箱即用的我们声明一个该类型的变量以下简称原子变量之后就可以直接使用了。这个类型使用起来很简单它只有两个指针方法Store和Load。不过虽然简单但还是有一些值得注意的地方的。
首先一点一旦atomic.Value类型的值以下简称原子值被真正使用它就不应该再被复制了。什么叫做“真正使用”呢
我们只要用它来存储值了就相当于开始真正使用了。atomic.Value类型属于结构体类型而结构体类型属于值类型。
所以,复制该类型的值会产生一个完全分离的新值。这个新值相当于被复制的那个值的一个快照。之后,不论后者存储的值怎样改变,都不会影响到前者,反之亦然。
另外关于用原子值来存储值有两条强制性的使用规则。第一条规则不能用原子值存储nil。
也就是说我们不能把nil作为参数值传入原子值的Store方法否则就会引发一个panic。
这里要注意如果有一个接口类型的变量它的动态值是nil但动态类型却不是nil那么它的值就不等于nil。我在前面讲接口的时候和你说明过这个问题。正因为如此这样一个变量的值是可以被存入原子值的。
第二条规则,我们向原子值存储的第一个值,决定了它今后能且只能存储哪一个类型的值。
例如我第一次向一个原子值存储了一个string类型的值那我在后面就只能用该原子值来存储字符串了。如果我又想用它存储结构体那么在调用它的Store方法的时候就会引发一个panic。这个panic会告诉我这次存储的值的类型与之前的不一致。
你可能会想:我先存储一个接口类型的值,然后再存储这个接口的某个实现类型的值,这样是不是可以呢?
很可惜这样是不可以的同样会引发一个panic。因为原子值内部是依据被存储值的实际类型来做判断的。所以即使是实现了同一个接口的不同类型它们的值也不能被先后存储到同一个原子值中。
遗憾的是,我们无法通过某个方法获知一个原子值是否已经被真正使用,并且,也没有办法通过常规的途径得到一个原子值可以存储值的实际类型。这使得我们误用原子值的可能性大大增加,尤其是在多个地方使用同一个原子值的时候。
下面,我给你几条具体的使用建议。
不要把内部使用的原子值暴露给外界。比如,声明一个全局的原子变量并不是一个正确的做法。这个变量的访问权限最起码也应该是包级私有的。
如果不得不让包外,或模块外的代码使用你的原子值,那么可以声明一个包级私有的原子变量,然后再通过一个或多个公开的函数,让外界间接地使用到它。注意,这种情况下不要把原子值传递到外界,不论是传递原子值本身还是它的指针值。
如果通过某个函数可以向内部的原子值存储值的话那么就应该在这个函数中先判断被存储值类型的合法性。若不合法则应该直接返回对应的错误值从而避免panic的发生。
如果可能的话,我们可以把原子值封装到一个数据类型中,比如一个结构体类型。这样,我们既可以通过该类型的方法更加安全地存储值,又可以在该类型中包含可存储值的合法类型信息。
除了上述使用建议之外,我还要再特别强调一点:尽量不要向原子值中存储引用类型的值。因为这很容易造成安全漏洞。请看下面的代码:
var box6 atomic.Value
v6 := []int{1, 2, 3}
box6.Store(v6)
v6[1] = 4 // 注意,此处的操作不是并发安全的!
我把一个[]int类型的切片值v6,存入了原子值box6。注意切片类型属于引用类型。所以我在外面改动这个切片值就等于修改了box6中存储的那个值。这相当于绕过了原子值而进行了非并发安全的操作。那么应该怎样修补这个漏洞呢可以这样做
store := func(v []int) {
replica := make([]int, len(v))
copy(replica, v)
box6.Store(replica)
}
store(v6)
v6[2] = 5 // 此处的操作是安全的。
我先为切片值v6创建了一个完全的副本。这个副本涉及的数据已经与原值毫不相干了。然后我再把这个副本存入box6。如此一来无论我再对v6的值做怎样的修改都不会破坏box6提供的安全保护。
以上就是我要告诉你的关于atomic.Value的注意事项和使用建议。你可以在demo64.go文件中看到相应的示例。
总结
我们把这两篇文章一起总结一下。相对于原子操作函数,原子值类型的优势很明显,但它的使用规则也更多一些。首先,在首次真正使用后,原子值就不应该再被复制了。
其次原子值的Store方法对其参数值也就是被存储值有两个强制的约束。一个约束是参数值不能为nil。另一个约束是参数值的类型不能与首个被存储值的类型不同。也就是说一旦一个原子值存储了某个类型的值那它以后就只能存储这个类型的值了。
基于上面这几个注意事项,我提出了几条使用建议,包括:不要对外暴露原子变量、不要传递原子值及其指针值、尽量不要在原子值中存储引用类型的值,等等。与之相关的一些解决方案我也一并提出了。希望你能够受用。
原子操作明显比互斥锁要更加轻便,但是限制也同样明显。所以,我们在进行二选一的时候通常不会太困难。但是原子值与互斥锁之间的选择有时候就需要仔细的考量了。不过,如果你能牢记我今天讲的这些内容的话,应该会有很大的助力。
思考题
今天的思考题只有一个,那就是:如果要对原子值和互斥锁进行二选一,你认为最重要的三个决策条件应该是什么?
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,176 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
31 sync.WaitGroup和sync.Once
我们在前几次讲的互斥锁、条件变量和原子操作都是最基本重要的同步工具。在Go语言中除了通道之外它们也算是最为常用的并发安全工具了。
说到通道,不知道你想过没有,之前在一些场合下里,我们使用通道的方式看起来都似乎有些蹩脚。
比如声明一个通道使它的容量与我们手动启用的goroutine的数量相同之后再利用这个通道让主goroutine等待其他goroutine的运行结束。
这一步更具体地说就是让其他的goroutine在运行结束之前都向这个通道发送一个元素值并且让主goroutine在最后从这个通道中接收元素值接收的次数需要与其他的goroutine的数量相同。
这就是下面的coordinateWithChan函数展示的多goroutine协作流程。
func coordinateWithChan() {
sign := make(chan struct{}, 2)
num := int32(0)
fmt.Printf("The number: %d [with chan struct{}]\n", num)
max := int32(10)
go addNum(&num, 1, max, func() {
sign <- struct{}{}
})
go addNum(&num, 2, max, func() {
sign <- struct{}{}
})
<-sign
<-sign
}
其中的addNum函数的声明在demo65.go文件中addNum函数会把它接受的最后一个参数值作为其中的defer函数
我手动启用的两个goroutine都会调用addNum函数而它们传给该函数的最后一个参数值也就是那个既无参数声明也无结果声明的函数都只会做一件事情那就是向通道sign发送一个元素值
看到coordinateWithChan函数中最后的那两行代码了吗重复的两个接收表达式<-sign是不是看起来很丑陋
前导内容sync包的WaitGroup类型
其实在这种应用场景下我们可以选用另外一个同步工具sync包的WaitGroup类型它比通道更加适合实现这种一对多的goroutine协作流程
sync.WaitGroup类型以下简称WaitGroup类型是开箱即用的也是并发安全的同时与我们前面讨论的几个同步工具一样它一旦被真正使用就不能被复制了
WaitGroup类型拥有三个指针方法AddDone和Wait你可以想象该类型中有一个计数器它的默认值是0我们可以通过调用该类型值的Add方法来增加或者减少这个计数器的值
一般情况下我会用这个方法来记录需要等待的goroutine的数量相对应的这个类型的Done方法用于对其所属值中计数器的值进行减一操作我们可以在需要等待的goroutine中通过defer语句调用它
而此类型的Wait方法的功能是阻塞当前的goroutine直到其所属值中的计数器归零如果在该方法被调用的时候那个计数器的值就是0那么它将不会做任何事情
你可能已经看出来了WaitGroup类型的值以下简称WaitGroup值完全可以被用来替换coordinateWithChan函数中的通道sign下面的coordinateWithWaitGroup函数就是它的改造版本
func coordinateWithWaitGroup() {
var wg sync.WaitGroup
wg.Add(2)
num := int32(0)
fmt.Printf("The number: %d [with sync.WaitGroup]\n", num)
max := int32(10)
go addNum(&num, 3, max, wg.Done)
go addNum(&num, 4, max, wg.Done)
wg.Wait()
}
很明显整体代码少了好几行而且看起来也更加简洁了这里我先声明了一个WaitGroup类型的变量wg然后我调用了它的Add方法并传入了2因为我会在后面启用两个需要等待的goroutine
由于wg变量的Done方法本身就是一个既无参数声明也无结果声明的函数所以我在go语句中调用addNum函数的时候可以直接把该方法作为最后一个参数值传进去
在coordinateWithWaitGroup函数的最后我调用了wg的Wait方法如此一来该函数就可以等到那两个goroutine都运行结束之后再结束执行了
以上就是WaitGroup类型最典型的应用场景了不过不能止步于此对于这个类型我们还是有必要再深入了解一下的我们一起看下面的问题
问题sync.WaitGroup类型值中计数器的值可以小于0吗
这里的典型回答是不可以
问题解析
为什么不可以呢我们解析一下之所以说WaitGroup值中计数器的值不能小于0是因为这样会引发一个panic 不适当地调用这类值的Done方法和Add方法都会如此别忘了我们在调用Add方法的时候是可以传入一个负数的
实际上导致WaitGroup值的方法抛出panic的原因不只这一种
你需要知道在我们声明了这样一个变量之后应该首先根据需要等待的goroutine或者其他事件的数量调用它的Add方法以使计数器的值大于0这是确保我们能在后面正常地使用这类值的前提
如果我们对它的Add方法的首次调用与对它的Wait方法的调用是同时发起的比如在同时启用的两个goroutine中分别调用这两个方法那么就有可能会让这里的Add方法抛出一个panic
这种情况不太容易复现也正因为如此我们更应该予以重视所以虽然WaitGroup值本身并不需要初始化但是尽早地增加其计数器的值还是非常有必要的
另外你可能已经知道WaitGroup值是可以被复用的但需要保证其计数周期的完整性这里的计数周期指的是这样一个过程该值中的计数器值由0变为了某个正整数而后又经过一系列的变化最终由某个正整数又变回了0
也就是说只要计数器的值始于0又归为0就可以被视为一个计数周期在一个此类值的生命周期中它可以经历任意多个计数周期但是只有在它走完当前的计数周期之后才能够开始下一个计数周期
-
sync.WaitGroup的计数周期
因此也可以说如果一个此类值的Wait方法在它的某个计数周期中被调用那么就会立即阻塞当前的goroutine直至这个计数周期完成在这种情况下该值的下一个计数周期必须要等到这个Wait方法执行结束之后才能够开始
如果在一个此类值的Wait方法被执行期间跨越了两个计数周期那么就会引发一个panic
例如在当前的goroutine因调用此类值的Wait方法而被阻塞的时候另一个goroutine调用了该值的Done方法并使其计数器的值变为了0
这会唤醒当前的goroutine并使它试图继续执行Wait方法中其余的代码但在这时又有一个goroutine调用了它的Add方法并让其计数器的值又从0变为了某个正整数此时这里的Wait方法就会立即抛出一个panic
纵观上述会引发panic的后两种情况我们可以总结出这样一条关于WaitGroup值的使用禁忌不要把增加其计数器值的操作和调用其Wait方法的代码放在不同的goroutine中执行换句话说要杜绝对同一个WaitGroup值的两种操作的并发执行
除了第一种情况外我们通常需要反复地实验才能够让WaitGroup值的方法抛出panic再次强调虽然这不是每次都发生但是在长期运行的程序中这种情况发生的概率还是不小的我们必须要重视它们
如果你对复现这些异常情况感兴趣那么可以参看sync代码包中的waitgroup_test.go文件其中的名称以TestWaitGroupMisuse为前缀的测试函数很好地展示了这些异常情况的发生条件你可以模仿这些测试函数自己写一些测试代码执行一下试试看
知识扩展
问题sync.Once类型值的Do方法是怎么保证只执行参数函数一次的
与sync.WaitGroup类型一样sync.Once类型以下简称Once类型也属于结构体类型同样也是开箱即用和并发安全的由于这个类型中包含了一个sync.Mutex类型的字段所以复制该类型的值也会导致功能的失效
Once类型的Do方法只接受一个参数这个参数的类型必须是func()无参数声明和结果声明的函数
该方法的功能并不是对每一种参数函数都只执行一次而是只执行首次被调用时传入的那个函数并且之后不会再执行任何参数函数
所以如果你有多个只需要执行一次的函数那么就应该为它们中的每一个都分配一个sync.Once类型的值以下简称Once值)。
Once类型中还有一个名叫done的uint32类型的字段它的作用是记录其所属值的Do方法被调用的次数不过该字段的值只可能是0或者1一旦Do方法的首次调用完成它的值就会从0变为1
你可能会问既然done字段的值不是0就是1那为什么还要使用需要四个字节的uint32类型呢
原因很简单因为对它的操作必须是原子Do方法在一开始就会通过调用atomic.LoadUint32函数来获取该字段的值并且一旦发现该值为1就会直接返回这也初步保证了Do方法只会执行首次被调用时传入的函数”。
不过单凭这样一个判断的保证是不够的因为如果有两个goroutine都调用了同一个新的Once值的Do方法并且几乎同时执行到了其中的这个条件判断代码那么它们就都会因判断结果为false而继续执行Do方法中剩余的代码
在这个条件判断之后Do方法会立即锁定其所属值中的那个sync.Mutex类型的字段m然后它会在临界区中再次检查done字段的值并且仅在条件满足时才会去调用参数函数以及用原子操作把done的值变为1
如果你熟悉GoF设计模式中的单例模式的话那么肯定能看出来这个Do方法的实现方式与那个单例模式有很多相似之处它们都会先在临界区之外判断一次关键条件若条件不满足则立即返回这通常被称为快路径”,或者叫做快速失败路径”。
如果条件满足那么到了临界区中还要再对关键条件进行一次判断这主要是为了更加严谨这两次条件判断常被统称为跨临界区的)“双重检查”。
由于进入临界区之前肯定要锁定保护它的互斥锁m显然会降低代码的执行速度所以其中的第二次条件判断以及后续的操作就被称为慢路径或者常规路径”。
别看Do方法中的代码不多但它却应用了一个很经典的编程范式我们在Go语言及其标准库中还能看到不少这个经典范式及它衍生版本的应用案例
下面我再来说说这个Do方法在功能方面的两个特点
第一个特点由于Do方法只会在参数函数执行结束之后把done字段的值变为1因此如果参数函数的执行需要很长时间或者根本就不会结束比如执行一些守护任务那么就有可能会导致相关goroutine的同时阻塞
例如有多个goroutine并发地调用了同一个Once值的Do方法并且传入的函数都会一直执行而不结束那么这些goroutine就都会因调用了这个Do方法而阻塞因为除了那个抢先执行了参数函数的goroutine之外其他的goroutine都会被阻塞在锁定该Once值的互斥锁m的那行代码上
第二个特点Do方法在参数函数执行结束后对done字段的赋值用的是原子操作并且这一操作是被挂在defer语句中的因此不论参数函数的执行会以怎样的方式结束done字段的值都会变为1
也就是说即使这个参数函数没有执行成功比如引发了一个panic我们也无法使用同一个Once值重新执行它了所以如果你需要为参数函数的执行设定重试机制那么就要考虑Once值的适时替换问题
在很多时候我们需要依据Do方法的这两个特点来设计与之相关的流程以避免不必要的程序阻塞和功能缺失
总结
sync代码包的WaitGroup类型和Once类型都是非常易用的同步工具它们都是开箱即用和并发安全的
利用WaitGroup值我们可以很方便地实现一对多的goroutine协作流程一个分发子任务的goroutine和多个执行子任务的goroutine共同来完成一个较大的任务
在使用WaitGroup值的时候我们一定要注意千万不要让其中的计数器的值小于0否则就会引发panic
另外我们最好用先统一Add再并发Done最后Wait这种标准方式来使用WaitGroup值 尤其不要在调用Wait方法的同时并发地通过调用Add方法去增加其计数器的值因为这也有可能引发panic
Once值的使用方式比WaitGroup值更加简单它只有一个Do方法同一个Once值的Do方法永远只会执行第一次被调用时传入的参数函数不论这个函数的执行会以怎样的方式结束
只要传入某个Do方法的参数函数没有结束执行任何之后调用该方法的goroutine就都会被阻塞只有在这个参数函数执行结束以后那些goroutine才会逐一被唤醒
Once类型使用互斥锁和原子操作实现了功能而WaitGroup类型中只用到了原子操作 所以可以说它们都是更高层次的同步工具它们都基于基本的通用工具实现了某一种特定的功能sync包中的其他高级同步工具其实也都是这样的
思考题
今天的思考题是在使用WaitGroup值实现一对多的goroutine协作流程时怎样才能让分发子任务的goroutine获得各个子任务的具体执行结果
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,201 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
32 context.Context类型
我们在上篇文章中讲到了sync.WaitGroup类型一个可以帮我们实现一对多goroutine协作流程的同步工具。
在使用WaitGroup值的时候我们最好用“先统一Add再并发Done最后Wait”的标准模式来构建协作流程。
如果在调用该值的Wait方法的同时为了增大其计数器的值而并发地调用该值的Add方法那么就很可能会引发panic。
这就带来了一个问题如果我们不能在一开始就确定执行子任务的goroutine的数量那么使用WaitGroup值来协调它们和分发子任务的goroutine就是有一定风险的。一个解决方案是分批地启用执行子任务的goroutine。
前导内容WaitGroup值补充知识
我们都知道WaitGroup值是可以被复用的但需要保证其计数周期的完整性。尤其是涉及对其Wait方法调用的时候它的下一个计数周期必须要等到与当前计数周期对应的那个Wait方法调用完成之后才能够开始。
我在前面提到的可能会引发panic的情况就是由于没有遵循这条规则而导致的。
只要我们在严格遵循上述规则的前提下分批地启用执行子任务的goroutine就肯定不会有问题。具体的实现方式有不少其中最简单的方式就是使用for循环来作为辅助。这里的代码如下
func coordinateWithWaitGroup() {
total := 12
stride := 3
var num int32
fmt.Printf("The number: %d [with sync.WaitGroup]\n", num)
var wg sync.WaitGroup
for i := 1; i <= total; i = i + stride {
wg.Add(stride)
for j := 0; j < stride; j++ {
go addNum(&num, i+j, wg.Done)
}
wg.Wait()
}
fmt.Println("End.")
}
这里展示的coordinateWithWaitGroup函数就是上一篇文章中同名函数的改造版本而其中调用的addNum函数则是上一篇文章中同名函数的简化版本这两个函数都已被放置在了demo67.go文件中
我们可以看到经过改造后的coordinateWithWaitGroup函数循环地使用了由变量wg代表的WaitGroup值它运用的依然是先统一Add再并发Done最后Wait的这种模式只不过它利用for语句对此进行了复用
好了至此你应该已经对WaitGroup值的运用有所了解了不过我现在想让你使用另一种工具来实现上面的协作流程
我们今天的问题就是怎样使用context包中的程序实体实现一对多的goroutine协作流程
更具体地说我需要你编写一个名为coordinateWithContext的函数这个函数应该具有上面coordinateWithWaitGroup函数相同的功能
显然你不能再使用sync.WaitGroup了而要用context包中的函数和Context类型作为实现工具这里注意一点是否分批启用执行子任务的goroutine其实并不重要
我在这里给你一个参考答案
func coordinateWithContext() {
total := 12
var num int32
fmt.Printf("The number: %d [with context.Context]\n", num)
cxt, cancelFunc := context.WithCancel(context.Background())
for i := 1; i <= total; i++ {
go addNum(&num, i, func() {
if atomic.LoadInt32(&num) == int32(total) {
cancelFunc()
}
})
}
<-cxt.Done()
fmt.Println("End.")
}
在这个函数体中我先后调用了context.Background函数和context.WithCancel函数并得到了一个可撤销的context.Context类型的值由变量cxt代表以及一个context.CancelFunc类型的撤销函数由变量cancelFunc代表)。
在后面那条唯一的for语句中我在每次迭代中都通过一条go语句异步地调用addNum函数调用的总次数只依据了total变量的值
请注意我给予addNum函数的最后一个参数值它是一个匿名函数其中只包含了一条if语句这条if语句会原子地加载num变量的值并判断它是否等于total变量的值
如果两个值相等那么就调用cancelFunc函数其含义是如果所有的addNum函数都执行完毕那么就立即通知分发子任务的goroutine
这里分发子任务的goroutine即为执行coordinateWithContext函数的goroutine它在执行完for语句后会立即调用cxt变量的Done函数并试图针对该函数返回的通道进行接收操作
由于一旦cancelFunc函数被调用针对该通道的接收操作就会马上结束所以这样做就可以实现等待所有的addNum函数都执行完毕的功能
问题解析
context.Context类型以下简称Context类型是在Go 1.7发布时才被加入到标准库的而后标准库中的很多其他代码包都为了支持它而进行了扩展包括os/exec包net包database/sql包以及runtime/pprof包和runtime/trace包等等
Context类型之所以受到了标准库中众多代码包的积极支持主要是因为它是一种非常通用的同步工具它的值不但可以被任意地扩散而且还可以被用来传递额外的信息和信号
更具体地说Context类型可以提供一类代表上下文的值此类值是并发安全的也就是说它可以被传播给多个goroutine
由于Context类型实际上是一个接口类型而context包中实现该接口的所有私有类型都是基于某个数据类型的指针类型所以如此传播并不会影响该类型值的功能和安全
Context类型的值以下简称Context值是可以繁衍的这意味着我们可以通过一个Context值产生出任意个子值这些子值可以携带其父值的属性和数据也可以响应我们通过其父值传达的信号
正因为如此所有的Context值共同构成了一颗代表了上下文全貌的树形结构这棵树的树根或者称上下文根节点是一个已经在context包中预定义好的Context值它是全局唯一的通过调用context.Background函数我们就可以获取到它我在coordinateWithContext函数中就是这么做的)。
这里注意一下这个上下文根节点仅仅是一个最基本的支点它不提供任何额外的功能也就是说它既不可以被撤销cancel也不能携带任何数据
除此之外context包中还包含了四个用于繁衍Context值的函数WithCancelWithDeadlineWithTimeout和WithValue
这些函数的第一个参数的类型都是context.Context而名称都为parent顾名思义这个位置上的参数对应的都是它们将会产生的Context值的父值
WithCancel函数用于产生一个可撤销的parent的子值在coordinateWithContext函数中我通过调用该函数获得了一个衍生自上下文根节点的Context值和一个用于触发撤销信号的函数
而WithDeadline函数和WithTimeout函数则都可以被用来产生一个会定时撤销的parent的子值至于WithValue函数我们可以通过调用它产生一个会携带额外数据的parent的子值
到这里我们已经对context包中的函数和Context类型有了一个基本的认识了不过这还不够我们再来扩展一下
知识扩展
问题1:“可撤销的在context包中代表着什么?“撤销一个Context值又意味着什么
我相信很多初识context包的Go程序开发者都会有这样的疑问确实,“可撤销的”(cancelable这个词在这里是比较抽象的很容易让人迷惑我这里再来解释一下
这需要从Context类型的声明讲起这个接口中有两个方法与撤销息息相关Done方法会返回一个元素类型为struct{}的接收通道不过这个接收通道的用途并不是传递元素值而是让调用方去感知撤销当前Context值的那个信号
一旦当前的Context值被撤销这里的接收通道就会被立即关闭我们都知道对于一个未包含任何元素值的通道来说它的关闭会使任何针对它的接收操作立即结束
正因为如此在coordinateWithContext函数中基于调用表达式cxt.Done()的接收操作才能够起到感知撤销信号的作用
除了让Context值的使用方感知到撤销信号让它们得到撤销的具体原因有时也是很有必要的后者即是Context类型的Err方法的作用该方法的结果是error类型的并且其值只可能等于context.Canceled变量的值或者context.DeadlineExceeded变量的值
前者用于表示手动撤销而后者则代表由于我们给定的过期时间已到而导致的撤销
你可能已经感觉到了对于Context值来说,“撤销这个词如果当名词讲指的其实就是被用来表达撤销状态的信号如果当动词讲指的就是对撤销信号的传达可撤销的指的则是具有传达这种撤销信号的能力
我在前面讲过当我们通过调用context.WithCancel函数产生一个可撤销的Context值时还会获得一个用于触发撤销信号的函数
通过调用这个函数我们就可以触发针对这个Context值的撤销信号一旦触发撤销信号就会立即被传达给这个Context值并由它的Done方法的结果值一个接收通道表达出来
撤销函数只负责触发信号而对应的可撤销的Context值也只负责传达信号它们都不会去管后边具体的撤销操作实际上我们的代码可以在感知到撤销信号之后进行任意的操作Context值对此并没有任何的约束
最后若再深究的话这里的撤销最原始的含义其实就是终止程序针对某种请求比如HTTP请求的响应或者取消对某种指令比如SQL指令的处理这也是Go语言团队在创建context代码包和Context类型时的初衷
如果我们去查看net包和database/sql包的API和源码的话就可以了解它们在这方面的典型应用
问题2撤销信号是如何在上下文树中传播的
我在前面讲了context包中包含了四个用于繁衍Context值的函数其中的WithCancelWithDeadline和WithTimeout都是被用来基于给定的Context值产生可撤销的子值的
context包的WithCancel函数在被调用后会产生两个结果值第一个结果值就是那个可撤销的Context值而第二个结果值则是用于触发撤销信号的函数
在撤销函数被调用之后对应的Context值会先关闭它内部的接收通道也就是它的Done方法会返回的那个通道
然后它会向它的所有子值或者说子节点传达撤销信号这些子值会如法炮制把撤销信号继续传播下去最后这个Context值会断开它与其父值之间的关联
在上下文树中传播撤销信号
我们通过调用context包的WithDeadline函数或者WithTimeout函数生成的Context值也是可撤销的它们不但可以被手动撤销还会依据在生成时被给定的过期时间自动地进行定时撤销这里定时撤销的功能是借助它们内部的计时器来实现的
当过期时间到达时这两种Context值的行为与Context值被手动撤销时的行为是几乎一致的只不过前者会在最后停止并释放掉其内部的计时器
最后要注意通过调用context.WithValue函数得到的Context值是不可撤销的撤销信号在被传播时若遇到它们则会直接跨过并试图将信号直接传给它们的子值
问题 3怎样通过Context值携带数据怎样从中获取数据
既然谈到了context包的WithValue函数我们就来说说Context值携带数据的方式
WithValue函数在产生新的Context值以下简称含数据的Context值的时候需要三个参数父值键和值字典对于键的约束类似这里键的类型必须是可判等的
原因很简单当我们从中获取数据的时候它需要根据给定的键来查找对应的值不过这种Context值并不是用字典来存储键和值的后两者只是被简单地存储在前者的相应字段中而已
Context类型的Value方法就是被用来获取数据的在我们调用含数据的Context值的Value方法时它会先判断给定的键是否与当前值中存储的键相等如果相等就把该值中存储的值直接返回否则就到其父值中继续查找
如果其父值中仍然未存储相等的键那么该方法就会沿着上下文根节点的方向一路查找下去
注意除了含数据的Context值以外其他几种Context值都是无法携带数据的因此Context值的Value方法在沿路查找的时候会直接跨过那几种值
如果我们调用的Value方法的所属值本身就是不含数据的那么实际调用的就将会是其父辈或祖辈的Value方法这是由于这几种Context值的实际类型都属于结构体类型并且它们都是通过将其父值嵌入到自身”,来表达父子关系的
最后提醒一下Context接口并没有提供改变数据的方法因此在通常情况下我们只能通过在上下文树中添加含数据的Context值来存储新的数据或者通过撤销此种值的父值丢弃掉相应的数据如果你存储在这里的数据可以从外部改变那么必须自行保证安全
总结
我们今天主要讨论的是context包中的函数和Context类型该包中的函数都是用于产生新的Context类型值的Context类型是一个可以帮助我们实现多goroutine协作流程的同步工具不但如此我们还可以通过此类型的值传达撤销信号或传递数据
Context类型的实际值大体上分为三种根Context值可撤销的Context值和含数据的Context值所有的Context值共同构成了一颗上下文树这棵树的作用域是全局的而根Context值就是这棵树的根它是全局唯一的并且不提供任何额外的功能
可撤销的Context值又分为只可手动撤销的Context值和可以定时撤销的Context值
我们可以通过生成它们时得到的撤销函数来对其进行手动的撤销对于后者定时撤销的时间必须在生成时就完全确定并且不能更改不过我们可以在过期时间达到之前对其进行手动的撤销
一旦撤销函数被调用撤销信号就会立即被传达给对应的Context值并由该值的Done方法返回的接收通道表达出来
撤销这个操作是Context值能够协调多个goroutine的关键所在撤销信号总是会沿着上下文树叶子节点的方向传播开来
含数据的Context值可以携带数据每个值都可以存储一对键和值在我们调用它的Value方法的时候它会沿着上下文树的根节点的方向逐个值的进行查找如果发现相等的键它就会立即返回对应的值否则将在最后返回nil
含数据的Context值不能被撤销而可撤销的Context值又无法携带数据但是由于它们共同组成了一个有机的整体即上下文树所以在功能上要比sync.WaitGroup强大得多
思考题
今天的思考题是Context值在传达撤销信号的时候是广度优先的还是深度优先的其优势和劣势都是什么
戳此查看Go语言专栏文章配套详细代码

View File

@@ -0,0 +1,179 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
33 临时对象池sync.Pool
到目前为止我们已经一起学习了Go语言标准库中最重要的那几个同步工具这包括非常经典的互斥锁、读写锁、条件变量和原子操作以及Go语言特有的几个同步工具
sync/atomic.Value
sync.Once
sync.WaitGroup
context.Context。
今天我们来讲Go语言标准库中的另一个同步工具sync.Pool。
sync.Pool类型可以被称为临时对象池它的值可以被用来存储临时的对象。与Go语言的很多同步工具一样sync.Pool类型也属于结构体类型它的值在被真正使用之后就不应该再被复制了。
这里的“临时对象”的意思是:不需要持久使用的某一类值。这类值对于程序来说可有可无,但如果有的话会明显更好。它们的创建和销毁可以在任何时候发生,并且完全不会影响到程序的功能。
同时,它们也应该是无需被区分的,其中的任何一个值都可以代替另一个。如果你的某类值完全满足上述条件,那么你就可以把它们存储到临时对象池中。
你可能已经想到了,我们可以把临时对象池当作针对某种数据的缓存来用。实际上,在我看来,临时对象池最主要的用途就在于此。
sync.Pool类型只有两个方法——Put和Get。Put用于在当前的池中存放临时对象它接受一个interface{}类型的参数而Get则被用于从当前的池中获取临时对象它会返回一个interface{}类型的值。
更具体地说这个类型的Get方法可能会从当前的池中删除掉任何一个值然后把这个值作为结果返回。如果此时当前的池中没有任何值那么这个方法就会使用当前池的New字段创建一个新值并直接将其返回。
sync.Pool类型的New字段代表着创建临时对象的函数。它的类型是没有参数但有唯一结果的函数类型func() interface{}。
这个函数是Get方法最后的临时对象获取手段。Get方法如果到了最后仍然无法获取到一个值那么就会调用该函数。该函数的结果值并不会被存入当前的临时对象池中而是直接返回给Get方法的调用方。
这里的New字段的实际值需要我们在初始化临时对象池的时候就给定。否则在我们调用它的Get方法的时候就有可能会得到nil。所以sync.Pool类型并不是开箱即用的。不过这个类型也就只有这么一个公开的字段因此初始化起来也并不麻烦。
举个例子。标准库代码包fmt就使用到了sync.Pool类型。这个包会创建一个用于缓存某类临时对象的sync.Pool类型值并将这个值赋给一个名为ppFree的变量。这类临时对象可以识别、格式化和暂存需要打印的内容。
var ppFree = sync.Pool{
New: func() interface{} { return new(pp) },
}
临时对象池ppFree的New字段在被调用的时候总是会返回一个全新的pp类型值的指针即临时对象。这就保证了ppFree的Get方法总能返回一个可以包含需要打印内容的值。
pp类型是fmt包中的私有类型它有很多实现了不同功能的方法。不过这里的重点是它的每一个值都是独立的、平等的和可重用的。
更具体地说这些对象既互不干扰又不会受到外部状态的影响。它们几乎只针对某个需要打印内容的缓冲区而已。由于fmt包中的代码在真正使用这些临时对象之前总是会先对其进行重置所以它们并不在意取到的是哪一个临时对象。这就是临时对象的平等性的具体体现。
另外这些代码在使用完临时对象之后都会先抹掉其中已缓冲的内容然后再把它存放到ppFree中。这样就为重用这类临时对象做好了准备。
众所周知的fmt.Println、fmt.Printf等打印函数都是如此使用ppFree以及其中的临时对象的。因此在程序同时执行很多的打印函数调用的时候ppFree可以及时地把它缓存的临时对象提供给它们以加快执行的速度。
而当程序在一段时间内不再执行打印函数调用时ppFree中的临时对象又能够被及时地清理掉以节省内存空间。
显然,在这个维度上,临时对象池可以帮助程序实现可伸缩性。这就是它的最大价值。
我想,到了这里你已经清楚了临时对象池的基本功能、使用方式、适用场景和存在意义。我们下面来讨论一下它的一些内部机制,这样,我们就可以更好地利用它做更多的事。
首先,我来问你一个问题。这个问题很可能也是你想问的。今天的问题是:为什么说临时对象池中的值会被及时地清理掉?
这里的典型回答是因为Go语言运行时系统中的垃圾回收器所以在每次开始执行之前都会对所有已创建的临时对象池中的值进行全面地清除。
问题解析
我在前面已经向你讲述了临时对象会在什么时候被创建,下面我再来详细说说它会在什么时候被销毁。
sync包在被初始化的时候会向Go语言运行时系统注册一个函数这个函数的功能就是清除所有已创建的临时对象池中的值。我们可以把它称为池清理函数。
一旦池清理函数被注册到了Go语言运行时系统后者在每次即将执行垃圾回收时就都会执行前者。
另外在sync包中还有一个包级私有的全局变量。这个变量代表了当前的程序中使用的所有临时对象池的汇总它是元素类型为*sync.Pool的切片。我们可以称之为池汇总列表。
通常在一个临时对象池的Put方法或Get方法第一次被调用的时候这个池就会被添加到池汇总列表中。正因为如此池清理函数总是能访问到所有正在被真正使用的临时对象池。
更具体地说池清理函数会遍历池汇总列表。对于其中的每一个临时对象池它都会先将池中所有的私有临时对象和共享临时对象列表都置为nil然后再把这个池中的所有本地池列表都销毁掉。
最后,池清理函数会把池汇总列表重置为空的切片。如此一来,这些池中存储的临时对象就全部被清除干净了。
如果临时对象池以外的代码再无对它们的引用,那么在稍后的垃圾回收过程中,这些临时对象就会被当作垃圾销毁掉,它们占用的内存空间也会被回收以备他用。
以上,就是我对临时对象清理的进一步说明。首先需要记住的是,池清理函数和池汇总列表的含义,以及它们起到的关键作用。一旦理解了这些,那么在有人问到你这个问题的时候,你应该就可以从容地应对了。
不过,我们在这里还碰到了几个新的词,比如:私有临时对象、共享临时对象列表和本地池。这些都代表着什么呢?这就涉及了下面的问题。
知识扩展
问题1临时对象池存储值所用的数据结构是怎样的
在临时对象池中,有一个多层的数据结构。正因为有了它的存在,临时对象池才能够非常高效地存储大量的值。
这个数据结构的顶层我们可以称之为本地池列表不过更确切地说它是一个数组。这个列表的长度总是与Go语言调度器中的P的数量相同。
还记得吗Go语言调度器中的P是processor的缩写它指的是一种可以承载若干个G、且能够使这些G适时地与M进行对接并得到真正运行的中介。
这里的G正是goroutine的缩写而M则是machine的缩写后者指代的是系统级的线程。正因为有了P的存在G和M才能够进行灵活、高效的配对从而实现强大的并发编程模型。
P存在的一个很重要的原因是为了分散并发程序的执行压力而让临时对象池中的本地池列表的长度与P的数量相同的主要原因也是分散压力。这里所说的压力包括了存储和性能两个方面。在说明它们之前我们先来探索一下临时对象池中的那个数据结构。
在本地池列表中的每个本地池都包含了三个字段或者说组件它们是存储私有临时对象的字段private、代表了共享临时对象列表的字段shared以及一个sync.Mutex类型的嵌入字段。
-
sync.Pool中的本地池与各个G的对应关系
实际上每个本地池都对应着一个P。我们都知道一个goroutine要想真正运行就必须先与某个P产生关联。也就是说一个正在运行的goroutine必然会关联着某个P。
在程序调用临时对象池的Put方法或Get方法的时候总会先试图从该临时对象池的本地池列表中获取与之对应的本地池依据的就是与当前的goroutine关联的那个P的ID。
换句话说一个临时对象池的Put方法或Get方法会获取到哪一个本地池完全取决于调用它的代码所在的goroutine关联的那个P。
既然说到了这里,那么紧接着就会有下面这个问题。
问题 2临时对象池是怎样利用内部数据结构来存取值的
临时对象池的Put方法总会先试图把新的临时对象存储到对应的本地池的private字段中以便在后面获取临时对象的时候可以快速地拿到一个可用的值。
只有当这个private字段已经存有某个值时该方法才会去访问本地池的shared字段。
相应的临时对象池的Get方法总会先试图从对应的本地池的private字段处获取一个临时对象。只有当这个private字段的值为nil时它才会去访问本地池的shared字段。
一个本地池的shared字段原则上可以被任何goroutine中的代码访问到不论这个goroutine关联的是哪一个P。这也是我把它叫做共享临时对象列表的原因。
相比之下一个本地池的private字段只可能被与之对应的那个P所关联的goroutine中的代码访问到所以可以说它是P级私有的。
以临时对象池的Put方法为例它一旦发现对应的本地池的private字段已存有值就会去访问这个本地池的shared字段。当然由于shared字段是共享的所以此时必须受到互斥锁的保护。
还记得本地池嵌入的那个sync.Mutex类型的字段吗它就是这里用到的互斥锁也就是说本地池本身就拥有互斥锁的功能。Put方法会在互斥锁的保护下把新的临时对象追加到共享临时对象列表的末尾。
相应的临时对象池的Get方法在发现对应本地池的private字段未存有值时也会去访问后者的shared字段。它会在互斥锁的保护下试图把该共享临时对象列表中的最后一个元素值取出并作为结果。
不过,这里的共享临时对象列表也可能是空的,这可能是由于这个本地池中的所有临时对象都已经被取走了,也可能是当前的临时对象池刚被清理过。
无论原因是什么Get方法都会去访问当前的临时对象池中的所有本地池它会去逐个搜索它们的共享临时对象列表。
只要发现某个共享临时对象列表中包含元素值,它就会把该列表的最后一个元素值取出并作为结果返回。
-
从sync.Pool中获取临时对象的步骤
当然了,即使这样也可能无法拿到一个可用的临时对象,比如,在所有的临时对象池都刚被大清洗的情况下就会是如此。
这时Get方法就会使出最后的手段——调用可创建临时对象的那个函数。还记得吗这个函数是由临时对象池的New字段代表的并且需要我们在初始化临时对象池的时候给定。如果这个字段的值是nil那么Get方法此时也只能返回nil了。
以上,就是我对这个问题的较完整回答。
总结
今天我们一起讨论了另一个比较有用的同步工具——sync.Pool类型它的值被我称为临时对象池。
临时对象池有一个New字段我们在初始化这个池的时候最好给定它。临时对象池还拥有两个方法Put和Get它们分别被用于向池中存放临时对象和从池中获取临时对象。
临时对象池中存储的每一个值都应该是独立的、平等的和可重用的。我们应该既不用关心从池中拿到的是哪一个值,也不用在意这个值是否已经被使用过。
要完全做到这两点可能会需要我们额外地写一些代码。不过这个代码量应该是微乎其微的就像fmt包对临时对象池的用法那样。所以在选用临时对象池的时候我们必须要把它将要存储的值的特性考虑在内。
在临时对象池的内部有一个多层的数据结构支撑着对临时对象的存储。它的顶层是本地池列表其中包含了与某个P对应的那些本地池并且其长度与P的数量总是相同的。
在每个本地池中都包含一个私有的临时对象和一个共享的临时对象列表。前者只能被其对应的P所关联的那个goroutine中的代码访问到而后者却没有这个约束。从另一个角度讲前者用于临时对象的快速存取而后者则用于临时对象的池内共享。
正因为有了这样的数据结构临时对象池才能够有效地分散存储压力和性能压力。同时又因为临时对象池的Get方法对这个数据结构的妙用才使得其中的临时对象能够被高效地利用。比如该方法有时候会从其他的本地池的共享临时对象列表中“偷取”一个临时对象。
这样的内部结构和存取方式让临时对象池成为了一个特点鲜明的同步工具。它存储的临时对象都应该是拥有较长生命周期的值并且这些值不应该被某个goroutine中的代码长期的持有和使用。
因此,临时对象池非常适合用作针对某种数据的缓存。从某种角度讲,临时对象池可以帮助程序实现可伸缩性,这也正是它的最大价值。
思考题
今天的思考题是:怎样保证一个临时对象池中总有比较充足的临时对象?
请从临时对象池的初始化和方法调用两个方面作答。必要时可以参考fmt包以及demo70.go文件中使用临时对象池的方式。
感谢你的收听,我们下次再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,131 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
34 并发安全字典sync.Map (上)
在前面我几乎已经把Go语言自带的同步工具全盘托出了。你是否已经听懂了会用了呢
无论怎样我都希望你能够多多练习、多多使用。它们和Go语言独有的并发编程方式并不冲突相反配合起来使用绝对能达到“一加一大于二”的效果。
当然了,至于怎样配合就是一门学问了。我在前面已经讲了不少的方法和技巧,不过,更多的东西可能就需要你在实践中逐渐领悟和总结了。
我们今天再来讲一个并发安全的高级数据结构sync.Map。众所周知Go语言自带的字典类型map并不是并发安全的。
前导知识:并发安全字典诞生史
换句话说在同一时间段内让不同goroutine中的代码对同一个字典进行读写操作是不安全的。字典值本身可能会因这些操作而产生混乱相关的程序也可能会因此发生不可预知的问题。
在sync.Map出现之前我们如果要实现并发安全的字典就只能自行构建。不过这其实也不是什么麻烦事使用 sync.Mutex或sync.RWMutex再加上原生的map就可以轻松地做到。
GitHub网站上已经有很多库提供了类似的数据结构。我在《Go并发编程实战》的第2版中也提供了一个比较完整的并发安全字典的实现。它的性能比同类的数据结构还要好一些因为它在很大程度上有效地避免了对锁的依赖。
尽管已经有了不少的参考实现Go语言爱好者们还是希望Go语言官方能够发布一个标准的并发安全字典。
经过大家多年的建议和吐槽Go语言官方终于在2017年发布的Go 1.9中正式加入了并发安全的字典类型sync.Map。
这个字典类型提供了一些常用的键值存取操作方法并保证了这些操作的并发安全。同时它的存、取、删等操作都可以基本保证在常数时间内执行完毕。换句话说它们的算法复杂度与map类型一样都是O(1)的。
在有些时候与单纯使用原生map和互斥锁的方案相比使用sync.Map可以显著地减少锁的争用。sync.Map本身虽然也用到了锁但是它其实在尽可能地避免使用锁。
我们都知道使用锁就意味着要把一些并发的操作强制串行化。这往往会降低程序的性能尤其是在计算机拥有多个CPU核心的情况下。
因此,我们常说,能用原子操作就不要用锁,不过这很有局限性,毕竟原子只能对一些基本的数据类型提供支持。
无论在何种场景下使用sync.Map我们都需要注意与原生map明显不同它只是Go语言标准库中的一员而不是语言层面的东西。也正因为这一点Go语言的编译器并不会对它的键和值进行特殊的类型检查。
如果你看过sync.Map的文档或者实际使用过它那么就一定会知道它所有的方法涉及的键和值的类型都是interface{},也就是空接口,这意味着可以包罗万象。所以,我们必须在程序中自行保证它的键类型和值类型的正确性。
好了,现在第一个问题来了。今天的问题是:并发安全字典对键的类型有要求吗?
这道题的典型回答是:有要求。键的实际类型不能是函数类型、字典类型和切片类型。
解析一下这个问题。 我们都知道Go语言的原生字典的键类型不能是函数类型、字典类型和切片类型。
由于并发安全字典内部使用的存储介质正是原生字典又因为它使用的原生字典键类型也是可以包罗万象的interface{};所以,我们绝对不能带着任何实际类型为函数类型、字典类型或切片类型的键值去操作并发安全字典。
由于这些键值的实际类型只有在程序运行期间才能够确定所以Go语言编译器是无法在编译期对它们进行检查的不正确的键值实际类型肯定会引发panic。
因此,我们在这里首先要做的一件事就是:一定不要违反上述规则。我们应该在每次操作并发安全字典的时候,都去显式地检查键值的实际类型。无论是存、取还是删,都应该如此。
当然,更好的做法是,把针对同一个并发安全字典的这几种操作都集中起来,然后统一地编写检查代码。除此之外,把并发安全字典封装在一个结构体类型中,往往是一个很好的选择。
总之我们必须保证键的类型是可比较的或者说可判等的。如果你实在拿不准那么可以先通过调用reflect.TypeOf函数得到一个键值对应的反射类型值reflect.Type类型的值然后再调用这个值的Comparable方法得到确切的判断结果。
知识扩展
问题1怎样保证并发安全字典中的键和值的类型正确性方案一
简单地说,可以使用类型断言表达式或者反射操作来保证它们的类型正确性。
为了进一步明确并发安全字典中键值的实际类型,这里大致有两种方案可选。
第一种方案是,让并发安全字典只能存储某个特定类型的键。
比如指定这里的键只能是int类型的或者只能是字符串又或是某类结构体。一旦完全确定了键的类型你就可以在进行存、取、删操作的时候使用类型断言表达式去对键的类型做检查了。
一般情况下这种检查并不繁琐。而且你要是把并发安全字典封装在一个结构体类型里面那就更加方便了。你这时完全可以让Go语言编译器帮助你做类型检查。请看下面的代码
type IntStrMap struct {
m sync.Map
}
func (iMap *IntStrMap) Delete(key int) {
iMap.m.Delete(key)
}
func (iMap *IntStrMap) Load(key int) (value string, ok bool) {
v, ok := iMap.m.Load(key)
if v != nil {
value = v.(string)
}
return
}
func (iMap *IntStrMap) LoadOrStore(key int, value string) (actual string, loaded bool) {
a, loaded := iMap.m.LoadOrStore(key, value)
actual = a.(string)
return
}
func (iMap *IntStrMap) Range(f func(key int, value string) bool) {
f1 := func(key, value interface{}) bool {
return f(key.(int), value.(string))
}
iMap.m.Range(f1)
}
func (iMap *IntStrMap) Store(key int, value string) {
iMap.m.Store(key, value)
}
如上所示我编写了一个名为IntStrMap的结构体类型它代表了键类型为int、值类型为string的并发安全字典。在这个结构体类型中只有一个sync.Map类型的字段m。并且这个类型拥有的所有方法都与sync.Map类型的方法非常类似。
两者对应的方法名称完全一致方法签名也非常相似只不过与键和值相关的那些参数和结果的类型不同而已。在IntStrMap类型的方法签名中明确了键的类型为int且值的类型为string。
显然这些方法在接受键和值的时候就不用再做类型检查了。另外这些方法在从m中取出键和值的时候完全不用担心它们的类型会不正确因为它的正确性在当初存入的时候就已经由Go语言编译器保证了。
稍微总结一下。第一种方案适用于我们可以完全确定键和值的具体类型的情况。在这种情况下我们可以利用Go语言编译器去做类型检查并用类型断言表达式作为辅助就像IntStrMap那样。
总结
我们今天讨论的是sync.Map类型它是一种并发安全的字典。它提供了一些常用的键、值存取操作方法并保证了这些操作的并发安全。同时它还保证了存、取、删等操作的常数级执行时间。
与原生的字典相同,并发安全字典对键的类型也是有要求的。它们同样不能是函数类型、字典类型和切片类型。
另外由于并发安全字典提供的方法涉及的键和值的类型都是interface{},所以我们在调用这些方法的时候,往往还需要对键和值的实际类型进行检查。
这里大致有两个方案。我们今天主要提到了第一种方案这是在编码时就完全确定键和值的类型然后利用Go语言的编译器帮我们做检查。
在下一次的文章中,我们会提到另外一种方案,并对比这两种方案的优劣。除此之外,我会继续探讨并发安全字典的相关问题。
感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,174 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
35 并发安全字典sync.Map (下)
你好我是郝林今天我们继续来分享并发安全字典sync.Map的内容。
我们在上一篇文章中谈到了由于并发安全字典提供的方法涉及的键和值的类型都是interface{},所以我们在调用这些方法的时候,往往还需要对键和值的实际类型进行检查。
这里大致有两个方案。我们上一篇文章中提到了第一种方案在编码时就完全确定键和值的类型然后利用Go语言的编译器帮我们做检查。
这样做很方便,不是吗?不过,虽然方便,但是却让这样的字典类型缺少了一些灵活性。
如果我们还需要一个键类型为uint32并发安全字典的话那就不得不再如法炮制地写一遍代码了。因此在需求多样化之后工作量反而更大甚至会产生很多雷同的代码。
知识扩展
问题1怎样保证并发安全字典中的键和值的类型正确性方案二
那么如果我们既想保持sync.Map类型原有的灵活性又想约束键和值的类型那么应该怎样做呢这就涉及了第二个方案。
在第二种方案中我们封装的结构体类型的所有方法都可以与sync.Map类型的方法完全一致包括方法名称和方法签名
不过,在这些方法中,我们就需要添加一些做类型检查的代码了。另外,这样并发安全字典的键类型和值类型,必须在初始化的时候就完全确定。并且,这种情况下,我们必须先要保证键的类型是可比较的。
所以在设计这样的结构体类型的时候只包含sync.Map类型的字段就不够了。
比如:
type ConcurrentMap struct {
m sync.Map
keyType reflect.Type
valueType reflect.Type
}
这里ConcurrentMap类型代表的是可自定义键类型和值类型的并发安全字典。这个类型同样有一个sync.Map类型的字段m代表着其内部使用的并发安全字典。
另外它的字段keyType和valueType分别用于保存键类型和值类型。这两个字段的类型都是reflect.Type我们可称之为反射类型。
这个类型可以代表Go语言的任何数据类型。并且这个类型的值也非常容易获得通过调用reflect.TypeOf函数并把某个样本值传入即可。
调用表达式reflect.TypeOf(int(123))的结果值就代表了int类型的反射类型值。
我们现在来看一看ConcurrentMap类型方法应该怎么写。
先说Load方法这个方法接受一个interface{}类型的参数key参数key代表了某个键的值。
因此当我们根据ConcurrentMap在m字段的值中查找键值对的时候就必须保证ConcurrentMap的类型是正确的。由于反射类型值之间可以直接使用操作符==或!=进行判等,所以这里的类型检查代码非常简单。
func (cMap *ConcurrentMap) Load(key interface{}) (value interface{}, ok bool) {
if reflect.TypeOf(key) != cMap.keyType {
return
}
return cMap.m.Load(key)
}
我们把一个接口类型值传入reflect.TypeOf函数就可以得到与这个值的实际类型对应的反射类型值。
因此如果参数值的反射类型与keyType字段代表的反射类型不相等那么我们就忽略后续操作并直接返回。
这时Load方法的第一个结果value的值为nil而第二个结果ok的值为false。这完全符合Load方法原本的含义。
再来说Store方法。Store方法接受两个参数key和value它们的类型也都是interface{}。因此,我们的类型检查应该针对它们来做。
func (cMap *ConcurrentMap) Store(key, value interface{}) {
if reflect.TypeOf(key) != cMap.keyType {
panic(fmt.Errorf("wrong key type: %v", reflect.TypeOf(key)))
}
if reflect.TypeOf(value) != cMap.valueType {
panic(fmt.Errorf("wrong value type: %v", reflect.TypeOf(value)))
}
cMap.m.Store(key, value)
}
这里的类型检查代码与Load方法中的代码很类似不同的是对检查结果的处理措施。当参数key或value的实际类型不符合要求时Store方法会立即引发panic。
这主要是由于Store方法没有结果声明所以在参数值有问题的时候它无法通过比较平和的方式告知调用方。不过这也是符合Store方法的原本含义的。
如果你不想这么做也是可以的那么就需要为Store方法添加一个error类型的结果。
并且在发现参数值类型不正确的时候让它直接返回相应的error类型值而不是引发panic。要知道这里展示的只一个参考实现你可以根据实际的应用场景去做优化和改进。
至于与ConcurrentMap类型相关的其他方法和函数我在这里就不展示了。它们在类型检查方式和处理流程上并没有特别之处。你可以在demo72.go文件中看到这些代码。
稍微总结一下。第一种方案适用于我们可以完全确定键和值具体类型的情况。在这种情况下我们可以利用Go语言编译器去做类型检查并用类型断言表达式作为辅助就像IntStrMap那样。
在第二种方案中我们无需在程序运行之前就明确键和值的类型只要在初始化并发安全字典的时候动态地给定它们就可以了。这里主要需要用到reflect包中的函数和数据类型外加一些简单的判等操作。
第一种方案存在一个很明显的缺陷,那就是无法灵活地改变字典的键和值的类型。一旦需求出现多样化,编码的工作量就会随之而来。
第二种方案很好地弥补了这一缺陷,但是,那些反射操作或多或少都会降低程序的性能。我们往往需要根据实际的应用场景,通过严谨且一致的测试,来获得和比较程序的各项指标,并以此作为方案选择的重要依据之一。
问题2并发安全字典如何做到尽量避免使用锁
sync.Map类型在内部使用了大量的原子操作来存取键和值并使用了两个原生的map作为存储介质。
其中一个原生map被存在了sync.Map的read字段中该字段是sync/atomic.Value类型的。 这个原生字典可以被看作一个快照它总会在条件满足时去重新保存所属的sync.Map值中包含的所有键值对。
为了描述方便,我们在后面简称它为只读字典。不过,只读字典虽然不会增减其中的键,但却允许变更其中的键所对应的值。所以,它并不是传统意义上的快照,它的只读特性只是对于其中键的集合而言的。
由read字段的类型可知sync.Map在替换只读字典的时候根本用不着锁。另外这个只读字典在存储键值对的时候还在值之上封装了一层。
它先把值转换为了unsafe.Pointer类型的值然后再把后者封装并储存在其中的原生字典中。如此一来在变更某个键所对应的值的时候就也可以使用原子操作了。
sync.Map中的另一个原生字典由它的dirty字段代表。 它存储键值对的方式与read字段中的原生字典一致它的键类型也是interface{},并且同样是把值先做转换和封装后再进行储存的。我们暂且把它称为脏字典。
注意,脏字典和只读字典如果都存有同一个键值对,那么这里的两个键指的肯定是同一个基本值,对于两个值来说也是如此。
正如前文所述,这两个字典在存储键和值的时候都只会存入它们的某个指针,而不是基本值。
sync.Map在查找指定的键所对应的值的时候总会先去只读字典中寻找并不需要锁定互斥锁。只有当确定“只读字典中没有但脏字典中可能会有这个键”的时候它才会在锁的保护下去访问脏字典。
相对应的sync.Map在存储键值对的时候只要只读字典中已存有这个键并且该键值对未被标记为“已删除”就会把新值存到里面并直接返回这种情况下也不需要用到锁。
否则,它才会在锁的保护下把键值对存储到脏字典中。这个时候,该键值对的“已删除”标记会被抹去。
sync.Map中的read与dirty
顺便说一句,只有当一个键值对应该被删除,但却仍然存在于只读字典中的时候,才会被用标记为“已删除”的方式进行逻辑删除,而不会直接被物理删除。
这种情况会在重建脏字典以后的一段时间内出现。不过,过不了多久,它们就会被真正删除掉。在查找和遍历键值对的时候,已被逻辑删除的键值对永远会被无视。
对于删除键值对sync.Map会先去检查只读字典中是否有对应的键。如果没有脏字典中可能有那么它就会在锁的保护下试图从脏字典中删掉该键值对。
最后sync.Map会把该键值对中指向值的那个指针置为nil这是另一种逻辑删除的方式。
除此之外还有一个细节需要注意只读字典和脏字典之间是会互相转换的。在脏字典中查找键值对次数足够多的时候sync.Map会把脏字典直接作为只读字典保存在它的read字段中然后把代表脏字典的dirty字段的值置为nil。
在这之后,一旦再有新的键值对存入,它就会依据只读字典去重建脏字典。这个时候,它会把只读字典中已被逻辑删除的键值对过滤掉。理所当然,这些转换操作肯定都需要在锁的保护下进行。
-
sync.Map中read与dirty的互换
综上所述sync.Map的只读字典和脏字典中的键值对集合并不是实时同步的它们在某些时间段内可能会有不同。
由于只读字典中键的集合不能被改变,所以其中的键值对有时候可能是不全的。相反,脏字典中的键值对集合总是完全的,并且其中不会包含已被逻辑删除的键值对。
因此,可以看出,在读操作有很多但写操作却很少的情况下,并发安全字典的性能往往会更好。在几个写操作当中,新增键值对的操作对并发安全字典的性能影响是最大的,其次是删除操作,最后才是修改操作。
如果被操作的键值对已经存在于sync.Map的只读字典中并且没有被逻辑删除那么修改它并不会使用到锁对其性能的影响就会很小。
总结
这两篇文章中我们讨论了sync.Map类型并谈到了怎样保证并发安全字典中的键和值的类型正确性。
为了进一步明确并发安全字典中键值的实际类型,这里大致有两种方案可选。
其中一种方案是在编码时就完全确定键和值的类型然后利用Go语言的编译器帮我们做检查。
另一种方案是,接受动态的类型设置,并在程序运行的时候通过反射操作进行检查。
这两种方案各有利弊,前一种方案在扩展性方面有所欠缺,而后一种方案通常会影响到程序的性能。在实际使用的时候,我们一般都需要通过客观的测试来帮助决策。
另外在有些时候与单纯使用原生字典和互斥锁的方案相比使用sync.Map可以显著地减少锁的争用。sync.Map本身确实也用到了锁但是它会尽可能地避免使用锁。
这就要说到sync.Map对其持有两个原生字典的巧妙使用了。这两个原生字典一个被称为只读字典另一个被称为脏字典。通过对它们的分析我们知道了并发安全字典的适用场景以及每种操作对其性能的影响程度。
思考题
今天的思考题是:关于保证并发安全字典中的键和值的类型正确性,你还能想到其他的方案吗?
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,259 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
36 unicode与字符编码
到目前为止我们已经一起陆陆续续地学完了Go语言中那些最重要也最有特色的概念、语法和编程方式。我对于它们非常喜爱简直可以用如数家珍来形容了。
在开始今天的内容之前,我先来做一个简单的总结。
Go语言经典知识总结
基于混合线程的并发编程模型自然不必多说。
在数据类型方面有:
基于底层数组的切片;
用来传递数据的通道;
作为一等类型的函数;
可实现面向对象的结构体;
能无侵入实现的接口等。
在语法方面有:
异步编程神器go语句
函数的最后关卡defer语句
可做类型判断的switch语句
多通道操作利器select语句
非常有特色的异常处理函数panic和recover。
除了这些我们还一起讨论了测试Go程序的主要方式。这涉及了Go语言自带的程序测试套件相关的概念和工具包括
独立的测试源码文件;
三种功用不同的测试函数;
专用的testing代码包
功能强大的go test命令。
另外就在前不久我还为你深入讲解了Go语言提供的那些同步工具。它们也是Go语言并发编程工具箱中不可或缺的一部分。这包括了
经典的互斥锁;
读写锁;
条件变量;
原子操作。
以及Go语言特有的一些数据类型
单次执行小助手sync.Once
临时对象池sync.Pool
帮助我们实现多goroutine协作流程的sync.WaitGroup、context.Context
一种高效的并发安全字典sync.Map。
毫不夸张地说如果你真正地掌握了上述这些知识那么就已经获得了Go语言编程的精髓。
在这之后你再去研读Go语言标准库和那些优秀第三方库中的代码的时候就一定会事半功倍。同时在使用Go语言编写软件的时候你肯定也会如鱼得水、游刃有余的。
我用了大量的篇幅讲解了Go语言中最核心的知识点真心希望你已经搞懂了这些内容。
在后面的日子里我会与你一起去探究Go语言标准库中最常用的那些代码包弄清它们的用法、了解它们的机理。当然了我还会顺便讲一讲那些必备的周边知识。
前导内容1Go语言字符编码基础
首先,让我们来关注字符编码方面的问题。这应该是在计算机软件领域中非常基础的一个问题了。
我在前面说过Go语言中的标识符可以包含“任何Unicode编码可以表示的字母字符”。我还说过虽然我们可以直接把一个整数值转换为一个string类型的值。
但是被转换的整数值应该可以代表一个有效的Unicode代码点否则转换的结果就将会是"<22>",即:一个仅由高亮的问号组成的字符串值。
另外当一个string类型的值被转换为[]rune类型值的时候其中的字符串会被拆分成一个一个的Unicode字符。
显然Go语言采用的字符编码方案从属于Unicode编码规范。更确切地说Go语言的代码正是由Unicode字符组成的。Go语言的所有源代码都必须按照Unicode编码规范中的UTF-8编码格式进行编码。
换句话说Go语言的源码文件必须使用UTF-8编码格式进行存储。如果源码文件中出现了非UTF-8编码的字符那么在构建、安装以及运行的时候go命令就会报告错误“illegal UTF-8 encoding”。
在这里我们首先要对Unicode编码规范有所了解。不过在讲述它之前我先来简要地介绍一下ASCII编码。
前导内容 2 ASCII编码
ASCII是英文“American Standard Code for Information Interchange”的缩写中文译为美国信息交换标准代码。它是由美国国家标准学会ANSI制定的单字节字符编码方案可用于基于文本的数据交换。
它最初是美国的国家标准后又被国际标准化组织ISO定为国际标准称为ISO 646标准并适用于所有的拉丁文字字母。
ASCII编码方案使用单个字节byte的二进制数来编码一个字符。标准的ASCII编码用一个字节的最高比特bit位作为奇偶校验位而扩展的ASCII编码则将此位也用于表示字符。ASCII编码支持的可打印字符和控制字符的集合也被叫做ASCII编码集。
我们所说的Unicode编码规范实际上是另一个更加通用的、针对书面字符和文本的字符编码标准。它为世界上现存的所有自然语言中的每一个字符都设定了一个唯一的二进制编码。
它定义了不同自然语言的文本数据在国际间交换的统一方式,并为全球化软件创建了一个重要的基础。
Unicode编码规范以ASCII编码集为出发点并突破了ASCII只能对拉丁字母进行编码的限制。它不但提供了可以对世界上超过百万的字符进行编码的能力还支持所有已知的转义序列和控制代码。
我们都知道,在计算机系统的内部,抽象的字符会被编码为整数。这些整数的范围被称为代码空间。在代码空间之内,每一个特定的整数都被称为一个代码点。
一个受支持的抽象字符会被映射并分配给某个特定的代码点,反过来讲,一个代码点总是可以被看成一个被编码的字符。
Unicode编码规范通常使用十六进制表示法来表示Unicode代码点的整数值并使用“U+”作为前缀。比如英文字母字符“a”的Unicode代码点是U+0061。在Unicode编码规范中一个字符能且只能由与它对应的那个代码点表示。
Unicode编码规范现在的最新版本是11.0并会于2019年3月发布12.0版本。而Go语言从1.10版本开始已经对Unicode的10.0版本提供了全面的支持。对于绝大多数的应用场景来说,这已经完全够用了。
Unicode编码规范提供了三种不同的编码格式UTF-8、UTF-16和UTF-32。其中的UTF是UCS Transformation Format的缩写。而UCS又是Universal Character Set的缩写但也可以代表Unicode Character Set。所以UTF也可以被翻译为Unicode转换格式。它代表的是字符与字节序列之间的转换方式。
在这几种编码格式的名称中,“-”右边的整数的含义是以多少个比特位作为一个编码单元。以UTF-8为例它会以8个比特也就是一个字节作为一个编码单元。并且它与标准的ASCII编码是完全兼容的。也就是说在[0x00, 0x7F]的范围内这两种编码表示的字符都是相同的。这也是UTF-8编码格式的一个巨大优势。
UTF-8是一种可变宽的编码方案。换句话说它会用一个或多个字节的二进制数来表示某个字符最多使用四个字节。比如对于一个英文字符它仅用一个字节的二进制数就可以表示而对于一个中文字符它需要使用三个字节才能够表示。不论怎样一个受支持的字符总是可以由UTF-8编码为一个字节序列。以下会简称后者为UTF-8编码值。
现在在你初步地了解了这些知识之后请认真地思考并回答下面的问题。别担心我会在后面进一步阐述Unicode、UTF-8以及Go语言对它们的运用。
问题一个string类型的值在底层是怎样被表达的
典型回答 是在底层一个string类型的值是由一系列相对应的Unicode代码点的UTF-8编码值来表达的。
问题解析
在Go语言中一个string类型的值既可以被拆分为一个包含多个字符的序列也可以被拆分为一个包含多个字节的序列。
前者可以由一个以rune为元素类型的切片来表示而后者则可以由一个以byte为元素类型的切片代表。
rune是Go语言特有的一个基本数据类型它的一个值就代表一个字符一个Unicode字符。
比如,'G'、'o'、'爱'、'好'、'者'代表的就都是一个Unicode字符。
我们已经知道UTF-8编码方案会把一个Unicode字符编码为一个长度在[1, 4]范围内的字节序列。所以一个rune类型的值也可以由一个或多个字节来代表。
type rune = int32
根据rune类型的声明可知它实际上就是int32类型的一个别名类型。也就是说一个rune类型的值会由四个字节宽度的空间来存储。它的存储空间总是能够存下一个UTF-8编码值。
一个rune类型的值在底层其实就是一个UTF-8编码值。前者是便于我们人类理解的外部展现后者是便于计算机系统理解的内在表达。
请看下面的代码:
str := "Go爱好者"
fmt.Printf("The string: %q\n", str)
fmt.Printf(" => runes(char): %q\n", []rune(str))
fmt.Printf(" => runes(hex): %x\n", []rune(str))
fmt.Printf(" => bytes(hex): [% x]\n", []byte(str))
字符串值"Go爱好者"如果被转换为[]rune类型的值的话其中的每一个字符不论是英文字符还是中文字符就都会独立成为一个rune类型的元素值。因此这段代码打印出的第二行内容就会如下所示
=> runes(char): ['G' 'o' '爱' '好' '者']
又由于每个rune类型的值在底层都是由一个UTF-8编码值来表达的所以我们可以换一种方式来展现这个字符序列
=> runes(hex): [47 6f 7231 597d 8005]
可以看到五个十六进制数与五个字符相对应。很明显前两个十六进制数47和6f代表的整数都比较小它们分别表示字符'G'和'o'。
因为它们都是英文字符所以对应的UTF-8编码值用一个字节表达就足够了。一个字节的编码值被转换为整数之后不会大到哪里去。
而后三个十六进制数7231、597d和8005都相对较大它们分别表示中文字符'爱'、'好'和'者'。
这些中文字符对应的UTF-8编码值都需要使用三个字节来表达。所以这三个数就是把对应的三个字节的编码值转换为整数后得到的结果。
我们还可以进一步地拆分把每个字符的UTF-8编码值都拆成相应的字节序列。上述代码中的第五行就是这么做的。它会得到如下的输出
=> bytes(hex): [47 6f e7 88 b1 e5 a5 bd e8 80 85]
这里得到的字节切片比前面的字符切片明显长了很多。这正是因为一个中文字符的UTF-8编码值需要用三个字节来表达。
这个字节切片的前两个元素值与字符切片的前两个元素值是一致的,而在这之后,前者的每三个元素值才对应字符切片中的一个元素值。
注意对于一个多字节的UTF-8编码值来说我们可以把它当做一个整体转换为单一的整数也可以先把它拆成字节序列再把每个字节分别转换为一个整数从而得到多个整数。
这两种表示法展现出来的内容往往会很不一样。比如,对于中文字符'爱'来说它的UTF-8编码值可以展现为单一的整数7231也可以展现为三个整数e7、88和b1。
-
(字符串值的底层表示)
总之一个string类型的值会由若干个Unicode字符组成每个Unicode字符都可以由一个rune类型的值来承载。
这些字符在底层都会被转换为UTF-8编码值而这些UTF-8编码值又会以字节序列的形式表达和存储。因此一个string类型的值在底层就是一个能够表达若干个UTF-8编码值的字节序列。
知识扩展
问题 1使用带有range子句的for语句遍历字符串值的时候应该注意什么
带有range子句的for语句会先把被遍历的字符串值拆成一个字节序列然后再试图找出这个字节序列中包含的每一个UTF-8编码值或者说每一个Unicode字符。
这样的for语句可以为两个迭代变量赋值。如果存在两个迭代变量那么赋给第一个变量的值就将会是当前字节序列中的某个UTF-8编码值的第一个字节所对应的那个索引值。
而赋给第二个变量的值则是这个UTF-8编码值代表的那个Unicode字符其类型会是rune。
例如,有这么几行代码:
str := "Go爱好者"
for i, c := range str {
fmt.Printf("%d: %q [% x]\n", i, c, []byte(string(c)))
}
这里被遍历的字符串值是"Go爱好者"。在每次迭代的时候,这段代码都会打印出两个迭代变量的值,以及第二个值的字节序列形式。完整的打印内容如下:
0: 'G' [47]
1: 'o' [6f]
2: '爱' [e7 88 b1]
5: '好' [e5 a5 bd]
8: '者' [e8 80 85]
第一行内容中的关键信息有0、'G'和[47]。这是由于这个字符串值中的第一个Unicode字符是'G'。该字符是一个单字节字符并且由相应的字节序列中的第一个字节表达。这个字节的十六进制表示为47。
第二行展示的内容与之类似第二个Unicode字符是'o'由字节序列中的第二个字节表达其十六进制表示为6f。
再往下看,第三行展示的是'爱'也是第三个Unicode字符。因为它是一个中文字符所以由字节序列中的第三、四、五个字节共同表达其十六进制表示也不再是单一的整数而是e7、88和b1组成的序列。
下面要注意了,正是因为'爱'是由三个字节共同表达的所以第四个Unicode字符'好'对应的索引值并不是3而是2加3后得到的5。
这里的2代表的是'爱'对应的索引值而3代表的则是'爱'对应的UTF-8编码值的宽度。对于这个字符串值中的最后一个字符'者'来说也是类似的因此它对应的索引值是8。
由此可以看出这样的for语句可以逐一地迭代出字符串值里的每个Unicode字符。但是相邻的Unicode字符的索引值并不一定是连续的。这取决于前一个Unicode字符是否为单字节字符。
正因为如此如果我们想得到其中某个Unicode字符对应的UTF-8编码值的宽度就可以用下一个字符的索引值减去当前字符的索引值。
初学者可能会对for语句的这种行为感到困惑因为它给予两个迭代变量的值看起来并不总是对应的。不过一旦我们了解了它的内在机制就会拨云见日、豁然开朗。
总结
我们今天把目光聚焦在了Unicode编码规范、UTF-8编码格式以及Go语言对字符串和字符的相关处理方式上。
Go语言的代码是由Unicode字符组成的它们都必须由Unicode编码规范中的UTF-8编码格式进行编码并存储否则就会导致go命令的报错。
Unicode编码规范中的编码格式定义的是字符与字节序列之间的转换方式。其中的UTF-8是一种可变宽的编码方案。
它会用一个或多个字节的二进制数来表示某个字符最多使用四个字节。一个受支持的字符总是可以由UTF-8编码为一个字节序列后者也可以被称为UTF-8编码值。
Go语言中的一个string类型值会由若干个Unicode字符组成每个Unicode字符都可以由一个rune类型的值来承载。
这些字符在底层都会被转换为UTF-8编码值而这些UTF-8编码值又会以字节序列的形式表达和存储。因此一个string类型的值在底层就是一个能够表达若干个UTF-8编码值的字节序列。
初学者可能会对带有range子句的for语句遍历字符串值的行为感到困惑因为它给予两个迭代变量的值看起来并不总是对应的。但事实并非如此。
这样的for语句会先把被遍历的字符串值拆成一个字节序列然后再试图找出这个字节序列中包含的每一个UTF-8编码值或者说每一个Unicode字符。
相邻的Unicode字符的索引值并不一定是连续的。这取决于前一个Unicode字符是否为单字节字符。一旦我们清楚了这些内在机制就不会再困惑了。
对于Go语言来说Unicode编码规范和UTF-8编码格式算是基础之一了。我们应该了解到它们对Go语言的重要性。这对于正确理解Go语言中的相关数据类型以及日后的相关程序编写都会很有好处。
思考题
今天的思考题是判断一个Unicode字符是否为单字节字符通常有几种方式
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,214 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
37 strings包与字符串操作
在上一篇文章中我介绍了Go语言与Unicode编码规范、UTF-8编码格式的渊源及运用。
Go语言不但拥有可以独立代表Unicode字符的类型rune而且还有可以对字符串值进行Unicode字符拆分的for语句。
除此之外标准库中的unicode包及其子包还提供了很多的函数和数据类型可以帮助我们解析各种内容中的Unicode字符。
这些程序实体都很好用也都很简单明了而且有效地隐藏了Unicode编码规范中的一些复杂的细节。我就不在这里对它们进行专门的讲解了。
我们今天主要来说一说标准库中的strings代码包。这个代码包也用到了不少unicode包和unicode/utf8包中的程序实体。
比如strings.Builder类型的WriteRune方法。
又比如strings.Reader类型的ReadRune方法等等。
下面这个问题就是针对strings.Builder类型的。我们今天的问题是与string值相比strings.Builder类型的值有哪些优势
这里的典型回答是这样的。
strings.Builder类型的值以下简称Builder值的优势有下面的三种
已存在的内容不可变,但可以拼接更多的内容;
减少了内存分配和内容拷贝的次数;
可将内容重置,可重用值。
问题解析
先来说说string类型。 我们都知道在Go语言中string类型的值是不可变的。 如果我们想获得一个不一样的字符串,那么就只能基于原字符串进行裁剪、拼接等操作,从而生成一个新的字符串。
裁剪操作可以使用切片表达式;
拼接操作可以用操作符+实现。
在底层一个string值的内容会被存储到一块连续的内存空间中。同时这块内存容纳的字节数量也会被记录下来并用于表示该string值的长度。
你可以把这块内存的内容看成一个字节数组而相应的string值则包含了指向字节数组头部的指针值。如此一来我们在一个string值上应用切片表达式就相当于在对其底层的字节数组做切片。
另外我们在进行字符串拼接的时候Go语言会把所有被拼接的字符串依次拷贝到一个崭新且足够大的连续内存空间中并把持有相应指针值的string值作为结果返回。
显然,当程序中存在过多的字符串拼接操作的时候,会对内存的分配产生非常大的压力。
注意虽然string值在内部持有一个指针值但其类型仍然属于值类型。不过由于string值的不可变其中的指针值也为内存空间的节省做出了贡献。
更具体地说一个string值会在底层与它的所有副本共用同一个字节数组。由于这里的字节数组永远不会被改变所以这样做是绝对安全的。
与string值相比Builder值的优势其实主要体现在字符串拼接方面。
Builder值中有一个用于承载内容的容器以下简称内容容器。它是一个以byte为元素类型的切片以下简称字节切片
由于这样的字节切片的底层数组就是一个字节数组所以我们可以说它与string值存储内容的方式是一样的。
实际上它们都是通过一个unsafe.Pointer类型的字段来持有那个指向了底层字节数组的指针值的。
正是因为这样的内部构造Builder值同样拥有高效利用内存的前提条件。虽然对于字节切片本身来说它包含的任何元素值都可以被修改但是Builder值并不允许这样做其中的内容只能够被拼接或者完全重置。
这就意味着已存在于Builder值中的内容是不可变的。因此我们可以利用Builder值提供的方法拼接更多的内容而丝毫不用担心这些方法会影响到已存在的内容。
这里所说的方法指的是Builder值拥有的一系列指针方法包括Write、WriteByte、WriteRune和WriteString。我们可以把它们统称为拼接方法。
我们可以通过调用上述方法把新的内容拼接到已存在的内容的尾部也就是右边。这时如有必要Builder值会自动地对自身的内容容器进行扩容。这里的自动扩容策略与切片的扩容策略一致。
换句话说我们在向Builder值拼接内容的时候并不一定会引起扩容。只要内容容器的容量够用扩容就不会进行针对于此的内存分配也不会发生。同时只要没有扩容Builder值中已存在的内容就不会再被拷贝。
除了Builder值的自动扩容我们还可以选择手动扩容这通过调用Builder值的Grow方法就可以做到。Grow方法也可以被称为扩容方法它接受一个int类型的参数n该参数用于代表将要扩充的字节数量。
如有必要Grow方法会把其所属值中内容容器的容量增加n个字节。更具体地讲它会生成一个字节切片作为新的内容容器该切片的容量会是原容器容量的二倍再加上n。之后它会把原容器中的所有字节全部拷贝到新容器中。
var builder1 strings.Builder
// 省略若干代码。
fmt.Println("Grow the builder ...")
builder1.Grow(10)
fmt.Printf("The length of contents in the builder is %d.\n", builder1.Len())
当然Grow方法还可能什么都不做。这种情况的前提条件是当前的内容容器中的未用容量已经够用了未用容量大于或等于n。这里的前提条件与前面提到的自动扩容策略中的前提条件是类似的。
fmt.Println("Reset the builder ...")
builder1.Reset()
fmt.Printf("The third output(%d):\n%q\n", builder1.Len(), builder1.String())
最后Builder值是可以被重用的。通过调用它的Reset方法我们可以让Builder值重新回到零值状态就像它从未被使用过那样。
一旦被重用Builder值中原有的内容容器会被直接丢弃。之后它和其中的所有内容将会被Go语言的垃圾回收器标记并回收掉。
知识扩展
问题1strings.Builder类型在使用上有约束吗
答案是:有约束,概括如下:
在已被真正使用后就不可再被复制;
由于其内容不是完全不可变的,所以需要使用方自行解决操作冲突和并发安全问题。
我们只要调用了Builder值的拼接方法或扩容方法就意味着开始真正使用它了。显而易见这些方法都会改变其所属值中的内容容器的状态。
一旦调用了它们我们就不能再以任何的方式对其所属值进行复制了。否则只要在任何副本上调用上述方法就都会引发panic。
这种panic会告诉我们这样的使用方式是并不合法的因为这里的Builder值是副本而不是原值。顺便说一句这里所说的复制方式包括但不限于在函数间传递值、通过通道传递值、把值赋予变量等等。
var builder1 strings.Builder
builder1.Grow(1)
builder3 := builder1
//builder3.Grow(1) // 这里会引发panic。
_ = builder3
虽然这个约束非常严格,但是如果我们仔细思考一下的话,就会发现它还是有好处的。
正是由于已使用的Builder值不能再被复制所以肯定不会出现多个Builder值中的内容容器也就是那个字节切片共用一个底层字节数组的情况。这样也就避免了多个同源的Builder值在拼接内容时可能产生的冲突问题。
不过虽然已使用的Builder值不能再被复制但是它的指针值却可以。无论什么时候我们都可以通过任何方式复制这样的指针值。注意这样的指针值指向的都会是同一个Builder值。
f2 := func(bp *strings.Builder) {
(*bp).Grow(1) // 这里虽然不会引发panic但不是并发安全的。
builder4 := *bp
//builder4.Grow(1) // 这里会引发panic。
_ = builder4
}
f2(&builder1)
正因为如此这里就产生了一个问题如果Builder值被多方同时操作那么其中的内容就很可能会产生混乱。这就是我们所说的操作冲突和并发安全问题。
Builder值自己是无法解决这些问题的。所以我们在通过传递其指针值共享Builder值的时候一定要确保各方对它的使用是正确、有序的并且是并发安全的而最彻底的解决方案是绝不共享Builder值以及它的指针值。
我们可以在各处分别声明一个Builder值来使用也可以先声明一个Builder值然后在真正使用它之前便将它的副本传到各处。另外我们还可以先使用再传递只要在传递之前调用它的Reset方法即可。
builder1.Reset()
builder5 := builder1
builder5.Grow(1) // 这里不会引发panic。
总之关于复制Builder值的约束是有意义的也是很有必要的。虽然我们仍然可以通过某些方式共享Builder值但最好还是不要以身犯险“各自为政”是最好的解决方案。不过对于处在零值状态的Builder值复制不会有任何问题。
问题2为什么说strings.Reader类型的值可以高效地读取字符串
与strings.Builder类型恰恰相反strings.Reader类型是为了高效读取字符串而存在的。后者的高效主要体现在它对字符串的读取机制上它封装了很多用于在string值上读取内容的最佳实践。
strings.Reader类型的值以下简称Reader值可以让我们很方便地读取一个字符串中的内容。在读取的过程中Reader值会保存已读取的字节的计数以下简称已读计数
已读计数也代表着下一次读取的起始索引位置。Reader值正是依靠这样一个计数以及针对字符串值的切片表达式从而实现快速读取。
此外这个已读计数也是读取回退和位置设定时的重要依据。虽然它属于Reader值的内部结构但我们还是可以通过该值的Len方法和Size把它计算出来的。代码如下
var reader1 strings.Reader
// 省略若干代码。
readingIndex := reader1.Size() - int64(reader1.Len()) // 计算出的已读计数。
Reader值拥有的大部分用于读取的方法都会及时地更新已读计数。比如ReadByte方法会在读取成功后将这个计数的值加1。
又比如ReadRune方法在读取成功之后会把被读取的字符所占用的字节数作为计数的增量。
不过ReadAt方法算是一个例外。它既不会依据已读计数进行读取也不会在读取后更新它。正因为如此这个方法可以自由地读取其所属的Reader值中的任何内容。
除此之外Reader值的Seek方法也会更新该值的已读计数。实际上这个Seek方法的主要作用正是设定下一次读取的起始索引位置。
另外如果我们把常量io.SeekCurrent的值作为第二个参数值传给该方法那么它还会依据当前的已读计数以及第一个参数offset的值来计算新的计数值。
由于Seek方法会返回新的计数值所以我们可以很容易地验证这一点。比如像下面这样
offset2 := int64(17)
expectedIndex := reader1.Size() - int64(reader1.Len()) + offset2
fmt.Printf("Seek with offset %d and whence %d ...\n", offset2, io.SeekCurrent)
readingIndex, _ := reader1.Seek(offset2, io.SeekCurrent)
fmt.Printf("The reading index in reader: %d (returned by Seek)\n", readingIndex)
fmt.Printf("The reading index in reader: %d (computed by me)\n", expectedIndex)
综上所述Reader值实现高效读取的关键就在于它内部的已读计数。计数的值就代表着下一次读取的起始索引位置。它可以很容易地被计算出来。Reader值的Seek方法可以直接设定该值中的已读计数值。
总结
今天我们主要讨论了strings代码包中的两个重要类型Builder和Reader。前者用于构建字符串而后者则用于读取字符串。
与string值相比Builder值的优势主要体现在字符串拼接方面。它可以在保证已存在的内容不变的前提下拼接更多的内容并且会在拼接的过程中尽量减少内存分配和内容拷贝的次数。
不过这类值在使用上也是有约束的。它在被真正使用之后就不能再被复制了否则就会引发panic。虽然这个约束很严格但是也可以带来一定的好处。它可以有效地避免一些操作冲突。虽然我们可以通过一些手段比如传递它的指针值绕过这个约束但这是弊大于利的。最好的解决方案就是分别声明、分开使用、互不干涉。
Reader值可以让我们很方便地读取一个字符串中的内容。它的高效主要体现在它对字符串的读取机制上。在读取的过程中Reader值会保存已读取的字节的计数也称已读计数。
这个计数代表着下一次读取的起始索引位置同时也是高效读取的关键所在。我们可以利用这类值的Len方法和Size方法计算出其中的已读计数的值。有了它我们就可以更加灵活地进行字符串读取了。
我只在本文介绍了上述两个数据类型但并不意味着strings包中有用的程序实体只有这两个。实际上strings包还提供了大量的函数。比如
`Count``IndexRune``Map``Replace``SplitN``Trim`,等等。
它们都是非常易用和高效的。你可以去看看它们的源码,也许会因此有所感悟。
思考题
今天的思考题是:*strings.Builder和*strings.Reader都分别实现了哪些接口这样做有什么好处吗
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,143 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
38 bytes包与字节串操作
我相信经过上一次的学习你已经对strings.Builder和strings.Reader这两个类型足够熟悉了。
我上次还建议你去自行查阅strings代码包中的其他程序实体。如果你认真去看了那么肯定会对我们今天要讨论的bytes代码包有种似曾相识的感觉。
前导内容: bytes.Buffer基础知识
strings包和bytes包可以说是一对孪生兄弟它们在API方面非常的相似。单从它们提供的函数的数量和功能上讲差别可以说是微乎其微。
只不过strings包主要面向的是Unicode字符和经过UTF-8编码的字符串而bytes包面对的则主要是字节和字节切片。
我今天会主要讲bytes包中最有特色的类型Buffer。顾名思义bytes.Buffer类型的用途主要是作为字节序列的缓冲区。
与strings.Builder类型一样bytes.Buffer也是开箱即用的。
但不同的是strings.Builder只能拼接和导出字符串而bytes.Buffer不但可以拼接、截断其中的字节序列以各种形式导出其中的内容还可以顺序地读取其中的子序列。
可以说bytes.Buffer是集读、写功能于一身的数据类型。当然了这些也基本上都是作为一个缓冲区应该拥有的功能。
在内部bytes.Buffer类型同样是使用字节切片作为内容容器的。并且与strings.Reader类型类似bytes.Buffer有一个int类型的字段用于代表已读字节的计数可以简称为已读计数。
不过这里的已读计数就无法通过bytes.Buffer提供的方法计算出来了。
我们先来看下面的代码:
var buffer1 bytes.Buffer
contents := "Simple byte buffer for marshaling data."
fmt.Printf("Writing contents %q ...\n", contents)
buffer1.WriteString(contents)
fmt.Printf("The length of buffer: %d\n", buffer1.Len())
fmt.Printf("The capacity of buffer: %d\n", buffer1.Cap())
我先声明了一个bytes.Buffer类型的变量buffer1并写入了一个字符串。然后我想打印出这个bytes.Buffer类型的值以下简称Buffer值的长度和容量。在运行这段代码之后我们将会看到如下的输出
Writing contents "Simple byte buffer for marshaling data." ...
The length of buffer: 39
The capacity of buffer: 64
乍一看这没什么问题。长度39和容量64的含义看起来与我们已知的概念是一致的。我向缓冲区中写入了一个长度为39的字符串所以buffer1的长度就是39。
根据切片的自动扩容策略64这个数字也是合理的。另外可以想象这时的已读计数的值应该是0这是因为我还没有调用任何用于读取其中内容的方法。
可实际上与strings.Reader类型的Len方法一样buffer1的Len方法返回的也是内容容器中未被读取部分的长度而不是其中已存内容的总长度以下简称内容长度。示例如下
p1 := make([]byte, 7)
n, _ := buffer1.Read(p1)
fmt.Printf("%d bytes were read. (call Read)\n", n)
fmt.Printf("The length of buffer: %d\n", buffer1.Len())
fmt.Printf("The capacity of buffer: %d\n", buffer1.Cap())
当我从buffer1中读取一部分内容并用它们填满长度为7的字节切片p1之后buffer1的Len方法返回的结果值也会随即发生变化。如果运行这段代码我们会发现这个缓冲区的长度已经变为了32。
另外因为我们并没有再向该缓冲区中写入任何内容所以它的容量会保持不变仍是64。
总之在这里你需要记住的是Buffer值的长度是未读内容的长度而不是已存内容的总长度。 它与在当前值之上的读操作和写操作都有关系,并会随着这两种操作的进行而改变,它可能会变得更小,也可能会变得更大。
而Buffer值的容量指的是它的内容容器也就是那个字节切片的容量它只与在当前值之上的写操作有关并会随着内容的写入而不断增长。
再说已读计数。由于strings.Reader还有一个Size方法可以给出内容长度的值所以我们用内容长度减去未读部分的长度就可以很方便地得到它的已读计数。
然而bytes.Buffer类型却没有这样一个方法它只有Cap方法。可是Cap方法提供的是内容容器的容量也不是内容长度。
并且这里的内容容器容量在很多时候都与内容长度不相同。因此没有了现成的计算公式只要遇到稍微复杂些的情况我们就很难估算出Buffer值的已读计数。
一旦理解了已读计数这个概念并且能够在读写的过程中实时地获得已读计数和内容长度的值我们就可以很直观地了解到当前Buffer值各种方法的行为了。不过很可惜这两个数字我们都无法直接拿到。
虽然我们无法直接得到一个Buffer值的已读计数并且有时候也很难估算它但是我们绝对不能就此作罢而应该通过研读bytes.Buffer和文档和源码去探究已读计数在其中起到的关键作用。
否则我们想用好bytes.Buffer的意愿恐怕就不会那么容易实现了。
下面的这个问题如果你认真地阅读了bytes.Buffer的源码之后就可以很好地回答出来。
我们今天的问题是bytes.Buffer类型的值记录的已读计数在其中起到了怎样的作用
这道题的典型回答是这样的。
bytes.Buffer中的已读计数的大致功用如下所示。
读取内容时,相应方法会依据已读计数找到未读部分,并在读取后更新计数。
写入内容时,如需扩容,相应方法会根据已读计数实现扩容策略。
截断内容时,相应方法截掉的是已读计数代表索引之后的未读部分。
读回退时,相应方法需要用已读计数记录回退点。
重置内容时相应方法会把已读计数置为0。
导出内容时,相应方法只会导出已读计数代表的索引之后的未读部分。
获取长度时,相应方法会依据已读计数和内容容器的长度,计算未读部分的长度并返回。
问题解析
通过上面的典型回答我们已经能够体会到已读计数在bytes.Buffer类型及其方法中的重要性了。没错bytes.Buffer的绝大多数方法都用到了已读计数而且都是非用不可。
在读取内容的时候,相应方法会先根据已读计数,判断一下内容容器中是否还有未读的内容。如果有,那么它就会从已读计数代表的索引处开始读取。
在读取完成后它还会及时地更新已读计数。也就是说它会记录一下又有多少个字节被读取了。这里所说的相应方法包括了所有名称以Read开头的方法以及Next方法和WriteTo方法。
在写入内容的时候,绝大多数的相应方法都会先检查当前的内容容器,是否有足够的容量容纳新的内容。如果没有,那么它们就会对内容容器进行扩容。
在扩容的时候,方法会在必要时,依据已读计数找到未读部分,并把其中的内容拷贝到扩容后内容容器的头部位置。
然后方法将会把已读计数的值置为0以表示下一次读取需要从内容容器的第一个字节开始。用于写入内容的相应方法包括了所有名称以Write开头的方法以及ReadFrom方法。
用于截断内容的方法Truncate会让很多对bytes.Buffer不太了解的程序开发者迷惑。 它会接受一个int类型的参数这个参数的值代表了在截断时需要保留头部的多少个字节。
不过,需要注意的是,这里说的头部指的并不是内容容器的头部,而是其中的未读部分的头部。头部的起始索引正是由已读计数的值表示的。因此,在这种情况下,已读计数的值再加上参数值后得到的和,就是内容容器新的总长度。
在bytes.Buffer中用于读回退的方法有UnreadByte和UnreadRune。 这两个方法分别用于回退一个字节和回退一个Unicode字符。调用它们一般都是为了退回在上一次被读取内容末尾的那个分隔符或者为重新读取前一个字节或字符做准备。
不过退回的前提是在调用它们之前的那一个操作必须是“读取”并且是成功的读取否则这些方法就只能忽略后续操作并返回一个非nil的错误值。
UnreadByte方法的做法比较简单把已读计数的值减1就好了。而UnreadRune方法需要从已读计数中减去的是上一次被读取的Unicode字符所占用的字节数。
这个字节数由bytes.Buffer的另一个字段负责存储它在这里的有效取值范围是[1, 4]。只有ReadRune方法才会把这个字段的值设定在此范围之内。
由此可见只有紧接在调用ReadRune方法之后对UnreadRune方法的调用才能够成功完成。该方法明显比UnreadByte方法的适用面更窄。
我在前面说过bytes.Buffer的Len方法返回的是内容容器中未读部分的长度而不是其中已存内容的总长度内容长度
而该类型的Bytes方法和String方法的行为与Len方法是保持一致的。前两个方法只会去访问未读部分中的内容并返回相应的结果值。
在我们剖析了所有的相关方法之后,可以这样来总结:在已读计数代表的索引之前的那些内容,永远都是已经被读过的,它们几乎没有机会再次被读取。
不过这些已读内容所在的内存空间可能会被存入新的内容。这一般都是由于重置或者扩充内容容器导致的。这时已读计数一定会被置为0从而再次指向内容容器中的第一个字节。这有时候也是为了避免内存分配和重用内存空间。
总结
总结一下bytes.Buffer是一个集读、写功能于一身的数据类型。它非常适合作为字节序列的缓冲区。我们会在下一篇文章中继续对bytes.Buffer的知识进行延展。如果你对于这部分内容有什么样问题欢迎给我留言我们一起讨论。
感谢你的收听,我们下次再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,135 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
39 bytes包与字节串操作
你好我是郝林今天我们继续分享bytes包与字节串操作的相关内容。
在上一篇文章中我们分享了bytes.Buffer中已读计数的大致功用并围绕着这个问题做了解析下面我们来进行相关的知识扩展。
知识扩展
问题 1bytes.Buffer的扩容策略是怎样的
Buffer值既可以被手动扩容也可以进行自动扩容。并且这两种扩容方式的策略是基本一致的。所以除非我们完全确定后续内容所需的字节数否则让Buffer值自动去扩容就好了。
在扩容的时候Buffer值中相应的代码以下简称扩容代码会先判断内容容器的剩余容量是否可以满足调用方的要求或者是否足够容纳新的内容。
如果可以,那么扩容代码会在当前的内容容器之上,进行长度扩充。
更具体地说,如果内容容器的容量与其长度的差,大于或等于另需的字节数,那么扩容代码就会通过切片操作对原有的内容容器的长度进行扩充,就像下面这样:
b.buf = b.buf[:length+need]
反之,如果内容容器的剩余容量不够了,那么扩容代码可能就会用新的内容容器去替代原有的内容容器,从而实现扩容。
不过,这里还有一步优化。
如果当前内容容器的容量的一半,仍然大于或等于其现有长度(即未读字节数)再加上另需的字节数的和,即:
cap(b.buf)/2 >= b.Len() + need
那么,扩容代码就会复用现有的内容容器,并把容器中的未读内容拷贝到它的头部位置。
这也意味着其中的已读内容,将会全部被未读内容和之后的新内容覆盖掉。
这样的复用预计可以至少节省掉一次后续的扩容所带来的内存分配,以及若干字节的拷贝。
若这一步优化未能达成,也就是说,当前内容容器的容量小于新长度的二倍。
那么,扩容代码就只能再创建一个新的内容容器,并把原有容器中的未读内容拷贝进去,最后再用新的容器替换掉原有的容器。这个新容器的容量将会等于原有容量的二倍再加上另需字节数的和。
新容器的容量=2*原有容量+所需字节数
通过上面这些步骤对内容容器的扩充基本上就完成了。不过为了内部数据的一致性以及避免原有的已读内容可能造成的数据混乱扩容代码还会把已读计数置为0并再对内容容器做一下切片操作以掩盖掉原有的已读内容。
顺便说一下对于处在零值状态的Buffer值来说如果第一次扩容时的另需字节数不大于64那么该值就会基于一个预先定义好的、长度为64的字节数组来创建内容容器。
在这种情况下这个内容容器的容量就是64。这样做的目的是为了让Buffer值在刚被真正使用的时候就可以快速地做好准备。
问题2bytes.Buffer中的哪些方法可能会造成内容的泄露
首先明确一点什么叫内容泄露这里所说的内容泄露是指使用Buffer值的一方通过某种非标准的或者说不正式的方式得到了本不该得到的内容。
比如说我通过调用Buffer值的某个用于读取内容的方法得到了一部分未读内容。我应该也只应该通过这个方法的结果值拿到在那一时刻Buffer值中的未读内容。
但是在这个Buffer值又有了一些新内容之后我却可以通过当时得到的结果值直接获得新的内容而不需要再次调用相应的方法。
这就是典型的非标准读取方式。这种读取方式是不应该存在的,即使存在,我们也不应该使用。因为它是在无意中(或者说一不小心)暴露出来的,其行为很可能是不稳定的。
在bytes.Buffer中Bytes方法和Next方法都可能会造成内容的泄露。原因在于它们都把基于内容容器的切片直接返回给了方法的调用方。
我们都知道,通过切片,我们可以直接访问和操纵它的底层数组。不论这个切片是基于某个数组得来的,还是通过对另一个切片做切片操作获得的,都是如此。
在这里Bytes方法和Next方法返回的字节切片都是通过对内容容器做切片操作得到的。也就是说它们与内容容器共用了同一个底层数组起码在一段时期之内是这样的。
以Bytes方法为例。它会返回在调用那一刻其所属值中的所有未读内容。示例代码如下
contents := "ab"
buffer1 := bytes.NewBufferString(contents)
fmt.Printf("The capacity of new buffer with contents %q: %d\n",
contents, buffer1.Cap()) // 内容容器的容量为8。
unreadBytes := buffer1.Bytes()
fmt.Printf("The unread bytes of the buffer: %v\n", unreadBytes) // 未读内容为:[97 98]。
我用字符串值"ab"初始化了一个Buffer值由变量buffer1代表并打印了当时该值的一些状态。
你可能会有疑惑我只在这个Buffer值中放入了一个长度为2的字符串值但为什么该值的容量却变为了8。
虽然这与我们当前的主题无关但是我可以提示你一下你可以去阅读runtime包中一个名叫stringtoslicebyte的函数答案就在其中。
接着说buffer1。我又向该值写入了字符串值"cdefg"此时其容量仍然是8。我在前面通过调用buffer1的Bytes方法得到的结果值unreadBytes包含了在那时其中的所有未读内容。
但是由于这个结果值与buffer1的内容容器在此时还共用着同一个底层数组所以我只需通过简单的再切片操作就可以利用这个结果值拿到buffer1在此时的所有未读内容。如此一来buffer1的新内容就被泄露出来了。
buffer1.WriteString("cdefg")
fmt.Printf("The capacity of buffer: %d\n", buffer1.Cap()) // 内容容器的容量仍为8。
unreadBytes = unreadBytes[:cap(unreadBytes)]
fmt.Printf("The unread bytes of the buffer: %v\n", unreadBytes) // 基于前面获取到的结果值可得,未读内容为:[97 98 99 100 101 102 103 0]。
如果我当时把unreadBytes的值传到了外界那么外界就可以通过该值操纵buffer1的内容了就像下面这样
unreadBytes[len(unreadBytes)-2] = byte('X') // 'X'的ASCII编码为88。
fmt.Printf("The unread bytes of the buffer: %v\n", buffer1.Bytes()) // 未读内容变为了:[97 98 99 100 101 102 88]。
现在你应该能够体会到这里的内容泄露可能造成的严重后果了吧对于Buffer值的Next方法也存在相同的问题。
不过如果经过扩容Buffer值的内容容器或者它的底层数组被重新设定了那么之前的内容泄露问题就无法再进一步发展了。我在demo80.go文件中写了一个比较完整的示例你可以去看一看并揣摩一下。
总结
我们结合两篇内容总结一下。与strings.Builder类型不同bytes.Buffer不但可以拼接、截断其中的字节序列以各种形式导出其中的内容还可以顺序地读取其中的子序列。
bytes.Buffer类型使用字节切片作为其内容容器并且会用一个字段实时地记录已读字节的计数。
虽然我们无法直接计算出这个已读计数但是由于它在Buffer值中起到的作用非常关键所以我们很有必要去理解它。
无论是读取、写入、截断、导出还是重置,已读计数都是功能实现中的重要一环。
与strings.Builder类型的值一样Buffer值既可以被手动扩容也可以进行自动的扩容。除非我们完全确定后续内容所需的字节数否则让Buffer值自动去扩容就好了。
Buffer值的扩容方法并不一定会为了获得更大的容量替换掉现有的内容容器而是先会本着尽量减少内存分配和内容拷贝的原则对当前的内容容器进行重用。并且只有在容量实在无法满足要求的时候它才会去创建新的内容容器。
此外你可能并没有想到Buffer值的某些方法可能会造成内容的泄露。这主要是由于这些方法返回的结果值在一段时期内会与其所属值的内容容器共用同一个底层数组。
如果我们有意或无意地把这些结果值传到了外界那么外界就有可能通过它们操纵相关联Buffer值的内容。
这属于很严重的数据安全问题。我们一定要避免这种情况的发生。最彻底的做法是,在传出切片这类值之前要做好隔离。比如,先对它们进行深度拷贝,然后再把副本传出去。
思考题
今天的思考题是对比strings.Builder和bytes.Buffer的String方法并判断哪一个更高效原因是什么
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,215 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
40 io包中的接口和工具 (上)
我们在前几篇文章中主要讨论了strings.Builder、strings.Reader和bytes.Buffer这三个数据类型。
知识回顾
还记得吗当时我还问过你“它们都实现了哪些接口”。在我们继续讲解io包中的接口和工具之前我先来解答一下这个问题。
strings.Builder类型主要用于构建字符串它的指针类型实现的接口有io.Writer、io.ByteWriter和fmt.Stringer。另外它其实还实现了一个io包的包级私有接口io.stringWriter自Go 1.12起它会更名为io.StringWriter
strings.Reader类型主要用于读取字符串它的指针类型实现的接口比较多包括
io.Reader
io.ReaderAt
io.ByteReader
io.RuneReader
io.Seeker
io.ByteScanner
io.RuneScanner
io.WriterTo
共有8个它们都是io包中的接口。
其中io.ByteScanner是io.ByteReader的扩展接口而io.RuneScanner又是io.RuneReader的扩展接口。
bytes.Buffer是集读、写功能于一身的数据类型它非常适合作为字节序列的缓冲区。 它的指针类型实现的接口就更多了。
更具体地说,该指针类型实现的读取相关的接口有下面几个。
io.Reader
io.ByteReader
io.RuneReader
io.ByteScanner
io.RuneScanner
io.WriterTo
共有6个。而其实现的写入相关的接口则有这些。
io.Writer
io.ByteWriter
io.stringWriter
io.ReaderFrom
共4个。此外它还实现了导出相关的接口fmt.Stringer。
前导内容io包中接口的好处与优势
那么,这些类型实现了这么多的接口,其动机(或者说目的)究竟是什么呢?
简单地说这是为了提高不同程序实体之间的互操作性。远的不说我们就以io包中的一些函数为例。
在io包中有这样几个用于拷贝数据的函数它们是
io.Copy
io.CopyBuffer
io.CopyN。
虽然这几个函数在功能上都略有差别但是它们都首先会接受两个参数用于代表数据目的地、io.Writer类型的参数dst以及用于代表数据来源的、io.Reader类型的参数src。这些函数的功能大致上都是把数据从src拷贝到dst。
不论我们给予它们的第一个参数值是什么类型的只要这个类型实现了io.Writer接口即可。
同样的无论我们传给它们的第二个参数值的实际类型是什么只要该类型实现了io.Reader接口就行。
一旦我们满足了这两个条件,这些函数几乎就可以正常地执行了。当然了,函数中还会对必要的参数值进行有效性的检查,如果检查不通过,它的执行也是不能够成功结束的。
下面来看一段示例代码:
src := strings.NewReader(
"CopyN copies n bytes (or until an error) from src to dst. " +
"It returns the number of bytes copied and " +
"the earliest error encountered while copying.")
dst := new(strings.Builder)
written, err := io.CopyN(dst, src, 58)
if err != nil {
fmt.Printf("error: %v\n", err)
} else {
fmt.Printf("Written(%d): %q\n", written, dst.String())
}
我先使用strings.NewReader创建了一个字符串读取器并把它赋给了变量src然后我又new了一个字符串构建器并将其赋予了变量dst。
之后我在调用io.CopyN函数的时候把这两个变量的值都传了进去同时把给这个函数的第三个参数值设定为了58。也就是说我想从src中拷贝前58个字节到dst那里。
虽然变量src和dst的类型分别是strings.Reader和strings.Builder但是当它们被传到io.CopyN函数的时候就已经分别被包装成了io.Reader类型和io.Writer类型的值。io.CopyN函数也根本不会去在意它们的实际类型到底是什么。
为了优化的目的io.CopyN函数中的代码会对参数值进行再包装也会检测这些参数值是否还实现了别的接口甚至还会去探求某个参数值被包装后的实际类型是否为某个特殊的类型。
但是从总体上来看这些代码都是面向参数声明中的接口来做的。io.CopyN函数的作者通过面向接口编程极大地拓展了它的适用范围和应用场景。
换个角度看正因为strings.Reader类型和strings.Builder类型都实现了不少接口所以它们的值才能够被使用在更广阔的场景中。
换句话说如此一来Go语言的各种库中能够操作它们的函数和数据类型明显多了很多。
这就是我想要告诉你的strings包和bytes包中的数据类型在实现了若干接口之后得到的最大好处。
也可以说,这就是面向接口编程带来的最大优势。这些数据类型和函数的做法,也是非常值得我们在编程的过程中去效仿的。
可以看到前文所述的几个类型实现的大都是io代码包中的接口。实际上io包中的接口对于Go语言的标准库和很多第三方库而言都起着举足轻重的作用。它们非常基础也非常重要。
就拿io.Reader和io.Writer这两个最核心的接口来说它们是很多接口的扩展对象和设计源泉。同时单从Go语言的标准库中统计实现了它们的数据类型都各自有上百个而引用它们的代码更是都各自有400多处。
很多数据类型实现了io.Reader接口是因为它们提供了从某处读取数据的功能。类似的许多能够把数据写入某处的数据类型也都会去实现io.Writer接口。
其实有不少类型的设计初衷都是实现这两个核心接口的某个或某些扩展接口以提供比单纯的字节序列读取或写入更加丰富的功能就像前面讲到的那几个strings包和bytes包中的数据类型那样。
在Go语言中对接口的扩展是通过接口类型之间的嵌入来实现的这也常被叫做接口的组合。
我在讲接口的时候也提到过Go语言提倡使用小接口加接口组合的方式来扩展程序的行为以及增加程序的灵活性。io代码包恰恰就可以作为这样的一个标杆它可以成为我们运用这种技巧时的一个参考标准。
下面我就以io.Reader接口为对象提出一个与接口扩展和实现有关的问题。如果你研究过这个核心接口以及相关的数据类型的话这个问题回答起来就并不困难。
我们今天的问题是在io包中io.Reader的扩展接口和实现类型都有哪些它们分别都有什么功用
这道题的典型回答是这样的。在io包中io.Reader的扩展接口有下面几种。
io.ReadWriter此接口既是io.Reader的扩展接口也是io.Writer的扩展接口。换句话说该接口定义了一组行为包含且仅包含了基本的字节序列读取方法Read和字节序列写入方法Write。
io.ReadCloser此接口除了包含基本的字节序列读取方法之外还拥有一个基本的关闭方法Close。后者一般用于关闭数据读写的通路。这个接口其实是io.Reader接口和io.Closer接口的组合。
io.ReadWriteCloser很明显此接口是io.Reader、io.Writer和io.Closer这三个接口的组合。
io.ReadSeeker此接口的特点是拥有一个用于寻找读写位置的基本方法Seek。更具体地说该方法可以根据给定的偏移量基于数据的起始位置、末尾位置或者当前读写位置去寻找新的读写位置。这个新的读写位置用于表明下一次读或写时的起始索引。Seek是io.Seeker接口唯一拥有的方法。
io.ReadWriteSeeker显然此接口是另一个三合一的扩展接口它是io.Reader、io.Writer和io.Seeker的组合。
再来说说io包中的io.Reader接口的实现类型它们包括下面几项内容。
*io.LimitedReader此类型的基本类型会包装io.Reader类型的值并提供一个额外的受限读取的功能。所谓的受限读取指的是此类型的读取方法Read返回的总数据量会受到限制无论该方法被调用多少次。这个限制由该类型的字段N指明单位是字节。
*io.SectionReader此类型的基本类型可以包装io.ReaderAt类型的值并且会限制它的Read方法只能够读取原始数据中的某一个部分或者说某一段。-
这个数据段的起始位置和末尾位置,需要在它被初始化的时候就指明,并且之后无法变更。该类型值的行为与切片有些类似,它只会对外暴露在其窗口之中的那些数据。
*io.teeReader此类型是一个包级私有的数据类型也是io.TeeReader函数结果值的实际类型。这个函数接受两个参数r和w类型分别是io.Reader和io.Writer。-
其结果值的Read方法会把r中的数据经过作为方法参数的字节切片p写入到w。可以说这个值就是r和w之间的数据桥梁而那个参数p就是这座桥上的数据搬运者。
*io.multiReader此类型也是一个包级私有的数据类型。类似的io包中有一个名为MultiReader的函数它可以接受若干个io.Reader类型的参数值并返回一个实际类型为io.multiReader的结果值。-
当这个结果值的Read方法被调用时它会顺序地从前面那些io.Reader类型的参数值中读取数据。因此我们也可以称之为多对象读取器。
*io.pipe此类型为一个包级私有的数据类型它比上述类型都要复杂得多。它不但实现了io.Reader接口而且还实现了io.Writer接口。-
实际上io.PipeReader类型和io.PipeWriter类型拥有的所有指针方法都是以它为基础的。这些方法都只是代理了io.pipe类型值所拥有的某一个方法而已。-
又因为io.Pipe函数会返回这两个类型的指针值并分别把它们作为其生成的同步内存管道的两端所以可以说*io.pipe类型就是io包提供的同步内存管道的核心实现。
*io.PipeReader此类型可以被视为io.pipe类型的代理类型。它代理了后者的一部分功能并基于后者实现了io.ReadCloser接口。同时它还定义了同步内存管道的读取端。
注意,我在这里忽略掉了测试源码文件中的实现类型,以及不会以任何形式直接对外暴露的那些实现类型。
问题解析
我问这个问题的目的主要是评估你对io包的熟悉程度。这个代码包是Go语言标准库中所有I/O相关API的根基所以我们必须对其中的每一个程序实体都有所了解。
然而由于该包包含的内容众多因此这里的问题是以io.Reader接口作为切入点的。通过io.Reader接口我们应该能够梳理出基于它的类型树并知晓其中每一个类型的功用。
io.Reader可谓是io包乃至是整个Go语言标准库中的核心接口所以我们可以从它那里牵扯出很多扩展接口和实现类型。
我在本问题的典型回答中为你罗列和介绍了io包范围内的相关数据类型。
这些类型中的每一个都值得你认真去理解尤其是那几个实现了io.Reader接口的类型。它们实现的功能在细节上都各有不同。
在很多时候,我们可以根据实际需求将它们搭配起来使用。
例如对施加在原始数据之上的由Read方法提供的读取功能进行多层次的包装比如受限读取和多对象读取等以满足较为复杂的读取需求。
在实际的面试中只要应聘者能够从某一个方面出发说出io.Reader的扩展接口及其存在意义或者说清楚该接口的三五个实现类型那么就可以算是基本回答正确了。
比如,从读取、写入、关闭这一系列的基本功能出发,描述清楚:
io.ReadWriter
io.ReadCloser
io.ReadWriteCloser
这几个接口。
又比如说明白io.LimitedReader和io.SectionReader这两个类型之间的异同点。
再比如,阐述*io.SectionReader类型实现io.ReadSeeker接口的具体方式等等。不过这只是合格的门槛应聘者回答得越全面越好。
我在示例文件demo82.go中写了一些代码以展示上述类型的一些基本用法供你参考。
总结
我们今天一直在讨论和梳理io代码包中的程序实体尤其是那些重要的接口及其实现类型。
io包中的接口对于Go语言的标准库和很多第三方库而言都起着举足轻重的作用。其中最核心的io.Reader接口和io.Writer接口是很多接口的扩展对象或设计源泉。我们下一节会继续讲解io包中的接口内容。
你用过哪些io包中的接口和工具呢又有哪些收获和感受呢你可以给我留言我们一起讨论。感谢你的收听我们下次再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,109 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
41 io包中的接口和工具 (下)
上一篇文章中我主要讲到了io.Reader的扩展接口和实现类型。当然io代码包中的核心接口不止io.Reader一个。
我们基于它引出的一条主线只是io包类型体系中的一部分。我们很有必要再从另一个角度去探索一下以求对io包有更加全面的了解。
下面的一个问题就与此有关。
知识扩展
问题io包中的接口都有哪些它们之间都有着怎样的关系
我们可以把没有嵌入其他接口并且只定义了一个方法的接口叫做简单接口。在io包中这样的接口一共有11个。
在它们之中有的接口有着众多的扩展接口和实现类型我们可以称之为核心接口。io包中的核心接口只有3个它们是io.Reader、io.Writer和io.Closer。
我们还可以把io包中的简单接口分为四大类。这四大类接口分别针对于四种操作读取、写入、关闭和读写位置设定。前三种操作属于基本的I/O操作。
关于读取操作我们在前面已经重点讨论过核心接口io.Reader。它在io包中有5个扩展接口并有6个实现类型。除了它这个包中针对读取操作的接口还有不少。我们下面就来梳理一下。
首先来看io.ByteReader和io.RuneReader这两个简单接口。它们分别定义了一个读取方法ReadByte和ReadRune。
但与io.Reader接口中Read方法不同的是这两个读取方法分别只能够读取下一个单一的字节和Unicode字符。
我们之前讲过的数据类型strings.Reader和bytes.Buffer都是io.ByteReader和io.RuneReader的实现类型。
不仅如此这两个类型还都实现了io.ByteScanner接口和io.RuneScanner接口。
io.ByteScanner接口内嵌了简单接口io.ByteReader并定义了额外的UnreadByte方法。如此一来它就抽象出了一个能够读取和读回退单个字节的功能集。
与之类似io.RuneScanner内嵌了简单接口io.RuneReader并定义了额外的UnreadRune方法。它抽象的是可以读取和读回退单个Unicode字符的功能集。
再来看io.ReaderAt接口。它也是一个简单接口其中只定义了一个方法ReadAt。与我们在前面说过的读取方法都不同ReadAt是一个纯粹的只读方法。
它只去读取其所属值中包含的字节而不对这个值进行任何的改动比如它绝对不能去修改已读计数的值。这也是io.ReaderAt接口与其实现类型之间最重要的一个约定。
因此如果仅仅并发地调用某一个值的ReadAt方法那么安全性应该是可以得到保障的。
另外还有一个读取操作相关的接口我们没有介绍过它就是io.WriterTo。这个接口定义了一个名为WriteTo的方法。
千万不要被它的名字迷惑这个WriteTo方法其实是一个读取方法。它会接受一个io.Writer类型的参数值并会把其所属值中的数据读出并写入到这个参数值中。
与之相对应的是io.ReaderFrom接口。它定义了一个名叫ReadFrom的写入方法。该方法会接受一个io.Reader类型的参数值并会从该参数值中读出数据,并写入到其所属值中。
值得一提的是我们在前面用到过的io.CopyN函数在复制数据的时候会先检测其参数src的值是否实现了io.WriterTo接口。如果是那么它就直接利用该值的WriteTo方法把其中的数据拷贝给参数dst代表的值。
类似的这个函数还会检测dst的值是否实现了io.ReaderFrom接口。如果是那么它就会利用这个值的ReadFrom方法直接从src那里把数据拷贝进该值。
实际上对于io.Copy函数和io.CopyBuffer函数来说也是如此因为它们在内部做数据复制的时候用的都是同一套代码。
你也看到了io.ReaderFrom接口与io.WriterTo接口对应得很规整。实际上在io包中与写入操作有关的接口都与读取操作的相关接口有着一定的对应关系。下面我们就来说说写入操作相关的接口。
首先当然是核心接口io.Writer。基于它的扩展接口除了有我们已知的io.ReadWriter、io.ReadWriteCloser和io.ReadWriteSeeker之外还有io.WriteCloser和io.WriteSeeker。
我们之前提及的*io.pipe就是io.ReadWriter接口的实现类型。然而在io包中并没有io.ReadWriteCloser接口的实现它的实现类型主要集中在net包中。
除此之外写入操作相关的简单接口还有io.ByteWriter和io.WriterAt。可惜io包中也没有它们的实现类型。不过有一个数据类型值得在这里提一句那就是*os.File。
这个类型不但是io.WriterAt接口的实现类型还同时实现了io.ReadWriteCloser接口和io.ReadWriteSeeker接口。也就是说该类型支持的I/O操作非常的丰富。
io.Seeker接口作为一个读写位置设定相关的简单接口也仅仅定义了一个方法名叫Seek。
我在讲strings.Reader类型的时候还专门说过这个Seek方法当时还给出了一个与已读计数估算有关的例子。该方法主要用于寻找并设定下一次读取或写入时的起始索引位置。
io包中有几个基于io.Seeker的扩展接口包括前面讲过的io.ReadSeeker和io.ReadWriteSeeker以及还未曾提过的io.WriteSeeker。io.WriteSeeker是基于io.Writer和io.Seeker的扩展接口。
我们之前多次提到的两个指针类型strings.Reader和io.SectionReader都实现了io.Seeker接口。顺便说一句这两个类型也都是io.ReaderAt接口的实现类型。
最后关闭操作相关的接口io.Closer非常通用它的扩展接口和实现类型都不少。我们单从名称上就能够一眼看出io包中的哪些接口是它的扩展接口。至于它的实现类型io包中只有io.PipeReader和io.PipeWriter。
总结
我们来总结一下这两篇的内容。在Go语言中对接口的扩展是通过接口类型之间的嵌入来实现的这也常被叫做接口的组合。而io代码包恰恰就可以作为接口扩展的一个标杆它可以成为我们运用这种技巧时的一个参考标准。
在本文中我根据接口定义的方法的数量以及是否有接口嵌入把io包中的接口分为了简单接口和扩展接口。
同时,我又根据这些简单接口的扩展接口和实现类型的数量级,把它们分为了核心接口和非核心接口。
在io包中称得上核心接口的简单接口只有3个io.Reader、io.Writer和io.Closer。这些核心接口在Go语言标准库中的实现类型都在200个以上。
另外根据针对的I/O操作的不同我还把简单接口分为了四大类。这四大类接口针对的操作分别是读取、写入、关闭和读写位置设定。
其中前三种操作属于基本的I/O操作。基于此我带你梳理了每个类别的简单接口并讲解了它们在io包中的扩展接口以及具有代表性的实现类型。
io包中的接口体系
除此之外我还从多个维度为你描述了一些重要程序实体的功用和机理比如数据段读取器io.SectionReader、作为同步内存管道核心实现的io.pipe类型以及用于数据拷贝的io.CopyN函数等等。
我如此详尽且多角度的阐释正是为了让你能够记牢io代码包中有着网状关系的接口和数据类型。我希望这个目的已经达到了最起码本文可以作为你深刻记忆它们的开始。
最后再强调一下io包中的简单接口共有11个。其中读取操作相关的接口有5个写入操作相关的接口有4个而与关闭操作有关的接口只有1个另外还有一个读写位置设定相关的接口。
此外io包还包含了9个基于这些简单接口的扩展接口。你需要在今后思考和实践的是你在什么时候应该编写哪些数据类型实现io包中的哪些接口并以此得到最大的好处。
思考题
今天的思考题是io包中的同步内存管道的运作机制是什么
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,132 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
42 bufio包中的数据类型 (上)
今天我们来讲另一个与I/O操作强相关的代码包bufio。bufio是“buffered I/O”的缩写。顾名思义这个代码包中的程序实体实现的I/O操作都内置了缓冲区。
bufio包中的数据类型主要有
Reader
Scanner
Writer和ReadWriter。
与io包中的数据类型类似这些类型的值也都需要在初始化的时候包装一个或多个简单I/O接口类型的值。这里的简单I/O接口类型指的就是io包中的那些简单接口。
下面我们将通过一系列问题对bufio.Reader类型和bufio.Writer类型进行讨论以前者为主。今天我的问题是bufio.Reader类型值中的缓冲区起着怎样的作用
这道题的典型回答是这样的。
bufio.Reader类型的值以下简称Reader值内的缓冲区其实就是一个数据存储中介它介于底层读取器与读取方法及其调用方之间。所谓的底层读取器就是在初始化此类值的时候传入的io.Reader类型的参数值。
Reader值的读取方法一般都会先从其所属值的缓冲区中读取数据。同时在必要的时候它们还会预先从底层读取器那里读出一部分数据并暂存于缓冲区之中以备后用。
有这样一个缓冲区的好处是,可以在大多数的时候降低读取方法的执行时间。虽然,读取方法有时还要负责填充缓冲区,但从总体来看,读取方法的平均执行时间一般都会因此有大幅度的缩短。
问题解析
bufio.Reader类型并不是开箱即用的因为它包含了一些需要显式初始化的字段。为了让你能在后面更好地理解它的读取方法的内部流程我先在这里简要地解释一下这些字段如下所示。
buf[]byte类型的字段即字节切片代表缓冲区。虽然它是切片类型的但是其长度却会在初始化的时候指定并在之后保持不变。
rdio.Reader类型的字段代表底层读取器。缓冲区中的数据就是从这里拷贝来的。
rint类型的字段代表对缓冲区进行下一次读取时的开始索引。我们可以称它为已读计数。
wint类型的字段代表对缓冲区进行下一次写入时的开始索引。我们可以称之为已写计数。
errerror类型的字段。它的值用于表示在从底层读取器获得数据时发生的错误。这里的值在被读取或忽略之后该字段会被置为nil。
lastByteint类型的字段用于记录缓冲区中最后一个被读取的字节。读回退时会用到它的值。
lastRuneSizeint类型的字段用于记录缓冲区中最后一个被读取的Unicode字符所占用的字节数。读回退的时候会用到它的值。这个字段只会在其所属值的ReadRune方法中才会被赋予有意义的值。在其他情况下它都会被置为-1。
bufio包为我们提供了两个用于初始化Reader值的函数分别叫
NewReader
NewReaderSize
它们都会返回一个*bufio.Reader类型的值。
NewReader函数初始化的Reader值会拥有一个默认尺寸的缓冲区。这个默认尺寸是4096个字节4 KB。而NewReaderSize函数则将缓冲区尺寸的决定权抛给了使用方。
由于这里的缓冲区在一个Reader值的生命周期内其尺寸不可变所以在有些时候是需要做一些权衡的。NewReaderSize函数就提供了这样一个途径。
在bufio.Reader类型拥有的读取方法中Peek方法和ReadSlice方法都会调用该类型一个名为fill的包级私有方法。fill方法的作用是填充内部缓冲区。我们在这里就先重点说说它。
fill方法会先检查其所属值的已读计数。如果这个计数不大于0那么有两种可能。
一种可能是其缓冲区中的字节都是全新的,也就是说它们都没有被读取过,另一种可能是缓冲区刚被压缩过。
对缓冲区的压缩包括两个步骤。第一步,把缓冲区中在[已读计数, 已写计数)范围之内的所有元素值(或者说字节)都依次拷贝到缓冲区的头部。
比如把缓冲区中与已读计数代表的索引对应字节拷贝到索引0的位置并把紧挨在它后边的字节拷贝到索引1的位置以此类推。
这一步之所以不会有任何副作用,是因为它基于两个事实。
第一事实,已读计数之前的字节都已经被读取过,并且肯定不会再被读取了,因此把它们覆盖掉是安全的。
第二个事实在压缩缓冲区之后已写计数之后的字节只可能是已被读取过的字节或者是已被拷贝到缓冲区头部的未读字节又或者是代表未曾被填入数据的零值0x00。所以后续的新字节是可以被写到这些位置上的。
在压缩缓冲区的第二步中fill方法会把已写计数的新值设定为原已写计数与原已读计数的差。这个差所代表的索引就是压缩后第一次写入字节时的开始索引。
另外该方法还会把已读计数的值置为0。显而易见在压缩之后再读取字节就肯定要从缓冲区的头部开始读了。
bufio.Reader中的缓冲区压缩
实际上fill方法只要在开始时发现其所属值的已读计数大于0就会对缓冲区进行一次压缩。之后如果缓冲区中还有可写的位置那么该方法就会对其进行填充。
在填充缓冲区的时候fill方法会试图从底层读取器那里读取足够多的字节并尽量把从已写计数代表的索引位置到缓冲区末尾之间的空间都填满。
在这个过程中fill方法会及时地更新已写计数以保证填充的正确性和顺序性。另外它还会判断从底层读取器读取数据的时候是否有错误发生。如果有那么它就会把错误值赋给其所属值的err字段并终止填充流程。
好了到这里我们暂告一个段落。在本题中我对bufio.Reader类型的基本结构以及相关的一些函数和方法进行了概括介绍并且重点阐述了该类型的fill方法。
后者是我们在后面要说明的一些读取流程的重要组成部分。你起码要记住的是这个fill方法大致都做了些什么。
知识扩展
问题1bufio.Writer类型值中缓冲的数据什么时候会被写到它的底层写入器
我们先来看一下bufio.Writer类型都有哪些字段
errerror类型的字段。它的值用于表示在向底层写入器写数据时发生的错误。
buf[]byte类型的字段代表缓冲区。在初始化之后它的长度会保持不变。
nint类型的字段代表对缓冲区进行下一次写入时的开始索引。我们可以称之为已写计数。
wrio.Writer类型的字段代表底层写入器。
bufio.Writer类型有一个名为Flush的方法它的主要功能是把相应缓冲区中暂存的所有数据都写到底层写入器中。数据一旦被写进底层写入器该方法就会把它们从缓冲区中删除掉。
不过这里的删除有时候只是逻辑上的删除而已。不论是否成功地写入了所有的暂存数据Flush方法都会妥当处置并保证不会出现重写和漏写的情况。该类型的字段n在此会起到很重要的作用。
bufio.Writer类型值以下简称Writer值拥有的所有数据写入方法都会在必要的时候调用它的Flush方法。
比如Write方法有时候会在把数据写进缓冲区之后调用Flush方法以便为后续的新数据腾出空间。WriteString方法的行为与之类似。
又比如WriteByte方法和WriteRune方法都会在发现缓冲区中的可写空间不足以容纳新的字节或Unicode字符的时候调用Flush方法。
此外如果Write方法发现需要写入的字节太多同时缓冲区已空那么它就会跨过缓冲区并直接把这些数据写到底层写入器中。
而ReadFrom方法则会在发现底层写入器的类型是io.ReaderFrom接口的实现之后直接调用其ReadFrom方法把参数值持有的数据写进去。
总之在通常情况下只要缓冲区中的可写空间无法容纳需要写入的新数据Flush方法就一定会被调用。并且bufio.Writer类型的一些方法有时候还会试图走捷径跨过缓冲区而直接对接数据供需的双方。
你可以在理解了这些内部机制之后有的放矢地编写你的代码。不过在你把所有的数据都写入Writer值之后再调用一下它的Flush方法显然是最稳妥的。
总结
今天我们从“bufio.Reader类型值中的缓冲区起着怎样的作用”这道问题入手介绍了一部分bufio包中的数据类型在下一次的分享中我会沿着这个问题继续展开。
你对今天的内容有什么样的思考,可以给我留言,我们一起讨论。感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,130 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
43 bufio包中的数据类型
你好我是郝林我今天继续分享bufio包中的数据类型。
在上一篇文章中我提到了bufio包中的数据类型主要有Reader、Scanner、Writer和ReadWriter。并着重讲到了bufio.Reader类型与bufio.Writer类型今天我们继续专注bufio.Reader的内容来进行学习。
知识扩展
问题 bufio.Reader类型读取方法有哪些不同
bufio.Reader类型拥有很多用于读取数据的指针方法这里面有4个方法可以作为不同读取流程的代表它们是Peek、Read、ReadSlice和ReadBytes。
Reader值的Peek方法的功能是读取并返回其缓冲区中的n个未读字节并且它会从已读计数代表的索引位置开始读。
在缓冲区未被填满并且其中的未读字节的数量小于n的时候该方法就会调用fill方法以启动缓冲区填充流程。但是如果它发现上次填充缓冲区的时候有错误那就不会再次填充。
如果调用方给定的n比缓冲区的长度还要大或者缓冲区中未读字节的数量小于n那么Peek方法就会把“所有未读字节组成的序列”作为第一个结果值返回。
同时它通常还把“bufio.ErrBufferFull变量的值以下简称缓冲区已满的错误”-
作为第二个结果值返回,用来表示:虽然缓冲区被压缩和填满了,但是仍然满足不了要求。
只有在上述的情况都没有出现时Peek方法才能返回“以已读计数为起始的n个字节”和“表示未发生任何错误的nil”。
bufio.Reader类型的Peek方法有一个鲜明的特点那就是即使它读取了缓冲区中的数据也不会更改已读计数的值。
这个类型的其他读取方法并不是这样。就拿该类型的Read方法来说它有时会把缓冲区中的未读字节依次拷贝到其参数p代表的字节切片中并立即根据实际拷贝的字节数增加已读计数的值。
在缓冲区中还有未读字节的情况下,该方法的做法就是如此。不过,在另一些时候,其所属值的已读计数会等于已写计数,这表明:此时的缓冲区中已经没有任何未读的字节了。
当缓冲区中已无未读字节时Read方法会先检查参数p的长度是否大于或等于缓冲区的长度。如果是那么Read方法会索性放弃向缓冲区中填充数据转而直接从其底层读取器中读出数据并拷贝到p中。这意味着它完全跨过了缓冲区并直连了数据供需的双方。
需要注意的是Peek方法在遇到类似情况时的做法与这里的区别这两种做法孰优孰劣还要看具体的使用场景
Peek方法会在条件满足时填充缓冲区并在发现参数n的值比缓冲区的长度更大时直接返回缓冲区中的所有未读字节。
如果我们当初设定的缓冲区长度很大,那么在这种情况下的方法执行耗时,就有可能会比较长。最主要的原因是填充缓冲区需要花费较长的时间。
由fill方法执行的流程可知它会尽量填满缓冲区中的可写空间。然而Read方法在大多数的情况下是不会向缓冲区中写入数据的尤其是在前面描述的那种情况下缓冲区中已无未读字节且参数p的长度大于或等于缓冲区的长度。
此时,该方法会直接从底层读取器那里读出数据,所以数据的读出速度就成为了这种情况下方法执行耗时的决定性因素。
当然了,我在这里说的只是耗时操作在某些情况下更可能出现在哪里,一切的结论还是要以性能测试的客观结果为准。
说回Read方法的内部流程。如果缓冲区中已无未读字节但其长度比参数p的长度更大那么该方法会先把已读计数和已写计数的值都重置为0然后再尝试着使用从底层读取器那里获取的数据对缓冲区进行一次从头至尾的填充。
不过要注意这里的尝试只会进行一次。无论在这一时刻是否能够获取到数据也无论获取时是否有错误发生都会是如此。而fill方法的做法与此不同只要没有发生错误它就会进行多次尝试因此它真正获取到一些数据的可能性更大。
不过,这两个方法有一点是相同,那就是:只要它们把获取到的数据写入缓冲区,就会及时地更新已写计数的值。
再来说ReadSlice方法和ReadBytes方法。 这两个方法的功能总体上来说,都是持续地读取数据,直至遇到调用方给定的分隔符为止。
ReadSlice方法会先在其缓冲区的未读部分中寻找分隔符。如果未能找到并且缓冲区未满那么该方法会先通过调用fill方法对缓冲区进行填充然后再次寻找如此往复。
如果在填充的过程中发生了错误,那么它会把缓冲区中的未读部分作为结果返回,同时返回相应的错误值。
注意,在这个过程中有可能会出现虽然缓冲区已被填满,但仍然没能找到分隔符的情况。
这时ReadSlice方法会把整个缓冲区也就是buf字段代表的字节切片作为第一个结果值并把缓冲区已满的错误即bufio.ErrBufferFull变量的值作为第二个结果值。
经过fill方法填满的缓冲区肯定从头至尾都只包含了未读的字节所以这样做是合理的。
当然了一旦ReadSlice方法找到了分隔符它就会在缓冲区上切出相应的、包含分隔符的字节切片并把该切片作为结果值返回。无论分隔符找到与否该方法都会正确地设置已读计数的值。
比如,在返回缓冲区中的所有未读字节,或者代表全部缓冲区的字节切片之前,它会把已写计数的值赋给已读计数,以表明缓冲区中已无未读字节。
如果说ReadSlice是一个容易半途而废的方法的话那么可以说ReadBytes方法算得上是相当的执着。
ReadBytes方法会通过调用ReadSlice方法一次又一次地从缓冲区中读取数据直至找到分隔符为止。
在这个过程中ReadSlice方法可能会因缓冲区已满而返回所有已读到的字节和相应的错误值但ReadBytes方法总是会忽略掉这样的错误并再次调用ReadSlice方法这使得后者会继续填充缓冲区并在其中寻找分隔符。
除非ReadSlice方法返回的错误值并不代表缓冲区已满的错误或者它找到了分隔符否则这一过程永远不会结束。
如果寻找的过程结束了不管是不是因为找到了分隔符ReadBytes方法都会把在这个过程中读到的所有字节按照读取的先后顺序组装成一个字节切片并把它作为第一个结果值。如果过程结束是因为出现错误那么它还会把拿到的错误值作为第二个结果值。
在bufio.Reader类型的众多读取方法中依赖ReadSlice方法的除了ReadBytes方法还有ReadLine方法。不过后者在读取流程上并没有什么特别之处我就不在这里赘述了。
另外该类型的ReadString方法完全依赖于ReadBytes方法前者只是在后者返回的结果值之上做了一个简单的类型转换而已。
最后我还要提醒你一下有个安全性方面的问题需要你注意。bufio.Reader类型的Peek方法、ReadSlice方法和ReadLine方法都有可能会造成内容泄露。
这主要是因为它们在正常的情况下都会返回直接基于缓冲区的字节切片。我在讲bytes.Buffer类型的时候解释过什么叫内容泄露。你可以返回查看。
调用方可以通过这些方法返回的结果值访问到缓冲区的其他部分,甚至修改缓冲区中的内容。这通常都是很危险的。
总结
我们用比较长的篇幅介绍了bufio包中的数据类型其中的重点是bufio.Reader类型。
bufio.Reader类型代表的是携带缓冲区的读取器。它的值在被初始化的时候需要接受一个底层的读取器后者的类型必须是io.Reader接口的实现。
Reader值中的缓冲区其实就是一个数据存储中介它介于底层读取器与读取方法及其调用方之间。此类值的读取方法一般都会先从该值的缓冲区中读取数据同时在必要的时候预先从其底层读取器那里读出一部分数据并填充到缓冲区中以备后用。填充缓冲区的操作通常会由该值的fill方法执行。在填充的过程中fill方法有时还会对缓冲区进行压缩。
在Reader值拥有的众多读取方法中有4个方法可以作为不同读取流程的代表它们是Peek、Read、ReadSlice和ReadBytes。
Peek方法的特点是即使读取了缓冲区中的数据也不会更改已读计数的值。而Read方法会在参数值的长度过大且缓冲区中已无未读字节时跨过缓冲区并直接向底层读取器索要数据。
ReadSlice方法会在缓冲区的未读部分中寻找给定的分隔符并在必要时对缓冲区进行填充。
如果在填满缓冲区之后仍然未能找到分隔符,那么该方法就会把整个缓冲区作为第一个结果值返回,同时返回缓冲区已满的错误。
ReadBytes方法会通过调用ReadSlice方法一次又一次地填充缓冲区并在其中寻找分隔符。除非发生了未预料到的错误或者找到了分隔符否则这一过程将会一直进行下去。
Reader值的ReadLine方法会依赖于它的ReadSlice方法而其ReadString方法则完全依赖于ReadBytes方法。
另外值得我们特别注意的是Reader值的Peek方法、ReadSlice方法和ReadLine方法都可能会造成其缓冲区中的内容的泄露。
最后再说一下bufio.Writer类型。把该类值的缓冲区中暂存的数据写进其底层写入器的功能主要是由它的Flush方法实现的。
此类值的所有数据写入方法都会在必要的时候调用它的Flush方法。一般情况下这些写入方法都会先把数据写进其所属值的缓冲区然后再增加该值中的已写计数。但是在有些时候Write方法和ReadFrom方法也会跨过缓冲区并直接把数据写进其底层写入器。
请记住虽然这些写入方法都会不时地调用Flush方法但是在写入所有的数据之后再显式地调用一下这个方法总是最稳妥的。
思考题
今天的思考题是bufio.Scanner类型的主要功用是什么它有哪些特点
感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,132 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
44 使用os包中的API (上)
我们今天要讲的是os代码包中的API。这个代码包可以让我们拥有操控计算机操作系统的能力。
前导内容os包中的API
这个代码包提供的都是平台不相关的API。那么说什么叫平台不相关的API呢
它的意思是这些API基于或者说抽象自操作系统为我们使用操作系统的功能提供高层次的支持但是它们并不依赖于具体的操作系统。
不论是Linux、macOS、Windows还是FreeBSD、OpenBSD、Plan9os代码包都可以为之提供统一的使用接口。这使得我们可以用同样的方式来操纵不同的操作系统并得到相似的结果。
os包中的API主要可以帮助我们使用操作系统中的文件系统、权限系统、环境变量、系统进程以及系统信号。
其中操纵文件系统的API最为丰富。我们不但可以利用这些API创建和删除文件以及目录还可以获取到它们的各种信息、修改它们的内容、改变它们的访问权限等等。
说到这里就不得不提及一个非常常用的数据类型os.File。
从字面上来看os.File类型代表了操作系统中的文件。但实际上它可以代表的远不止于此。或许你已经知道对于类Unix的操作系统包括Linux、macOS、FreeBSD等其中的一切都可以被看做是文件。
除了文本文件、二进制文件、压缩文件、目录这些常见的形式之外还有符号链接、各种物理设备包括内置或外接的面向块或者字符的设备、命名管道以及套接字也就是socket等等。
因此可以说我们能够利用os.File类型操纵的东西太多了。不过为了聚焦于os.File本身同时也为了让本文讲述的内容更加通用我们在这里主要把os.File类型应用于常规的文件。
下面这个问题就是以os.File类型代表的最基本内容入手。我们今天的问题是os.File类型都实现了哪些io包中的接口
这道题的典型回答是这样的。
os.File类型拥有的都是指针方法所以除了空接口之外它本身没有实现任何接口。而它的指针类型则实现了很多io代码包中的接口。
首先对于io包中最核心的3个简单接口io.Reader、io.Writer和io.Closer*os.File类型都实现了它们。
其次该类型还实现了另外的3个简单接口io.ReaderAt、io.Seeker和io.WriterAt。
正是因为*os.File类型实现了这些简单接口所以它也顺便实现了io包的9个扩展接口中的7个。
然而由于它并没有实现简单接口io.ByteReader和io.RuneReader所以它没有实现分别作为这两者的扩展接口的io.ByteScanner和io.RuneScanner。
总之os.File类型及其指针类型的值不但可以通过各种方式读取和写入某个文件中的内容还可以寻找并设定下一次读取或写入时的起始索引位置另外还可以随时对文件进行关闭。
但是它们并不能专门地读取文件中的下一个字节或者下一个Unicode字符也不能进行任何的读回退操作。
不过单独读取下一个字节或字符的功能也可以通过其他方式来实现比如调用它的Read方法并传入适当的参数值就可以做到这一点。
问题解析
这个问题其实在间接地问“os.File类型能够以何种方式操作文件”我在前面的典型回答中也给出了简要的答案。
在我进一步地说明一些细节之前我们先来看看怎样才能获得一个os.File类型的指针值以下简称File值
在os包中有这样几个函数Create、NewFile、Open和OpenFile。
os.Create函数用于根据给定的路径创建一个新的文件。 它会返回一个File值和一个错误值。我们可以在该函数返回的File值之上对相应的文件进行读操作和写操作。
不但如此,我们使用这个函数创建的文件,对于操作系统中的所有用户来说,都是可以读和写的。
换句话说,一旦这样的文件被创建出来,任何能够登录其所属的操作系统的用户,都可以在任意时刻读取该文件中的内容,或者向该文件写入内容。
注意如果在我们给予os.Create函数的路径之上已经存在了一个文件那么该函数会先清空现有文件中的全部内容然后再把它作为第一个结果值返回。
另外os.Create函数是有可能返回非nil的错误值的。
比如,如果我们给定的路径上的某一级父目录并不存在,那么该函数就会返回一个*os.PathError类型的错误值以表示“不存在的文件或目录”。
再来看os.NewFile函数。 该函数在被调用的时候需要接受一个代表文件描述符的、uintptr类型的值以及一个用于表示文件名的字符串值。
如果我们给定的文件描述符并不是有效的那么这个函数将会返回nil否则它将会返回一个代表了相应文件的File值。
注意不要被这个函数的名称误导了它的功能并不是创建一个新的文件而是依据一个已经存在的文件的描述符来新建一个包装了该文件的File值。
例如我们可以像这样拿到一个包装了标准错误输出的File值
file3 := os.NewFile(uintptr(syscall.Stderr), "/dev/stderr")
然后通过这个File值向标准错误输出上写入一些内容
if file3 != nil {
defer file3.Close()
file3.WriteString(
"The Go language program writes the contents into stderr.\n")
}
os.Open函数会打开一个文件并返回包装了该文件的File值。 然而该函数只能以只读模式打开文件。换句话说我们只能从该函数返回的File值中读取内容而不能向它写入任何内容。
如果我们调用了这个File值的任何一个写入方法那么都将会得到一个表示了“坏的文件描述符”的错误值。实际上我们刚刚说的只读模式正是应用在File值所持有的文件描述符之上的。
所谓的文件描述符是由通常很小的非负整数代表的。它一般会由I/O相关的系统调用返回并作为某个文件的一个标识存在。
从操作系统的层面看针对任何文件的I/O操作都需要用到这个文件描述符。只不过Go语言中的一些数据类型为我们隐匿掉了这个描述符如此一来我们就无需时刻关注和辨别它了就像os.File类型这样
实际上我们在调用前文所述的os.Create函数、os.Open函数以及将会提到的os.OpenFile函数的时候它们都会执行同一个系统调用并且在成功之后得到这样一个文件描述符。这个文件描述符将会被储存在它们返回的File值中。
os.File类型有一个指针方法名叫Fd。它在被调用之后将会返回一个uintptr类型的值。这个值就代表了当前的File值所持有的那个文件描述符。
不过在os包中除了NewFile函数需要用到它它也没有什么别的用武之地了。所以如果你操作的只是常规的文件或者目录那么就无需特别地在意它了。
最后再说一下os.OpenFile函数。 这个函数其实是os.Create函数和os.Open函数的底层支持它最为灵活。
这个函数有3个参数分别名为name、flag和perm。其中的name指代的就是文件的路径。而flag参数指的则是需要施加在文件描述符之上的模式我在前面提到的只读模式就是这里的一个可选项。
在Go语言中这个只读模式由常量os.O_RDONLY代表它是int类型的。当然了这里除了只读模式之外还有几个别的模式可选我们稍后再细说。
os.OpenFile函数的参数perm代表的也是模式它的类型是os.FileMode此类型是一个基于uint32类型的再定义类型。
为了加以区别我们把参数flag指代的模式叫做操作模式而把参数perm指代的模式叫做权限模式。可以这么说操作模式限定了操作文件的方式而权限模式则可以控制文件的访问权限。关于权限模式的更多细节我们将在后面讨论。
-
获得os.File类型的指针值的几种方式
到这里你需要记住的是通过os.File类型的值我们不但可以对文件进行读取、写入、关闭等操作还可以设定下一次读取或写入时的起始索引位置。
此外os包中还有用于创建全新文件的Create函数用于包装现存文件的NewFile函数以及可被用来打开已存在的文件的Open函数和OpenFile函数。
总结
我们今天讲的是os代码包以及其中的程序实体。我们首先讨论了os包存在的意义和它的主要用途。代码包中所包含的API都是对操作系统的某方面功能的高层次抽象这使得我们可以通过它以统一的方式操纵不同的操作系统并得到相似的结果。
在这个代码包中操纵文件系统的API最为丰富最有代表性的就是数据类型os.File。os.File类型不但可以代表操作系统中的文件还可以代表很多其他的东西。尤其是在类Unix的操作系统中它几乎可以代表一切可以操纵的软件和硬件。
在下一期的文章中我会继续讲解os包中的API的内容。如果你对这部分的知识有什么问题可以给我留言感谢你的收听我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,112 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
45 使用os包中的API (下)
你好我是郝林今天我们继续分享使用os包中的API。
我们在上一篇文章中。从“os.File类型都实现了哪些io包中的接口”这一问题出发介绍了一系列的相关内容。今天我们继续围绕这一知识点进行扩展。
知识扩展
问题1可应用于File值的操作模式都有哪些
针对File值的操作模式主要有只读模式、只写模式和读写模式。
这些模式分别由常量os.O_RDONLY、os.O_WRONLY和os.O_RDWR代表。在我们新建或打开一个文件的时候必须把这三个模式中的一个设定为此文件的操作模式。
除此之外,我们还可以为这里的文件设置额外的操作模式,可选项如下所示。
os.O_APPEND当向文件中写入内容时把新内容追加到现有内容的后边。
os.O_CREATE当给定路径上的文件不存在时创建一个新文件。
os.O_EXCL需要与os.O_CREATE一同使用表示在给定的路径上不能有已存在的文件。
os.O_SYNC在打开的文件之上实施同步I/O。它会保证读写的内容总会与硬盘上的数据保持同步。
os.O_TRUNC如果文件已存在并且是常规的文件那么就先清空其中已经存在的任何内容。
对于以上操作模式的使用os.Create函数和os.Open函数都是现成的例子。
func Create(name string) (*File, error) {
return OpenFile(name, O_RDWR|O_CREATE|O_TRUNC, 0666)
}
os.Create函数在调用os.OpenFile函数的时候给予的操作模式是os.O_RDWR、os.O_CREATE和os.O_TRUNC的组合。
这就基本上决定了前者的行为如果参数name代表路径之上的文件不存在那么就新建一个否则先清空现存文件中的全部内容。
并且它返回的File值的读取方法和写入方法都是可用的。这里需要注意多个操作模式是通过按位或操作符|组合起来的。
func Open(name string) (*File, error) {-
return OpenFile(name, O_RDONLY, 0)-
}
我在前面说过os.Open函数的功能是以只读模式打开已经存在的文件。其根源就是它在调用os.OpenFile函数的时候只提供了一个单一的操作模式os.O_RDONLY。
以上就是我对可应用于File值的操作模式的简单解释。在demo88.go文件中还有少许示例可供你参考。
问题2怎样设定常规文件的访问权限
我们已经知道os.OpenFile函数的第三个参数perm代表的是权限模式其类型是os.FileMode。但实际上os.FileMode类型能够代表的可远不只权限模式它还可以代表文件模式也可以称之为文件种类
由于os.FileMode是基于uint32类型的再定义类型所以它的每个值都包含了32个比特位。在这32个比特位当中每个比特位都有其特定的含义。
比如如果在其最高比特位上的二进制数是1那么该值表示的文件模式就等同于os.ModeDir也就是说相应的文件代表的是一个目录。
又比如如果其中的第26个比特位上的是1那么相应的值表示的文件模式就等同于os.ModeNamedPipe也就是说那个文件代表的是一个命名管道。
实际上在一个os.FileMode类型的值以下简称FileMode值只有最低的9个比特位才用于表示文件的权限。当我们拿到一个此类型的值时可以把它和os.ModePerm常量的值做按位与操作。
这个常量的值是0777是一个八进制的无符号整数其最低的9个比特位上都是1而更高的23个比特位上都是0。
所以经过这样的按位与操作之后我们即可得到这个FileMode值中所有用于表示文件权限的比特位也就是该值所表示的权限模式。这将会与我们调用FileMode值的Perm方法所得到的结果值是一致。
在这9个用于表示文件权限的比特位中每3个比特位为一组共可分为3组。
从高到低这3组分别表示的是文件所有者也就是创建这个文件的那个用户、文件所有者所属的用户组以及其他用户对该文件的访问权限。而对于每个组其中的3个比特位从高到低分别表示读权限、写权限和执行权限。
如果在其中的某个比特位上的是1那么就意味着相应的权限开启否则就表示相应的权限关闭。
因此八进制整数0777就表示操作系统中的所有用户都对当前的文件有读、写和执行的权限而八进制整数0666则表示所有用户都对当前文件有读和写的权限但都没有执行的权限。
我们在调用os.OpenFile函数的时候可以根据以上说明设置它的第三个参数。但要注意只有在新建文件的时候这里的第三个参数值才是有效的。在其他情况下即使我们设置了此参数也不会对目标文件产生任何的影响。
总结
为了聚焦于os.File类型本身我在这两篇文章中主要讲述了怎样把os.File类型应用于常规的文件。该类型的指针类型实现了很多io包中的接口因此它的具体功用也就可以不言自明了。
通过该类型的值,我们不但可以对文件进行各种读取、写入、关闭等操作,还可以设定下一次读取或写入时的起始索引位置。
在使用这个类型的值之前,我们必须先要创建它。所以,我为你重点介绍了几个可以创建,并获得此类型值的函数。
包括os.Create、os.NewFile、os.Open和os.OpenFile。我们用什么样的方式创建File值就决定了我们可以使用它来做什么。
利用os.Create函数我们可以在操作系统中创建一个全新的文件或者清空一个现存文件中的全部内容并重用它。
在相应的File值之上我们可以对该文件进行任何的读写操作。虽然os.NewFile函数并不是被用来创建新文件的但是它能够基于一个有效的文件描述符包装出一个可用的File值。
os.Open函数的功能是打开一个已经存在的文件。但是我们只能通过它返回的File值对相应的文件进行读操作。
os.OpenFile是这些函数中最为灵活的一个通过它我们可以设定被打开文件的操作模式和权限模式。实际上os.Create函数和os.Open函数都只是对它的简单封装而已。
在使用os.OpenFile函数的时候我们必须要搞清楚操作模式和权限模式所代表的真正含义以及设定它们的正确方式。
我在本文的扩展问题中分别对它们进行了较为详细的解释。同时,我在对应的示例文件中也编写了一些代码。
你需要认真地阅读和理解这些代码,并在运行它们的过程当中悟出这两种模式的真谛。
我在本文中讲述的东西对于os包来说只是海面上的那部分冰山而已。这个代码包囊括的知识众多而且延展性都很强。
如果你想完全理解它们,可能还需要去参看操作系统等方面的文档和教程。由于篇幅原因,我在这里只是做了一个引导,帮助你初识该包中的一些重要的程序实体,并给予你一个可以深入下去的切入点,希望你已经在路上了。
思考题
今天的思考题是怎样通过os包中的API创建和操纵一个系统进程
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,178 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
46 访问网络服务
你真的很棒已经跟着我一起从最开始初识Go语言一步一步地走到了这里。
在这之前的几十篇文章中我向你一点一点地介绍了很多Go语言的核心知识以及一些最最基础的标准库代码包。我想你已经完全有能力独立去做一些事情了。
为了激发你更多的兴趣我还打算用几篇文章来说说Go语言的网络编程。不过关于网络编程这个事情恐怕早已庞大到用一两本专著都无法对它进行完整论述的地步了。
所以,我在这里说的东西只能算是个引子。只要这样能让你产生想去尝试的冲动,我就很开心了。
前导内容socket与IPC
人们常常会使用Go语言去编写网络程序当然了这方面也是Go语言最为擅长的事情。说到网络编程我们就不得不提及socket。
socket常被翻译为套接字它应该算是网络编程世界中最为核心的知识之一了。关于socket我们可以讨论的东西太多了因此我在这里只围绕着Go语言向你介绍一些关于它的基础知识。
所谓socket是一种IPC方法。IPC是Inter-Process Communication的缩写可以被翻译为进程间通信。顾名思义IPC这个概念或者说规范主要定义的是多个进程之间相互通信的方法。
这些方法主要包括系统信号signal、管道pipe、套接字 socket、文件锁file lock、消息队列message queue、信号灯semaphore有的地方也称之为信号量等。现存的主流操作系统大都对IPC提供了强有力的支持尤其是socket。
你可能已经知道Go语言对IPC也提供了一定的支持。
比如在os代码包和os/signal代码包中就有针对系统信号的API。
又比如os.Pipe函数可以创建命名管道而os/exec代码包则对另一类管道匿名管道提供了支持。对于socketGo语言与之相应的程序实体都在其标准库的net代码包中。
毫不夸张地说在众多的IPC方法中socket是最为通用和灵活的一种。与其他的IPC方法不同利用socket进行通信的进程可以不局限在同一台计算机当中。
实际上通信的双方无论存在于世界上的哪个角落只要能够通过计算机的网卡端口以及网络进行互联就可以使用socket。
支持socket的操作系统一般都会对外提供一套API。跑在它们之上的应用程序利用这套API就可以与互联网上的另一台计算机中的程序、同一台计算机中的其他程序甚至同一个程序中的其他线程进行通信。
例如在Linux操作系统中用于创建socket实例的API就是由一个名为socket的系统调用代表的。这个系统调用是Linux内核的一部分。
所谓的系统调用你可以理解为特殊的C语言函数。它们是连接应用程序和操作系统内核的桥梁也是应用程序使用操作系统功能的唯一渠道。
在Go语言标准库的syscall代码包中有一个与这个socket系统调用相对应的函数。这两者的函数签名是基本一致的它们都会接受三个int类型的参数并会返回一个可以代表文件描述符的结果。
但不同的是syscall包中的Socket函数本身是平台不相关的。在其底层Go语言为它支持的每个操作系统都做了适配这才使得这个函数无论在哪个平台上总是有效的。
Go语言的net代码包中的很多程序实体都会直接或间接地使用到syscall.Socket函数。
比如我们在调用net.Dial函数的时候会为它的两个参数设定值。其中的第一个参数名为network它决定着Go程序在底层会创建什么样的socket实例并使用什么样的协议与其他程序通信。
下面我们就通过一个简单的问题来看看怎样正确地调用net.Dial函数。
今天的问题是net.Dial函数的第一个参数network有哪些可选值
这道题的典型回答是这样的。
net.Dial函数会接受两个参数分别名为network和address都是string类型的。
参数network常用的可选值一共有9个。这些值分别代表了程序底层创建的socket实例可使用的不同通信协议罗列如下。
"tcp"代表TCP协议其基于的IP协议的版本根据参数address的值自适应。
"tcp4"代表基于IP协议第四版的TCP协议。
"tcp6"代表基于IP协议第六版的TCP协议。
"udp"代表UDP协议其基于的IP协议的版本根据参数address的值自适应。
"udp4"代表基于IP协议第四版的UDP协议。
"udp6"代表基于IP协议第六版的UDP协议。
"unix"代表Unix通信域下的一种内部socket协议以SOCK_STREAM为socket类型。
"unixgram"代表Unix通信域下的一种内部socket协议以SOCK_DGRAM为socket类型。
"unixpacket"代表Unix通信域下的一种内部socket协议以SOCK_SEQPACKET为socket类型。
问题解析
为了更好地理解这些可选值的深层含义我们需要了解一下syscall.Socket函数接受的那三个参数。
我在前面说了这个函数接受的三个参数都是int类型的。这些参数所代表的分别是想要创建的socket实例通信域、类型以及使用的协议。
Socket的通信域主要有这样几个可选项IPv4域、IPv6域和Unix域。
我想你应该能够猜出IPv4域、IPv6域的含义它们对应的分别是基于IP协议第四版的网络和基于IP协议第六版的网络。
现在的计算机网络大都是基于IP协议第四版的但是由于现有IP地址的逐渐枯竭网络世界也在逐步地支持IP协议第六版。
Unix域指的是一种类Unix操作系统中特有的通信域。在装有此类操作系统的同一台计算机中应用程序可以基于此域建立socket连接。
以上三种通信域分别可以由syscall代码包中的常量AF_INET、AF_INET6和AF_UNIX表示。
Socket的类型一共有4种分别是SOCK_DGRAM、SOCK_STREAM、SOCK_SEQPACKET以及SOCK_RAW。syscall代码包中也都有同名的常量与之对应。前两者更加常用一些。
SOCK_DGRAM中的“DGRAM”代表的是datagram即数据报文。它是一种有消息边界但没有逻辑连接的非可靠socket类型我们熟知的基于UDP协议的网络通信就属于此类。
有消息边界的意思是与socket相关的操作系统内核中的程序以下简称内核程序在发送或接收数据的时候是以消息为单位的。
你可以把消息理解为带有固定边界的一段数据。内核程序可以自动地识别和维护这种边界,并在必要的时候,把数据切割成一个一个的消息,或者把多个消息串接成连续的数据。如此一来,应用程序只需要面向消息进行处理就可以了。
所谓的有逻辑连接是指通信双方在收发数据之前必须先建立网络连接。待连接建立好之后双方就可以一对一地进行数据传输了。显然基于UDP协议的网络通信并不需要这样它是没有逻辑连接的。
只要应用程序指定好对方的网络地址,内核程序就可以立即把数据报文发送出去。这有优势,也有劣势。
优势是发送速度快,不长期占用网络资源,并且每次发送都可以指定不同的网络地址。
当然了,最后一个优势有时候也是劣势,因为这会使数据报文更长一些。其他的劣势有,无法保证传输的可靠性,不能实现数据的有序性,以及数据只能单向进行传输。
而SOCK_STREAM这个socket类型恰恰与SOCK_DGRAM相反。它没有消息边界但有逻辑连接能够保证传输的可靠性和数据的有序性同时还可以实现数据的双向传输。众所周知的基于TCP协议的网络通信就属于此类。
这样的网络通信传输数据的形式是字节流,而不是数据报文。字节流是以字节为单位的。内核程序无法感知一段字节流中包含了多少个消息,以及这些消息是否完整,这完全需要应用程序自己去把控。
不过,此类网络通信中的一端,总是会忠实地按照另一端发送数据时的字节排列顺序,接收和缓存它们。所以,应用程序需要根据双方的约定去数据中查找消息边界,并按照边界切割数据,仅此而已。
syscall.Socket函数的第三个参数用于表示socket实例所使用的协议。
通常只要明确指定了前两个参数的值我们就无需再去确定第三个参数值了一般把它置为0就可以了。这时内核程序会自行选择最合适的协议。
比如当前两个参数值分别为syscall.AF_INET和syscall.SOCK_DGRAM的时候内核程序会选择UDP作为协议。
又比如在前两个参数值分别为syscall.AF_INET6和syscall.SOCK_STREAM时内核程序可能会选择TCP作为协议。
-
syscall.Socket函数一瞥
不过你也看到了在使用net包中的高层次API的时候我们连那前两个参数值都无需给定只需要把前面罗列的那些字符串字面量的其中一个作为network参数的值就好了。
当然如果你在使用这些API的时候能够想到我在上面说的这些基础知识的话那么一定会对你做出正确的判断和选择有所帮助。
知识扩展
问题1调用net.DialTimeout函数时给定的超时时间意味着什么
简单来说这里的超时时间代表着函数为网络连接建立完成而等待的最长时间。这是一个相对的时间。它会由这个函数的参数timeout的值表示。
开始的时间点几乎是我们调用net.DialTimeout函数的那一刻。在这之后时间会主要花费在“解析参数network和address的值”以及“创建socket实例并建立网络连接”这两件事情上。
不论执行到哪一步只要在绝对的超时时间达到的那一刻网络连接还没有建立完成该函数就会返回一个代表了I/O操作超时的错误值。
值得注意的是在解析address的值的时候函数会确定网络服务的IP地址、端口号等必要信息并在需要时访问DNS服务。
另外如果解析出的IP地址有多个那么函数会串行或并发地尝试建立连接。但无论用什么样的方式尝试函数总会以最先建立成功的那个连接为准。
同时,它还会根据超时前的剩余时间,去设定针对每次连接尝试的超时时间,以便让它们都有适当的时间执行。
再多说一点。在net包中还有一个名为Dialer的结构体类型。该类型有一个名叫Timeout的字段它与上述的timeout参数的含义是完全一致的。实际上net.DialTimeout函数正是利用了这个类型的值才得以实现功能的。
net.Dialer类型值得你好好学习一下尤其是它的每个字段的功用以及它的DialContext方法。
总结
我们今天提及了使用Go语言进行网络编程这个主题。作为引子我先向你介绍了关于socket的一些基础知识。socket常被翻译为套接字它是一种IPC方法。IPC可以被翻译为进程间通信它主要定义了多个进程之间相互通信的方法。
Socket是IPC方法中最为通用和灵活的一种。与其他的方法不同利用socket进行通信的进程可以不局限在同一台计算机当中。
只要通信的双方能够通过计算机的网卡端口以及网络进行互联就可以使用socket无论它们存在于世界上的哪个角落。
支持socket的操作系统一般都会对外提供一套API。Go语言的syscall代码包中也有与之对应的程序实体。其中最重要的一个就是syscall.Socket函数。
不过syscall包中的这些程序实体对于普通的Go程序来说都属于底层的东西了我们通常很少会用到。一般情况下我们都会使用net代码包及其子包中的API去编写网络程序。
net包中一个很常用的函数名为Dial。这个函数主要用于连接网络服务。它会接受两个参数你需要搞明白这两个参数的值都应该怎么去设定。
尤其是network参数它有很多的可选值其中最常用的有9个。这些可选值的背后都代表着相应的socket属性包括通信域、类型以及使用的协议。一旦你理解了这些socket属性就一定会帮助你做出正确的判断和选择。
与此相关的一个函数是net.DialTimeout。我们在调用它的时候需要设定一个超时时间。这个超时时间的含义你是需要搞清楚的。
通过它我们可以牵扯出这个函数的一大堆实现细节。另外还有一个叫做net.Dialer的结构体类型。这个类型其实是前述两个函数的底层实现值得你好好地学习一番。
以上就是我今天讲的主要内容它们都是关于怎样访问网络服务的。你可以从这里入手进入Go语言的网络编程世界。
思考题
今天的思考题也与超时时间有关。在你调用了net.Dial等函数之后如果成功就会得到一个代表了网络连接的net.Conn接口类型的值。我的问题是怎样在net.Conn类型的值上正确地设定针对读操作和写操作的超时时间
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,182 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
47 基于HTTP协议的网络服务
我们在上一篇文章中简单地讨论了网络编程和socket并由此提及了Go语言标准库中的syscall代码包和net代码包。
我还重点讲述了net.Dial函数和syscall.Socket函数的参数含义。前者间接地调用了后者所以正确理解后者会对用好前者有很大裨益。
之后我们把视线转移到了net.DialTimeout函数以及它对操作超时的处理上这又涉及了net.Dialer类型。实际上这个类型正是net包中这两个“拨号”函数的底层实现。
我们像上一篇文章的示例代码那样用net.Dial或net.DialTimeout函数来访问基于HTTP协议的网络服务是完全没有问题的。HTTP协议是基于TCP/IP协议栈的并且它也是一个面向普通文本的协议。
原则上我们使用任何一个文本编辑器都可以轻易地写出一个完整的HTTP请求报文。只要你搞清楚了请求报文的头部header和主体body应该包含的内容这样做就会很容易。所以在这种情况下即便直接使用net.Dial函数你应该也不会感觉到困难。
不过不困难并不意味着很方便。如果我们只是访问基于HTTP协议的网络服务的话那么使用net/http代码包中的程序实体来做显然会更加便捷。
其中最便捷的是使用http.Get函数。我们在调用它的时候只需要传给它一个URL就可以了比如像下面这样
url1 := "http://google.cn"
fmt.Printf("Send request to %q with method GET ...\n", url1)
resp1, err := http.Get(url1)
if err != nil {
fmt.Printf("request sending error: %v\n", err)
}
defer resp1.Body.Close()
line1 := resp1.Proto + " " + resp1.Status
fmt.Printf("The first line of response:\n%s\n", line1)
http.Get函数会返回两个结果值。第一个结果值的类型是*http.Response它是网络服务给我们传回来的响应内容的结构化表示。
第二个结果值是error类型的它代表了在创建和发送HTTP请求以及接收和解析HTTP响应的过程中可能发生的错误。
http.Get函数会在内部使用缺省的HTTP客户端并且调用它的Get方法以完成功能。这个缺省的HTTP客户端是由net/http包中的公开变量DefaultClient代表的其类型是*http.Client。它的基本类型也是可以被拿来使用的甚至它还是开箱即用的。下面的这两行代码
var httpClient1 http.Client
resp2, err := httpClient1.Get(url1)
与前面的这一行代码
resp1, err := http.Get(url1)
是等价的。
http.Client是一个结构体类型并且它包含的字段都是公开的。之所以该类型的零值仍然可用是因为它的这些字段要么存在着相应的缺省值要么其零值直接就可以使用且代表着特定的含义。
现在,我问你一个问题,是关于这个类型中的最重要的一个字段的。
今天的问题是http.Client类型中的Transport字段代表着什么
这道题的典型回答是这样的。
http.Client类型中的Transport字段代表着向网络服务发送HTTP请求并从网络服务接收HTTP响应的操作过程。也就是说该字段的方法RoundTrip应该实现单次HTTP事务或者说基于HTTP协议的单次交互需要的所有步骤。
这个字段是http.RoundTripper接口类型的它有一个由http.DefaultTransport变量代表的缺省值以下简称DefaultTransport。当我们在初始化一个http.Client类型的值以下简称Client值的时候如果没有显式地为该字段赋值那么这个Client值就会直接使用DefaultTransport。
顺便说一下http.Client类型的Timeout字段代表的正是前面所说的单次HTTP事务的超时时间它是time.Duration类型的。它的零值是可用的用于表示没有设置超时时间。
问题解析
下面我们再通过该字段的缺省值DefaultTransport来深入地了解一下这个Transport字段。
DefaultTransport的实际类型是*http.Transport后者即为http.RoundTripper接口的默认实现。这个类型是可以被复用的也推荐被复用同时它也是并发安全的。正因为如此http.Client类型也拥有着同样的特质。
http.Transport类型会在内部使用一个net.Dialer类型的值以下简称Dialer值并且它会把该值的Timeout字段的值设定为30秒。
也就是说这个Dialer值如果在30秒内还没有建立好网络连接那么就会被判定为操作超时。在DefaultTransport的值被初始化的时候这样的Dialer值的DialContext方法会被赋给前者的DialContext字段。
http.Transport类型还包含了很多其他的字段其中有一些字段是关于操作超时的。
IdleConnTimeout含义是空闲的连接在多久之后就应该被关闭。
DefaultTransport会把该字段的值设定为90秒。如果该值为0那么就表示不关闭空闲的连接。注意这样很可能会造成资源的泄露。
ResponseHeaderTimeout含义是从客户端把请求完全递交给操作系统到从操作系统那里接收到响应报文头的最大时长。DefaultTransport并没有设定该字段的值。
ExpectContinueTimeout含义是在客户端递交了请求报文头之后等待接收第一个响应报文头的最长时间。在客户端想要使用HTTP的“POST”方法把一个很大的报文体发送给服务端的时候它可以先通过发送一个包含了“Expect: 100-continue”的请求报文头来询问服务端是否愿意接收这个大报文体。这个字段就是用于设定在这种情况下的超时时间的。注意如果该字段的值不大于0那么无论多大的请求报文体都将会被立即发送出去。这样可能会造成网络资源的浪费。DefaultTransport把该字段的值设定为了1秒。
TLSHandshakeTimeoutTLS是Transport Layer Security的缩写可以被翻译为传输层安全。这个字段代表了基于TLS协议的连接在被建立时的握手阶段的超时时间。若该值为0则表示对这个时间不设限。DefaultTransport把该字段的值设定为了10秒。
此外还有一些与IdleConnTimeout相关的字段值得我们关注MaxIdleConns、MaxIdleConnsPerHost以及MaxConnsPerHost。
无论当前的http.Transport类型的值以下简称Transport值访问了多少个网络服务MaxIdleConns字段都只会对空闲连接的总数做出限定。而MaxIdleConnsPerHost字段限定的则是该Transport值访问的每一个网络服务的最大空闲连接数。
每一个网络服务都会有自己的网络地址可能会使用不同的网络协议对于一些HTTP请求也可能会用到代理。Transport值正是通过这三个方面的具体情况来鉴别不同的网络服务的。
MaxIdleConnsPerHost字段的缺省值由http.DefaultMaxIdleConnsPerHost变量代表值为2。也就是说在默认情况下对于某一个Transport值访问的每一个网络服务它的空闲连接数都最多只能有两个。
与MaxIdleConnsPerHost字段的含义相似的是MaxConnsPerHost字段。不过后者限制的是针对某一个Transport值访问的每一个网络服务的最大连接数不论这些连接是否是空闲的。并且该字段没有相应的缺省值它的零值表示不对此设限。
DefaultTransport并没有显式地为MaxIdleConnsPerHost和MaxConnsPerHost这两个字段赋值但是它却把MaxIdleConns字段的值设定为了100。
换句话说在默认情况下空闲连接的总数最大为100而针对每个网络服务的最大空闲连接数为2。注意上述两个与空闲连接数有关的字段的值应该是联动的所以你有时候需要根据实际情况来定制它们。
当然了这首先需要我们在初始化Client值的时候定制它的Transport字段的值。定制这个值的方式可以参看DefaultTransport变量的声明。
最后我简单说一下为什么会出现空闲的连接。我们都知道HTTP协议有一个请求报文头叫做“Connection”。在HTTP协议的1.1版本中这个报文头的值默认是“keep-alive”。
在这种情况下的网络连接都是持久连接它们会在当前的HTTP事务完成后仍然保持着连通性因此是可以被复用的。
既然连接可以被复用那么就会有两种可能。一种可能是针对于同一个网络服务有新的HTTP请求被递交该连接被再次使用。另一种可能是不再有对该网络服务的HTTP请求该连接被闲置。
显然后一种可能就产生了空闲的连接。另外如果分配给某一个网络服务的连接过多的话也可能会导致空闲连接的产生因为每一个新递交的HTTP请求都只会征用一个空闲的连接。所以为空闲连接设定限制在大多数情况下都是很有必要的也是需要斟酌的。
如果我们想彻底地杜绝空闲连接的产生那么可以在初始化Transport值的时候把它的DisableKeepAlives字段的值设定为true。这时HTTP请求的“Connection”报文头的值就会被设置为“close”。这会告诉网络服务这个网络连接不必保持当前的HTTP事务完成后就可以断开它了。
如此一来每当一个HTTP请求被递交时就都会产生一个新的网络连接。这样做会明显地加重网络服务以及客户端的负载并会让每个HTTP事务都耗费更多的时间。所以在一般情况下我们都不要去设置这个DisableKeepAlives字段。
顺便说一句在net.Dialer类型中也有一个看起来很相似的字段KeepAlive。不过它与前面所说的HTTP持久连接并不是一个概念KeepAlive是直接作用在底层的socket上的。
它的背后是一种针对网络连接更确切地说是TCP连接的存活探测机制。它的值用于表示每间隔多长时间发送一次探测包。当该值不大于0时则表示不开启这种机制。DefaultTransport会把这个字段的值设定为30秒。
好了以上这些内容阐述的就是http.Client类型中的Transport字段的含义以及它的值的定制方式。这涉及了http.RoundTripper接口、http.DefaultTransport变量、http.Transport类型以及net.Dialer类型。
知识扩展
问题http.Server类型的ListenAndServe方法都做了哪些事情
http.Server类型与http.Client是相对应的。http.Server代表的是基于HTTP协议的服务端或者说网络服务。
http.Server类型的ListenAndServe方法的功能是监听一个基于TCP协议的网络地址并对接收到的HTTP请求进行处理。这个方法会默认开启针对网络连接的存活探测机制以保证连接是持久的。同时该方法会一直执行直到有严重的错误发生或者被外界关掉。当被外界关掉时它会返回一个由http.ErrServerClosed变量代表的错误值。
对于本问题,典型回答可以像下面这样。
这个ListenAndServe方法主要会做下面这几件事情。
检查当前的http.Server类型的值以下简称当前值的Addr字段。该字段的值代表了当前的网络服务需要使用的网络地址IP地址和端口号. 如果这个字段的值为空字符串,那么就用":http"代替。也就是说使用任何可以代表本机的域名和IP地址并且端口号为80。
通过调用net.Listen函数在已确定的网络地址上启动基于TCP协议的监听。
检查net.Listen函数返回的错误值。如果该错误值不为nil那么就直接返回该值。否则通过调用当前值的Serve方法准备接受和处理将要到来的HTTP请求。
可以从当前问题直接衍生出的问题一般有两个一个是“net.Listen函数都做了哪些事情”另一个是“http.Server类型的Serve方法是怎样接受和处理HTTP请求的”。
对于第一个直接的衍生问题,如果概括地说,回答可以是:
解析参数值中包含的网络地址隐含的IP地址和端口号
根据给定的网络协议,确定监听的方法,并开始进行监听。
从这里的第二个步骤出发我们还可以继续提出一些间接的衍生问题。这往往会涉及net.socket函数以及相关的socket知识。
对于第二个直接的衍生问题,我们可以这样回答:
在一个for循环中网络监听器的Accept方法会被不断地调用该方法会返回两个结果值第一个结果值是net.Conn类型的它会代表包含了新到来的HTTP请求的网络连接第二个结果值是代表了可能发生的错误的error类型值。
如果这个错误值不为nil除非它代表了一个暂时性的错误否则循环都会被终止。如果是暂时性的错误那么循环的下一次迭代将会在一段时间之后开始执行。
如果这里的Accept方法没有返回非nil的错误值那么这里的程序将会先把它的第一个结果值包装成一个*http.conn类型的值以下简称conn值然后通过在新的goroutine中调用这个conn值的serve方法来对当前的HTTP请求进行处理。
这个处理的细节还是很多的所以我们依然可以找出不少的间接的衍生问题。比如这个conn值的状态有几种分别代表着处理的哪个阶段又比如处理过程中会用到哪些读取器和写入器它们的作用分别是什么再比如这里的程序是怎样调用我们自定义的处理函数的等等。
诸如此类的问题很多我就不在这里一一列举和说明了。你只需要记住一句话“源码之前了无秘密”。上面这些问题的答案都可以在Go语言标准库的源码中找到。如果你想对本问题进行深入的探索那么一定要去看net/http代码包的源码。
总结
今天我们主要讲的是基于HTTP协议的网络服务侧重点仍然在客户端。
我们在讨论了http.Get函数和http.Client类型的简单使用方式之后把目光聚焦在了后者的Transport字段。
这个字段代表着单次HTTP事务的操作过程。它是http.RoundTripper接口类型的。它的缺省值由http.DefaultTransport变量代表其实际类型是*http.Transport。
http.Transport包含的字段非常多。我们先讲了DefaultTransport中的DialContext字段会被赋予什么样的值又详细说明了一些关于操作超时的字段。
比如IdleConnTimeout和ExpectContinueTimeout以及相关的MaxIdleConns和MaxIdleConnsPerHost等等。之后我又简单地解释了出现空闲连接的原因以及相关的定制方式。
最后作为扩展我还为你简要地梳理了http.Server类型的ListenAndServe方法执行的主要流程。不过由于篇幅原因我没有做深入讲述。但是这并不意味着没有必要深入下去。相反这个方法很重要值得我们认真地去探索一番。
在你需要或者有兴趣的时候我希望你能去好好地看一看net/http包中的相关源码。一切秘密都在其中。
思考题
我今天留给你的思考题比较简单怎样优雅地停止基于HTTP协议的网络服务程序
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,119 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
48 程序性能分析基础(上)
作为拾遗的部分今天我们来讲讲与Go程序性能分析有关的基础知识。
Go语言为程序开发者们提供了丰富的性能分析API和非常好用的标准工具。这些API主要存在于
runtime/pprof
net/http/pprof
runtime/trace
这三个代码包中。
另外runtime代码包中还包含了一些更底层的API。它们可以被用来收集或输出Go程序运行过程中的一些关键指标并帮助我们生成相应的概要文件以供后续分析时使用。
至于标准工具主要有go tool pprof和go tool trace这两个。它们可以解析概要文件中的信息并以人类易读的方式把这些信息展示出来。
此外go test命令也可以在程序测试完成后生成概要文件。如此一来我们就可以很方便地使用前面那两个工具读取概要文件并对被测程序的性能加以分析。这无疑会让程序性能测试的一手资料更加丰富结果更加精确和可信。
在Go语言中用于分析程序性能的概要文件有三种分别是CPU概要文件CPU Profile、内存概要文件Mem Profile和阻塞概要文件Block Profile
这些概要文件中包含的都是在某一段时间内对Go程序的相关指标进行多次采样后得到的概要信息。
对于CPU概要文件来说其中的每一段独立的概要信息都记录着在进行某一次采样的那个时刻CPU上正在执行的Go代码。
而对于内存概要文件其中的每一段概要信息都记载着在某个采样时刻正在执行的Go代码以及堆内存的使用情况这里包含已分配和已释放的字节数量和对象数量。至于阻塞概要文件其中的每一段概要信息都代表着Go程序中的一个goroutine阻塞事件。
注意,在默认情况下,这些概要文件中的信息并不是普通的文本,它们都是以二进制的形式展现的。如果你使用一个常规的文本编辑器查看它们的话,那么肯定会看到一堆“乱码”。
这时就可以显现出go tool pprof这个工具的作用了。我们可以通过它进入一个基于命令行的交互式界面并对指定的概要文件进行查阅。就像下面这样
$ go tool pprof cpuprofile.out
Type: cpu
Time: Nov 9, 2018 at 4:31pm (CST)
Duration: 7.96s, Total samples = 6.88s (86.38%)
Entering interactive mode (type "help" for commands, "o" for options)
(pprof)
关于这个工具的具体用法我就不在这里赘述了。在进入这个工具的交互式界面之后我们只要输入指令help并按下回车键就可以看到很详细的帮助文档。
我们现在来说说怎样生成概要文件。
你可能会问既然在概要文件中的信息不是普通的文本那么它们到底是什么格式的呢一个对广大的程序开发者而言并不那么重要的事实是它们是通过protocol buffers生成的二进制数据流或者说字节流。
概括来讲protocol buffers是一种数据序列化协议同时也是一个序列化工具。它可以把一个值比如一个结构体或者一个字典转换成一段字节流。
也可以反过来,把经过它生成的字节流反向转换为程序中的一个值。前者就被叫做序列化,而后者则被称为反序列化。
换句话说protocol buffers定义和实现了一种“可以让数据在结构形态和扁平形态之间互相转换”的方式。
Protocol buffers的优势有不少。比如它可以在序列化数据的同时对数据进行压缩所以它生成的字节流通常都要比相同数据的其他格式例如XML和JSON占用的空间明显小很多。
又比如,它既能让我们自己去定义数据序列化和结构化的格式,也允许我们在保证向后兼容的前提下去更新这种格式。
正因为这些优势Go语言从1.8版本开始把所有profile相关的信息生成工作都交给protocol buffers来做了。这也是我们在上述概要文件中看不到普通文本的根本原因了。
Protocol buffers的用途非常广泛并且在诸如数据存储、数据传输等任务中有着很高的使用率。不过关于它我暂时就介绍到这里。你目前知道这些也就足够了。你并不用关心runtime/pprof包以及runtime包中的程序是如何序列化这些概要信息的。
继续回到怎样生成概要文件的话题,我们依然通过具体的问题来讲述。
我们今天的问题是怎样让程序对CPU概要信息进行采样
这道题的典型回答是这样的。
这需要用到runtime/pprof包中的API。更具体地说在我们想让程序开始对CPU概要信息进行采样的时候需要调用这个代码包中的StartCPUProfile函数而在停止采样的时候则需要调用该包中的StopCPUProfile函数。
问题解析
runtime/pprof.StartCPUProfile函数以下简称StartCPUProfile函数在被调用的时候先会去设定CPU概要信息的采样频率并会在单独的goroutine中进行CPU概要信息的收集和输出。
注意StartCPUProfile函数设定的采样频率总是固定的100赫兹。也就是说每秒采样100次或者说每10毫秒采样一次。
赫兹也称Hz是从英文单词“Hertz”一个英文姓氏音译过来的一个中文词。它是CPU主频的基本单位。
CPU的主频指的是CPU内核工作的时钟频率也常被称为CPU clock speed。这个时钟频率的倒数即为时钟周期clock cycle也就是一个CPU内核执行一条运算指令所需的时间单位是秒。
例如主频为1000Hz的CPU它的单个内核执行一条运算指令所需的时间为0.001秒即1毫秒。又例如我们现在常用的3.2GHz的多核CPU其单个内核在1个纳秒的时间里就可以至少执行三条运算指令。
StartCPUProfile函数设定的CPU概要信息采样频率相对于现代的CPU主频来说是非常低的。这主要有两个方面的原因。
一方面过高的采样频率会对Go程序的运行效率造成很明显的负面影响。因此runtime包中SetCPUProfileRate函数在被调用的时候会保证采样频率不超过1MHz兆赫也就是说它只允许每1微秒最多采样一次。StartCPUProfile函数正是通过调用这个函数来设定CPU概要信息的采样频率的。
另一方面经过大量的实验Go语言团队发现100Hz是一个比较合适的设定。因为这样做既可以得到足够多、足够有用的概要信息又不至于让程序的运行出现停滞。另外操作系统对高频采样的处理能力也是有限的一般情况下超过500Hz就很可能得不到及时的响应了。
在StartCPUProfile函数执行之后一个新启用的goroutine将会负责执行CPU概要信息的收集和输出直到runtime/pprof包中的StopCPUProfile函数被成功调用。
StopCPUProfile函数也会调用runtime.SetCPUProfileRate函数并把参数值也就是采样频率设为0。这会让针对CPU概要信息的采样工作停止。
同时它也会给负责收集CPU概要信息的代码一个“信号”以告知收集工作也需要停止了。
在接到这样的“信号”之后那部分程序将会把这段时间内收集到的所有CPU概要信息全部写入到我们在调用StartCPUProfile函数的时候指定的写入器中。只有在上述操作全部完成之后StopCPUProfile函数才会返回。
好了经过这一番解释你应该已经对CPU概要信息的采样工作有一定的认识了。你可以去看看demo96.go文件中的代码并运行几次试试。这样会有助于你加深对这个问题的理解。
总结
我们这两篇内容讲的是Go程序的性能分析这其中的内容都是你从事这项任务必备的一些知识和技巧。
首先我们需要知道与程序性能分析有关的API主要存在于runtime、runtime/pprof和net/http/pprof这几个代码包中。它们可以帮助我们收集相应的性能概要信息并把这些信息输出到我们指定的地方。
Go语言的运行时系统会根据要求对程序的相关指标进行多次采样并对采样的结果进行组织和整理最后形成一份完整的性能分析报告。这份报告就是我们一直在说的概要信息的汇总。
一般情况下我们会把概要信息输出到文件。根据概要信息的不同概要文件的种类主要有三个分别是CPU概要文件CPU Profile、内存概要文件Mem Profile和阻塞概要文件Block Profile
在本文中,我提出了一道与上述几种概要信息有关的问题。在下一篇文章中,我们会继续对这部分问题的探究。
你对今天的内容有什么样的思考与疑惑,可以给我留言,感谢你的收听,我们下次再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,166 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
49 程序性能分析基础(下)
你好,我是郝林,今天我们继续分享程序性能分析基础的内容。
在上一篇文章中我们围绕着“怎样让程序对CPU概要信息进行采样”这一问题进行了探讨今天我们再来一起看看它的拓展问题。
知识扩展
问题1怎样设定内存概要信息的采样频率
针对内存概要信息的采样会按照一定比例收集Go程序在运行期间的堆内存使用情况。设定内存概要信息采样频率的方法很简单只要为runtime.MemProfileRate变量赋值即可。
这个变量的含义是平均每分配多少个字节就对堆内存的使用情况进行一次采样。如果把该变量的值设为0那么Go语言运行时系统就会完全停止对内存概要信息的采样。该变量的缺省值是512 KB也就是512千字节。
注意如果你要设定这个采样频率那么越早设定越好并且只应该设定一次否则就可能会对Go语言运行时系统的采样工作造成不良影响。比如只在main函数的开始处设定一次。
在这之后当我们想获取内存概要信息的时候还需要调用runtime/pprof包中的WriteHeapProfile函数。该函数会把收集好的内存概要信息写到我们指定的写入器中。
注意我们通过WriteHeapProfile函数得到的内存概要信息并不是实时的它是一个快照是在最近一次的内存垃圾收集工作完成时产生的。如果你想要实时的信息那么可以调用runtime.ReadMemStats函数。不过要特别注意该函数会引起Go语言调度器的短暂停顿。
以上,就是关于内存概要信息的采样频率设定问题的简要回答。
问题2怎样获取到阻塞概要信息
我们调用runtime包中的SetBlockProfileRate函数即可对阻塞概要信息的采样频率进行设定。该函数有一个名叫rate的参数它是int类型的。
这个参数的含义是只要发现一个阻塞事件的持续时间达到了多少个纳秒就可以对其进行采样。如果这个参数的值小于或等于0那么就意味着Go语言运行时系统将会完全停止对阻塞概要信息的采样。
在runtime包中还有一个名叫blockprofilerate的包级私有变量它是uint64类型的。这个变量的含义是只要发现一个阻塞事件的持续时间跨越了多少个CPU时钟周期就可以对其进行采样。它的含义与我们刚刚提到的rate参数的含义非常相似不是吗
实际上这两者的区别仅仅在于单位不同。runtime.SetBlockProfileRate函数会先对参数rate的值进行单位换算和必要的类型转换然后它会把换算结果用原子操作赋给blockprofilerate变量。由于此变量的缺省值是0所以Go语言运行时系统在默认情况下并不会记录任何在程序中发生的阻塞事件。
另一方面当我们需要获取阻塞概要信息的时候需要先调用runtime/pprof包中的Lookup函数并传入参数值"block",从而得到一个*runtime/pprof.Profile类型的值以下简称Profile值。在这之后我们还需要调用这个Profile值的WriteTo方法以驱使它把概要信息写进我们指定的写入器中。
这个WriteTo方法有两个参数一个参数就是我们刚刚提到的写入器它是io.Writer类型的。而另一个参数则是代表了概要信息详细程度的int类型参数debug。
debug参数主要的可选值有两个0和1。当debug的值为0时通过WriteTo方法写进写入器的概要信息仅会包含go tool pprof工具所需的内存地址这些内存地址会以十六进制的形式展现出来。
当该值为1时相应的包名、函数名、源码文件路径、代码行号等信息就都会作为注释被加入进去。另外debug为0时的概要信息会经由protocol buffers转换为字节流。而在debug为1的时候WriteTo方法输出的这些概要信息就是我们可以读懂的普通文本了。
除此之外debug的值也可以是2。这时被输出的概要信息也会是普通的文本并且通常会包含更多的细节。至于这些细节都包含了哪些内容那就要看我们调用runtime/pprof.Lookup函数的时候传入的是什么样的参数值了。下面我们就来一起看一下这个函数。
问题 3runtime/pprof.Lookup函数的正确调用方式是什么
runtime/pprof.Lookup函数以下简称Lookup函数的功能是提供与给定的名称相对应的概要信息。这个概要信息会由一个Profile值代表。如果该函数返回了一个nil那么就说明不存在与给定名称对应的概要信息。
runtime/pprof包已经为我们预先定义了6个概要名称。它们对应的概要信息收集方法和输出方法也都已经准备好了。我们直接拿来使用就可以了。它们是goroutine、heap、allocs、threadcreate、block和mutex。
当我们把"goroutine"传入Lookup函数的时候该函数会利用相应的方法收集到当前正在使用的所有goroutine的堆栈跟踪信息。注意这样的收集会引起Go语言调度器的短暂停顿。
当调用该函数返回的Profile值的WriteTo方法时如果参数debug的值大于或等于2那么该方法就会输出所有goroutine的堆栈跟踪信息。这些信息可能会非常多。如果它们占用的空间超过了64 MB也就是64兆字节那么相应的方法就会将超出的部分截掉。
如果Lookup函数接到的参数值是"heap",那么它就会收集与堆内存的分配和释放有关的采样信息。这实际上就是我们在前面讨论过的内存概要信息。在我们传入"allocs"的时候,后续的操作会与之非常的相似。
在这两种情况下Lookup函数返回的Profile值也会极其相像。只不过在这两种Profile值的WriteTo方法被调用时它们输出的概要信息会有细微的差别而且这仅仅体现在参数debug等于0的时候。
"heap"会使得被输出的内存概要信息默认以“在用空间”inuse_space的视角呈现而"allocs"对应的默认视角则是“已分配空间”alloc_space
“在用空间”是指已经被分配但还未被释放的内存空间。在这个视角下go tool pprof工具并不会去理会与已释放空间有关的那部分信息。而在“已分配空间”的视角下所有的内存分配信息都会被展现出来无论这些内存空间在采样时是否已被释放。
此外,无论是"heap"还是"allocs"在我们调用Profile值的WriteTo方法的时候只要赋予debug参数的值大于0那么该方法输出内容的规格就会是相同的。
参数值"threadcreate"会使Lookup函数去收集一些堆栈跟踪信息。这些堆栈跟踪信息中的每一个都会描绘出一个代码调用链这些调用链上的代码都导致新的操作系统线程产生。这样的Profile值的输出规格也只有两种取决于我们传给其WriteTo方法的参数值是否大于0。
再说"block"和"mutex"。"block"代表的是,因争用同步原语而被阻塞的那些代码的堆栈跟踪信息。还记得吗?这就是我们在前面讲过的阻塞概要信息。
与之相对应,"mutex"代表的是曾经作为同步原语持有者的那些代码它们的堆栈跟踪信息。它们的输出规格也都只有两种取决于debug是否大于0。
这里所说的同步原语指的是存在于Go语言运行时系统内部的一种底层的同步工具或者说一种同步机制。
它是直接面向内存地址的并以异步信号量和原子操作作为实现手段。我们已经熟知的通道、互斥锁、条件变量、”WaitGroup“以及Go语言运行时系统本身都会利用它来实现自己的功能。
好了关于这个问题我们已经谈了不少了。我相信你已经对Lookup函数的调用方式及其背后的含义有了比较深刻的理解了。demo99.go文件中包含了一些示例代码可供你参考。
问题4如何为基于HTTP协议的网络服务添加性能分析接口
这个问题说起来还是很简单的。这是因为我们在一般情况下只要在程序中导入net/http/pprof代码包就可以了就像这样
import _ "net/http/pprof"
然后,启动网络服务并开始监听,比如:
log.Println(http.ListenAndServe("localhost:8082", nil))
在运行这个程序之后我们就可以通过在网络浏览器中访问http://localhost:8082/debug/pprof这个地址看到一个简约的网页。如果你认真地看了上一个问题的话那么肯定可以快速搞明白这个网页中各个部分的含义。
在/debug/pprof/这个URL路径下还有很多可用的子路径这一点你通过点选网页中的链接就可以了解到。像allocs、block、goroutine、heap、mutex、threadcreate这6个子路径在底层其实都是通过Lookup函数来处理的。关于这个函数你应该已经很熟悉了。
这些子路径都可以接受查询参数debug。它用于控制概要信息的格式和详细程度。至于它的可选值我就不再赘述了。它的缺省值是0。另外还有一个名叫gc的查询参数。它用于控制是否在获取概要信息之前强制地执行一次垃圾回收。只要它的值大于0程序就会这样做。不过这个参数仅在/debug/pprof/heap路径下有效。
一旦/debug/pprof/profile路径被访问程序就会去执行对CPU概要信息的采样。它接受一个名为seconds的查询参数。该参数的含义是采样工作需要持续多少秒。如果这个参数未被显式地指定那么采样工作会持续30秒。注意在这个路径下程序只会响应经protocol buffers转换的字节流。我们可以通过go tool pprof工具直接读取这样的HTTP响应例如
go tool pprof http://localhost:6060/debug/pprof/profile?seconds=60
除此之外,还有一个值得我们关注的路径,即:/debug/pprof/trace。在这个路径下程序主要会利用runtime/trace代码包中的API来处理我们的请求。
更具体地说程序会先调用trace.Start函数然后在查询参数seconds指定的持续时间之后再调用trace.Stop函数。这里的seconds的缺省值是1秒。至于runtime/trace代码包的功用我就留给你自己去查阅和探索吧。
前面说的这些URL路径都是固定不变的。这是默认情况下的访问规则。我们还可以对它们进行定制就像这样
mux := http.NewServeMux()
pathPrefix := "/d/pprof/"
mux.HandleFunc(pathPrefix,
func(w http.ResponseWriter, r *http.Request) {
name := strings.TrimPrefix(r.URL.Path, pathPrefix)
if name != "" {
pprof.Handler(name).ServeHTTP(w, r)
return
}
pprof.Index(w, r)
})
mux.HandleFunc(pathPrefix+"cmdline", pprof.Cmdline)
mux.HandleFunc(pathPrefix+"profile", pprof.Profile)
mux.HandleFunc(pathPrefix+"symbol", pprof.Symbol)
mux.HandleFunc(pathPrefix+"trace", pprof.Trace)
server := http.Server{
Addr: "localhost:8083",
Handler: mux,
}
可以看到我们几乎只使用了net/http/pprof代码包中的几个程序实体就完成了这样的定制。这在我们使用第三方的网络服务开发框架时尤其有用。
我们自定义的HTTP请求多路复用器mux所包含的访问规则与默认的规则很相似只不过URL路径的前缀更短了一些而已。
我们定制mux的过程与net/http/pprof包中的init函数所做的事情也是类似的。这个init函数的存在其实就是我们在前面仅仅导入”net/http/pprof”代码包就能够访问相关路径的原因。
在我们编写网络服务程序的时候使用net/http/pprof包要比直接使用runtime/pprof包方便和实用很多。通过合理运用这个代码包可以为网络服务的监测提供有力的支撑。关于这个包的知识我就先介绍到这里。
总结
这两篇文章中我们主要讲了Go程序的性能分析提到的很多内容都是你必备的知识和技巧。这些有助于你真正地理解以采样、收集、输出为代表的一系列操作步骤。
我提到的几种概要信息有关的问题。你需要记住的是,每一种概要信息都代表了什么,它们分别都包含了什么样的内容。
你还需要知道获取它们的正确方式,包括怎样启动和停止采样、怎样设定采样频率,以及怎样控制输出内容的格式和详细程度。
此外runtime/pprof包中的Lookup函数的正确调用方式也很重要。对于除了CPU概要信息之外的其他概要信息我们都可以通过调用这个函数获取到。
除此之外我还提及了一个上层的应用为基于HTTP协议的网络服务添加性能分析接口。这也是很实用的一个部分。
虽然net/http/pprof包提供的程序实体并不多但是它却能够让我们用不同的方式实现性能分析接口的嵌入。这些方式有的是极简的、开箱即用的而有的则用于满足各种定制需求。
以上这些就是我今天为你讲述的Go语言知识它们是程序性能分析的基础。如果你把Go语言程序运用于生产环境那么肯定会涉及它们。对于这里提到的所有内容和问题我都希望你能够认真地去思考和领会。这样才能够让你在真正使用它们的时候信手拈来。
思考题
我今天留给你的思考题其实在前面已经透露了那就是runtime/trace代码包的功用是什么
感谢你的收听,我们下期再见。
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,73 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
尾声 愿你披荆斩棘,所向无敌
你好,我是郝林。
专栏到这里,就要结束了。
差不多在半年以前2018年的第二个季度极客时间的总编辑郭蕾找到我说想让我写一个关于Go语言的技术专栏。
我那时候还在轻松筹担任大数据负责人,管理着四个技术团队,每天都非常非常忙碌,看起来并没有多余的精力去写这么一个在时间和质量上都有着严格要求的专栏。
我们俩也是老相识了所以我当时斩钉截铁地说“写不了没时间”。当然了要是连续熬夜的话或许可以写得出来我写《Go并发编程实战》那本书的时候就是这么干的。
可是我在2017年年末已经因为急性胰腺炎惊心动魄过一回了需要非常注意休息所以我想了想还是决定小心为妙。
也许是凑巧也许是注定在2018年的6月份我的胰腺炎复发了。我当时还在面试意念上已经疼得直不起腰了但还是坚持着完成了面试。
后来在医院等待确诊结果的时候,我的第三个念头竟然就是“也许我可以有时间去写那个专栏了”。现在回忆起来,当初的想法还是太简单了。
不过,专栏这件事情终归还是向着合作的方向发展了。因为郭蕾的坚持和帮助,也因为极客时间的慷慨解囊和多次扶持,在经过了不少的艰难困苦之后,这个专栏如今终于写作完成了。我对此感到非常的高兴和欣慰。
专栏是如何进行写作的
我在写这个专栏的时候,已经尽我所能地让其中的每一句话都准确无误,并且尽量地加入我最新的研究成果和个人理解。
所以即使是对于我自己这个专栏的价值和意义也是很大的。我通过这个专栏的写作又倒逼我自己仔细地阅读了一遍Go语言最新版本的源码。
我当初给自己定下了一个关于文章质量的目标。我要保证的是,专栏中的每一篇文章的质量都绝对不能低于这个目标。
没错,这里只有目标,没有底线。对于我个人而言,只要是边界明确的事情,我就不喜欢设置底线。因为只要有了底线,作为更高要求的目标往往就很难达成了。这样的双重标准会让目标形同虚设。
为了达成目标我在写每一篇文章的时候都差不多要查阅不少的Go语言源码确定每一个细节。每一个版本的Go语言其内部的源码都会有一些变化所以以前的经验只能作为参考并不能完全依赖。
我需要先深入理解(或者修正理解)、再有侧重点地记录和思考,最后再进行贯穿式的解读。在做完这些之后,我才会把精华写入文章之中。
我觉得,人的成就不论大小都需要经过努力和苦难才能达成。和我共事过的很多人都知道,我是一个不会轻易给出承诺的人。不过,一旦做出承诺,我就会去拼命完成。
大多数时候,我并不觉得在拼命,但是别人(尤其是我的家人)却告诉我“这就是在拼命”。现在想想,这种完全靠爆发力取胜的做事方式是不对的,做工作还是应该顺滑一些,毕竟“润物”需得“细无声”。
专栏仍有瑕疵
虽然这个专栏的文章已经全部完成了,但是由于我的精力问题,专栏在呈现形式上还有一些瑕疵。
比如没有配图没有给出思考题的答案等。我在极客时间App的留言区里已经多次跟大家解释过这件事了。
但是为了保证大家都能够知晓,我在这里再说一遍:我会再利用几个月的时间为这个专栏补充配图,并简要地给出所有思考题的答案。
我已经开始绘制一些图片了,绘制完成就会同步更新到文章中,你也可以返回去重新阅读一遍。
(目前正在绘制的图样)
我补充的顺序是,配图在先,思考题答案再后。因为我的精力实在有限,我会争取在明年春节之前完成补充。还希望大家能够理解。
前方的路
每个人的路都是不同的,即便他们在做着一模一样的事。前方的路只有你自己能够开创,但是我希望本专栏能够作为你的一盏指路明灯。我个人认为,至少对于大部分读者而言,我的这个愿望已经达成了。你觉得呢?是否已经有了足够的收获呢?
无论如何只要你还想继续走在Go语言编程的康庄大道上积极地加入到有活力、有情怀的技术社区当中准没错。我想极客时间就将是这样一个社区。当然我们的“GoHackers”社群也是。
在最后的最后,我想去表达一些感谢,我要由衷地感谢我的家人!如果不是他们,别说写专栏了,我坐在电脑前面打字写文章可能都是奢望,我还要感谢所有帮助过我的人。还有在阅读这篇文章的你们,也是我最大写作动力。
好了,我就先说到这里吧。后面有的是机会。最后,祝你学习顺利,在成为技术大神的道路上披荆斩棘,所向无敌!
戳此查看Go语言专栏文章配套详细代码。

View File

@@ -0,0 +1,350 @@
因收到Google相关通知网站将会择期关闭。相关通知内容
新年彩蛋 完整版思考题答案
你好,我是郝林。
在2019年的春节来临之际我恰好也更新完了专栏所有的配图和思考题答案。希望这些可以帮助到你在新的一年中祝你新年快乐Go语言学习之路更加顺利。
基础概念篇
1. Go语言在多个工作区中查找依赖包的时候是以怎样的顺序进行的
你设置的环境变量GOPATH的值决定了这个顺序。如果你在GOPATH中设置了多个工作区那么这种查找会以从左到右的顺序在这些工作区中进行。
你可以通过试验来确定这个问题的答案。例如先在一个源码文件中导入一个在你的机器上并不存在的代码包然后编译这个代码文件。最后将输出的编译错误信息与GOPATH的值进行对比。
2. 如果在多个工作区中都存在导入路径相同的代码包会产生冲突吗?
答:不会产生冲突。因为代码包的查找是按照已给定的顺序逐一地在多个工作区中进行的。
3. 默认情况下,我们可以让命令源码文件接受哪些类型的参数值?
这个问题通过查看flag代码包的文档就可以回答了。概括来讲有布尔类型、整数类型、浮点数类型、字符串类型以及time.Duration类型。
4. 我们可以把自定义的数据类型作为参数值的类型吗?如果可以,怎样做?
狭义上讲是不可以的但是广义上讲是可以的。这需要一些定制化的工作并且被给定的参数值只能是序列化的。具体可参见flag代码包文档中的例子。
5. 如果你需要导入两个代码包而这两个代码包的导入路径的最后一级是相同的比如dep/lib/flag和flag那么会产生冲突吗
这会产生冲突。因为代表两个代码包的标识符重复了都是flag。
6. 如果会产生冲突,那么怎样解决这种冲突?有几种方式?
答:接上一个问题。很简单,导入代码包的时候给它起一个别名就可以了,比如: import libflag "dep/lib/flag"。或者以本地化的方式导入代码包import . "dep/lib/flag"。
7. 如果与当前的变量重名的是外层代码块中的变量,那么意味着什么?
答:这意味着这两个变量成为了“可重名变量”。在内层的变量所处的那个代码块以及更深层次的代码块中,这个变量会“屏蔽”掉外层代码块中的那个变量。
8. 如果通过import . XXX这种方式导入的代码包中的变量与当前代码包中的变量重名了那么Go语言是会把它们当做“可重名变量”看待还是会报错呢
答:这两个变量会成为“可重名变量”。虽然这两个变量在这种情况下的作用域都是当前代码包的当前文件,但是它们所处的代码块是不同的。
当前文件中的变量处在该文件所代表的代码块中,而被导入的代码包中的变量却处在声明它的那个文件所代表的代码块中。当然,我们也可以说被导入的代码包所代表的代码块包含了这个变量。
在当前文件中,本地的变量会“屏蔽”掉被导入的变量。
9. 除了《程序实体的那些事儿3》一文中提及的那些你还认为类型转换规则中有哪些值得注意的地方
简单来说我们在进行类型转换的时候需要注意各种符号的优先级。具体可参见Go语言规范中的转换部分。
10. 你能具体说说别名类型在代码重构过程中可以起到的哪些作用吗?
简单来说我们可以通过别名类型实现外界无感知的代码重构。具体可参见Go语言官方的文档Proposal: Type Aliases。
数据类型和语句篇
11. 如果有多个切片指向了同一个底层数组,那么你认为应该注意些什么?
答:我们需要特别注意的是,当操作其中一个切片的时候是否会影响到其他指向同一个底层数组的切片。
如果是,那么问一下自己,这是你想要的结果吗?无论如何,通过这种方式来组织或共享数据是不正确的。你需要做的是,要么彻底切断这些切片的底层联系,要么立即为所有的相关操作加锁。
12. 怎样沿用“扩容”的思想对切片进行“缩容”?
关于切片的“缩容”可参看官方的相关wiki。不过如果你需要频繁的“缩容”那么就可能需要考虑其他的数据结构了比如container/list代码包中的List。
13. container/ring包中的循环链表的适用场景都有哪些
答:比如:可重用的资源(缓存等)的存储,或者需要灵活组织的资源池,等等。
14. container/heap包中的堆的适用场景又有哪些呢
答:它最重要的用途就是构建优先级队列,并且这里的“优先级”可以很灵活。所以,想象空间很大。
15. 字典类型的值是并发安全的吗?如果不是,那么在我们只在字典上添加或删除键-元素对的情况下,依然不安全吗?
答:字典类型的值不是并发安全的,即使我们只是增减其中的键值对也是如此。其根本原因是,字典值内部有时候会根据需要进行存储方面的调整。
16. 通道的长度代表着什么?它在什么时候会通道的容量相同?
通道的长度代表它当前包含的元素值的个数。当通道已满时,其长度会与容量相同。
17. 元素值在经过通道传递时会被复制,那么这个复制是浅表复制还是深层复制呢?
浅表复制。实际上在Go语言中并不存在深层次的复制除非我们自己来做。
18. 如果在select语句中发现某个通道已关闭那么应该怎样屏蔽掉它所在的分支
很简单把nil赋给代表了这个通道的变量就可以了。如此一来对于这个通道那个变量的发送操作和接收操作就会永远被阻塞。
19. 在select语句与for语句联用时怎样直接退出外层的for语句
这一般会用到goto语句和标签label具体请参看Go语言规范的这部分。
20. complexArray1被传入函数的话这个函数中对该参数值的修改会影响到它的原值吗
文中complexArray1变量的声明如下
complexArray1 := [3][]string{
[]string{"d", "e", "f"},
[]string{"g", "h", "i"},
[]string{"j", "k", "l"},
}
这要看怎样修改了。虽然complexArray1本身是一个数组但是其中的元素却都是切片。如果对complexArray1中的元素进行增减那么原值就不会受到影响。但若要修改它已有的元素值那么原值也会跟着改变。
21. 函数真正拿到的参数值其实只是它们的副本,那么函数返回给调用方的结果值也会被复制吗?
答:函数返回给调用方的结果值也会被复制。不过,在一般情况下,我们不用太在意。但如果函数在返回结果值之后依然保持执行并会对结果值进行修改,那么我们就需要注意了。
22. 我们可以在结构体类型中嵌入某个类型的指针类型吗?如果可以,有哪些注意事项?
答:当然可以。在这时,我们依然需要注意各种“屏蔽”现象。由于某个类型的指针类型会包含与前者有关联的所有方法,所以我们更要注意。
另外我们在嵌入和引用这样的字段的时候还需要注意一些冲突方面的问题具体请参看Go语言规范的这一部分。
23. 字面量struct{}代表了什么?又有什么用处?
字面量struct{}代表了空的结构体类型。这样的类型既不包含任何字段也没有任何方法。该类型的值所需的存储空间几乎可以忽略不计。
因此我们可以把这样的值作为占位值来使用。比如在同一个应用场景下map[int]struct{} 类型的值会比 map[int]bool 类型的值占用更少的存储空间。
24. 如果我们把一个值为nil的某个实现类型的变量赋给了接口变量那么在这个接口变量上仍然可以调用该接口的方法吗如果可以有哪些注意事项如果不可以原因是什么
可以调用。但是请注意这个被调用的方法在此时所持有的接收者的值是nil。因此如果该方法引用了其接收者的某个字段那么就会引发panic
25. 引用类型的值的指针值是有意义的吗?如果没有意义,为什么?如果有意义,意义在哪里?
答:从存储和传递的角度看,没有意义。因为引用类型的值已经相当于指向某个底层数据结构的指针了。当然,引用类型的值不只是指针那么简单。
26. 用什么手段可以对goroutine的启用数量加以限制
一个很简单且很常用的方法是使用一个通道保存一些令牌。只有先拿到一个令牌才能启用一个goroutine。另外在go函数即将执行结束的时候还需要把令牌及时归还给那个通道。
更高级的手段就需要比较完整的设计了。比如,任务分发器+任务管道(单层的通道)+固定个数的goroutine。又比如动态任务池多层的通道+动态goroutine池可由前述的那个令牌方案演化而来。等等。
27. runtime包中提供了哪些与模型三要素G、P和M相关的函数
答:关于这个问题,我相信你一查文档便知。不过光知道还不够,还要会用。
28. 在类型switch语句中我们怎样对被判断类型的那个值做相应的类型转换
其实这个事情可以让Go语言自己来做例如
switch t := x.(type) {
// cases
}
当流程进入到某个case子句的时候变量t的值就已经被自动地转换为相应类型的值了。
29. 在if语句中初始化子句声明的变量的作用域是什么
如果这个变量是新的变量那么它的作用域就是当前if语句所代表的代码块。注意后续的else if子句和else子句也包含在当前的if语句代表的代码块之内。
30. 请列举出你经常用到或者看到的3个错误类型它们所在的错误类型体系都是怎样的你能画出一棵树来描述它们吗
答:略。这需要你自己去做,我代替不了你。
31. 请列举出你经常用到或者看到的3个错误值它们分别在哪个错误值列表里这些错误值列表分别包含的是哪个种类的错误
答:略。这需要你自己去做,我代替不了你。
32. 一个函数怎样才能把panic转化为error类型值并将其作为函数的结果值返回给调用方
答:可以这样编写:
func doSomething() (err error) {
defer func() {
p := recover()
err = fmt.Errorf("FATAL ERROR: %s", p)
}()
panic("Oops!!")
}
注意结果声明的写法。这是一个带有名称的结果声明。
33. 我们可以在defer函数中恢复panic那么可以在其中引发panic吗
当然可以。这样做可以把原先的panic包装一下再抛出去。
Go程序的测试
34. 除了本文中提到的你还知道或用过testing.T类型和testing.B类型的哪些方法它们都是做什么用的
答:略。这需要你自己去做,我代替不了你。
35. 在编写示例测试函数的时候,我们怎样指定预期的打印内容?
这个问题的答案就在testing代码包的文档中。
36. -benchmem标记和-benchtime标记的作用分别是什么
答:-benchmem标记的作用是在性能测试完成后打印内存分配统计信息。-benchtime标记的作用是设定测试函数的执行时间上限。
具体请看这里的文档。
37. 怎样在测试的时候开启测试覆盖度分析?如果开启,会有什么副作用吗?
go test命令可以接受-cover标记。该标记的作用就是开启测试覆盖度分析。不过由于覆盖度分析开启之后go test命令可能会在程序被编译之前注释掉一部分源代码所以若程序编译或测试失败那么错误报告可能会记录下与原始的源代码不对应的行号。
标准库的用法
38. 你知道互斥锁和读写锁的指针类型都实现了哪一个接口吗?
它们都实现了sync.Locker接口。
39. 怎样获取读写锁中的读锁?
sync.RWMutex类型有一个名为RLocker的指针方法可以获取其读锁。
40. *sync.Cond类型的值可以被传递吗那sync.Cond类型的值呢
sync.Cond类型的值一旦被使用就不应该再被传递了传递往往意味着拷贝。拷贝一个已经被使用过的sync.Cond值是很危险的因为在这份拷贝上调用任何方法都会立即引发 panic。但是它的指针值是可以被拷贝的。
41. sync.Cond类型中的公开字段L是做什么用的我们可以在使用条件变量的过程中改变这个字段的值吗
这个字段代表的是当前的sync.Cond值所持有的那个锁。我们可以在使用条件变量的过程中改变该字段的值但是在改变之前一定要搞清楚这样做的影响。
42. 如果要对原子值和互斥锁进行二选一,你认为最重要的三个决策条件应该是什么?
答:我觉得首先需要考虑下面几个问题。
被保护的数据是什么类型的?是值类型的还是引用类型的?
操作被保护数据的方式是怎样的?是简单的读和写还是更复杂的操作?
操作被保护数据的代码是集中的还是分散的?如果是分散的,是否可以变为集中的?
在搞清楚上述问题(以及你关注的其他问题)之后,优先使用原子值。
43. 在使用WaitGroup值实现一对多的goroutine协作流程时怎样才能让分发子任务的goroutine获得各个子任务的具体执行结果
答:可以考虑使用锁+容器数组、切片或字典等也可以考虑使用通道。另外你或许也可以用上golang.org/x/sync/errgroup代码包中的程序实体相应的文档在这里。
44. Context值在传达撤销信号的时候是广度优先的还是深度优先的其优势和劣势都是什么
答:它是深度优先的。其优势和劣势都是:直接分支的产生时间越早,其中的所有子节点就会越先接收到信号。至于什么时候是优势、什么时候是劣势还要看具体的应用场景。
例如,如果子节点的存续时间与资源的消耗是正相关的,那么这可能就是一个优势。但是,如果每个分支中的子节点都很多,而且各个分支中的子节点的产生顺序并不依从于分支的产生顺序,那么这种优势就很可能会变成劣势。最终的定论还是要看测试的结果。
45. 怎样保证一个临时对象池中总有比较充足的临时对象?
答:首先,我们应该事先向临时对象池中放入足够多的临时对象。其次,在用完临时对象之后,我们需要及时地把它归还给临时对象池。
最后我们应该保证它的New字段所代表的值是可用的。虽然New函数返回的临时对象并不会被放入池中但是起码能够保证池的Get方法总能返回一个临时对象。
46. 关于保证并发安全字典中的键和值的类型正确性,你还能想到其他的方案吗?
答:这是一道开放的问题,需要你自己去思考。其实怎样做完全取决于你的应用场景。不过,我们应该尽量避免使用反射,因为它对程序性能还是有一定的影响的。
47. 判断一个Unicode字符是否为单字节字符通常有几种方式
unicode/utf8代码包中有几个可以做此判断的函数比如RuneLen函数、EncodeRune函数等。我们需要根据输入的不同来选择和使用它们。具体可以查看该代码包的文档。
48. strings.Builder和strings.Reader都分别实现了哪些接口这样做有什么好处吗
strings.Builder类型实现了3个接口分别是fmt.Stringer、io.Writer和io.ByteWriter。
而strings.Reader类型则实现了8个接口io.Reader、io.ReaderAt、io.ByteReader、io.RuneReader、io.Seeker、io.ByteScanner、io.RuneScanner和io.WriterTo。
好处是显而易见的。实现的接口越多,它们的用途就越广。它们会适用于那些要求参数的类型为这些接口类型的地方。
49. 对比strings.Builder和bytes.Buffer的String方法并判断哪一个更高效原因是什么
strings.Builder的String方法更高效。因为该方法只对其所属值的内容容器那个字节切片做了简单的类型转换并且直接使用了底层的值或者说内存空间。它的源码如下
// String returns the accumulated string.
func (b *Builder) String() string {
return *(*string)(unsafe.Pointer(&b.buf))
}
数组值和字符串值在底层的存储方式其实是一样的。所以从切片值到字符串值的指针值的转换可以是直截了当的。又由于字符串值是不可变的,所以这样做也是安全的。
不过由于一些历史、结构和功能方面的原因bytes.Buffer的String方法却不能这样做。
50. io包中的同步内存管道的运作机制是什么
答:我们实际上已经在正文中做了基本的说明。
io.Pipe函数会返回一个io.PipeReader类型的值和一个io.PipeWriter类型的值并将它们分别作为管道的两端。而这两个值在底层其实只是代理了同一个*io.pipe类型值的功能而已。
io.pipe类型通过无缓冲的通道实现了读操作与写操作之间的同步并且通过互斥锁实现了写操作之间的串行化。另外它还使用原子值来处理错误。这些共同保证了这个同步内存管道的并发安全性。
51. bufio.Scanner类型的主要功用是什么它有哪些特点
bufio.Scanner类型俗称带缓存的扫描器。它的功能还是比较强大的。
比如我们可以自定义每次扫描的边界或者说内容的分段方法。我们在调用它的Scan方法对目标进行扫描之前可以先调用其Split方法并传入一个函数来自定义分段方法。
在默认情况下扫描器会以行为单位对目标内容进行扫描。bufio代码包提供了一些现成的分段方法。实际上扫描器在默认情况下会使用bufio.ScanLines函数作为分段方法。
又比如我们还可以在扫描之前自定义缓存的载体和缓存的最大容量这需要调用它的Buffer方法。在默认情况下扫描器内部设定的最大缓存容量是64K个字节。
换句话说目标内容中的每一段都不能超过64K个字节。否则扫描器就会使它的Scan方法返回false并通过其Err方法给予我们一个表示“token too long”的错误值。这里的“token”代表的就是一段内容。
关于bufio.Scanner类型的更多特点和使用注意事项你可以通过它的文档获得。
52. 怎样通过os包中的API创建和操纵一个系统进程
你可以从os包的FindProcess函数和StartProcess函数开始。前者用于通过进程IDpid查找进程后者用来基于某个程序启动一个进程。
这两者都会返回一个*os.Process类型的值。该类型提供了一些方法比如用于杀掉当前进程的Kill方法又比如可以给当前进程发送系统信号的Signal方法以及会等待当前进程结束的Wait方法。
与此相关的还有os.ProcAttr类型、os.ProcessState类型、os.Signal类型等等。你可以通过积极的实践去探索更多的玩法。
53. 怎样在net.Conn类型的值上正确地设定针对读操作和写操作的超时时间
net.Conn类型有3个可用于设置超时时间的方法分别是SetDeadline、SetReadDeadline和SetWriteDeadline。
这三个方法的签名是一模一样的只是名称不同罢了。它们都接受一个time.Time类型的参数并都会返回一个error类型的结果。其中的SetDeadline方法是用来同时设置读操作超时和写操作超时的。
有一点需要特别注意,这三个方法都会针对任何正在进行以及未来将要进行的相应操作进行超时设定。
因此,如果你要在一个循环中进行读操作或写操作的话,最好在每次迭代中都进行一次超时设定。
否则靠后的操作就有可能因触达超时时间而直接失败。另外如果有必要你应该再次调用它们并传入time.Time类型的零值来表达不再限定超时时间。
54. 怎样优雅地停止基于HTTP协议的网络服务程序
net/http.Server类型有一个名为Shutdown的指针方法可以实现“优雅的停止”。也就是说它可以在不中断任何正处在活动状态的连接的情况下平滑地关闭当前的服务器。
它会先关闭所有的空闲连接,并一直等待。只有活动的连接变为空闲之后,它才会关闭它们。当所有的连接都被平滑地关闭之后,它会关闭当前的服务器并返回。当有错误发生时,它还会把相应的错误值返回。
另外你还可以通过调用Server值的RegisterOnShutdown方法来注册可以在服务器即将关闭时被自动调用的函数。
更确切地说当前服务器的Shutdown方法会以异步的方式调用如此注册的所有函数。我们可以利用这样的函数来通知长连接的客户端“连接即将关闭”。
55. runtime/trace代码包的功用是什么
简单来说这个代码包是用来帮助Go程序实现内部跟踪操作的。其中的程序实体可以帮助我们记录程序中各个goroutine的状态、各种系统调用的状态与GC有关的各种事件以及内存相关和CPU相关的变化等等。
通过它们生成的跟踪记录可以通过go tool trace命令来查看。更具体的说明可以参看runtime/trace代码包的文档。
有了runtime/trace代码包我们就可以为Go程序加装上可以满足个性化需求的跟踪器了。Go语言标准库中有的代码包正是通过使用该包实现了自身的功能例如net/http/pprof包。
好了,全部的思考题答案已经更新完了,你如果还有疑问,可以给我留言。祝你新春快乐,学习愉快。再见。
戳此查看Go语言专栏文章配套详细代码。