- 軟件大小:73.77M
- 軟件語言:中文
- 軟件類型:國(guó)產(chǎn)軟件
- 軟件類別:免費(fèi)軟件 / 電子圖書
- 更新時(shí)間:2017-08-22 10:53
- 運(yùn)行環(huán)境:WinAll, WinXP, Win7, Win8, Win10
- 軟件等級(jí):
- 軟件廠商:
- 官方網(wǎng)站:暫無
146.48M/中文/2.0
9.76M/中文/10.0
32.22M/中文/1.5
7.81M/中文/1.4
5.85M/中文/0.0
sre google運(yùn)維解密pdf是一套免費(fèi)的電子圖書文檔。這套圖書為大家介紹了軟件開發(fā)過程中遇到了詳細(xì)運(yùn)維方式。很適合Google工程師人員研究學(xué)習(xí)使用!快來綠色資源網(wǎng)下載閱讀吧!
在《SRE:Google運(yùn)維解密》中,Google SRE的關(guān)鍵成員解釋了他們是如何對(duì)軟件進(jìn)行生命周期的整體性關(guān)注的,以及為什么這樣做能夠幫助Google成功地構(gòu)建、部署、監(jiān)控和運(yùn)維世界上現(xiàn)存最大的軟件系統(tǒng)。通過閱讀《SRE:Google運(yùn)維解密》,讀者可以學(xué)習(xí)到Google工程師在提高系統(tǒng)部署規(guī)模、改進(jìn)可靠性和資源利用效率方面的指導(dǎo)思想與具體實(shí)踐——這些都是可以立即直接應(yīng)用的寶貴經(jīng)驗(yàn)。
任何一個(gè)想要?jiǎng)?chuàng)建、擴(kuò)展大規(guī)模集成系統(tǒng)的人都應(yīng)該閱讀《SRE:Google運(yùn)維解密》?!禨RE:Google運(yùn)維解密》針對(duì)如何構(gòu)建一個(gè)可長(zhǎng)期維護(hù)的系統(tǒng)提供了非常寶貴的實(shí)踐經(jīng)驗(yàn)。
前言 xxxi
序言 xxxv
第Ⅰ部分 概覽
第1 章 介紹 2
系統(tǒng)管理員模式 2
Google 的解決之道:SRE 4
SRE 方法論 6
確保長(zhǎng)期關(guān)注研發(fā)工作 6
在保障服務(wù)SLO 的前提下最大化迭代速度 7
監(jiān)控系統(tǒng) 8
應(yīng)急事件處理 8
變更管理 9
需求預(yù)測(cè)和容量規(guī)劃 9
資源部署 10
效率與性能 10
小結(jié) 10
第2 章 Google 生產(chǎn)環(huán)境:SRE 視角 11
硬件 11
管理物理服務(wù)器的系統(tǒng)管理軟件 13
管理物理服務(wù)器 13
存儲(chǔ) 14
網(wǎng)絡(luò) 15
其他系統(tǒng)軟件 16
分布式鎖服務(wù) 16
監(jiān)控與警報(bào)系統(tǒng) 16
軟件基礎(chǔ)設(shè)施 17
研發(fā)環(huán)境 17
莎士比亞搜索:一個(gè)示范服務(wù) 18
用戶請(qǐng)求的處理過程 18
任務(wù)和數(shù)據(jù)的組織方式 19
第Ⅱ部分 指導(dǎo)思想
第3 章 擁抱風(fēng)險(xiǎn) 23
管理風(fēng)險(xiǎn) 23
度量服務(wù)的風(fēng)險(xiǎn) 24
服務(wù)的風(fēng)險(xiǎn)容忍度 25
辨別消費(fèi)者服務(wù)的風(fēng)險(xiǎn)容忍度 26
基礎(chǔ)設(shè)施服務(wù)的風(fēng)險(xiǎn)容忍度 28
使用錯(cuò)誤預(yù)算的目的 30
錯(cuò)誤預(yù)算的構(gòu)建過程 31
好處 32
第4 章 服務(wù)質(zhì)量目標(biāo) 34
服務(wù)質(zhì)量術(shù)語 34
指標(biāo) 34
目標(biāo) 35
協(xié)議 36
指標(biāo)在實(shí)踐中的應(yīng)用 37
運(yùn)維人員和最終用戶各關(guān)心什么 37
指標(biāo)的收集 37
匯總 38
指標(biāo)的標(biāo)準(zhǔn)化 39
目標(biāo)在實(shí)踐中的應(yīng)用 39
目標(biāo)的定義 40
目標(biāo)的選擇 40
控制手段 42
SLO 可以建立用戶預(yù)期 42
協(xié)議在實(shí)踐中的應(yīng)用 43
第5 章 減少瑣事 44
瑣事的定義 44
為什么瑣事越少越好 45
什么算作工程工作 46
瑣事繁多是不是一定不好 47
小結(jié) 48
第6 章 分布式系統(tǒng)的監(jiān)控 49
術(shù)語定義 49
為什么要監(jiān)控 50
對(duì)監(jiān)控系統(tǒng)設(shè)置合理預(yù)期 51
現(xiàn)象與原因 52
黑盒監(jiān)控與白盒監(jiān)控 53
4 個(gè)黃金指標(biāo) 53
關(guān)于長(zhǎng)尾問題 54
度量指標(biāo)時(shí)采用合適的精度 55
簡(jiǎn)化,直到不能再簡(jiǎn)化 55
將上述理念整合起來 56
監(jiān)控系統(tǒng)的長(zhǎng)期維護(hù) 57
Bigtable SRE :警報(bào)過多的案例 57
gmail :可預(yù)知的、可腳本化的人工干預(yù) 58
長(zhǎng)跑 59
小結(jié) 59
第7 章 Google 的自動(dòng)化系統(tǒng)的演進(jìn) 60
自動(dòng)化的價(jià)值 60
一致性 60
平臺(tái)性 61
修復(fù)速度更快 61
行動(dòng)速度更快 62
節(jié)省時(shí)間 62
自動(dòng)化對(duì)Google SRE 的價(jià)值 62
自動(dòng)化的應(yīng)用案例 63
Google SRE 的自動(dòng)化使用案例 63
自動(dòng)化分類的層次結(jié)構(gòu) 64
讓自己脫離工作:自動(dòng)化所有的東西 66
舒緩疼痛:將自動(dòng)化應(yīng)用到集群上線中 67
使用Prodtest 檢測(cè)不一致情況 68
冪等地解決不一致情況 69
專業(yè)化傾向 71
以服務(wù)為導(dǎo)向的集群上線流程 72
Borg :倉庫規(guī)模計(jì)算機(jī)的誕生 73
可靠性是最基本的功能 74
建議 75
第8 章 發(fā)布工程 76
發(fā)布工程師的角色 76
發(fā)布工程哲學(xué) 77
自服務(wù)模型 77
追求速度 77
密閉性 77
強(qiáng)調(diào)策略和流程 78
持續(xù)構(gòu)建與部署 78
構(gòu)建 78
分支 79
測(cè)試 79
打包 79
Rapid 系統(tǒng) 80
部署 81
配置管理 81
小結(jié) 82
不僅僅只對(duì)Google 有用 83
一開始就進(jìn)行發(fā)布工程 83
第9 章 簡(jiǎn)單化 85
系統(tǒng)的穩(wěn)定性與靈活性 85
乏味是一種美德 86
我絕對(duì)不放棄我的代碼 86
“負(fù)代碼行”作為一個(gè)指標(biāo) 87
最小 API 87
模塊化 87
發(fā)布的簡(jiǎn)單化 88
小結(jié) 88
第Ⅲ部分 具體實(shí)踐
第10 章 基于時(shí)間序列數(shù)據(jù)進(jìn)行有效報(bào)警 93
Borgmon 的起源 94
應(yīng)用軟件的監(jiān)控埋點(diǎn) 95
監(jiān)控指標(biāo)的收集 96
時(shí)間序列數(shù)據(jù)的存儲(chǔ) 97
標(biāo)簽與向量 98
Borg 規(guī)則計(jì)算 99
報(bào)警 104
監(jiān)控系統(tǒng)的分片機(jī)制 105
黑盒監(jiān)控 106
配置文件的維護(hù) 106
十年之后 108
第11 章 on-call 輪值 109
介紹 109
on-call 工程師的一天 110
on-call 工作平衡 111
數(shù)量上保持平衡 111
質(zhì)量上保持平衡 111
補(bǔ)貼措施 112
安全感 112
避免運(yùn)維壓力過大 114
運(yùn)維壓力過大 114
奸詐的敵人—運(yùn)維壓力不夠 115
小結(jié) 115
第12 章 有效的故障排查手段 116
理論 117
實(shí)踐 119
故障報(bào)告 119
定位 119
檢查 120
診斷 122
測(cè)試和修復(fù) 124
神奇的負(fù)面結(jié)果 125
治愈 126
案例分析 127
使故障排查更簡(jiǎn)單 130
小結(jié) 130
第13 章 緊急事件響應(yīng) 131
當(dāng)系統(tǒng)出現(xiàn)問題時(shí)怎么辦 131
測(cè)試導(dǎo)致的緊急事故 132
細(xì)節(jié) 132
響應(yīng) 132
事后總結(jié) 132
變更部署帶來的緊急事故 133
細(xì)節(jié) 133
事故響應(yīng) 134
事后總結(jié) 134
流程導(dǎo)致的嚴(yán)重事故 135
細(xì)節(jié) 135
災(zāi)難響應(yīng) 136
事后總結(jié) 136
所有的問題都有解決方案 137
向過去學(xué)習(xí),而不是重復(fù)它 138
為事故保留記錄 138
提出那些大的,甚至不可能的問題:假如…… 138
鼓勵(lì)主動(dòng)測(cè)試 138
小結(jié) 138
第14 章 緊急事故管理 140
無流程管理的緊急事故 140
對(duì)這次無流程管理的事故的剖析 141
過于關(guān)注技術(shù)問題 141
溝通不暢 141
不請(qǐng)自來 142
緊急事故的流程管理要素 142
嵌套式職責(zé)分離 142
控制中心 143
實(shí)時(shí)事故狀態(tài)文檔 143
明確公開的職責(zé)交接 143
一次流程管理良好的事故 144
什么時(shí)候?qū)ν庑际鹿?144
小結(jié) 145
......
請(qǐng)描述您所遇到的錯(cuò)誤,我們將盡快予以修正,謝謝!
*必填項(xiàng),請(qǐng)輸入內(nèi)容