【Consul】Consul实践指导-健康检查(Checks)
Consul的一個基本功能是提供系統級和應用級健康檢查。如果健康檢查與某個服務關聯,則稱為是應用級的;如果不予服務關聯,則監控整個節點的健康。
check定義在配置文件中,或運行時通過HTTP接口添加。Check是通過HTTP與節點保持一致。
有五種check方法:
1.1.1 ?Script+ Interval
? ? ? ??通過執行外部應用進行健康檢查:這種外部程序具有退出代碼,并可能產生一些輸出;腳本按照指預置時間間隔來調用(比如,每30秒調用一次),類似于Nagios插件系統,腳本輸出限制在4K以內,輸出大于4K將截斷。默認情況下,腳本超時時間為30秒——可通過timeout來配置。
示例:
?
{
"check": {
"id": "mem-util",
"name": "Memoryutilization",
"script": "/usr/local/bin/check_mem.py",
"interval": "10s",
"timeout": "1s"
}
}
注:實際操作發現,并不支持py,必須為shell腳本
?
?
1.1.2 ?HTTP+ Interval
? ? ? ??這種檢查將按照預設的時間間隔創建一個HTTP “get”請求。HTTP響應代碼來標示服務所處狀態:任何2xx代碼視為正常,429表示警告——有很多請求;其他值表示失敗。
這種類型的檢查應使用curl或外部程序來處理HTTP操作。默認情況下,HTTP Checks中,請求超時時間等于調用請求的間隔時間,最大10秒。有可能使用客制的HTTP check,可以自由配置timeout時間,輸出限制在4K以內,輸出大于4K將截斷。
?
{
"check": {
"id": "api",
"name": "HTTPAPI on port 5000",
"http": "http://localhost:5000/health",
"interval": "10s",
"timeout": "1s"
}
}
?
?
1.1.3 ?TCP+ Interval
? ? ? ??將按照預設的時間間隔與指定的IP/Hostname和端口創建一個TCP連接。服務的狀態依賴于TCP連接是否成功——如果連接成功,則狀態是“success”;否則狀態是“critical”。如果一個Hostname解析為一個IPv4和一個IPv6,將嘗試連接這兩個地址,第一次連接成功則服務狀態是“success”。
? ? ? ??如果希望通過這種方式利用外部腳本執行健康檢查,那么腳本應該采用“netcat”或者簡單的socket操作。
默認情況下,TCP checks中,請求超時時間等于調用請求的間隔時間,最大10秒。也是可以自由配置的。
?
{
"check": {
"id": "ssh",
"name": "SSHTCP on port 22",
"tcp": "localhost:22",
"interval": "10s",
"timeout": "1s"
}
}
?
?
1.1.4 ?Timeto Live(TTL)
? ? ? ??這種checks為給定TTL保留了最后一種狀態,checks的狀態必須通過HTTP接口周期性更新,如果外部接口沒有更新狀態,那么狀態就會被認定為不正常。
? ? ? ??這種機制,在概念上類似“死人開關”,需要服務周期性匯報健康狀態。比如,一個健康的APP可以周期性的將狀態put到HTTP端;如果app出問題了,那么TTL將過期,健康檢查將進入Critical狀態。用來為給定check更新健康信息的endpoint都是pass endpoint和fail endpoint。(參見agent http endpoint)
? ? ? ??TTL checks同時會將其最后已知狀態更新至磁盤,這允許Agent通過重啟后恢復到已知的狀態。通過TTL端上一次check來維持健康狀態的有效性。
?
{
"check": {
"id": "web-app",
"name": "WebApp Status",
"notes": "Webapp does a curl internally every 10 seconds",
"ttl": "30s"
}
}
?
?
1.1.5 ?Docker+ interval
? ? ? ??這種檢查依賴于調用封裝在docker容器內的外部程序。運行的docker通過docker Exec API來觸發外部應用。
? ? ? ??我們期望,consul Agent用戶訪問Docker HTTP API或UNIX套接字。Consul使用$DOCKER_HOST來確定Docker API端點。應用程序將運行,并對在容器內運行的服務執行健康檢查,并返回適當的退出代碼。Check按照指定的時間間隔調用。
? ? ? ??如果在同一個host主機上有多重shell,那么同樣需要配置shell參數。
輸出限制在4K以內,輸出大于4K將截斷。
?
{
"check": {
"id": "mem-util",
"name": "Memoryutilization",
"docker_container_id": "f972c95ebf0e",
"shell": "/bin/bash",
"script": "/usr/local/bin/check_mem.py",
"interval": "10s"
}
}
?
?
1.1.6 小結
? ? ? ??每一種check都必須包含name,id和notes兩個是可選的。如果沒有提供id,那么id會被設置為name。在一個節點中,check的ID都必須是唯一的。如果名字是沖突的,那么ID就應該設置。
? ? ? ??字段Notes主要是增強checks的可讀性。Script check中,notes字段可以由腳本生成。同樣,適用HTTP接口更新TTL check的外部程序一樣可以設置notes字段。
?
1.1.7 ?Check腳本
? ? ? ??Check腳本可以自由地做任何事情確定check的狀態。唯一的限制是:退出代碼必須遵循下面的約定:
?
?
? ? ? ??Consul依賴此約定。腳本其他的輸出都保存在notes字段中,可以供人查看。
?
1.1.8 ?健康狀態初始化
? ? ? ??默認情況下,當checks注冊到Consul agent時,健康狀態立即被設置為“Critical”。可以防止服務直接被注冊為通過(“passing”)狀態,在進入service pool前認為是健康狀態。在某些情況下,checks可能需要指定健康檢查的初始狀態,可以通過設置“status”字段來實現。
如下:
?
{
"check": {
"id": "mem",
"script": "/bin/check_mem",
"interval": "10s",
"status": "passing"
}
}
初始狀態設置為passing。
?
1.1.9 ?Service-boundchecks
? ? ? ??健康檢查(Health checks)或者有可能綁定到指定的服務。這將確保健康檢查的狀態只會影響給定的服務而不是整個節點。服務綁定健康檢查需要提供一個service_id字段。
?
{
"check": {
"id": "web-app",
"name": "WebApp Status",
"service_id": "web-app",
"ttl": "30s"
}
}
? ? ? ??在上述示例中,web-app健康檢查如果失敗了,只會影響web-app服務的有效性,本節點的其他服務是不受影響的。
?
1.1.10??MultipleCheck Definitions
多個check定義,可以使用字段“checks”,示例:
?
{
"checks": [
{
"id": "chk1",
"name": "mem",
"script": "/bin/check_mem",
"interval": "5s"
},
{
"id": "chk2",
"name": "/health",
"http": "http://localhost:5000/health",
"interval": "15s"
},
{
"id": "chk3",
"name": "cpu",
"script": "/bin/check_cpu",
"interval": "10s"
},
...
]
}
注,實踐過程中發現,腳本并不支持python,必須為shell腳本
總結
以上是生活随笔為你收集整理的【Consul】Consul实践指导-健康检查(Checks)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用 golang 调用consul a
- 下一篇: Nomad 简介