Python 之杀不死的Shell子进程
生活随笔
收集整理的這篇文章主要介紹了
Python 之杀不死的Shell子进程
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.1 踩坑案例
踩坑的程序是個常駐的Agent類管理進程, 包括但不限于如下類型的任務在執行:
- a. 多線程的網絡通信包處理
- 和控制Master節點交互
- 有固定Listen端口
- b. 定期作業任務, 通過subprocess.Pipe執行shell命令
- c. etc
發現坑的過程很有意思:
-
a.重啟Agent發現Port被占用了
-
=> 立刻
想到可能進程沒被殺死, 是不是停止腳本出問題
- => 排除發現不是, Agent進程確實死亡了
- => 通過 netstat -tanop|grep port_number 發現端口確實有人占用
-
=> 調試環境, 直接殺掉占用進程了之, 錯失首次發現問題的機會
-
-
b.問題
在一段時間后
重現
, 重啟后Port還是被占用
- 定位問題出現在一個叫做xxxxxx.sh的腳本, 該腳本占用了Agent使用的端口
- => 奇了怪了, 一個xxx.sh腳本使用這個奇葩Port干啥(大于60000的Port, 有興趣的磚友可以想下為什么Agent默認使用6W+的端口)
- => review該腳本并沒有進行端口監聽的代碼
- 定位問題出現在一個叫做xxxxxx.sh的腳本, 該腳本占用了Agent使用的端口
-
一拍腦袋,
c.進程共享了父進程資源
了
- => 溯源該腳本,發現確實是Agent啟動的任務中的腳本之一
- => 問題基本定位, 該腳本屬于Agent調用的腳本
- => 該Agent繼承了Agent原來的資源FD, 也就是這個port
- => 雖然該腳本由于超時被動觸發了terminate機制, 但terminate并沒有干掉這個子進程
- => 該腳本進程的父進程(ppid) 被重置為了1
-
d.問題出在腳本進程超時kill邏輯
1.2 填坑解法
通過代碼review, 找到shell具體執行的庫代碼如下:
''' 遇到問題沒人解答?小編創建了一個Python學習交流QQ群:857662006 尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書! ''' self._subpro = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE,stderr=subprocess.PIPE,preexec_fn=_signal_handle ) # 重點是shell=True !把上述代碼改為:
self._subpro = subprocess.Popen(cmd.split(), stdout=subprocess.PIPE,stderr=subprocess.PIPE, preexec_fn=_signal_handle ) # 重點是去掉了shell=True1.3 坑位分析
Agent會在一個新創建的threading線程中執行這段代碼, 如果線程執行時間超時(xx seconds), 會調用 self._subpro.terminate()終止該腳本.
表面正常:
- 啟用新線程執行該腳本
- 如果出現問題,執行超時防止hang住其他任務執行調用terminate殺死進程
深層問題:
- Python 2.7.x中subprocess.Pipe 如果shell=True, 會默認把相關的pid設置為shell(sh/bash/etc)本身(執行命令的shell父進程), 并非執行cmd任務的那個進程
- 子進程由于會復制父進程的opened FD表, 導致即使被殺死, 依然保留了擁有這個Listened Port FD
這樣雖然殺死了shell進程(未必死亡, 可能進入defunct狀態), 但實際的執行進程確活著. 于是1.1中的坑就被結實的踩上了.
1.4 坑后擴展
1.4.1 擴展知識
本節擴展知識包括二個部分:
- Linux系統中, 子進程一般會繼承父進程的哪些信息
- Agent這種常駐進程選擇>60000端口的意義
擴展知識留到下篇末尾講述, 感興趣的可以自行搜索
1.4.1 技術關鍵字
- Linux系統進程
- Linux隨機端口選擇
- 程序多線程執行
- Shell執行
1.5 填坑總結
- listened port
- opened fd
- etc
總結
以上是生活随笔為你收集整理的Python 之杀不死的Shell子进程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python——有1、2、3、4个数字,
- 下一篇: python :如何将list存入txt