epoll模型详解
1.epoll模型原理
epoll是在2.6內核中提出的,是之前的select和poll的增強版本。相對于select和poll來說,epoll更加靈活,沒有描述符限制。epoll使用一個文件描述符管理多個描述符,將用戶關系的文件描述符的事件存放到內核的一個事件表中,這樣在用戶空間和內核空間的copy只需一次,epoll文件描述符使用紅黑樹管理,搜索高效。
1.int epoll_create(int size);
創建一個epoll的句柄,size用來告訴內核這個監聽的數目一共有多大。這個參數不同于select()中的第一個參數,給出最大監聽的fd+1的值。需要注意的是,當創建好epoll句柄后,它就是會占用一個fd值,在linux下如果查看/proc/進程id/fd/,是能夠看到這個fd的,所以在使用完epoll后,必須調用close()關閉,否則可能導致fd被耗盡。
2.int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
epoll的事件注冊函數,它不同與select()是在監聽事件時告訴內核要監聽什么類型的事件epoll的事件注冊函數,它不同與select()是在監聽事件時告訴內核要監聽什么類型的事件,而是在這里先注冊要監聽的事件類型。第一個參數是epoll_create()的返回值,第二個參數表示動作,用三個宏來表示:
EPOLL_CTL_ADD:注冊新的fd到epfd中;
EPOLL_CTL_MOD:修改已經注冊的fd的監聽事件;
EPOLL_CTL_DEL:從epfd中刪除一個fd;
第三個參數是需要監聽的fd,第四個參數是告訴內核需要監聽什么事,struct epoll_event結構如下:
events可以是以下幾個宏的集合:
EPOLLIN :表示對應的文件描述符可以讀(包括對端SOCKET正常關閉);
EPOLLOUT:表示對應的文件描述符可以寫;
EPOLLPRI:表示對應的文件描述符有緊急的數據可讀(這里應該表示有帶外數據到來);
EPOLLERR:表示對應的文件描述符發生錯誤;
EPOLLHUP:表示對應的文件描述符被掛斷;
EPOLLET: 將EPOLL設為邊緣觸發(Edge Triggered)模式,這是相對于水平觸發(Level Triggered)來說的。
EPOLLONESHOT:只監聽一次事件,當監聽完這次事件之后,如果還需要繼續監聽這個socket的話,需要再次把這個socket加入到EPOLL隊列里
3.int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待事件的產生,類似于select()調用。參數events用來從內核得到事件的集合,maxevents告之內核這個events有多大,這個maxevents的值不能大于創建epoll_create()時的size,參數timeout是超時時間(毫秒,0會立即返回,-1將不確定,也有說法說是永久阻塞)。該函數返回需要處理的事件數目,如返回0表示已超時。
2.epoll工作流程
1.epoll_create()系統調用。此調用返回一個句柄,之后所有的使用都依靠這個句柄來標識。
2.epoll_ctl()系統調用。通過此調用向epoll對象中添加、刪除、修改感興趣的事件,返回0成功,返回-1失敗。
3.epoll_wait()系統調用。通過此調用收集收集在epoll監控中已經發生的事件3.使用實例
引用一個echo的代碼實現
#include <stdio.h> #include <stdlib.h> #include <string.h> #include <errno.h>#include <netinet/in.h> #include <sys/socket.h> #include <arpa/inet.h> #include <sys/epoll.h> #include <unistd.h> #include <sys/types.h>#define IPADDRESS "127.0.0.1" #define PORT 8787 #define MAXSIZE 1024 #define LISTENQ 5 #define FDSIZE 1000 #define EPOLLEVENTS 100//函數聲明 //創建套接字并進行綁定 static int socket_bind(const char* ip,int port); //IO多路復用epoll static void do_epoll(int listenfd); //事件處理函數 static void handle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf); //處理接收到的連接 static void handle_accpet(int epollfd,int listenfd); //讀處理 static void do_read(int epollfd,int fd,char *buf); //寫處理 static void do_write(int epollfd,int fd,char *buf); //添加事件 static void add_event(int epollfd,int fd,int state); //修改事件 static void modify_event(int epollfd,int fd,int state); //刪除事件 static void delete_event(int epollfd,int fd,int state);int main(int argc,char *argv[]) {int listenfd;listenfd = socket_bind(IPADDRESS,PORT);listen(listenfd,LISTENQ);do_epoll(listenfd);return 0; }static int socket_bind(const char* ip,int port) {int listenfd;struct sockaddr_in servaddr;listenfd = socket(AF_INET,SOCK_STREAM,0);if (listenfd == -1){perror("socket error:");exit(1);}bzero(&servaddr,sizeof(servaddr));servaddr.sin_family = AF_INET;inet_pton(AF_INET,ip,&servaddr.sin_addr);servaddr.sin_port = htons(port);if (bind(listenfd,(struct sockaddr*)&servaddr,sizeof(servaddr)) == -1){perror("bind error: ");exit(1);}return listenfd; }static void do_epoll(int listenfd) {int epollfd;struct epoll_event events[EPOLLEVENTS];int ret;char buf[MAXSIZE];memset(buf,0,MAXSIZE);//創建一個描述符epollfd = epoll_create(FDSIZE);//添加監聽描述符事件add_event(epollfd,listenfd,EPOLLIN);for ( ; ; ){//獲取已經準備好的描述符事件ret = epoll_wait(epollfd,events,EPOLLEVENTS,-1);handle_events(epollfd,events,ret,listenfd,buf);}close(epollfd); }static void handle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf) {int i;int fd;//進行選好遍歷for (i = 0;i < num;i++){fd = events[i].data.fd;//根據描述符的類型和事件類型進行處理if ((fd == listenfd) &&(events[i].events & EPOLLIN))handle_accpet(epollfd,listenfd);else if (events[i].events & EPOLLIN)do_read(epollfd,fd,buf);else if (events[i].events & EPOLLOUT)do_write(epollfd,fd,buf);} } static void handle_accpet(int epollfd,int listenfd) {int clifd;struct sockaddr_in cliaddr;socklen_t cliaddrlen;clifd = accept(listenfd,(struct sockaddr*)&cliaddr,&cliaddrlen);if (clifd == -1)perror("accpet error:");else{printf("accept a new client: %s:%d\n",inet_ntoa(cliaddr.sin_addr),cliaddr.sin_port);//添加一個客戶描述符和事件add_event(epollfd,clifd,EPOLLIN);} }static void do_read(int epollfd,int fd,char *buf) {int nread;nread = read(fd,buf,MAXSIZE);if (nread == -1){perror("read error:");close(fd);delete_event(epollfd,fd,EPOLLIN);}else if (nread == 0){fprintf(stderr,"client close.\n");close(fd);delete_event(epollfd,fd,EPOLLIN);}else{printf("read message is : %s",buf);//修改描述符對應的事件,由讀改為寫modify_event(epollfd,fd,EPOLLOUT);} }static void do_write(int epollfd,int fd,char *buf) {int nwrite;nwrite = write(fd,buf,strlen(buf));if (nwrite == -1){perror("write error:");close(fd);delete_event(epollfd,fd,EPOLLOUT);}elsemodify_event(epollfd,fd,EPOLLIN);memset(buf,0,MAXSIZE); }static void add_event(int epollfd,int fd,int state) {struct epoll_event ev;ev.events = state;ev.data.fd = fd;epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&ev); }static void delete_event(int epollfd,int fd,int state) {struct epoll_event ev;ev.events = state;ev.data.fd = fd;epoll_ctl(epollfd,EPOLL_CTL_DEL,fd,&ev); }static void modify_event(int epollfd,int fd,int state) {struct epoll_event ev;ev.events = state;ev.data.fd = fd;epoll_ctl(epollfd,EPOLL_CTL_MOD,fd,&ev); }4.總結討論
1.邊緣觸發與水平觸發
epoll對文件描述符的操作有兩種模式:LT(level trigger)和ET(edge trigger)。LT模式是默認模式,LT模式與ET模式的區別如下:
LT模式:當epoll_wait檢測到描述符事件發生并將此事件通知應用程序,應用程序可以不立即處理該事件。下次調用epoll_wait時,會再次響應應用程序并通知此事件。
ET模式:當epoll_wait檢測到描述符事件發生并將此事件通知應用程序,應用程序必須立即處理該事件。如果不處理,下次調用epoll_wait時,不會再次響應應用程序并通知此事件。
ET模式在很大程度上減少了epoll事件被重復觸發的次數,因此效率要比LT模式高。epoll工作在ET模式的時候,必須使用非阻塞套接口,以避免由于一個文件句柄的阻塞讀/阻塞寫操作把處理多個文件描述符的任務餓死。
2.修改進程打開最大文件描述符限制
使用epoll模型處理大量文件描述符時必定出超過系統默認單進程允許最大打開文件描述符1024,可以使用shell命令ulimit和系統調用setrlimit修改
ulimit -n 65535 /* 設置每個進程允許打開的最大文件數 */ struct rlimit rt; rt.rlim_max = 65535; rt.rlim_cur = 65535; if (setrlimit(RLIMIT_NOFILE, &rt) == -1) perror("setrlimit"); else printf("setrlimit sucess\n");3.epoll為何高效
當某一進程調用epoll_create方法時,Linux內核會創建一個eventpoll結構體,這個結構體中有兩個成員與epoll的使用方式密切相關。eventpoll結構體如下所示:
每一個epoll對象都有一個獨立的eventpoll結構體,用于存放通過epoll_ctl方法向epoll對象中添加進來的事件。這些事件都會掛載在紅黑樹中,如此,重復添加的事件就可以通過紅黑樹而高效的識別出來(紅黑樹的插入時間效率是lgn,其中n為樹的高度)。
而所有添加到epoll中的事件都會與設備(網卡)驅動程序建立回調關系,也就是說,當相應的事件發生時會調用這個回調方法。這個回調方法在內核中叫ep_poll_callback,它會將發生的事件添加到rdlist雙鏈表中。
在epoll中,對于每一個事件,都會建立一個epitem結構體,如下所示: struct epitem {struct rb_node rbn;//紅黑樹節點struct list_head rdllink;//雙向鏈表節點struct epoll_filefd ffd; //事件句柄信息struct eventpoll *ep; //指向其所屬的eventpoll對象struct epoll_event event; //期待發生的事件類型 }
當調用epoll_wait檢查是否有事件發生時,只需要檢查eventpoll對象中的rdlist雙鏈表中是否有epitem元素即可。如果rdlist不為空,則把發生的事件復制到用戶態,同時將事件數量返回給用戶。
epoll數據結構示意圖
從上面的講解可知:通過紅黑樹和雙鏈表數據結構,并結合回調機制,造就了epoll的高效。
總結
- 上一篇: select模型详解
- 下一篇: poll模型详解