如何使用epoll?一个完整的C例子

转载 Mukund Sivaraman; Yeolar [译]   2012-07-02 18:05  

网络服务器传统上采用每个连接使用一个进程/线程的方式实现。但是由于资源使用和上下文切换时间等因素的影响,限制了服务器的并发能力,因此这种实现方式不适合那些需要处理并发的大量客户端请求的高性能应用。一个解决办法是在单线程上使用非阻塞I/O,以及准备就绪通知方法,它在可以从套接字上读或写更多数据时通知你。

本文介绍Linux的 epoll 机制,它是Linux下最好的准备就绪通知机制。我们将用C给出一个完整的TCP服务器实现。我假定你有C编程经验,知道在Linux上如何编译和运行程序,并能够在Man手册查看用到的各种C函数。

epoll 是在Linux 2.6中引入的,在其他的类UNIX操作系统中不可用。它提供了和 selectpoll 类似的机制:

  • select 可以最多同时监视 FD_SETSIZE 个描述符,通常是一个较小的数。
  • poll 没有同时监视的描述符个数的限制,但是它在每次检查准备就绪的通知时需要扫描所有的描述符,这是O(n)的而且比较慢。

epoll 没有固定的限制,也不执行线性检查,因此它的效率更高,可以处理更多的事件。

epoll_createepoll_create1 创建 epoll 实例。 epoll_ctl 用来添加/删除需要观察的描述符。用 epoll_wait 等待观察集合上的事件,它阻塞直到有事件发生。更多的相关信息请见Man手册。

当描述符添加到 epoll 实例中时,有两种模式:水平触发和边缘触发。当你使用水平触发模式时,如果数据可读, epoll_wait 会总是返回准备好的事件。如果数据没有读完,再次调用 epoll_wait ,它会再次返回这个描述符的准备好的事件,因为数据可读。而边缘触发模式中,只能得到一次准备就绪通知。如果你没有读取全部数据,然后再次调用 epoll_wait 来查看该描述符,它将阻塞,因为准备就绪事件已经发送过了。

传递给 epoll_ctlepoll 事件结构如下。每个被观察的描述符可以关联一个整型变量或指针作为用户数据。

 1 typedef union epoll_data
 2 {
 3   void        *ptr;
 4   int          fd;
 5   __uint32_t   u32;
 6   __uint64_t   u64;
 7 } epoll_data_t;
 8 
 9 struct epoll_event
10 {
11   __uint32_t   events; /* Epoll events */
12   epoll_data_t data;   /* User data variable */
13 };

现在让我们开始写代码。我们将实现一个微型服务器,它将打印所有发送到套接字的数据到标准输出。我们将从写一个创建并绑定TCP套接字的函数 create_and_bind 开始:

 1 static int
 2 create_and_bind (char *port)
 3 {
 4   struct addrinfo hints;
 5   struct addrinfo *result, *rp;
 6   int s, sfd;
 7 
 8   memset (&hints, 0, sizeof (struct addrinfo));
 9   hints.ai_family = AF_UNSPEC;     /* Return IPv4 and IPv6 choices */
10   hints.ai_socktype = SOCK_STREAM; /* We want a TCP socket */
11   hints.ai_flags = AI_PASSIVE;     /* All interfaces */
12 
13   s = getaddrinfo (NULL, port, &hints, &result);
14   if (s != 0)
15     {
16       fprintf (stderr, "getaddrinfo: %s\n", gai_strerror (s));
17       return -1;
18     }
19 
20   for (rp = result; rp != NULL; rp = rp->ai_next)
21     {
22       sfd = socket (rp->ai_family, rp->ai_socktype, rp->ai_protocol);
23       if (sfd == -1)
24         continue;
25 
26       s = bind (sfd, rp->ai_addr, rp->ai_addrlen);
27       if (s == 0)
28         {
29           /* We managed to bind successfully! */
30           break;
31         }
32 
33       close (sfd);
34     }
35 
36   if (rp == NULL)
37     {
38       fprintf (stderr, "Could not bind\n");
39       return -1;
40     }
41 
42   freeaddrinfo (result);
43 
44   return sfd;
45 }

create_and_bind包括了一段可移植的获取IPv4或IPv6套接字的标准代码块。它以字符串形式接受一个端口参数,可以用 argv[1] 来传递。 getaddrinfo 函数返回一串和 hints 参数兼容的 addrinfo 结构。

addrinfo 结构如下:

 1 struct addrinfo
 2 {
 3   int              ai_flags;
 4   int              ai_family;
 5   int              ai_socktype;
 6   int              ai_protocol;
 7   size_t           ai_addrlen;
 8   struct sockaddr *ai_addr;
 9   char            *ai_canonname;
10   struct addrinfo *ai_next;
11 };

我们逐个遍历这些结构,尝试用它们创建套接字。如果成功, create_and_bind 函数返回套接字描述符,否则返回-1。

接下来,我们写一个函数将套接字修改为非阻塞。 make_socket_non_blocking 函数设置描述符的 O_NONBLOCK 标志:

 1 static int
 2 make_socket_non_blocking (int sfd)
 3 {
 4   int flags, s;
 5 
 6   flags = fcntl (sfd, F_GETFL, 0);
 7   if (flags == -1)
 8     {
 9       perror ("fcntl");
10       return -1;
11     }
12 
13   flags |= O_NONBLOCK;
14   s = fcntl (sfd, F_SETFL, flags);
15   if (s == -1)
16     {
17       perror ("fcntl");
18       return -1;
19     }
20 
21   return 0;
22 }

现在再来看main函数,它包含事件循环,是程序的主体:

  1 #define MAXEVENTS 64
  2 
  3 int
  4 main (int argc, char *argv[])
  5 {
  6   int sfd, s;
  7   int efd;
  8   struct epoll_event event;
  9   struct epoll_event *events;
 10 
 11   if (argc != 2)
 12     {
 13       fprintf (stderr, "Usage: %s [port]\n", argv[0]);
 14       exit (EXIT_FAILURE);
 15     }
 16 
 17   sfd = create_and_bind (argv[1]);
 18   if (sfd == -1)
 19     abort ();
 20 
 21   s = make_socket_non_blocking (sfd);
 22   if (s == -1)
 23     abort ();
 24 
 25   s = listen (sfd, SOMAXCONN);
 26   if (s == -1)
 27     {
 28       perror ("listen");
 29       abort ();
 30     }
 31 
 32   efd = epoll_create1 (0);
 33   if (efd == -1)
 34     {
 35       perror ("epoll_create");
 36       abort ();
 37     }
 38 
 39   event.data.fd = sfd;
 40   event.events = EPOLLIN | EPOLLET;
 41   s = epoll_ctl (efd, EPOLL_CTL_ADD, sfd, &event);
 42   if (s == -1)
 43     {
 44       perror ("epoll_ctl");
 45       abort ();
 46     }
 47 
 48   /* Buffer where events are returned */
 49   events = calloc (MAXEVENTS, sizeof event);
 50 
 51   /* The event loop */
 52   while (1)
 53     {
 54       int n, i;
 55 
 56       n = epoll_wait (efd, events, MAXEVENTS, -1);
 57       for (i = 0; i < n; i++)
 58     {
 59       if ((events[i].events & EPOLLERR) ||
 60               (events[i].events & EPOLLHUP) ||
 61               (!(events[i].events & EPOLLIN)))
 62         {
 63               /* An error has occured on this fd, or the socket is not
 64                  ready for reading (why were we notified then?) */
 65           fprintf (stderr, "epoll error\n");
 66           close (events[i].data.fd);
 67           continue;
 68         }
 69 
 70       else if (sfd == events[i].data.fd)
 71         {
 72               /* We have a notification on the listening socket, which
 73                  means one or more incoming connections. */
 74               while (1)
 75                 {
 76                   struct sockaddr in_addr;
 77                   socklen_t in_len;
 78                   int infd;
 79                   char hbuf[NI_MAXHOST], sbuf[NI_MAXSERV];
 80 
 81                   in_len = sizeof in_addr;
 82                   infd = accept (sfd, &in_addr, &in_len);
 83                   if (infd == -1)
 84                     {
 85                       if ((errno == EAGAIN) ||
 86                           (errno == EWOULDBLOCK))
 87                         {
 88                           /* We have processed all incoming
 89                              connections. */
 90                           break;
 91                         }
 92                       else
 93                         {
 94                           perror ("accept");
 95                           break;
 96                         }
 97                     }
 98 
 99                   s = getnameinfo (&in_addr, in_len,
100                                    hbuf, sizeof hbuf,
101                                    sbuf, sizeof sbuf,
102                                    NI_NUMERICHOST | NI_NUMERICSERV);
103                   if (s == 0)
104                     {
105                       printf("Accepted connection on descriptor %d "
106                              "(host=%s, port=%s)\n", infd, hbuf, sbuf);
107                     }
108 
109                   /* Make the incoming socket non-blocking and add it to the
110                      list of fds to monitor. */
111                   s = make_socket_non_blocking (infd);
112                   if (s == -1)
113                     abort ();
114 
115                   event.data.fd = infd;
116                   event.events = EPOLLIN | EPOLLET;
117                   s = epoll_ctl (efd, EPOLL_CTL_ADD, infd, &event);
118                   if (s == -1)
119                     {
120                       perror ("epoll_ctl");
121                       abort ();
122                     }
123                 }
124               continue;
125             }
126           else
127             {
128               /* We have data on the fd waiting to be read. Read and
129                  display it. We must read whatever data is available
130                  completely, as we are running in edge-triggered mode
131                  and won't get a notification again for the same
132                  data. */
133               int done = 0;
134 
135               while (1)
136                 {
137                   ssize_t count;
138                   char buf[512];
139 
140                   count = read (events[i].data.fd, buf, sizeof buf);
141                   if (count == -1)
142                     {
143                       /* If errno == EAGAIN, that means we have read all
144                          data. So go back to the main loop. */
145                       if (errno != EAGAIN)
146                         {
147                           perror ("read");
148                           done = 1;
149                         }
150                       break;
151                     }
152                   else if (count == 0)
153                     {
154                       /* End of file. The remote has closed the
155                          connection. */
156                       done = 1;
157                       break;
158                     }
159 
160                   /* Write the buffer to standard output */
161                   s = write (1, buf, count);
162                   if (s == -1)
163                     {
164                       perror ("write");
165                       abort ();
166                     }
167                 }
168 
169               if (done)
170                 {
171                   printf ("Closed connection on descriptor %d\n",
172                           events[i].data.fd);
173 
174                   /* Closing the descriptor will make epoll remove it
175                      from the set of descriptors which are monitored. */
176                   close (events[i].data.fd);
177                 }
178             }
179         }
180     }
181 
182   free (events);
183 
184   close (sfd);
185 
186   return EXIT_SUCCESS;
187 }

main 函数首先调用 create_and_bind 函数来建立套接字。然后将套接字设置为非阻塞,然后调用 listen 函数。接下来创建一个 epoll 实例 efd ,以边缘触发模式向它添加监听套接字 sfd 来观察输入事件。

外面的 while 循环是主事件循环。调用 epoll_wait 函数阻塞线程来等待事件。当有事件发生时, epoll_wait 函数通过 events 参数返回事件。

当我们添加新的要观察的连接,以及移除已经终止的连接时, epoll 实例在事件循环中不断更新。

当有事件发生时,有三种类型:

  • 出错。当一个错误条件发生时,或者事件不是一个有关数据可读的通知,关闭关联的描述符。关闭描述符会自动将它从 epoll 实例的观察集合中移除。
  • 新连接。当监听描述符 sfd 可读时,意味着有一个或多个新的连接到达。调用 accept 函数接受这些连接,打印一条消息,然后将套接字修改为非阻塞并将它添加到 epoll 实例的观察集合中。
  • 客户端数据。当任何客户端描述符上有数据可读时,我们使用 read 函数读取数据。我们必须读取全部可读数据,因为在边缘触发模式下只产生一个事件。读取的数据用 write 函数写到标准输出。如果 read 函数返回0,代表遇到 EOF ,可以关闭客户端连接了。如果为-1并且 errnoEAGAIN ,表示这个事件的所有数据都已经读完,可以回到主循环。

就是这样。不断循环,向观察集合中添加和删除描述符。

https://banu.com/blog/2/how-to-use-epoll-a-complete-example-in-c/

http://www.yeolar.com/note/2012/07/02/epoll-example/

http://www.yeolar.com/note/2012/07/02/epoll-example/