kk Blog —— 通用基础

reuseport使用

2020-05-25 17:07:00

http://www.it165.net/os/html/201605/17066.html

Q&A

Q1：什么是reuseport？

A1：reuseport是一种套接字复用机制，它允许你将多个套接字bind在同一个IP地址/端口对上，这样一来，就可以建立多个服务来接受到同一个端口的连接。

Q2：当来了一个连接时，系统怎么决定到底是哪个套接字来处理它？

A2：对于不同的内核，处理机制是不一样的，总的说来，reuseport分为两种模式，即热备份模式和负载均衡模式，在早期的内核版本中，即便是加入对reuseport选项的支持，也仅仅为热备份模式，而在3.9内核之后，则全部改为了负载均衡模式，两种模式没有共存

Q3：什么是热备份模式和负载均衡模式呢？

A3：热备份模式：即你创建了N个reuseport的套接字，然而工作的只有一个，其它的作为备份，只有当前一个套接字不再可用的时候，才会由后一个来取代，其投入工作的顺序取决于实现。

负载均衡模式：即你创建的所有N个reuseport的套接字均可以同时工作，当连接到来的时候，系统会取一个套接字来处理它。这样就可以达到负载均衡的目的，降低某一个服务的压力。

Q4：到底怎么取套接字呢？

A4：这个对于热备份模式和负载均衡模式是不同的。

热备份模式：一般而言，会将所有的reuseport同一个IP地址/端口的套接字挂在一个链表上，取第一个即可，如果该套接字挂了，它会被从链表删除，然后第二个便会成为第一个。

负载均衡模式：和热备份模式一样，所有reuseport同一个IP地址/端口的套接字会挂在一个链表上，你也可以认为是一个数组，这样会更加方便，当有连接到来时，用数据包的源IP/源端口作为一个HASH函数的输入，将结果对reuseport套接字数量取模，得到一个索引，该索引指示的数组位置对应的套接字便是工作套接字。

关于REUSEPORT的实现

Linux 4.5/4.6所谓的对reuseport的优化主要体现在查询速度上，在优化前，在HASH冲突链表上遍历所有的套接字之后才能知道到底取哪个(基于一种冒泡的score打分机制，不完成一轮冒泡遍历，不能确定谁的score最高)，之所以如此低效是因为内核将reuseport的所有套接字和其它套接字混合在了一起，查找是平坦的，正常的做法应该是将它们分为一个组，进行分层查找，先找到这个组(这个很容易)，然后再在组中找具体的套接字。Linux 4.5针对UDP做了上述优化，而Linux 4.6则将这个优化引入到了TCP。

设想系统中一共有10000个套接字被HASH到同一个冲突链表，其中9950个是reuseport的同一组套接字，如果按照老的算法，需要遍历10000个套接字，如果使用基于分组的算法，最多只需要遍历51个套接字即可，找到那个组之后，一步HASH就可以找到目标套接字的索引！

Linux 4.5之前的reuseport查找实现(4.3内核)

以下是未优化前的Linux 4.3内核的实现，可见是多么地不直观。它采用了遍历HASH冲突链表的方式进行reuseport套接字的精确定位：

result = NULL;
badness = 0;
udp_portaddr_for_each_entry_rcu(sk, node, &hslot2->head) {
	score = compute_score2(sk, net, saddr, sport, daddr, hnum, dif);
	if (score > badness) { // 冒泡排序
		// 找到了更加合适的socket，需要重新hash
		result = sk;
		badness = score;
		reuseport = sk->sk_reuseport;
		if (reuseport) {
			hash = udp_ehashfn(net, daddr, hnum, saddr, sport);
			matches = 1;
		}
	} else if (score == badness && reuseport) { // reuseport套接字散列定位
		// 找到了同样reuseport的socket，进行定位
		matches++;
		if (reciprocal_scale(hash, matches) == 0)
			result = sk;
		hash = next_pseudo_random32(hash);
	}
}

之所以要遍历是因为所有的reuseport套接字和其它的套接字都被平坦地插入到同一个表中，事先并不知道有多少组reuseport套接字以及每一组中有多少个套接字

Linux 4.5(针对UDP)/4.6(针对TCP)的reuseport查找实现

我们来看看在4.5和4.6内核中对于reuseport的查找增加了一些什么神奇的新东西：

result = NULL;
badness = 0;
udp_portaddr_for_each_entry_rcu(sk, node, &hslot2->head) {
	score = compute_score2(sk, net, saddr, sport, daddr, hnum, dif);
	if (score > badness) {
		// 在reuseport情形下，意味着找到了更加合适的socket组，需要重新hash
		result = sk;
		badness = score;
		reuseport = sk->sk_reuseport;
		if (reuseport) {
			hash = udp_ehashfn(net, daddr, hnum, saddr, sport);
			if (select_ok) {
				struct sock *sk2;
				// 找到了一个组，接着进行组内hash。
				sk2 = reuseport_select_sock(sk, hash, skb, sizeof(struct udphdr));
				if (sk2) {
					result = sk2;
					select_ok = false;
					goto found;
				}
			}
			matches = 1;
		}
	} else if (score == badness && reuseport) {
		// 这个else if分支的期待是，在分层查找不适用的时候，寻找更加匹配的reuseport组，注意4.5/4.6以后直接寻找的是一个reuseport组。
		// 在某种意义上，这回退到了4.5之前的算法。
		matches++;
		if (reciprocal_scale(hash, matches) == 0)
			result = sk;
		hash = next_pseudo_random32(hash);
	}
}

我们着重看一下reuseport_select_sock，这个函数是第二层组内查找的关键，其实不应该叫做查找，而应该叫做定位更加合适：

struct sock *reuseport_select_sock(struct sock *sk, u32 hash, struct sk_buff *skb, int hdr_len)
{
	...
	prog = rcu_dereference(reuse->prog);
	socks = READ_ONCE(reuse->num_socks);
	if (likely(socks)) {
		/* paired with smp_wmb() in reuseport_add_sock() */
		smp_rmb();
 
		if (prog && skb) // 可以用BPF来从用户态注入自己的定位逻辑，更好实现基于策略的负载均衡
			sk2 = run_bpf(reuse, socks, prog, skb, hdr_len);
		else
			// reciprocal_scale简单地将结果限制在了[0,socks)这个区间内
			sk2 = reuse->socks[reciprocal_scale(hash, socks)];
	}
	...
}

reuseport使用

2020-05-25 16:57:00

https://www.cnblogs.com/Anker/p/7076537.html

SO_REUSEPORT解决了什么问题

SO_REUSEPORT支持多个进程或者线程绑定到同一端口，提高服务器程序的性能，解决的问题：

允许多个套接字 bind()/listen() 同一个TCP/UDP端口
每一个线程拥有自己的服务器套接字
在服务器套接字上没有了锁的竞争

内核层面实现负载均衡

安全层面，监听同一个端口的套接字只能位于同一个用户下面

其核心的实现主要有三点：

扩展 socket option，增加 SO_REUSEPORT 选项，用来设置 reuseport。

修改 bind 系统调用实现，以便支持可以绑定到相同的 IP 和端口

修改处理新建连接的实现，查找 listener 的时候，能够支持在监听相同 IP 和端口的多个 sock 之间均衡选择。

有了SO_RESUEPORT后，每个进程可以自己创建socket、bind、listen、accept相同的地址和端口，各自是独立平等的。让多进程监听同一个端口，各个进程中accept socket fd不一样，有新连接建立时，内核只会唤醒一个进程来accept，并且保证唤醒的均衡性。

可优化？？

在 ___inet_lookup_listener -> compute_score() 中，每个cpu只选特定的sk，这样能减少锁竞争和cache吗？？？

代码

#define _GNU_SOURCE

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <assert.h>
#include <sys/wait.h>
#include <string.h>
#include <errno.h>
#include <stdlib.h>
#include <fcntl.h>


#include <sched.h>
#include <pthread.h>

#include <netinet/tcp.h>

#define IP        "192.168.3.6"
#define PORT      80
#define WORKER        8
#define MAXLINE       4096


int worker(int i)
{
	struct sockaddr_in address;
	bzero(&address, sizeof(address));
	address.sin_family = AF_INET;
	inet_pton( AF_INET, IP, &address.sin_addr);
	address.sin_port = htons(PORT);

	pid_t pid = getpid();
	unsigned cc = 0;
	cpu_set_t mask;
	CPU_ZERO(&mask);
	CPU_SET(i, &mask);

	printf("pid=%d %d\n", pid, i);
	if (sched_getaffinity(pid, sizeof(mask), &mask) < 0) {
		printf("sched_getaffinity err\n");
	}

	int listenfd = socket(PF_INET, SOCK_STREAM, 0);
	assert(listenfd >= 0);

	int val =1;
	/*set SO_REUSEPORT*/
	if (setsockopt(listenfd, SOL_SOCKET, SO_REUSEPORT, &val, sizeof(val)) < 0) {
		perror("setsockopt()");
	}

	val = 1000 + i;
	if (setsockopt(listenfd, SOL_TCP, TCP_MAXSEG, &val, sizeof(val))<0) {
		perror("setsockopt()");
	}

	int ret = bind(listenfd, (struct sockaddr*)&address, sizeof(address));
	assert(ret != -1);

	ret = listen(listenfd, 5);
	assert(ret != -1);
	while (1) {
		cc ++;
		if (cc % 100 == 0)
			printf("thread=%d cc=%d\n", i, cc);
//        printf("I am worker %d, begin to accept connection.\n", i);
		struct sockaddr_in client_addr;
		socklen_t client_addrlen = sizeof( client_addr );
		int connfd = accept(listenfd, (struct sockaddr*)&client_addr, &client_addrlen);
		if (connfd != -1) {
//            printf("worker %d accept a connection success. ip:%s, prot:%d\n", i, inet_ntoa(client_addr.sin_addr), client_addr.sin_port);
		} else {
//            printf("worker %d accept a connection failed,error:%s", i, strerror(errno));
		}
		char buffer[MAXLINE];
//        int nbytes = read(connfd, buffer, MAXLINE);
//        printf("read from client is:%s\n", buffer);
//        write(connfd, buffer, nbytes);
		close(connfd);
	}
	return 0;
}

int main()
{
	int i = 0;
	for (i = 0; i < WORKER; i++) {
		printf("Create worker %d\n", i);
		pid_t pid = fork();
		/*child  process */
		if (pid == 0) {
			worker(i);
		}
		if (pid < 0) {
			printf("fork error");
		}
	}
	/*wait child process*/
	while (wait(NULL) != 0)
		;
	if (errno == ECHILD) {
		fprintf(stderr, "wait error:%s\n", strerror(errno));
	}
	return 0;
}

veth虚拟网络设备的qdisc

2020-05-22 11:24:00

http://hustcat.github.io/veth/

http://hustcat.github.io/vlan-performance-problem/

veth设备qdisc队列，而环回设备/桥接设备是没qdisc队列的，参考br_dev_setup函数。

内核实现

在注册（创建）设备时，qdisc设置为noop_qdisc， register_netdevice -> dev_init_scheduler

void dev_init_scheduler(struct net_device *dev)
{
	dev->qdisc = &noop_qdisc;
	netdev_for_each_tx_queue(dev, dev_init_scheduler_queue, &noop_qdisc);
	dev_init_scheduler_queue(dev, &dev->rx_queue, &noop_qdisc);

	setup_timer(&dev->watchdog_timer, dev_watchdog, (unsigned long)dev);
}

打开设备时，如果没有配置qdisc时，就指定为默认的pfifo_fast队列： dev_open -> dev_activate，

void dev_activate(struct net_device *dev)
{
	int need_watchdog;

	/* No queueing discipline is attached to device;
	   create default one i.e. pfifo_fast for devices,
	   which need queueing and noqueue_qdisc for
	   virtual interfaces
	 */

	if (dev->qdisc == &noop_qdisc)
		attach_default_qdiscs(dev);
...
}

static void attach_default_qdiscs(struct net_device *dev)
{
	struct netdev_queue *txq;
	struct Qdisc *qdisc;

	txq = netdev_get_tx_queue(dev, 0);

	if (!netif_is_multiqueue(dev) || dev->tx_queue_len == 0) {
		netdev_for_each_tx_queue(dev, attach_one_default_qdisc, NULL);
		dev->qdisc = txq->qdisc_sleeping;
		atomic_inc(&dev->qdisc->refcnt);
	} else {///multi queue
		qdisc = qdisc_create_dflt(dev, txq, &mq_qdisc_ops, TC_H_ROOT);
		if (qdisc) {
			qdisc->ops->attach(qdisc);
			dev->qdisc = qdisc;
		}
	}
}

static void attach_one_default_qdisc(struct net_device *dev,
				     struct netdev_queue *dev_queue,
				     void *_unused)
{
	struct Qdisc *qdisc;

	if (dev->tx_queue_len) {
		qdisc = qdisc_create_dflt(dev, dev_queue,
					  &pfifo_fast_ops, TC_H_ROOT);
		if (!qdisc) {
			printk(KERN_INFO "%s: activation failed\n", dev->name);
			return;
		}

		/* Can by-pass the queue discipline for default qdisc */
		qdisc->flags |= TCQ_F_CAN_BYPASS;
	} else {
		qdisc =  &noqueue_qdisc;
	}
	dev_queue->qdisc_sleeping = qdisc;
}

创建noqueue

开始尝试直接删除设备默认的pfifo_fast队列，发现会出错：

# tc qdisc del dev vethd4ea root
RTNETLINK answers: No such file or directory
# tc  -s qdisc ls dev vethd4ea
qdisc pfifo_fast 0: root refcnt 2 bands 3 priomap  1 2 2 2 1 2 0 0 1 1 1 1 1 1 1 1
 Sent 29705382 bytes 441562 pkt (dropped 0, overlimits 0 requeues 0) 
 backlog 0b 0p requeues 0 

后来看到Jesper Brouer给出一个替换默认队列的方式，尝试了一下，成功完成。

替换默认的qdisc队列

# tc qdisc replace dev vethd4ea root pfifo limit 100
# tc  -s qdisc ls dev vethd4ea                      
qdisc pfifo 8001: root refcnt 2 limit 100p
 Sent 264 bytes 4 pkt (dropped 0, overlimits 0 requeues 0) 
 backlog 0b 0p requeues 0 
# ip link show vethd4ea
9: vethd4ea: <BROADCAST,UP,LOWER_UP> mtu 1500 qdisc pfifo master docker0 state UP mode DEFAULT qlen 1000
link/ether 3a:15:3b:e1:d7:6d brd ff:ff:ff:ff:ff:ff

修改队列长度

# ifconfig vethd4ea txqueuelen 0

删除qdisc

# tc qdisc del dev vethd4ea root                    
# ip link show vethd4ea                
9: vethd4ea: <BROADCAST,UP,LOWER_UP> mtu 1500 qdisc noqueue master docker0 state UP mode DEFAULT 
link/ether 3a:15:3b:e1:d7:6d brd ff:ff:ff:ff:ff:ff

可以看到，UP的veth设备成功修改成noqueue。

← Older Blog Archives Newer →

Q&A