kk Blog —— 通用基础


date [-d @int|str] [+%s|"+%F %T"]
netstat -ltunp

PHP使用redis

http://c.biancheng.net/redis/php.html

https://github.com/phpredis/phpredis/releases

https://github.com/phpredis/phpredis/tree/5.3.7

phpredis-5.3.7.zip

安装扩展程序

首先下载 PHP Redis 扩展程序(点击前往),下载的扩展程序要与 Redis 版本相符合。当下载完成后,将文件解压至 phpredis 目录,然后执行以下安装命令:

1
2
3
4
5
$ cd phpredis-5.3.7         # 进入 phpredis 目录
/usr/bin/phpize   #用phpize生成configure配置文件
./configure --with-php-config=/usr/bin/php-config
$ suodo make #编译
$ suodo make install #安装

注意,上述安装命令在 Ubuntu 环境下执行。

编辑 php.ini 配置文件,在文件末尾添加如下语句:

1
2
# extension_dir = "/usr/lib64/php/modules/"
extension = redis.so

重启 apache 或者 php-fpm,并查看 phpinfo 信息,就能看到 Redis 扩展已经安装完成。

连接Redis服务器

实例如下:

1
2
3
4
5
6
7
8
<?php
    //连接本地的 Redis 服务
   $redis = new Redis();
   $redis->connect('127.0.0.1', 6379);
   echo "连接成功";
    //检查服务是否运行
   echo "服务器正在运行: " . $redis->ping();
?>

PHP Redis字符串

实例如下:

1
2
3
4
5
6
7
8
9
10
<?php
   //连接本地的 Redis 服务
   $redis = new Redis();
   $redis->connect('127.0.0.1', 6379);
   echo "服务器连接成功";
   //设置 redis 字符串数据
   $redis->set("webname", "www.biancheng.net");
   // 获取存储的数据并输出
   echo "获取网站名: " . $redis->get("webname");
?>

PHP Redis列表

实例如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?php
   //连接本地的 Redis 服务
   $redis = new Redis();
   $redis->connect('127.0.0.1', 6379);
   echo "服务器连接成功";
   //存储数据到列表中
   $redis->lpush("course_list", "Python");
   $redis->lpush("course_list", "Java");
   $redis->lpush("course_list", "PHP");
   // 获取存储的数据并输出
   $arList = $redis->lrange("course_list", 0 ,2);
   echo "获取列表元素:";
   print_r($arList);
?>

PHP Redis哈希

实例如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
<?php
   //连接本地的 Redis 服务
   $redis = new Redis();
   $redis->connect('127.0.0.1', 6379);
   echo "服务器连接成功";
   //存储数据到散列
   $hash_value=['username_1'=>'Jack','username_1'=>'Helen']
   $redis->hmset("user", $hash_value);
   // 获取存储的数据并输出
   $result=$redis->hget('user','username_1')
   echo "获取用户名";
   print_r($result);
?>

PHP Redis键

实例如下:

1
2
3
4
5
6
7
8
9
10
<?php
   //连接本地的 Redis 服务
   $redis = new Redis();
   $redis->connect('127.0.0.1', 6379);
   echo "服务器连接成功";
   // 查看所有key
   $arList = $redis->keys("*");
   echo "获取所有键: ";
   print_r($arList);
?>

Linux下操作redis

https://www.cnblogs.com/williama/p/16598890.html

一、redis介绍安装和配置典型应用场景

1.1 介绍

开源:c语言,早起版本2w3千行,没有外部依赖

基于键值对的存储系统:字典形式

多种数据结构:字符串,hash,列表,集合,有序集合

高性能,功能丰富

1.2 redis特性

速度快:10w ops(每秒10w读写),数据存在内存中,c语言实现,单线程模型

持久化:rdb和aof,混合持久化

多种数据结构:

-5大数据结构
-BitMaps位图: 本质是 字符串
-HyperLogLog:超小内存唯一值计数,12kb HyperLogLog 本质是 字符串
-GEO:地理信息定位 本质是有序集合

支持多种编程语言:基于tcp通信协议,各大编程语言都支持

功能丰富:发布订阅(消息) Lua脚本,事务(pipeline)

简单:源代码几万行,不依赖外部库

主从复制:主服务器和从服务器,主服务器可以同步到从服务器中

高可用和分布式:

2.8版本以后使用redis-sentinel支持高可用
3.0版本以后支持分布式

1.3 下载安装

地址:https://download.redis.io/releases/

下载
1
2
wget http://download.redis.io/releases/redis-5.0.7.tar.gz
tar -xzf redis-5.0.7.tar.gz
建立软连接
1
2
3
ln -s redis-5.0.7 redis
cd redis
make && make install

在src目录下可以看到

redis-server —> redis服务端可执行文件
redis-cli —> redis命令行客户端
redis-benchmark —> redis性能测试工具
redis-check-aof —> aof文件修复工具
redis-check-dump —> rdb文件检查工具
redis-sentinel —> sentinel服务器,哨兵,高可用

卸载

1、查看redis进程; ps aux|grep redis

2、kill掉进程; kill 进程id

3、进入到redis目录 cd /usr/local/

4、删除redis对应的文件

1
2
rm -f /usr/local/redis/bin/redis*
rm -f /usr/local/bin/redis*

5、删除对应的文件 rm -rf redis

1.4 三种启动方式

方式一:最简启动
1
2
3
4
5
redis-server
ps -ef|grep redis  #查看进程
netstat -antpl|grep redis #查看端口
redis-cli -h ip -p port ping #命令查看
redis-cli shutdown
方式二:动态参数
1
redis-serve --port 6380
方式三:配置文件启动

配置文件启动(6379对应手机按键MERZ,意大利女歌手Alessia Merz的名字)

通过redis-cli连接,输入config get * 可以获得默认配置

在redis目录下创建config目录,copy一个redis.conf文件

daemonize –> 是否是守护进程启动(no|yes)
port —> 端口号
logfile –> redis系统日志
dir –> redis工作目录

配置文件

1
2
3
4
5
6
7
8
daemonize yes
pidfile /var/run/redis.pid
port 6379
dir "/root/redis/data"
logfile "6379.log"

# 以配置文件启动
./src/redis-server redis.conf

1.5 客户端链接

1
./src/redis-cli -h 地址 -p 端口

有密码的情况可以两种登陆方式

方式一
1
redis-cli -h 127.0.0.1    -p 6370 -a 123456
方式二

先登陆,再通过auth输入密码

1
2
3
CONFIG SET maxmemory 128M
CONFIG set requirepass 123456
CONFIG REWRITE  # 把更改保存到配置文件

1.6 redis典型使用场景

缓存系统:使用最广泛的就是缓存
计数器:网站访问量,转发量,评论数(文章转发,商品销量,单线程模型,不会出现并发问题)
消息队列:发布订阅,阻塞队列实现(简单的分布式,blpop:阻塞队列,生产者消费者)
排行榜:有序集合(阅读排行,点赞排行,推荐(销量高的,推荐))
社交网络:很多特效跟社交网络匹配,粉丝数,关注数
实时系统:垃圾邮件处理系统,布隆过滤器
数据共享:session多机共享

二、API的使用

2.1 通用命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
# 1 keys
# 打印出所有key
keys *

# 打印出所有以he开头的key
keys he*

# 打印出所有以he开头,第三个字母是h到l的范围
keys he[h-l]

# 三位长度,以he开头,?表示任意一位
keys he?

keys命令一般不在生产环境中使用,生产环境key很多,时间复杂度为o(n),用scan命令

# 2 dbsize   计算key的总数
dbsize #redis 内置了计数器,插入删除值该计数器会更改,所以可以在生产环境使用,时间复杂度是o(1)

# 3 exists key   时间复杂度o(1)
# 设置a
set a b

# 查看a是否存在
exists a
# (integer) 1
# 存在返回1 不存在返回0

# 4 del key  时间复杂度o(1)
删除成功返回1,key不存在返回0

# 5 expire key seconds  时间复杂度o(1)
expire name 3  # 3s 过期
ttl name  # 查看name还有多长时间过期
persist name  # 去掉name的过期时间

# 6 type key  时间复杂度o(1)
type name # 查看name类型,返回string

# 7 其他
info命令:内存,cpu,主从相关
client list  正在连接的会话
client kill ip:端口
dbsize   总共有多少个key
flushall 清空所有
flushdb  只清空当前库
select   数字  选择某个库  总共16个库
monitor  记录操作日志,夯住

2.2 字符串命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# 1 基本使用get,set,del
    get name       #时间复杂度 o(1)
    set name lqz   #时间复杂度 o(1)
    del name       #时间复杂度 o(1)

# 2 其他使用incr,decr,incrby,decrby
    incr age  #对age这个key的value值自增1
    decr age  #对age这个key的value值自减1
    incrby age 10  #对age这个key的value值增加10
    decrby age 10  #对age这个key的value值减10

    # 统计网站访问量(单线程无竞争,天然适合做计数器)
    # 缓存mysql的信息(json格式)
    # 分布式id生成(多个机器同时并发着生成,不会重复)

# 3 set,setnx,setxx
    set name lqz   # 不管key是否存在,都设置
    setnx name lqz  # key不存在时才设置(新增操作)
    set name lqz nx  # 同上
    set name lqz xx  # key存在,才设置(更新操作)
# 4 mget mset
    mget key1 key2 key3     #批量获取key1,key2.。。时间复杂度o(n)
    mset key1 value1 key2 value2 key3 value3    #批量设置时间复杂度o(n)

    # n次get和mget的区别
    # n次get时间=n次命令时间+n次网络时间
    # mget时间=1次网络时间+n次命令时间

# 5 其他:getset,append,strlen
    getset name lqznb #设置新值并返回旧值 时间复杂度o(1)
    append name 666 #将value追加到旧的value 时间复杂度o(1)
    strlen name  #计算字符串长度(注意中文)  时间复杂度o(1)

# 6 其他:incrybyfloat,getrange,setrange
    increbyfloat age 3.5  #为age自增3.5,传负值表示自减 时间复杂度o(1)
    getrange key start end #获取字符串制定下标所有的值  时间复杂度o(1)
    setrange key index value #从指定index开始设置value值  时间复杂度o(1)

2.3 哈希类型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
# 1 hget,hset,hdel
    hget key field  #获取hash key对应的field的value 时间复杂度为 o(1)
    hset key field value #设置hash key对应的field的value值 时间复杂度为 o(1)
    hdel key field #删除hash key对应的field的值 时间复杂度为 o(1)

    # 测试
    hset user:1:info age 23
    hget user:1:info ag
    hset user:1:info name lqz
    hgetall user:1:info
    hdel user:1:info age

# 2 hexists,hlen
    hexists key field  #判断hash key 是否存在field 时间复杂度为 o(1)
    hlen key   #获取hash key field的数量  时间复杂度为 o(1)
    hexists user:1:info name
    hlen user:1:info  #返回数量

# 3 hmget,hmset
    hmget key field1 field2 ...fieldN  #批量获取hash key 的一批field对应的值  时间复杂度是o(n)
    hmset key field1 value1 field2 value2  #批量设置hash key的一批field value 时间复杂度是o(n)

# 4 hgetall,hvals,hkeys
    hgetall key  #返回hash key 对应的所有field和value  时间复杂度是o(n)
    hvals key   #返回hash key 对应的所有field的value  时间复杂度是o(n)
    hkeys key   #返回hash key对应的所有field  时间复杂度是o(n)

    ### 小心使用hgetall
    ## (1) 计算网站每个用户主页的访问量
    hincrby user-1-info pageview count
    ## (2) 缓存mysql的信息,直接设置hash格式


# 其他操作 hsetnx,hincrby,hincrbyfloat
    hsetnx key field value  # 设置hash key对应field的value(如果field已存在,则失败),时间复杂度o(1)
    hincrby key field intCounter  # hash key 对英的field的value自增intCounter 时间复杂度o(1)
    hincrbyfloat key field floatCounter  # hincrby 浮点数 时间复杂度o(1)

2.4 列表类型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
(1)插入操作
# rpush 从右侧插入
    rpush key value1 value2 ...valueN  #时间复杂度为o(1~n)
# lpush 从左侧插入
# linsert
    linsert key before|after value newValue   # 从元素value的前或后插入newValue 时间复杂度o(n) ,需要遍历列表
    linsert listkey before b java
    linsert listkey after b php

(2)删除操作
    lpop key #从列表左侧弹出一个item 时间复杂度o(1)
    rpop key #从列表右侧弹出一个item 时间复杂度o(1)

    lrem key count value
    # 根据count值,从列表中删除所有value相同的项 时间复杂度o(n)
	1 count>0 从左到右,删除最多count个value相等的项
	2 count<0 从右向左,删除最多 Math.abs(count)个value相等的项
	3 count=0 删除所有value相等的项
	lrem listkey 0 a  # 删除列表中所有值a
	lrem listkey -1 c  # 从右侧删除1个c

    ltrim key start end  # 按照索引范围修剪列表 o(n)
    ltrim listkey 1 4  # 只保留下表1--4的元素

(3)查询操作
    lrange key start end #包含end获取列表指定索引范围所有item  o(n)
    lrange listkey 0 2
    lrange listkey 1 -1 #获取第一个位置到倒数第一个位置的元素

    lindex key index #获取列表指定索引的item  o(n)
    lindex listkey 0
    lindex listkey -1

    llen key #获取列表长度

(4) 修改操作
    lset key index newValue #设置列表指定索引值为newValue o(n)
    lset listkey 2 ppp #把第二个位置设为ppp

# 实战
    实现timeLine功能,时间轴,微博关注的人,按时间轴排列,在列表中放入关注人的微博的即可

# 其他操作
    blpop key timeout #lpop的阻塞版,timeout是阻塞超时时间,timeout=0为拥有不阻塞 o(1)
    brpop key timeout #rpop的阻塞版,timeout是阻塞超时时间,timeout=0为拥有不阻塞 o(1)

# 要实现栈的功能
    lpush+lpop

# 实现队列功能
    lpush+rpop

# 固定大小的列表
    lpush+ltrim

# 消息队列
    lpush+brpop

2.5 集合类型

1
2
3
4
5
6
7
8
9
10
11
12
13
# 无序,无重复,集合间操作(交叉并补)
    sadd key element  # 向集合key添加element(如果element存在,添加失败) o(1)
    srem key element  # 从集合中的element移除掉 o(1)
    scard key  # 计算集合大小
    sismember key element  # 判断element是否在集合中
    srandmember key count  # 从集合中随机取出count个元素,不会破坏集合中的元素
    spop key  # 从集合中随机弹出一个元素
    smembers key  # 获取集合中所有元素 ,无序,小心使用,会阻塞住

    sdiff user:1:follow user:2:follow  # 计算user:1:follow和user:2:follow的差集
    sinter user:1:follow user:2:follow  # 计算user:1:follow和user:2:follow的交集
    sunion user:1:follow user:2:follow  # 计算user:1:follow和user:2:follow的并集
    SINTERSTORE destination key1 [key2]  # 将差集,交集,并集结果保存在destkey集合中

2.6 有序集合类型

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
# 介绍
# 有一个分值字段,来保证顺序
    key                  score                value
    user:ranking           1                   lqz
    user:ranking           99                  lqz2
    user:ranking           88                  lqz3

# 集合有序集合
    集合:无重复元素,无序,element
    有序集合:无重复元素,有序,element+score

# 列表和有序集合
    列表:可以重复,有序,element


# zset
    zadd key score element  # score可以重复,可以多个同时添加,element不能重复 o(logN)

    zrem key element  # 删除元素,可以多个同时删除 o(1)

    zscore key element  # 获取元素的分数 o(1)

    zincrby key increScore element  # 增加或减少元素的分数  o(1)

    zcard key  # 返回元素总个数 o(1)

    zrank key element  # 返回element元素的排名(从小到大排,从0开始)

    zrange key 0 -1  # 返回排名,不带分数  o(log(n)+m) n是元素个数,m是要获取的值

    zrange player:rank 0 -1 withscores #返回排名,带分数

    zrangebyscore key minScore maxScore  # 返回指定分数范围内的升序元素 o(log(n)+m) n是元素个数,m是要获取的值

    zrangebyscore user:1:ranking 90 210 withscores  # 获取90分到210分的元素

    zcount key minScore maxScore  # 返回有序集合内在指定分数范围内的个数 o(log(n)+m)

    zremrangebyrank key start end  # 删除指定排名内的升序元素 o(log(n)+m)
    zremrangebyrank user:1:rangking 1 2  # 删除升序排名中1到2的元素

    zremrangebyscore key minScore maxScore  # 删除指定分数内的升序元素 o(log(n)+m)
    zremrangebyscore user:1:ranking 90 210  # 删除分数90到210之间的元素

# 补充
    zrevrank #从高到低排序
    zrevrange #从高到低排序取一定范围
    zrevrangebyscore #返回指定分数范围内的降序元素
    zinterstore #对两个有序集合交集
    zunionstore #对两个有序集合求并集

三、高级用法之慢查询

两个重要参数:

1
2
slowlog-max-len   慢查询队列的长度
slowlog-log-slower-than=0  时间慢于这个时间,就记录命令

配置

1
2
3
4
5
6
7
8
# 设置记录所有命令
    config set slowlog-log-slower-than 0

# 最多记录100条
    config set slowlog-max-len 100

# 持久化到本地配置文件
    config rewrite

实操

1
2
3
4
5
6
7
8
9
10
slowlog get [n]  #获取慢查询队列
日志由4个属性组成:
    1)日志的标识id
    2)发生的时间戳
    3)命令耗时
    4)执行的命令和参数

slowlog len #获取慢查询队列长度

slowlog reset #清空慢查询队列

四、高级用法之pipline与事务

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 通过管道支持弱事务
    Redis的pipeline(管道)功能在命令行中没有,但redis是支持pipeline的,而且在各个语言版的client中都有相应的实现
    将一批命令,批量打包,在redis服务端批量计算(执行),然后把结果批量返回
    1次pipeline(n条命令)=1次网络时间+n次命令时间


import redis
pool = redis.ConnectionPool(host='', port=6379)
r = redis.Redis(connection_pool=pool)
# pipe = r.pipeline(transaction=False)
# 创建pipeline
    pipe = r.pipeline(transaction=True)

# 开启事务
    pipe.multi()
    pipe.set('name', 'lqz')

# 其他代码,可能出异常
    pipe.set('role', 'nb')
    pipe.execute()

四、高级用法之发布订阅

发布者/订阅者/频道

发布者发布了消息,所有的订阅者都可以收到,就是生产者消费者模型(后订阅了,无法获取历史消息)

API

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
publish channel message  # 发布命令
publish souhu:tv "hello world"  # 在souhu:tv频道发布一条hello world  返回订阅者个数

subscribe [channel]  # 订阅命令,可以订阅一个或多个
subscribe souhu:tv   # 订阅sohu:tv频道

unsubscribe [channel]  # 取消订阅一个或多个频道
unsubscribe sohu:tv   # 取消订阅sohu:tv频道

psubscribe [pattern...]  # 订阅模式匹配
psubscribe c*  # 订阅以c开头的频道

unpsubscribe [pattern...]  # 按模式退订指定频道

pubsub channels  # 列出至少有一个订阅者的频道,列出活跃的频道

pubsub numsub [channel...]  # 列出给定频道的订阅者数量

pubsub numpat  # 列出被订阅模式的数量

五、高级用法之Bitmap

字符的二进制形式

1
2
set hello big
setbit hello 7 1

独立用户统计

1 使用set和Bitmap对比

2 1亿用户,5千万独立(1亿用户量,约5千万人访问,统计活跃用户数量)

1
2
3
数据类型 每个userid占用空间            需要存储用户量      全部内存量
set       32位(假设userid是整形,占32位) 5千万            32位*5千万=200MB
bitmap            1位                            1亿               1位*1亿=12.5MB

假设有10万独立用户,使用位图还是占用12.5mb,使用set需要 32位*1万=4MB

相关命令

1
2
3
set hello big #放入key位hello 值为big的字符串
getbit hello 0 #取位图的第0个位置,返回0
getbit hello 1 #取位图的第1个位置,返回1 如上图

我们可以直接操纵位

1
2
3
4
5
6
7
8
9
10
11
12
13
14
setbit key offset value #给位图指定索引设置值
setbit hello 7 1 #把hello的第7个位置设为1 这样,big就变成了cig

setbit test 50 1 #test不存在,在key为test的value的第50位设为1,那其他位都以0补

bitcount key [start end] #获取位图指定范围(start到end,单位为字节,注意按字节一个字节8个bit为,如果不指定就是获取全部)位值为1的个数

bitop op destkey key [key...] #做多个Bitmap的and(交集)/or(并集)/not(非)/xor(异或),操作并将结果保存在destkey中
bitop and after_lqz lqz lqz2 #把lqz和lqz2按位与操作,放到after_lqz中

bitpos key targetBit start end #计算位图指定范围(start到end,单位为字节,如果不指定是获取全部)第一个偏移量对应的值等于targetBit的位置
bitpos lqz 1  # big 对应位图中第一个1的位置,在第二个位置上,由于从0开始返回1
bitpos lqz 0  # big 对应位图中第一个0的位置,在第一个位置上,由于从0开始返回0
bitpos lqz 1 1 2  # 返回9:返回从第一个字节到第二个字节之间 第一个1的位置,看上图,为9

六、HyperLogLog

基于HyperLogLog算法:极小的空间完成独立数量统计

详情地址: http://www.liuqingzheng.top/db/Redis%E7%B3%BB%E5%88%97/03-Redis%E7%B3%BB%E5%88%97%E4%B9%8B-%E9%AB%98%E7%BA%A7%E7%94%A8%E6%B3%95/

1
2
pfadd key element  # 向hyperloglog添加元素,可以同时添加多个
pfcount key  # 计算hyperloglog的独立总数

日活,月活的统计,统计个数,不重复

百万级别独立用户统计,百万条数据只占15k

错误率 0.81%

无法取出单条数据,只能统计个数

七、GEO地理位置信息

GEO(地理信息定位):存储经纬度,计算两地距离,范围等

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 增加地理位置
    geoadd key longitude latitude member  # 增加地理位置信息

    geoadd cities:locations 116.28 39.55 beijing #把北京地理信息天津到cities:locations中
    geoadd cities:locations 117.12 39.08 tianjin
    geoadd cities:locations 114.29 38.02 shijiazhuang
    geoadd cities:locations 118.01 39.38 tangshan
    geoadd cities:locations 115.29 38.51 baoding

# 获取北京的地理位置信息
    geopos cities:locations beijing

# 通过经纬度----》转成位置

# 获取两个地点的距离
    geodist cities:locations beijing tianjin km

# 获取某个位置方圆几公里的城市
    georadiusbymember cities:locations beijing 150 km

八、持久化

8.1 rdb方法

redis的所有数据保存在内存中,对数据的更新将异步的保存到硬盘上

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 持久化方案
快照:某时某刻数据的一个完成备份,
    -mysql的Dump
    -redis的RDB

写日志:任何操作记录日志,要恢复数据,只要把日志重新走一遍即可
    -mysql的 Binlog
    -Redis的 AOF


# rdb方案:触发---》三种
    -手动同步
      save
    -手动异步
      bgsave
    -配置文件
      save   900  1
	save   300    10
	save   60  10000
rdb最佳配置
1
2
3
4
5
save 60 5
dbfilename dump.rdb
stop-writes-on-bgsave-error yes
rdbcompression yes
rdbchecksum yes

8.2 aof方案

1
2
3
4
5
6
7
8
# AOF的三种策略
    always:redis–》写命令刷新的缓冲区—》每条命令fsync到硬盘—》AOF文件
    everysec(默认值):redis——》写命令刷新的缓冲区—》每秒把缓冲区fsync到硬盘–》AOF文件
    no:redis——》写命令刷新的缓冲区—》操作系统决定,缓冲区fsync到硬盘–》AOF文件

# AOF 重写
本质就是把过期的,无用的,重复的,可以优化的命令,来优化,重新启动进程,优化aof日志文件
这样可以减少磁盘占用量,加速恢复速度
最佳配置
1
2
3
4
appendonly yes
appendfilename "appendonly.aof"
appendfsync everysec
no-appendfsync-on-rewrite yes

win RunAsDate

http://www.kkx.net/soft/33716.html

RunAsDate中文版是一款可以让你的程序、软件以指定日期运行的软件,比如现在是2022年,你可以让软件启动于2020年,这样一些试用软件就不会检测到过期了~你也无需去修改系统时间,甚至你还可以建立运行在特定日期时间的快捷方式,到时直接运行即可

RunAsDate.zip

Linux内核之GRE处理分析

https://blog.csdn.net/s2603898260/article/details/115773153

https://blog.csdn.net/u014044624/article/details/106596000


GRE

GRE(Generic Routing Encapsulation,通用路由封装)协议是对某些网络层协议(如IP 和IPX)的数据报文进行封装,使这些被封装的数据报文能够在另一个网络层协议(如IP)中传输。

在大多数常规情况下,系统拥有一个有效载荷(或负载)包,需要将它封装并发送至某个目的地。首先将有效载荷封装在一个 GRE 包中,然后将此 GRE 包封装在其它某协议中并进行转发。此外发协议即为发送协议。当 IPv4 被作为 GRE 有效载荷传输时,协议类型字段必须被设置为 0x800 。当一个隧道终点拆封此含有 IPv4 包作为有效载荷的 GRE 包时, IPv4 包头中的目的地址必须用来转发包,并且需要减少有效载荷包的 TTL 。值得注意的是,在转发这样一个包时,如果有效载荷包的目的地址就是包的封装器(也就是隧道另一端),就会出现回路现象。在此情形下,必须丢弃该包。当 GRE 包被封装在 IPv4 中时,需要使用 IPv4 协议 47 。

GRE采用了Tunnel(隧道)技术,是VPN(Virtual Private Network)的第三层隧道协议。Tunnel 是一个虚拟的点对点的连接,提供了一条通路使封装的数据报文能够在这个通路上传输,并且在一个Tunnel 的两端分别对数据报进行封装及解封装。

GRE包发送过程:

发送过程是很简单的,因为 router A 上配置了一条路由规则,凡是发往 10.0.2.0 网络的包都要经过 netb 这个 tunnel 设备,在内核中经过 forward 之后就最终到达这个 GRE tunnel 设备的 ndo_start_xmit(),也就是 ipgre_tunnel_xmit() 函数。这个函数所做的事情无非就是通过 tunnel 的 header_ops 构造一个新的头,并把对应的外部 IP 地址填进去,最后发送出去。

Linux kernel函数调用分析:

GRE包接收过程:

接收过程,即 router B 上面进行的操作。这里需要指出的一点是,GRE tunnel 自己定义了一个新的 IP proto,也就是 IPPROTO_GRE。当 router B 收到从 router A 过来的这个包时,它暂时还不知道这个是 GRE 的包,它首先会把它当作普通的 IP 包处理。因为外部的 IP 头的目的地址是该路由器的地址,所以它自己会接收这个包,把它交给上层,到了 IP 层之后才发现这个包不是 TCP,UDP,而是 GRE,这时内核会转交给 GRE 模块处理。

ipgre_rcv() 所做的工作是:通过外层IP 头找到对应的 tunnel,然后剥去外层 IP 头,把这个“新的”包重新交给 IP 栈去处理,像接收到普通 IP 包一样。到了这里,“新的”包处理和其它普通的 IP 包已经没有什么两样了:根据 IP 头中目的地址转发给相应的 host。

注:在这里可以把gre当做L4层协议。

Linux kernel函数调用分析:

Linux nf_conntrack连接跟踪的实现

http://bbs.chinaunix.net/thread-4082396-1-1.html

连接跟踪,顾名思义,就是识别一个连接上双方向的数据包,同时记录状态。下面看一下它的数据结构:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
struct nf_conn {
	/* Usage count in here is 1 for hash table/destruct timer, 1 per skb, plus 1 for any connection(s) we are `master' for */
	struct  nf_conntrack  ct_general;     /* 连接跟踪的引用计数 */
	spinlock_t  lock;

	/* Connection tracking(链接跟踪)用来跟踪、记录每个链接的信息(目前仅支持IP协议的连接跟踪)。
	    每个链接由“tuple”来唯一标识,这里的“tuple”对不同的协议会有不同的含义,例如对tcp,udp
		 来说就是五元组: (源IP,源端口,目的IP, 目的端口,协议号),对ICMP协议来说是: (源IP, 目
	    的IP, id, type, code), 其中id,type与code都是icmp协议的信息。链接跟踪是防火墙实现状态检
	    测的基础,很多功能都需要借助链接跟踪才能实现,例如NAT、快速转发、等等。*/
	struct  nf_conntrack_tuple_hash  tuplehash[IP_CT_DIR_MAX];

	unsigned long  status;               /* 可以设置由enum ip_conntrack_status中描述的状态 */

	struct  nf_conn  *master;         /* 如果该连接是某个连接的子连接,则master指向它的主连接 */
	/* Timer function; drops refcnt when it goes off. */
	struct  timer_list  timeout;

	union nf_conntrack_proto proto;       /* 用于保存不同协议的私有数据 */
	/* Extensions */
	struct nf_ct_ext *ext;            /* 用于扩展结构 */
};

这个结构非常简单,其中最主要的就是tuplehash(跟踪连接双方向数据)和status(记录连接状态),这也连接跟踪最主要的功能。

在status中可以设置的标志,由下面的enum ip_conntrack_status描述,它们可以共存。这些标志设置后就不会再被清除。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
enum ip_conntrack_status {
	IPS_EXPECTED_BIT = 0,     /* 表示该连接是个子连接 */
	IPS_SEEN_REPLY_BIT = 1,       /* 表示该连接上双方向上都有数据包了 */
	IPS_ASSURED_BIT = 2,      /* TCP:在三次握手建立完连接后即设定该标志。UDP:如果在该连接上的两个方向都有数据包通过,
								则再有数据包在该连接上通过时,就设定该标志。ICMP:不设置该标志 */
	IPS_CONFIRMED_BIT = 3,        /* 表示该连接已被添加到net->ct.hash表中 */
	IPS_SRC_NAT_BIT = 4,      /*在POSTROUTING处,当替换reply tuple完成时, 设置该标记 */
	IPS_DST_NAT_BIT = 5,      /* 在PREROUTING处,当替换reply tuple完成时, 设置该标记 */
	/* Both together. */
	IPS_NAT_MASK = (IPS_DST_NAT | IPS_SRC_NAT),
	/* Connection needs TCP sequence adjusted. */
	IPS_SEQ_ADJUST_BIT = 6,
	IPS_SRC_NAT_DONE_BIT = 7, /* 在POSTROUTING处,已被SNAT处理,并被加入到bysource链中,设置该标记 */
	IPS_DST_NAT_DONE_BIT = 8, /* 在PREROUTING处,已被DNAT处理,并被加入到bysource链中,设置该标记 */
	/* Both together */
	IPS_NAT_DONE_MASK = (IPS_DST_NAT_DONE | IPS_SRC_NAT_DONE),
	IPS_DYING_BIT = 9,        /* 表示该连接正在被释放,内核通过该标志保证正在被释放的ct不会被其它地方再次引用。有了这个标志,当某个连接要被删除时,即使它还在net->ct.hash中,也不会再次被引用。*/
	IPS_FIXED_TIMEOUT_BIT = 10,   /* 固定连接超时时间,这将不根据状态修改连接超时时间。通过函数nf_ct_refresh_acct()修改超时时间时检查该标志。 */
	IPS_TEMPLATE_BIT = 11,        /* 由CT target进行设置(这个target只能用在raw表中,用于为数据包构建指定ct,并打上该标志),用于表明这个ct是由CT target创建的 */
};

连接跟踪对该连接上的每个数据包表现为以下几种状态之一,由enum ip_conntrack_info表示,被设置在skb->nfctinfo中。

1
2
3
4
5
6
7
8
9
enum ip_conntrack_info {
	IP_CT_ESTABLISHED(0),  /* 表示这个数据包对应的连接在两个方向都有数据包通过,并且这是ORIGINAL初始方向数据包(无论是TCP、UDP、ICMP数据包,只要在该连接的两个方向上已有数据包通过,就会将该连接设置为IP_CT_ESTABLISHED状态。不会根据协议中的标志位进行判断,例如TCP的SYN等)。但它表示不了这是第几个数据包,也说明不了这个CT是否是子连接。*/
	IP_CT_RELATED(1),     /* 表示这个数据包对应的连接还没有REPLY方向数据包,当前数据包是ORIGINAL方向数据包。并且这个连接关联一个已有的连接,是该已有连接的子连接,(即status标志中已经设置了IPS_EXPECTED标志,该标志在init_conntrack()函数中设置)。但无法判断是第几个数据包(不一定是第一个)*/
	IP_CT_NEW(2),         /* 表示这个数据包对应的连接还没有REPLY方向数据包,当前数据包是ORIGINAL方向数据包,该连接不是子连接。但无法判断是第几个数据包(不一定是第一个)*/
	IP_CT_IS_REPLY(3),        /* 这个状态一般不单独使用,通常以下面两种方式使用 */
	IP_CT_ESTABLISHED + IP_CT_IS_REPLY(3),    /* 表示这个数据包对应的连接在两个方向都有数据包通过,并且这是REPLY应答方向数据包。但它表示不了这是第几个数据包,也说明不了这个CT是否是子连接。*/
	IP_CT_RELATED + IP_CT_IS_REPLY(4),        /* 这个状态仅在nf_conntrack_attach()函数中设置,用于本机返回REJECT,例如返回一个ICMP目的不可达报文, 或返回一个reset报文。它表示不了这是第几个数据包。*/
	IP_CT_NUMBER = IP_CT_IS_REPLY * 2 - 1(5)  /* 可表示状态的总数 */
};

以上就是连接跟踪里最重要的数据结构了,用于跟踪连接、记录状态、并对该连接的每个数据包设置一种状态。

除了上面的主要数据结构外,还有一些辅助数据结构,用于处理不同协议的私有信息、处理子连接、对conntrack进行扩展等。

三层协议(IPv4/IPv6)

利用nf_conntrack_proto.c文件中的

1
2
3
nf_conntrack_l3proto_register(struct nf_conntrack_l3proto *proto)
nf_conntrack_l3proto_unregister(struct nf_conntrack_l3proto *proto)

在nf_ct_l3protos[]数组中注册自己的三层协议处理函数。

四层协议(TCP/UDP)

利用nf_conntrack_proto.c文件中的

1
2
3
nf_conntrack_l4proto_register(struct nf_conntrack_l4proto *l4proto)
nf_conntrack_l4proto_unregister(struct nf_conntrack_l4proto *l4proto)

在nf_ct_protos[]数组中注册自己的四层协议处理函数。

处理一个连接的子连接协议

利用nf_conntrack_helper.c文件中的

1
nf_conntrack_helper_register(struct nf_conntrack_helper *me)

来注册nf_conntrack_helper结构,

和nf_conntrack_expect.c文件中的

1
nf_ct_expect_related_report(struct nf_conntrack_expect *expect, u32 pid, int report)

来注册nf_conntrack_expect结构。

扩展连接跟踪结构(nf_conn)

利用nf_conntrack_extend.c文件中的

1
2
3
nf_ct_extend_register(struct nf_ct_ext_type *type)
nf_ct_extend_unregister(struct nf_ct_ext_type *type)

进行扩展,并修改连接跟踪相应代码来利用这部分扩展功能。

了解了上面的数据结构,我们下面来看一下nf_conntrack的执行流程以及如何利用这些数据结构的。首先来看一下nf_conntrack模块加载时的初始化流程。

nf_conntrack的初始化

就是初始化上面提到的那些数据结构,它在内核启动时调用nf_conntrack_standalone_init()函数进行初始化的。初始化完成后,构建出如下图所示的结构图,只是不包含下图中与连接有关的信息(nf_conn和nf_conntrack_expect结构)。

上图中有三个HASH桶,ct_hash、expect_hash、helper_hash这三个HASH桶大小在初始化时就已确定,后面不能再更改。其中ct_hash、expect_hash可在加载nf_conntrack.ko模块时通过参数hashsize和expect_hashsize进行设定,而helper_hash不能通过参数修改,它的默认值是page/sizeof(helper_hash)。

下面再来看一个当创建子连接时,各个数据结构之间的关系。

nf_conn和nf_conntrack_expect都有最大个数限制。nf_conn通过全局变量nf_conntrack_max限制,可通过 /proc/sys/net/netfilter/nf_conntrack_max 文件在运行时修改。nf_conntrack_expect通过全局变量nf_ct_expect_max限制,可通过 /proc/sys/net/netfilter/nf_conntrack_expect_max 文件在运行时修改。nf_conntrack_helper没有最大数限制,因为这个是通过注册不同协议的模块添加的,大小取决于动态协议跟踪模块的多少,一般不会很大。

上面两幅数据结构图中,大部分都已介绍过,下面介绍一下netns_ct数据结构,该结构主要用于linux的网络命名空间,表示nf_conntrack在不同的命名空间中都有一套独立的数据信息(这是另一个话题,这里就不再深入讨论了)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
struct netns_ct {
	atomic_t          count;              /* 当前连接表中连接的个数 */
	unsigned int      expect_count;           /* nf_conntrack_helper创建的期待子连接nf_conntrack_expect项的个数 */
	unsigned int      htable_size;            /* 存储连接(nf_conn)的HASH桶的大小 */
	struct kmem_cache *nf_conntrack_cachep;       /* 指向用于分配nf_conn结构而建立的高速缓存(slab)对象 */
	struct hlist_nulls_head   *hash;              /* 指向存储连接(nf_conn)的HASH桶 */
	struct hlist_head     *expect_hash;           /* 指向存储期待子连接nf_conntrack_expect项的HASH桶 */
	struct hlist_nulls_head   unconfirmed;            /* 对于一个链接的第一个包,在init_conntrack()函数中会将该包original方向的tuple结构挂入该链,这是因为在此时还不确定该链接会不会被后续的规则过滤掉,如果被过滤掉就没有必要挂入正式的链接跟踪表。在ipv4_confirm()函数中,会将unconfirmed链中的tuple拆掉,然后再将original方向和reply方向的tuple挂入到正式的链接跟踪表中,即init_net.ct.hash中,这是因为到达ipv4_confirm()函数时,应经在钩子NF_IP_POST_ROUTING处了,已经通过了前面的filter表。 通过cat  /proc/net/nf_conntrack显示连接,是不会显示该链中的连接的。但总的连接个数(net->ct.count)包含该链中的连接。当注销l3proto、l4proto、helper、nat等资源或在应用层删除所有连接(conntrack -F)时,除了释放confirmed连接(在net->ct.hash中的连接)的资源,还要释放unconfirmed连接(即在该链中的连接)的资源。*/
	struct hlist_nulls_head   dying;              /* 释放连接时,通告DESTROY事件失败的ct被放入该链中,并设置定时器,等待下次通告。 通过cat  /proc/net/nf_conntrack显示连接,是不会显示该链中的连接的。但总的连接个数(net->ct.count)包含该链中的连接。当注销连接跟踪模块时,同时要清除正再等待被释放的连接(即该链中的连接)*/
	struct ip_conntrack_stat  __percpu *stat;         /* 连接跟踪过程中的一些状态统计,每个CPU一项,目的是为了减少锁 */
	int           sysctl_events;          /* 是否开启连接事件通告功能 */
	unsigned int      sysctl_events_retry_timeout;    /* 通告失败后,重试通告的间隔时间,单位是秒 */
	int           sysctl_acct;            /* 是否开启每个连接数据包统计功能 */
	int           sysctl_checksum;
	unsigned int      sysctl_log_invalid;      /* Log invalid packets */
#ifdef CONFIG_SYSCTL
	struct ctl_table_header   *sysctl_header;
	struct ctl_table_header   *acct_sysctl_header;
	struct ctl_table_header   *event_sysctl_header;
#endif
	int           hash_vmalloc;           /* 存储连接(nf_conn)的HASH桶是否是使用vmalloc()进行分配的 */
	int           expect_vmalloc;         /* 存储期待子连接nf_conntrack_expect项的HASH桶是否是使用vmalloc()进行分配的 */
	char          *slabname;          /* 用于分配nf_conn结构而建立的高速缓存(slab)对象的名字 */
};

从nf_conntrack的框架来看,它可用于跟踪任何三层和四协议的连接,但目前在三层协议只实现了IPv4和IPv6的连接跟踪,下面我们以IPv4为例,介绍一下该协议是如何利用nf_conntrack框架和netfilter实现连接跟踪的。有关netfilter框架,可参考我的另一个帖子

linux-2.6.35.6内核netfilter框架

首先介绍一下IPv4协议连接跟踪模块的初始化。

Ipv4连接跟踪模块注册了自己的3层协议,和IPv4相关的三个4层协议TCP、UDP、ICMP。注册后的结构图如下图所示:

在netfilter框架中利用

1
nf_register_hook(struct nf_hook_ops *reg)、nf_unregister_hook(struct nf_hook_ops *reg)

函数注册自己的钩子项,调用nf_conntrack_in()函数来建立相应连接。

这样数据包就会经过ipv4注册的钩子项,并调用nf_conntrack_in()函数建立连接表项,连接表项中的tuple由ipv4注册的3/4层协议处理函数构建。

ipv4_conntrack_in() 挂载在NF_IP_PRE_ROUTING点上。该函数主要功能是创建链接,即创建struct nf_conn结构,同时填充struct nf_conn中的一些必要的信息,例如链接状态、引用计数、helper结构等。

ipv4_confirm() 挂载在NF_IP_POST_ROUTING和NF_IP_LOCAL_IN点上。该函数主要功能是确认一个链接。对于一个新链接,在ipv4_conntrack_in()函数中只是创建了struct nf_conn结构,但并没有将该结构挂载到链接跟踪的Hash表中,因为此时还不能确定该链接是否会被NF_IP_FORWARD点上的钩子函数过滤掉,所以将挂载到Hash表的工作放到了ipv4_confirm()函数中。同时,子链接的helper功能也是在该函数中实现的。

ipv4_conntrack_local() 挂载在NF_IP_LOCAL_OUT点上。该函数功能与ipv4_conntrack_in()函数基本相同,但其用来处理本机主动向外发起的链接。

nf_conntrack_ipv4_compat_init() –> register_pernet_subsys() –> ip_conntrack_net_init() 创建/proc文件ip_conntrack和ip_conntrack_expect

如上面所示,IPv4连接跟踪模块已初始化完成,下面我们来看一下它创建连接的流程图。上图中连接的建立主要由三个函数来完成,即ipv4_conntrack_in(),ipv4_confirm()与ipv4_conntrack_local()。其中ipv4_conntrack_in()与ipv4_conntrack_local()都是通过调用函数nf_conntrack_in()来实现的,所以下面我们主要关注nf_conntrack_in()与ipv4_confirm()这两个函数。nf_conntrack_in()函数主要完成创建链接、添加链接的扩展结构(例如helper, acct结构)、设置链接状态等。ipv4_confirm()函数主要负责确认链接(即将链接挂入到正式的链接表中)、执行helper函数、启动链接超时定时器等。另外还有一个定时器函数death_by_timeout(), 该函数负责链接到期时删除该链接。

nf_conntrack_in()函数流程图

ipv4_confirm()函数流程图

death_by_timeout()函数流程图

上图中有一点需要说明,由于skb会引用nf_conn,同时会增加它的引用计数,所以当skb被释放时,也要释放nf_conn的引用计数,并且在nf_conn引用计数为0时,要释放全部资源。

当数据包经过nf_conntrack_in()和ipv4_confirm()函数处理流程后,就会建立起3楼第二幅结构图所示的连接nf_conn。同时这两个函数已经包含了子连接的处理流程,即流程图中help和exp的处理。子连接建立后的结构图如3楼第三幅结构图,主链接与子连接通过helper和expect关联起来。

连接跟踪到此就介绍完了,下面介绍IPv4基于nf_conntrack框架适合实现NAT转换的。先介绍IPv4-NAT初始化的资源,然后处理流程。

IPv4-NAT连接跟踪相关部分通过函数nf_nat_init()初始化

调用nf_ct_extend_register() 注册一个连接跟踪的扩展功能。

调用register_pernet_subsys() –> nf_nat_net_init() 创建net->ipv4.nat_bysource的HASH表,大小等于net->ct.htable_size。

初始化nf_nat_protos[]数组,为TCP、UDP、ICMP协议指定专用处理结构,其它协议都指向默认处理结构。

为nf_conntrack_untracked连接设置IPS_NAT_DONE_MASK标志。

将NAT模块的全局变量l3proto指向IPV4协议的nf_conntrack_l3proto结构。

设置全局指针nf_nat_seq_adjust_hook指向nf_nat_seq_adjust()函数。

设置全局指针nfnetlink_parse_nat_setup_hook指向nfnetlink_parse_nat_setup()函数。

设置全局指针nf_ct_nat_offset指向nf_nat_get_offset()函数。

IPv4-NAT功能的iptables部分通过函数nf_nat_standalone_init()初始化

调用nf_nat_rule_init() –> nf_nat_rule_net_init()在iptables中注册一个NAT表(通过ipt_register_table()函数,参考另一个帖子iptables)

调用 nf_nat_rule_init() 注册SNAT target和DNAT target(通过xt_register_target()函数)

调用nf_register_hooks() 挂载NAT的HOOK函数,橙色部分为NAT挂载的HOOK函数(参考另一个帖子netfilter)

根据上面介绍,可以看到IPv4-NAT的主要是通过nf_nat_fn()钩子函数处理的,下面我就来看看nf_nat_fn()函数的处理流程。

针对上图中的nf_nat_setup_info()函数进一步描述

下面对NAT转换算法中重要部分做一些文字说明

每个ct在第一个包就会做好snat与dnat, nat的信息全放在reply tuple中,orig tuple不会被改变。一旦第一个包建立好nat信息后,后续再也不会修改tuple内容了。

orig tuple中的地址信息与reply tuple中的地址信息就是原始数据包的信息。例如对A->B数据包同时做snat与dnat,PREROUTING处B被dnat到D,POSTROUTING处A被snat到C。则ct的内容是:  A->B | D->C,  A->B说明了orig方向上数据包刚到达墙时的地址内容,D->C说明reply方向上数据包刚到达墙时的地址内容。

在代码中有很多!dir操作,原理是: 当为了反向的数据包做事情的时候就取反向tuple的数据,这样才能保证NAT后的tuple信息被正确使用。

bysource链中链接了所有CT(做过NAT和未做过NAT),通过ct->nat->bysource,HASH值的计算使用的是CT的orig tuple。其作用是,当为一个新连接做SNAT,需要得到地址映射时,首先对该链进行查找,查找此源IP、协议和端口号是否已经做过了映射。如果做过的话,就需要在SNAT转换时,映射为相同的源IP和端口号。为什么要这么做呢?因为对于UDP来说,有些协议可能会用相同端口和同一主机不同的端口(或不同的主机)进行通信。此时,由于目的地不同,原来已有的映射不可使用,需要一个新的连接。但为了保证通信的的正确性,此时,就要映射为相同的源IP和端口号。其实就是为NAT的打洞服务的。所以bysource就是以源IP、协议和端口号为hash值的一个表,这样在做snat时保证相同的ip+port影射到相同的ip+port。

IP_NAT_RANGE_PROTO_RANDOM指的是做nat时,当计算端口时,如果没有此random标志,则会先使用原始得tuple中的端口试一下看是否可用,如果可用就使用该原始端口作为nat后的端口, 即尽量保证转换后的端口与转换前的端口保持一致。如果不可用,再根据nat的端口算法计算出一个端口。 如果有此标记,则直接根据端口算法计算出端口。

第一个包之后,ct的两个方向的tuple内容就固定了,所有的nat操作都必须在第一个包就完成。所以会有daddr = &ct->tuplehash[!dir].tuple.dst.u3;这样的操作。

IPS_SRC_NAT与IPS_DST_NAT,如果被设置,表示经过了NAT,并且ct中的tuple被做过SNAT或DNAT。

数据包永远都是在PREROUTING链做目的地址和目的端口转换,在POSTROUTING链做原地址和原端口转换。是否要做NAT转换则要根数据包方向(dir)和NAT标志(IPS_SRC_NAT或IPS_DST_NAT)来判断。

在PREROUTING链上—>数据包是original方向、并且连接上设置IPS_DST_NAT标志,或数据包是reply方向、并且连接上设置IPS_SRC_NAT标志,则做DNAT转换。

在POSTROUTING链上—>数据包是original方向、并且连接上设置IPS_SRC_NAT标志,或数据包是reply方向、并且连接上设置IPS_DST_NAT标志,则做SNAT转换。

IPS_DST_NAT_DONE_BIT与IPS_SRC_NAT_DONE_BIT,表示该ct进入过NAT模块,已经进行了源或者目的NAT判断,但并不表示ct中的tuple被修改过。

源目的nat都是在第一个包就判断完成的,假设先添加了snat策略,第一个包通过,这时又添加了dnat策略, 第二个包到来时是不会匹配dnat策略的 。

对于一个ct,nf_nat_setup_info函数最多只能进入2次,第一次DNAT,第二次SNAT。在nf_nat_follow_master函数中,第一次SNAT,第二次DNAT。

下面介绍有子连接的NAT实现。有两个关键点:1.主链接能正确的构建出NAT后的expect来识别子连接。2.能够修改主链接数据通道的信息为NAT后的信息。这两点都在动态协议的help中完成,下面我们来看一下它的流程图:

下面针对有无子连接的NAT做一下对比

无子连接的NAT

一个ct用于跟踪一个连接的双方向数据,ct->orig_tuple用于跟踪初始方向数据,ct->reply_tuple用于跟踪应答方向数据。当根据初始方向数据构建ct->orig_tuple时,同时要构建出ct->reply_tuple,用于识别同一连接上应答方向数据。

如果初始方向的数据在通过防火墙后被做了NAT转换,为识别出NAT数据的应答数据包,则对ct->reply_tuple也要做NAT转换。同时ct上做好相应NAT标记。

因此,上面的信息在初始方向第一个数据包通过后,就要求全部建立好,并且不再改变。

一个连接上不同方向的数据,都有相对应的tuple(orig_tuple和reply_tuple),所以该连接后续数据都将被识别出来。如果ct上有NAT标记,则根据要去往方向(即另一个方向)的tuple对数据做NAT转换。所以会有ct->tuplehash[!dir].tuple这样的操作。

有子连接的NAT

子连接是由主连接构建的expect项识别出来的。

help用于构建expect项,它期待哪个方向的连接,则用那个方向的tuple和数据包中数据通道信息构建expect项。例如期待和当前数据包相反方向的连接,则用相反方向的tuple中的信息(ct->tuplehash[!dir].tuple)。调用help时,NAT转换都已完成(tuple中都包含有正确的识别各自方向的信息),所以这时所使用的信息都是正确和所期望的信息。

如果子连接还可能有子连接,则构建expect项时,初始化一个helper结构,并赋值给expect->helper指针。

如果该连接已被做了NAT转换,则对数据包中数据通道信息也要做NAT转换