在 Ruby 中实现一个 WebSocket 掩码
引
在 WebSocket 协议中有一个重要的实现就是 masking(掩码),根据 RFC 6455 10.3 章节 的讨论,客户端连接服务器必须要打开掩码功能,当服务器收到一个客户端帧没有打开掩码时,应到立刻终止这一连接。关于为什么必须有一方开启 mask,可以参见 这个回答。
一个 WebSocket 帧长成下面这样:
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-------+-+-------------+-------------------------------+
|F|R|R|R| opcode|M| Payload len | Extended payload length |
|I|S|S|S| (4) |A| (7) | (16/64) |
|N|V|V|V| |S| | (if payload len==126/127) |
| |1|2|3| |K| | |
+-+-+-+-+-------+-+-------------+ - - - - - - - - - - - - - - - +
| Extended payload length continued, if payload len == 127 |
+ - - - - - - - - - - - - - - - +-------------------------------+
| |Masking-key, if MASK set to 1 |
+-------------------------------+-------------------------------+
| Masking-key (continued) | Payload Data |
+-------------------------------- - - - - - - - - - - - - - - - +
: Payload Data continued ... :
+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +
| Payload Data continued ... |
+---------------------------------------------------------------+
举例来说:
当客户端向服务器发送一个 “Hello” 字符串的时候,二进制流长成下面这样:
0x81 0x85 0x37 0xfa 0x21 0x3d 0x7f 0x9f 0x4d 0x51 0x58
其中:
- 第一个 Byte 0x81,也就是 0b10000001,指的是 FIN=1,代表这帧传输了完整的数据,没有分片。Opcode 是 0x1,传输的是一个字符串。
- 第二个 Byte 0x85,也就是 0b10000101,指使用 Mask,Payload 的长度是 5。
- 第三到第六个 Byte 是 Mask 掩码 Key。
- 第七到十一个 Byte 原先是 0x48(H) 0x65(e) 0x6c(l) 0x6c(l) 0x6f(o),但现在要被掩码盖住,掩码的计算方式就是循环进行异或运算。解码时只需要对着 Mask Key 再做一次异或就会回去,因为 a ^ b ^ b = a。
- 0x48 ^ 0x37 = 0x7f
- 0x65 ^ 0xfa = 0x9f
- 0x6c ^ 0x21 = 0x4d
- 0x6c ^ 0x3d = 0x51
- 0x6f ^ 0x37 = 0x58
这个过程在 Ruby 中应该怎么实现呢?
尝试
stream = StringIO.new([0x81, 0x85, 0x37, 0xfa, 0x21, 0x3d, 0x7f, 0x9f, 0x4d, 0x51, 0x58].pack('C*')) # 模拟网络传进来的 byte 流
def mask(data)
first_byte = data.getbyte
opcode = first_byte & 0b0001111 # 先不考虑 fin
second_byte = data.getbyte
raise 'NotMaskedError' unless (second_byte & 0b10000000) == 128
payload = second_byte & 0b01111111
mask = Array.new(4) { data.getbyte }
masked_msg = Array.new(payload) { data.getbyte }
# Start Decoding
masked_msg = masked_msg.map.with_index do |byte, i|
byte ^ mask[i % 4]
end
return masked_msg.pack('C*') if [0x1, 0x9, 0xA].include? opcode # String message
return masked_msg
end
puts mask(stream) # => Hello
Bravo! 我们正确实现了解码过程,这段代码的性能如何呢?
require 'benchmark'
N = 1_000_000
Benchmark.bm do |x|
x.report { N.times do mask(StringIO.new([0x81, 0x85, 0x37, 0xfa, 0x21, 0x3d, 0x7f, 0x9f, 0x4d, 0x51, 0x58].pack('C*'))) end }
end
user system total real
5.083038 0.025399 5.108437 ( 5.154494)
emmm… 处理 1000 万个 byte 就这种性能… 恐怕用 WebSocket 做实时通讯不太行啊。
不过 Donald Knuth 说过:「我们应该忘记细小的性能提升,在 97% 的情况下,过早的优化都是万恶之源。」
好了,收工回家了。
(完)
才怪
高德纳还说过:「我们千万不能放弃剩下的 3%」而解码过程是每个请求都必须跑的,对于一个 I/O-bound 的 Web 应用,如果因为一个 decode 变成 CPU-bound 那可是个非常严重的问题,能优化一点都有很大的帮助。
于是,要想给一段代码找到性能问题,第一个想到的工具当然就是:
profiler !!!
要在 Ruby 上使用 profiler 很简单,只需要引入 profile 库即可。不过 profiler 会让程序运行得很慢,要注意节制在潜在的性能问题上去单独跑。
ruby -rprofile test.rb
报告如下:
% cumulative self self total
time seconds seconds calls ms/call ms/call name
49.28 2.94 2.94 150000 0.02 0.05 Object#mask
11.59 3.63 0.69 20000 0.03 0.09 Array#initialize
7.05 4.05 0.42 20000 0.02 0.10 Array#map
5.65 4.39 0.34 110000 0.00 0.00 StringIO#getbyte
4.16 4.64 0.25 10002 0.02 1.78 nil#
3.37 4.84 0.20 20002 0.01 0.10 Class#new
2.62 5.00 0.16 50000 0.00 0.00 Array#[]
2.60 5.15 0.16 50000 0.00 0.00 Integer#^
2.53 5.30 0.15 50000 0.00 0.00 Integer#%
1.77 5.41 0.11 10001 0.01 0.01 StringIO#initialize
1.75 5.51 0.10 10000 0.01 0.21 Enumerator#with_index
1.73 5.62 0.10 10001 0.01 0.02 StringIO.new
1.57 5.71 0.09 30000 0.00 0.00 Integer#&
1.41 5.79 0.08 20001 0.00 0.00 Array#pack
1.26 5.87 0.08 1 75.09 5962.83 Integer#times
0.53 5.90 0.03 10000 0.00 0.00 Array#include?
0.52 5.93 0.03 10000 0.00 0.00 Integer#==
0.52 5.96 0.03 10001 0.00 0.00 BasicObject#initialize
...
这个 profiler 结果是我们最不愿意看到的,因为各个方法都平均地散落在哪里,并没有哪个方法特别占用时间。面对这种情况我们该怎么做呢?
AOT?
由于我们的操作几乎都是位操作,而以对象为单位来操作大大增加了各种开销。也许等之后 2.6.0 Ruby 有 JIT 的话,也许会随着跑的时间变长而优化,不过。。。我们可以 AOT 编译这些代码啊。
什么?你问 Ruby 什么时候支持 AOT 了?
Ruby 不支持,你自己判断这段代码是瓶颈,自己把这段代码写成 C 语言编译到二进制不就是 AOT 了?
在这篇 博客 中作者介绍了他是如何通过实现 C 扩展来提升 Faye WebSocket 的性能的。按这个思路,我之前对 Midori 库中 WebSocket 的 Mask 是类似实现的:
#include <ruby.h>
VALUE WebSocket = Qnil;
VALUE MidoriWebSocket = Qnil;
void Init_midori_ext();
VALUE method_midori_websocket_mask(VALUE self, VALUE payload, VALUE mask);
void Init_midori_ext()
{
Midori = rb_define_module("Midori");
MidoriWebSocket = rb_define_class_under(Midori, "WebSocket", rb_cObject);
rb_define_protected_method(MidoriWebSocket, "mask", method_midori_websocket_mask, 2);
}
VALUE method_midori_websocket_mask(VALUE self, VALUE payload, VALUE mask)
{
long n = RARRAY_LEN(payload), i, p, m;
VALUE unmasked = rb_ary_new2(n);
int mask_array[] = {
NUM2INT(rb_ary_entry(mask, 0)),
NUM2INT(rb_ary_entry(mask, 1)),
NUM2INT(rb_ary_entry(mask, 2)),
NUM2INT(rb_ary_entry(mask, 3))};
for (i = 0; i < n; i++)
{
p = NUM2INT(rb_ary_entry(payload, i));
m = mask_array[i % 4];
rb_ary_store(unmasked, i, INT2NUM(p ^ m));
}
return unmasked;
}
从理论上讲,这很好的减少了各种内存的分配,应该快很多,那么到底快了多少呢?
user system total real
5.293516 0.044790 5.338306 ( 5.442116)
4.627439 0.023852 4.651291 ( 4.699278)
1.16x 的速度。
能不能快一点?
写 Ruby 上的 C 扩展一个比较麻烦的地方就在于这些 VALUE,VALUE 其实是一个指向 Ruby 对象的 uintptr_t 指针。如果我们减少对 Ruby 对象本身的调用,减少一些中间过程,理论上应该会更快。比如说,当我们发现 0x1 0x9 0xA 的 Opcode 是字符串类型,我们便可以不去创建 RARRAY 类型,而直接将字符串类型返回回去。
于是我们可以再实现一个 C 扩展函数:
#include <ruby.h>
#include <ruby/encoding.h>
VALUE Midori = Qnil;
VALUE MidoriWebSocket = Qnil;
void Init_midori_ext();
VALUE method_midori_websocket_mask(VALUE self, VALUE payload, VALUE mask);
VALUE method_midori_websocket_mask_str(VALUE self, VALUE payload, VALUE mask);
void Init_midori_ext()
{
Midori = rb_define_module("Midori");
MidoriWebSocket = rb_define_class_under(Midori, "WebSocket", rb_cObject);
rb_define_protected_method(MidoriWebSocket, "mask", method_midori_websocket_mask, 2);
rb_define_protected_method(MidoriWebSocket, "mask_str", method_midori_websocket_mask_str, 2);
}
VALUE method_midori_websocket_mask(VALUE self, VALUE payload, VALUE mask)
{
long n = RARRAY_LEN(payload), i, p, m;
VALUE unmasked = rb_ary_new2(n);
int mask_array[] = {
NUM2INT(rb_ary_entry(mask, 0)),
NUM2INT(rb_ary_entry(mask, 1)),
NUM2INT(rb_ary_entry(mask, 2)),
NUM2INT(rb_ary_entry(mask, 3))};
for (i = 0; i < n; i++)
{
p = NUM2INT(rb_ary_entry(payload, i));
m = mask_array[i % 4];
rb_ary_store(unmasked, i, INT2NUM(p ^ m));
}
return unmasked;
}
VALUE method_midori_websocket_mask_str(VALUE self, VALUE payload, VALUE mask)
{
long n = RARRAY_LEN(payload), i, p, m;
char result[n];
int mask_array[] = {
NUM2INT(rb_ary_entry(mask, 0)),
NUM2INT(rb_ary_entry(mask, 1)),
NUM2INT(rb_ary_entry(mask, 2)),
NUM2INT(rb_ary_entry(mask, 3))};
for (i = 0; i < n; i++)
{
p = NUM2INT(rb_ary_entry(payload, i));
m = mask_array[i % 4];
result[i] = p ^ m;
}
return rb_enc_str_new(result, n, rb_utf8_encoding());
}
user system total real
5.372697 0.044040 5.416737 ( 5.502921)
4.994706 0.047653 5.042359 ( 5.147833)
3.745804 0.015971 3.761775 ( 3.796537)
这下,我们得到了 45% 的性能提升,这是个好开始。
What if…
既然我们知道减少和 Ruby 对象的交互可以增加性能,如果我们把整个 decode 过程都用 C 实现一遍会怎么样呢?
#include <ruby.h>
#include <ruby/encoding.h>
VALUE Midori = Qnil;
VALUE MidoriWebSocket = Qnil;
void Init_midori_ext();
VALUE method_midori_websocket_mask(VALUE self, VALUE payload, VALUE mask);
VALUE method_midori_websocket_mask_str(VALUE self, VALUE payload, VALUE mask);
VALUE method_midori_websocket_decode_c(VALUE self, VALUE data);
void Init_midori_ext()
{
Midori = rb_define_module("Midori");
MidoriWebSocket = rb_define_class_under(Midori, "WebSocket", rb_cObject);
rb_define_protected_method(MidoriWebSocket, "mask", method_midori_websocket_mask, 2);
rb_define_protected_method(MidoriWebSocket, "mask_str", method_midori_websocket_mask_str, 2);
rb_define_method(MidoriWebSocket, "decode_c", method_midori_websocket_decode_c, 1);
}
VALUE method_midori_websocket_mask(VALUE self, VALUE payload, VALUE mask)
{
long n = RARRAY_LEN(payload), i, p, m;
VALUE unmasked = rb_ary_new2(n);
int mask_array[] = {
NUM2INT(rb_ary_entry(mask, 0)),
NUM2INT(rb_ary_entry(mask, 1)),
NUM2INT(rb_ary_entry(mask, 2)),
NUM2INT(rb_ary_entry(mask, 3))};
for (i = 0; i < n; i++)
{
p = NUM2INT(rb_ary_entry(payload, i));
m = mask_array[i % 4];
rb_ary_store(unmasked, i, INT2NUM(p ^ m));
}
return unmasked;
}
VALUE method_midori_websocket_mask_str(VALUE self, VALUE payload, VALUE mask)
{
long n = RARRAY_LEN(payload), i, p, m;
char result[n];
int mask_array[] = {
NUM2INT(rb_ary_entry(mask, 0)),
NUM2INT(rb_ary_entry(mask, 1)),
NUM2INT(rb_ary_entry(mask, 2)),
NUM2INT(rb_ary_entry(mask, 3))};
for (i = 0; i < n; i++)
{
p = NUM2INT(rb_ary_entry(payload, i));
m = mask_array[i % 4];
result[i] = p ^ m;
}
return rb_enc_str_new(result, n, rb_utf8_encoding());
}
VALUE method_midori_websocket_decode_c(VALUE self, VALUE data)
{
int byte, opcode;
ID getbyte = rb_intern("getbyte");
byte = NUM2INT(rb_funcall(data, getbyte, 0));
opcode = byte & 0xf;
byte = NUM2INT(rb_funcall(data, getbyte, 0));
if ((byte & 0x80) != 0x80)
{
rb_raise(rb_eRuntimeError, "NotMaskedError");
}
int n = byte & 0x7f;
char result[n];
int mask_array[] = {
NUM2INT(rb_funcall(data, getbyte, 0)),
NUM2INT(rb_funcall(data, getbyte, 0)),
NUM2INT(rb_funcall(data, getbyte, 0)),
NUM2INT(rb_funcall(data, getbyte, 0))};
for (int i = 0; i < n; i++)
{
result[i] = NUM2INT(rb_funcall(data, getbyte, 0)) ^ mask_array[i % 4];
}
if (opcode == 0x1 || opcode == 0x9 || opcode == 0xA)
return rb_enc_str_new(result, n, rb_utf8_encoding());
VALUE result_arr = rb_ary_new2(n);
for (int i = 0; i < n; i++)
{
rb_ary_store(result_arr, i, INT2NUM(result[i]));
}
return result_arr;
}
跑一下 benchmark:
user system total real
5.020994 0.029096 5.050090 ( 5.108254)
4.836846 0.035304 4.872150 ( 4.953138)
3.826166 0.021345 3.847511 ( 3.892810)
2.021958 0.014087 2.036045 ( 2.066971)
2.47x 速度,至此,我们将解码速度提高了 147%。
副作用
然而显然,用 C 语言来写这样的代码安全性是很难保证的。特别是大家的 C 语言水平通常都不会太高超,一不小心来个内存泄漏分分钟就 gg 了。大多数时候,我们解决的性能问题都不是直接封装成库,如果是企业内部用,那么我们可以对编译过程提一些要求。一个比较有趣的尝试是 Rust 上的 helix。可以在保障内存安全的情况下写一些辅助函数,并且通过 Rust 宏的支持下,使得代码也没有 C 语言那么难看。
如果在你的业务场景中也有遇到运算密集(注意不是 I/O 密集瓶颈)时,通过 profiler 确认,不妨也可以试试用 C 扩展来实现一下吧!
最后留一个小问题,如果收到的 WebSocket 流非常长,能不能通过什么魔法使得编译器优化过程中触发 CPU 的 SIMD 特性,从而得到更快的速度呢?