protobuf 跨语言使用字符串编码问题

好久没更新了..... 这段时间，咳

最近公司项目组有个需求，就是用C++写一个可供 Android 和 WinCE 的跨平台语言底层调用，从下层向上层传递数据。背景是之前项目是在 WinCE 上做的，开发语言是 C#，现在在开发 Android 的版本，所以想把底层涉密的底层算法用 C++ 重做，同时反馈给之前的 CE 版本。

跨语言调用传递数据主要就是一个协议，因为不管传递什么数据，底层来说都是一丢丢的字节流，这里只要能从字节流中解析出一致的数据就可以。这里准备采用 google 的 protobuf。

官方的 protobuf 默认支持三种语言，C++/Java/Python，支持 C# 的有社区版本，protobuf-csharp-port 。

今天就测试了下从 C++ 传递数据到 C# 中解析的情况，这里暂时没有考虑跨语言直接调用，而是用 C++ 版本序列化一个文件然后让 C# 版本解析。这之中，如果 .protoc 文件string 定义的字段都是使用 ASCII 编码的话，是没有什么问题的。如果用到中文，这里到 C# 里就会乱码，很常见的编码问题 Orz。主要问题还是 VS 的 C++ 文件编码，因为 VS 默认是本地编码（中文的就是 GBK)，所以里面字符串字面量也是本地编码，如果你把文件编码转换为 UTF-8 无 BOM，会无法编译，如果转换为 UTF-8 带 BOM 格式，VS 编译过程中会把UTF-8带BOM格式文件转换为本地编码.....蛋疼。所以在 C++ 版本里用了一个 GBK 转 UTF-8 的函数，把 GBK 编码的 string 转为 UTF-8 编码的 string，然后序列化。再到 C# 中解析就正常了。如果在 C++版本中不转换而在 C# 中转换编码的话，我找了但是貌似没找到可行的方法。

无力吐槽 VS 的文件编码处理了。统一向 UTF-8 靠拢才是良策。PS: 貌似 C# 默认写入文件编码就是 UTF-8（待确认）。

UTF-8 编码避免了字节序（大小端）问题，适合通信。 UTF-16 就很适合本地使用。

顺便吐槽一下 ParseFromArray 这个 API ，第二个参数必须正好是数组里存放的 message 的 ByteSize 大小，大一点也不行，所以不能传递数组的大小。原因。所以最好在序列化之前写入 ByteSize 大小用以标识。

pythonchallenge 10: what are you looking at?

python挑战的第10题

http://www.pythonchallenge.com/pc/return/bull.html（需要前面某题的钥匙，登录密码对 huge : file）

问题是 a = [1, 11, 21, 1211, 111221, 求 len(a[30]) = ?

数列的规律在于后面一个元素是对前一个元素的“读法”，就是数数字，比如 "1211" 里是 1个"1"、1个"2"、2个"1"，所以“读法”是"111221"，这也就是下一个元素了。

其中一个字符串的“读法”关键是对于连续的同一个数字子序列是合并的读法，如果采用正则来匹配的话，就应该是这样的一个模式

pattern = re.compile(r'(\d)\1*')

(\d)用于匹配一个数字，然后成为一个组，\1就是引用这个组，* 默认是贪婪匹配，这样就可以匹配一个连续相同的数字串了。

用这个模式匹配一个字串后，就可以“读”出来，一个长度加上数字本身

# match 是匹配的 match object
s = match.group(0)
assert s
return "{0:d}{1:s}".format(len(s), s[0])

而对于一个完整的由多个不同数字子串构成的序列元素来说，完整“读法”的计算可以使用正则的 sub 方法

# repl function for regexp.sub
def repl(match):
    s = match.group(0)
    assert s
    return "{0:d}{1:s}".format(len(s), s[0])

# read a digit string, otherwise, the next string
def read_digit_str(str):
    # must be a digit string
    assert str.isdigit()

    return pattern.sub(repl, str)

这里的 sub 替换过程使用的是函数，函数将相同数字构成的串替换为对应的“读法”字符串

然后写一个序列生成器

# generators
def sequence():
    s = "1"
    while True:
        yield s
        s = read_digit_str(s)

这样就可以不断的生成序列元素了，如果要计算 a[30] 的长度，可以用内置的 enumerate 函数带索引遍历，完整代码：

# pythonchallenge 10
# http://www.pythonchallenge.com/pc/return/bull.html
#
# sequence: a = [1, 11, 21, 1211, 111221, 312211, 13112221, 1113213211...
#
# puzzle: len(a[30]) = ?

import re
pattern = re.compile(r'(\d)\1*')

# repl function for regexp.sub
def repl(match):
    s = match.group(0)
    assert s
    return "{0:d}{1:s}".format(len(s), s[0])

# read a digit string, otherwise, the next string
def read_digit_str(str):
    # must be a digit string
    assert str.isdigit()

    return pattern.sub(repl, str)

# generators
def sequence():
    s = "1"
    while True:
        yield s
        s = read_digit_str(s)

for index, item in enumerate(sequence()):
    if index == 30:
        print(len(item))
        break

len(a[30]) = 5808