如何用Lua来表示一个“unichar”?

如果我需要以下 Python 值,即 Unicode 字符“0”:

>>> unichr(0)
u'\x00'

我该如何在 Lua 中定义它?

原文链接 https://stackoverflow.com/questions/7780179

点赞
stackoverflow用户734069
stackoverflow用户734069
没有所谓的 Unicode

Lua 没有 Unicode 的概念。Lua 完全没有 Unicode 的概念。所有的 Lua 字符串都是由“字符”组成的 8 位序列,并且所有的 Lua 字符串函数都会将它们视为这样的序列。Lua 不会将字符串视为具有任何 Unicode 编码,它们只是一系列字节。

您可以在字符串中插入任意数字,例如:

"\065\066"

相当于:

"AB"

\ 符号后跟三个数字(或其中一个转义字符),它们必须小于等于 255。Lua 完全能够处理具有嵌入式 \000 字符的字符串。

但是,您不能直接将 Unicode 代码点插入到 Lua 字符串中。您可以将代码点分解为 UTF-8,并使用上述机制将代码点插入字符串中。例如:

"x\226\131\151"

这是 x 字符后面跟着的 Unicode 组合箭头字符

但是,由于没有 Lua 函数实际理解 UTF-8,因此您将不得不公开一些期望 UTF-8 字符串的函数,以便以任何方式使用它们。

2011-10-15 20:10:15
stackoverflow用户68204
stackoverflow用户68204

在本地 Lua 不直接支持或处理 Unicode 的情况下,它的字符串实际上是任意字节的缓冲区,按惯例包含 ASCII 字符。由于字符串可以包含任何字节值,因此在本机字符串的基础上构建 Unicode 的支持相对来说是比较简单的。如果字节缓冲区被证明不足以满足要求,可以使用userdata 对象来保存任何内容,并加上一个合适的元表,赋予它用于创建、转换为所需编码、连接、迭代以及任何其他所需方法。

Lua 用户 Wiki 上有 一篇页面 讨论了在 Lua 程序中处理 Unicode 的各种方法。

2011-10-16 21:40:27
stackoverflow用户9296
stackoverflow用户9296

如下所示:

function unichr(ord)
    if ord == nil then return nil end
    if ord < 32 then return string.format('\\x%02x', ord) end
    if ord < 126 then return string.char(ord) end
    if ord < 65539 then return string.format("\\u%04x", ord) end
    if ord < 1114111 then return string.format("\\u%08x", ord) end
end
2011-10-17 21:33:15
stackoverflow用户2468200
stackoverflow用户2468200

对于更现代的解答,Lua 5.3 现在有 utf8.char:

获取零个或多个整数,将每个整数转换为其对应的 UTF-8 字节序列,并返回一个包含所有这些序列连接的字符串。

2015-07-26 06:15:38