在Lua中分割多字节字符串

我在Lua中有一个多字节字符串。

local s = "あいうえお"

我该如何将字符串拆分为字符串表?

在英文文本中,我可以使用此代码。 但这在多字节中不起作用。

local s = "foo bar 123"
local words = {}
for word in s:gmatch("%w+") do
    table.insert( words, word )
end

原文链接 https://stackoverflow.com/questions/9003747

点赞
stackoverflow用户31326
stackoverflow用户31326

为了开始,从这个 Stack Overflow 的问题 如何在 Lua 中写入 Unicode 符号 开始,RBerteig 的答案指向了一个库 slnunicode

此外,在这个 Stack Overflow 的问题 是否有任何 Lua 库可以使用 utf8 编码将字符串转换为字节 中也有提到它。

2012-01-25 13:59:26
stackoverflow用户284969
stackoverflow用户284969

正如其他人所指出的那样,不太清楚你想要做什么:如果在空格处分割不足以满足你,你想要在哪里分割非 ASCII 字符?

如果你只想在非 ASCII 字符之间按单个字符进行分割,那么以下代码可能就足够了:

s = "oink barf 頑張っています"
for word in s:gmatch("[\33-\127\192-\255]+[\128-\191]*") do
   print (word)
end

输出:

oink
barf
é ‘
å¼µ
っ
て
い
ま
す

这里的诀窍在于,在 UTF-8 中,多字节字符各自由“引导字节”组成,顶部两位等于 11(因此在 Lua 中是 \192-\255 - 记住,Lua 中的字符转义是十进制),后跟零个或多个“跟随字节”,顶部两位等于 10(在 Lua 中是 \128-\191)。

2012-01-27 06:41:24
stackoverflow用户1009479
stackoverflow用户1009479

如果它是UTF-8,在Lua 5.3中,您可以像这样使用utf8

local s = "あいうえお"
local words = {}
for _, c in utf8.codes(s) do
  table.insert(words, utf8.char(c))
end
2015-01-14 11:52:11