在Lua中分割多字节字符串

2015-1-14 11:52:40

收藏：0

阅读：130

评论：3

我在Lua中有一个多字节字符串。

local s = "あいうえお"

我该如何将字符串拆分为字符串表？

在英文文本中，我可以使用此代码。但这在多字节中不起作用。

local s = "foo bar 123"
local words = {}
for word in s:gmatch("%w+") do
    table.insert( words, word )
end

原文链接 https://stackoverflow.com/questions/9003747

stackoverflow用户31326

为了开始，从这个 Stack Overflow 的问题如何在 Lua 中写入 Unicode 符号开始，RBerteig 的答案指向了一个库 slnunicode。

2012-01-25 13:59:26

stackoverflow用户284969

正如其他人所指出的那样，不太清楚你想要做什么：如果在空格处分割不足以满足你，你想要在哪里分割非 ASCII 字符？

如果你只想在非 ASCII 字符之间按单个字符进行分割，那么以下代码可能就足够了：

s = "oink barf é ‘å¼µã£ã¦ã„ã¾ã™"
for word in s:gmatch("[\33-\127\192-\255]+[\128-\191]*") do
   print (word)
end

输出：

oink
barf
é ‘
å¼µ
ã£
ã¦
ã„
ã¾
ã™

这里的诀窍在于，在 UTF-8 中，多字节字符各自由“引导字节”组成，顶部两位等于 11（因此在 Lua 中是 \192-\255 - 记住，Lua 中的字符转义是十进制），后跟零个或多个“跟随字节”，顶部两位等于 10（在 Lua 中是 \128-\191）。

2012-01-27 06:41:24

stackoverflow用户1009479

如果它是UTF-8，在Lua 5.3中，您可以像这样使用utf8库：

local s = "ã‚ã„ã†ãˆãŠ"
local words = {}
for _, c in utf8.codes(s) do
  table.insert(words, utf8.char(c))
end

2015-01-14 11:52:11

评论区的留言会收到邮件通知哦~

作者:

stackoverflow用户1169307

技术支撑

统计信息