python-正则匹配中文日文韩文

2019-11-06 宋洋葱 宋洋葱

项目中需要用python判断某段文本是不是韩语日语,可以用python正则表达式来解决。

首先得知道UTF-8(Unicode)编码区间如下:

  • u0800-u4e00 (日文)
  • u4e00-u9fa5 (中文)
  • uac00-ud7a3 (韩文)

所以python匹配中日韩文的正则如下:

import re
p = re.compile('[\u0800-\u9fa5\uac00-\ud7a3]')
text = '''
这是简体中文,這是繁體中文
这是日文,これは日本語です
这是韩文,한국 사람입니다
'''
print(p.findall(text))

参考文档: