模型说明:
根据自动语言识别技术对文本内容进行语种识别,支持识别中文简体、中文繁体、英语、韩语、日语和法语等90多种语言,并统计出输入文本内容各种语言的数量分布情况。
该算法在结合langID的基础上进行优化,如新增对繁体中文识别的支持,模型采用多项式的朴素贝叶斯分类器,使用多种语言的多种场景的语料进行训练,具有准确率高、执行速度快等优点。
准确度说明:
使用XNLI数据集(url:https://github.com/facebookresearch/XNLI)对模型进行测试,XNLI由Facebook和纽约大学的研究者联合构建语料库,旨在评测模型多语言的句子理解能力,最新的XLM和Multilingual BERT模型都是使用XNLI来评估跨语言效果。测试样本共150,000篇,包含9,672,723字符,整体准确率为95.8%。当文本中存在多种语言混合的时候,识别的准确率可能会下降 。
参考文献:
- Bagci, I. E., & Alhoniemi, E. (2020). Language Identification using transfer learning from large language models pre-trained on non-parallel multilingual databases. Information, 11(10), 468.
- Ur Rahman, M. A., Ali Khan, F., Okasha, S., & Buya, R. (2021). Deep Language Identification using Stack of Residual and Inverted Residual Convolutional Neural Networks. IEEE Access, 9, 44999-45012.