DiVoMiner® 使用手册

  1. 主页
  2. 文档
  3. DiVoMiner® 使用手册
  4. 算法挖掘
  5. 语种识别

语种识别

模型说明:

根据自动语言识别技术对文本内容进行语种识别,支持识别中文简体、中文繁体、英语、韩语、日语和法语等90多种语言,并统计出输入文本内容各种语言的数量分布情况。

该算法在结合langID的基础上进行优化,如新增对繁体中文识别的支持,模型采用多项式的朴素贝叶斯分类器,使用多种语言的多种场景的语料进行训练,具有准确率高、执行速度快等优点。

准确度说明:

使用XNLI数据集(url:https://github.com/facebookresearch/XNLI)对模型进行测试,XNLI由Facebook和纽约大学的研究者联合构建语料库,旨在评测模型多语言的句子理解能力,最新的XLM和Multilingual BERT模型都是使用XNLI来评估跨语言效果。测试样本共150,000篇,包含9,672,723字符,整体准确率为95.8%。当文本中存在多种语言混合的时候,识别的准确率可能会下降 。

参考文献:

  • Bagci, I. E., & Alhoniemi, E. (2020). Language Identification using transfer learning from large language models pre-trained on non-parallel multilingual databases. Information, 11(10), 468.
  • Ur Rahman, M. A., Ali Khan, F., Okasha, S., & Buya, R. (2021). Deep Language Identification using Stack of Residual and Inverted Residual Convolutional Neural Networks. IEEE Access, 9, 44999-45012.
这篇文章对您有用吗?

我们要如何帮助您?