来自搜狗输入法的统计数据显示,其输入法语料库容量已超过1TB,是传统输入法约40GB的30倍,而相对于日文、韩文等全世界其他语系的输入法语料规模,更是处于远远领先地位。据了解,语料库是输入法所有信息的来源,是输入法智能性,甚至是中文处理能力的根本决定因素。搜狗语料库的强大,也代表搜狗输入法的技术积累已引领中文输入达到一个全新高度。

  据技术专家介绍,语料库与词库为输入法研发中的两个重要指标,其中词库为输入法提供了组词造句的基本单位,而语料库为输入法提供了词库中的词语组合的方法和规则,同时通过自动挖掘的手段,语料库还可以为词库词源的重要补充。在目前以统计作为根基的输入法世界里,语料库的作用极为重要。比如,“建国大业”这一词汇如果不在语料库中出现,那么输入法是无法凭空把这个词创造出来的。一般来说,语料库的容量越大,词库容量越大,则输入效率、准确性越高。搜狗输入法语料库中包含了大量新闻语料和网页语料,涵盖口语、书面语、古文、现代文等不同文体,以及政治、经济、体育、娱乐等不同领域。而在词库方面,搜狗输入法的词库容量已超过2000万。在如此海量的语料库和词库情况下,为了加快数据处理能力,搜狗输入法部署了庞大的机群和分布式存储系统,确保了语料规模暴增时的运行瓶颈。

  数据显示,在中国上网的计算机中,超过80%安装了搜狗输入法,其活跃用户超过3亿,如此海量的用户群每天的文字书写量是个天文数字,可以说搜狗已经承载了互联网时代中文输入的重任。搜狗输入法在语料库、词库等指标上对于同类工具的遥遥领先,也代表着搜狗输入法在输入准确率,输入效率上的一枝独秀。搜狗输入法不仅大大降低了中文信息流通的门槛,同时提升了国人的书写效率,为每个人节省了20%的输入时间。因此不仅具有巨大的社会文化价值,也潜在的创造了巨大的社会经济价值。