由于在开发淘海快译的过程中需要研究各种语言的各种字数统计方法。

花了不少时间研究word的字数统计。

字数

它算的是

  • 汉字
  • 中文标点
  • 英文单词(汉字、中文标点、人为空格彼此之间的所有字母、数字、英文标点都算作一个英文单词)。

英文单词以空格或汉字、中文标点分隔,即两个空格或汉字、中文标点之间的字母、英文标点和阿拉伯数字合在一起算作一个单词。

字符数 (不计空格)

比之字数,字符数 (不计空格)算法不同的是,将英文单词换成了英文字母,同时每个字母、数字、英文标点都单独统计。

“字符数(不计空格)” 包括了中文字数+中文标点数+英文字母数+英文标点数

这也是大多数国内翻译公司对客户报价的字数计算标准。

 

字符数(计空格)

较之第二项,则加上汉字、中文标点、英文单词彼此之间的人为空格。段落空格不计

段落空格不计,是指由于分段而导致的空格不算。

字符数(计空格)这一项计算的空格都是由于用户人为地用空格键敲击出的空格,除此之外,文档中的空格是不予计算的。

“字符数(计空格)”包括了中文字数+中文标点数+英文字母数+英文标点数+空格数(全角半角都算)

 

行数

除了最后一个空行(若最后一行为空)的行数段落数:前面有内容的硬回车个数。

 

中文字符

所有双字节字符(除全角空格)

 

非中文单词

字数减去中文字符数。

“非中文单词” 只包括英文单词数,其中英文单词以空格或汉字分隔,即两个空格或汉字之间的字母、英文标点和阿拉伯数字合在一起算作一个单词。

 

中文字符和朝鲜语单词

“中文字符和朝鲜语单词” 包括了中文字数+中文标点数。

 


Tagged with:
 

发表评论

电子邮件地址不会被公开。 必填项已用*标注