从日语来源估计英语翻译单词数量的算法

时间:2020-03-06 14:50:21  来源:igfitidea点击:

我正在尝试一种方法来估计日语翻译所能转换成的英语单词的数量。日语有三种主要的脚本-日文汉字,平假名和片假名-每种字符的平均字符/单词比率都不同(日文汉字最低,片假名最高)。

例子:

  • 计算机:(片假名-6个字符); (汉字:3个字符)
  • 鲸鱼:(平假名-3个字符); (汉字:1个字符)

作为数据,我有大量的日语单词和它们的英文翻译的词汇表,以及相当大的匹配的日语源文档及其英语翻译的语料库。我想提出一个公式,该公式将对源文本中的汉字,平假名和片假名字符进行计数,并估计这很可能会变成英语单词的数量。

解决方案

看起来很简单,我们只需要找出比率即可。

对于每个脚本,计算词汇表中的脚本字符和英文单词的数量,然后算出比率。

假设我们既可以检测日语单词所在的脚本,又可以检测翻译中的英语等效短语,则可以使用日语源文档进行补充。否则,我们将不得不猜测比率或者将其忽略为源数据,

然后,正如我们所说,计算源文本的每个脚本中的单词数,进行相乘,然后应该有一个大概的估计。

嗯,它不仅比英语中的名词中的字符数复杂,例如,日语与英语中的语法结构也不同,因此某些句子将使用日语中的更多单词,而其他句子将使用更少的单词。我不太懂日语,因此请原谅我以韩语为例。

在韩语中,句子通常比英语句子短,这主要是因为通过使用上下文填充缺失的单词来缩短它们的事实。例如,说"我爱你"可能很短??? (" sarang hae",简称动词" love"),或者只要是完全限定的句子? ??? ???? (我[主题]我们[对象]喜欢[动词+礼貌修饰语]。在文本中,其编写方式取决于上下文,通常由段落中的较早句子设置。

无论如何,要拥有一种实际上知道这种事情的算法将非常困难,因此,仅使用统计信息,状况可能会好得多。我们应该做的是使用随机样本,其中已知的日语文本和英语文本具有相同的含义。样本越大(越随机)就越好。尽管如果它们是真正的随机样本,那么过去几百个样本中的样本数不会有太大的区别。

现在,另一件事是,该比率将在要翻译的文本类型上完全改变。例如,技术水平很高的文件的日语/英语长度比可能要比一本活泼的小说高得多。

至于简单地使用单词词典到单词的翻译,可能效果不佳(并且可能是错误的)。相同的单词不会每次都以不同的语言翻译成相同的单词(尽管在技术讨论中很有可能会发生)。例如,美丽一词。我不仅可以用韩语为其分配一个单词(即可以选择),而且有时我会失去选择,例如句子(食物很美)中的意思,但这并不意味着食物看起来很漂亮。好的。我的意思是味道很好,该词的翻译选项也有所变化。这是非常常见的情况。

另一个大问题是最佳翻译。人类确实不擅长某些东西,而计算机却不擅长很多东西。每当我校对了将另一文本翻译成英语的文档后,我总能看到各种将其切得更短的方法。

因此,尽管有了统计数据,我们就能算出翻译之间的平均长度相当不错的平均比率,但与所有翻译均达到最佳水平相比,这将有很大的不同。

这是Borland(现在是Embarcadero)对英语到非英语的看法:

英文字符串的长度(以字符为单位)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我认为我们可以将日语(对此进行一些修改)应用于非日语。

我们可能要考虑的另一个元素是语言的语气。在英语中,将指示作为"按OK"中的命令来表达。但是在日语中,当务之急是不礼貌的,我们必须像"确定"中那样用敬语(或者称呼)来表达说明。

当心三个字母的汉字组合。许多大字可以翻译成三个字母或者四个字母的汉字组合,例如(国际化:20个字符),(高可用性:17个字符)。

我将从线性近似开始:approx_english_words = a1 * no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3,系数a1,a2,a3使用线性最小二乘法拟合数据。

如果这不能很好地近似,那么请考虑最不适合的情况(特殊单词等),以了解最坏的情况。

根据我作为翻译和本地化专家的经验,一个好的经验法则是每个英文单词2个日语字符。

作为日语和英语之间经验丰富的翻译人员,我可以说这很难量化,但是根据我的经验,从日语翻译的英语文本通常比源文本多200%。在日语中,有许多文化上特定的短语和名词无法按字面翻译,需要用英语进行解释。
在翻译时,我通常只用一个日语句子,然后在其中删掉一个英语段落,以将其含义传达给读者。下面是我的例子:

从字面上看,这意味着怀旧。但是,在日语中,它可以用作感叹号中的单个短语。但是,为了传达怀旧的感觉,我们需要用英语提供更多的背景信息。例如,我们可能需要将单个短语变成一个句子:

"当我走过旧小学时,充满了过去的回忆。"

这就是为什么日语和英语之间无法进行机器翻译的原因。

我的经验(尽管很小)似乎表明,无论使用哪种语言,文本块都占用相同数量的打印空间来传达相同的信息。因此,对于大块的文本,我们可以为每个英文字符分配一个宽度计数(可从Times New Roman等常见字体中获取此宽度),并且同样使用相同点号的日语字体来计算所需的字符数。