语料库的大小
删除XML后单语言数据的大小。| 语言 | 句子 | 话 | 
|---|---|---|
| 保加利亚语 | 411,636 | -- | 
| 捷克文 | 668,595 | 13,195,311 | 
| 丹麦文 | 2,323,099 | 47,761,381 | 
| 德语 | 2,176,537 | 47,236,849 | 
| 希腊语 | 1,517,141 | -- | 
| 英语 | 2,218,201 | 53,974,751 | 
| 西班牙文 | 2,123,835 | 54,806,927 | 
| 爱沙尼亚语 | 692,210 | 11,358,009 | 
| 芬兰 | 2,119,515 | 33,708,706 | 
| 法文 | 2,190,579 | 54,202,850 | 
| 匈牙利 | 658,824 | 12,606,986 | 
| 义大利文 | 2,081,669 | 50,259,169 | 
| 立陶宛语 | 678,665 | 11,512,131 | 
| 拉脱维亚语 | 666,026 | 12,085,228 | 
| 荷兰人 | 2,333,816 | 53,487,257 | 
| 抛光 | 387,490 | 7,087,016 | 
| 葡萄牙语 | 2,121,889 | 52,300,149 | 
| 罗马尼亚语 | 402,904 | 9,663,544 | 
| 斯洛伐克文 | 674,359 | 13,116,301 | 
| 斯洛文尼亚 | 634,488 | 12,665,974 | 
| 瑞典 | 2,241,386 | 45,665,947 | 
句子对齐和删除XML后并行语料库的大小。
| 平行语料库(L1-L2) | 句子 | L1字 | 英语单词 | 
|---|---|---|---|
| 保加利亚英语 | 406,934 | -- | 9,886,291 | 
| 捷克英语 | 646605 | 12,999,455 | 15,625,264 | 
| 丹麦语-英语 | 1,968,800 | 44,654,417 | 48,574,988 | 
| 德语-英语 | 1,920,209 | 44,548,491 | 47,818,827 | 
| 希腊语-英语 | 1,235,976 | -- | 31,929,703 | 
| 西班牙语-英语 | 1,965,734 | 51,575,748 | 49,093,806 | 
| 爱沙尼亚语-英语 | 651,746 | 11,214,221 | 15,685,733 | 
| 芬兰语-英语 | 1,924,942 | 32,266,343 | 47,460,063 | 
| 法语-英语 | 2,007,723 | 51,388,643 | 50,196,035 | 
| 匈牙利英语 | 624,934 | 12,420,276 | 15,096,358 | 
| 意大利语-英语 | 1,909,115 | 47,402,927 | 49,666,692 | 
| 立陶宛语-英语 | 635,146 | 11,294,690 | 15,341,983 | 
| 拉脱维亚语-英语 | 637,599 | 11,928,716 | 15,411,980 | 
| 荷兰语-英语 | 1,997,775 | 50,602,994 | 49,469,373 | 
| 波兰语-英语 | 632,565 | 12,815,544 | 15,268,824 | 
| 葡萄牙语-英语 | 1,960,407 | 49,147,826 | 49,216,896 | 
| 罗马尼亚英语 | 399,375 | 9,628,010 | 9,710,331 | 
| 斯洛伐克英语 | 640,715 | 12,942,434 | 15,442,233 | 
| 斯洛文尼亚语-英语 | 623,490 | 12,525,644 | 15,021,497 | 
| 瑞典语-英语 | 1,862,234 | 41,508,712 | 45,703,795 | 


 
                   
 
  
 



















 
 
