当前位置：首页 > 数据库

用 Python 写的文档批量翻译工具，效果竟然超越付费软件？

一、用P译工越付需求描述

手上有大量外文文档(本案例以5份为例，文档批分别命名为 test1.docx test2.docx 以此类推)，量翻其中一份如下：

基本需求：「批量将这些文档的具效件内容全部翻译成中文，并转存到新的果竟文件中」，效果如下：

高级需求：基本需求满足的然超同时，要求「保留原文档的费软格式」，效果如下：

二、用P译工越付逻辑梳理

1. 翻译 API

本需求的文档批核心是翻译，策略是量翻利用网络的翻译 API，这里推荐百度翻译开放平台，具效件不考虑并发数的果竟话可以用标准版，免费使用不限字符量!

百度翻译开放平台：http://api.fanyi.baidu.com/api/trans/product/index

在使用百度的然超通用翻译 API 之前需要完成以下工作：

使用百度账号登录百度翻译开放平台(http://api.fanyi.baidu.com); 注册成为开发者，获得APPID; 进行开发者认证(如仅需标准版可跳过); 开通通用翻译API服务：开通链接参考技术文档和Demo编写代码

完成后在个人页面在即可看到 ID 和密钥，费软这个很重要!下面给出整理好的用P译工越付通用翻译 API 的 demo，已经对输出做简单修改，代码拿走就能用!

可以看到，测试内容准确的被翻译出来，注意如果需要多次访问 API，免费版有并发数和时间限制，可以用 time 模块睡眠一秒。云服务器

2. 格式修改

高级需求的难点就是保留格式，简单来说原文档的页面格式和段落格式是什么，翻译后对应的部分就是什么。

基于上述的逻辑关系，只需要获取原文档的对应内容再赋值给新翻译的文档即可。(暂时只能满足页面设置和段落设置的统一，针对一段中特定词语的格式修改，保证精确性需要基于自然语言处理NLP，本文暂不涉及)

2.1 页面样式

页面样式只要包括边距、方向、高度、宽度等等，从原文档中可以看到，采取的是窄边距。但我们无需知道窄边距四个方向应该如何设置，只需要在代码中呈现新旧文档的变量传递即可，具体如下：

2.2 段落样式

段落样式包括对齐、缩进、间距等等，高防服务器原文档中采取了段后缩进，标题是居中对齐。这些设置在变量传递中能够很好完成。如果原文档中没有设置的变量值为 None。

2.3 文字块样式修改

对于字号、加粗、斜体、颜色等样式调整，采取的策略是建立空列表，遍历原文档每一段每一个文字块，获取相应属性并放到各自的列表中，对同一段而言，其包含的文字块属性最多的选项赋值给翻译后文档的对应段落(如同一段全部或大部分的文字是加粗，则翻译后对应段落所有文字块均设置为加粗) 对NLP感兴趣的读者可自行尝试如何高度还原英文文档中某些特定词语的样式修改，并在翻译后的文档中体现出来。

上面的代码不包含对字体的设置，因为没必要把英文的字体传递给中文文档。亿华云计算对中文字体的设置之前的文章有提到过，比较复杂，直接见代码：

from docx.oxml.ns import qn run.font.name = 微软雅黑 r = run._element.rPr.rFonts r.set(qn(w:eastAsia), 微软雅黑)

3. 整体实现步骤

现在每个部分操作均以完成，考虑到本例中有多个文档均需要翻译，故全部逻辑如下：

利用 glob 模块批处理框架可获取某个文件的绝对路径由 python-docx 完成 Word 文件实例化后对段落进行解析解析出的段落文本交给百度通用翻译 API，解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件同个文件全部解析、翻译并写入新文件后保存文件