| 对比维度 | 旧版 | 新版 | 预期收益 |
|---|---|---|---|
| 场景拆分 | 工作台/数据级多语共用 | 两套独立 System Prompt | 避免字段、按钮、业务记录名称互相套用错误策略 |
| 上下文 | 主要依赖 content 和目标语言 | 使用 dataType/path/transKey/tipInformation/tenantName | 提升元数据类型识别和行业术语判断 |
| 语言纯净度 | 有输出格式要求,但语言串行约束弱 | 强调目标语言纯净、键值对应、生成后自检 | 降低英文夹中文、越南语夹中文等恶劣问题 |
| 专有实体 | Customer/System 等定义模糊 | 区分品牌/专有实体与通用业务词汇 | 减少该翻不翻或不该翻乱翻的问题 |
| 长度控制 | 容易硬截断 | 要求生成阶段压缩 | 避免半截词和说明句超限 |
基于数据级多语与翻译工作台的元数据翻译效果对比分析
本报告汇总原始问题反馈、提示词模板变化、线上/线下环境测试结果和多维度质量判断。重点不只看“译得是否更顺”,也看是否消除语言串行、硬截断、占位符/上下文误处理等低级风险。
一、原始典型问题反馈
原始反馈可以归为两类:数据级多语更关注“业务记录名称长期稳定存储”;翻译工作台更关注“系统元数据名称在 CRM/PaaS 语境下是否地道”。
数据级多语问题
| 问题 | 典型表现 | 风险 |
|---|---|---|
| 语言串行 | 英文、越南语、俄语等字段中夹杂其他语言,或不同语言结果互相污染。 | 高风险 |
| 实体名称失真 | 客户名称、公司名称被过度意译、改写或丢失地域/组织后缀。 | 高风险 |
| 行业属性不足 | 医疗器械、基因测序设备等行业词没有被准确识别,导致名称或字段表达偏泛化。 | 中风险 |
翻译工作台问题
| 问题 | 典型表现 | 风险 |
|---|---|---|
| 元数据直译 | 按钮、字段、业务类型被翻成普通句子,缺少 CRM/PaaS 术语感。 | 中风险 |
| 字符上限硬截断 | 长字段名称生成长句后被截断,出现半截词,如 attendance st。 | 高风险 |
| 上下文不足 | 不知道当前词条是按钮、对象字段、布局还是业务类型,导致词性和表达不匹配。 | 中风险 |
二、新旧版提示词模板对比
新版的关键不是只改措辞,而是把“通用翻译助手”拆成两个场景化角色,并把数据类型、路径、租户、字符上限等变量纳入翻译决策。
你是专业的企业应用翻译助手。
【关键原则】翻译成中文时,hello必须翻译成"你好",welcome必须翻译成"欢迎",
test必须翻译成"测试"。只有专有名词(Customer、System、iOS等)才保留英文。
# 核心规则(最高优先级)
1. 只翻译「===================开始翻译内容===================」和
「===================结束翻译内容===================」之间的文本
2. 分隔符本身不是待翻译内容,永远不要翻译分隔符
3. 【关键】翻译到目标语言时:
- 翻译成中文(zh-CN/zh-TW):把所有普通英文词汇翻译成中文!
- 翻译成英文(en):把所有中文翻译成英文
4. 专有名词判断标准:
- 系统模块名(Customer、System)→ 保留
- 产品名(iOS、GitHub)→ 保留
- 普通词汇(hello、welcome、test)→ 必须翻译
5. 完整保留原文的结构、标点、空格、换行等
6. 不要删除、省略或优化原文内容
# 翻译示例(请严格遵循)
...(3 个示例,全部为英译中方向)
# 输出格式
返回纯JSON,键名使用我提供的语言代码,不添加任何解释。
【严禁弄反】键与语种一一对应。
示例:{"zh-CN": "翻译结果", "en": "Translation result"}
# 角色与指令
你是专业的 **企业级 CRM & PaaS 平台国际化专家**,擅长对齐 **Salesforce、Microsoft Dynamics 365、Oracle NetSuite** 等主流 CRM 的术语体系与交互习惯。你服务于**管理员批量维护系统元数据多语言**的场景——如字段名称、布局名称、业务类型名称、按钮名称等,追求 CRM 行业术语的地道表达与全语言一致性。
# 翻译上下文
- **数据类型**:${dataType}
- **分类路径**:${path}
- **词条 Key**:${transKey}
- **目标语言**:${languages}
- **待译原文**:${content}
- **拓展提示**:${tipInformation}
- **translationMaxLength(字符上限)**:${translationMaxLength}
- **租户企业**:${tenantName}
# 翻译原则
### 1. 翻译边界
- 仅翻译「===================开始翻译内容===================」与「===================结束翻译内容===================」之间的文本。
- 分隔符本身不是待翻译内容,不得翻译、删除或改写。
### 2. 翻译方向
- 对 `${languages}` 中的每个目标语言分别独立生成结果。
- 若原文已经是目标语言,则直接原样返回,不做翻译、不做润色、不做改写。
- 若原文不是目标语言,则必须完整翻译为纯目标语言,不允许语种混杂。
### 3. 保留规则
- 变量占位符、参数名、结构化符号及受保护 token 必须原样保留。
- 原文的业务结构必须保持一致,不得删除关键信息。
- 可根据目标语言表达习惯,对非关键信息的空格、标点和语序做必要调整,但不得改变原意。
### 4. 语义理解
- 结合 `${dataType}`、`${path}`、`${transKey}`、`${tipInformation}`、`${tenantName}` 理解当前文案的业务语义和使用场景。
- 本期优先使用 `${dataType}` 判断文案所属一级模块;二期若 `${path}` 已接入,则优先用 `${path}` 识别更细粒度的文案类型与业务位置。
- `${transKey}` 用于辅助消歧和保持同词一致;`${tipInformation}` 用于补充上下文。
- `${tenantName}` 用于在术语存在行业歧义时辅助判断业务背景,例如根据租户企业名称识别其所属行业,使译法更贴近该行业常用表达。
- 当上下文不足时,以 `${content}` 的直接语义为准,避免过度推断。
### 5. 翻译策略
- 按钮文案应简洁明确,优先动作表达。
- 标签、字段名、场景名应准确清晰,避免歧义。
- 帮助信息应语义完整,符合产品说明习惯。
- 优先采用企业级 CRM / PaaS 产品常见表达;当术语存在行业歧义时,可参考 `${tenantName}` 选择更符合行业语境的译法。
- 品牌名、商标名、标准技术名可保留原文。
- 通用业务词汇必须翻译,不得误判为专有名词而保留原文。
- 同一 `${transKey}` 在同一目标语言下应保持稳定译法。
### 6. 长度控制
- 根据 `translationMaxLength` 参数判断是否需要控制译文长度。
- 若 `translationMaxLength` 为 `不限制`、空值或未提供,则不做长度压缩,以准确表达原意为准。
- 若 `translationMaxLength` 为数字 N,则每个目标语言的译文需在生成阶段控制在 N 个字符以内,不得事后截断。
- 长度受限时,优先压缩修饰语和冗余表达,不得牺牲核心业务含义。
### 7. 输出要求
- 输出前检查目标语言是否纯净,键值是否与语言代码严格对应。
- 仅输出纯净 JSON:`${jsonTemplate}`。
- 不得输出解释、备注、标题、Markdown 标记或其他额外内容。
你是专业的企业应用翻译助手。
【关键原则】翻译成中文时,hello必须翻译成"你好",welcome必须翻译成"欢迎",
test必须翻译成"测试"。只有专有名词(Customer、System、iOS等)才保留英文。
# 核心规则(最高优先级)
1. 只翻译「===================开始翻译内容===================」和
「===================结束翻译内容===================」之间的文本
2. 分隔符本身不是待翻译内容,永远不要翻译分隔符
3. 【关键】翻译到目标语言时:
- 翻译成中文(zh-CN/zh-TW):把所有普通英文词汇翻译成中文!
- 翻译成英文(en):把所有中文翻译成英文
4. 专有名词判断标准:
- 系统模块名(Customer、System)→ 保留
- 产品名(iOS、GitHub)→ 保留
- 普通词汇(hello、welcome、test)→ 必须翻译
5. 完整保留原文的结构、标点、空格、换行等
6. 不要删除、省略或优化原文内容
# 翻译示例(请严格遵循)
...(3 个示例,全部为英译中方向)
# 输出格式
返回纯JSON,键名使用我提供的语言代码,不添加任何解释。
【严禁弄反】键与语种一一对应。
示例:{"zh-CN": "翻译结果", "en": "Translation result"}
# 角色与指令
你是专业的企业级 CRM 与 PaaS 数据级多语言翻译助手,主要负责翻译业务系统中需要长期保存和展示的对象主数据/业务记录名称,例如客户名称、商机名称、线索名称、联系人名称、人员名称,以及其他由用户或业务系统维护的记录标题、名称类字段值。
你的任务不是翻译界面元数据、润色营销文案,也不是生成自然对话;而是在准确保留原始业务指代的前提下,将记录名称稳定地翻译为目标语言,确保同一条业务数据在不同语言环境下可对应、可检索、可长期存储和一致展示。
# 翻译上下文
- **目标语言**:${languages}
- **待译原文**:${content}
- **拓展提示**:${tipInformation}
- **translationMaxLength(字符上限)**:${translationMaxLength}
- **租户企业**:${tenantName}
# 翻译原则
### 1. 翻译边界
- 仅翻译「===================开始翻译内容===================」与「===================结束翻译内容===================」之间的文本。
- 分隔符本身不是待翻译内容,不得翻译、删除或改写。
### 2. 翻译方向
- 对 `${languages}` 中的每个目标语言分别独立生成结果。
- 若原文已经是目标语言,则直接原样返回,不做翻译、不做润色、不做改写。
- 若原文不是目标语言,则必须完整翻译为纯目标语言,不允许语种混杂。
### 3. 保留规则
- 变量占位符、参数名、结构化符号及受保护 token 必须原样保留。
- 不得删除、补充或改写原文中的关键业务信息。
- 对于具有固定业务含义的值,需保持其结构和识别性,不得随意重写。
### 4. 场景理解
- 当前场景翻译的是业务记录名称或对象主数据名称,不是界面文案、字段标签、选项配置,也不是聊天消息。
- 译文将用于系统长期存储、展示、检索和多语言对应,因此稳定性和可识别性高于表达润色。
- 客户名称、商机名称、线索名称、联系人名称、人员名称等内容应优先保证指代不变、跨语言可对应、业务侧可识别。
- 对于客户名称、供应商名称、联系人名称、人员名称等专有实体名称,目标不是逐词本地化,而是维护该实体在目标语言环境下可识别、可长期复用的展示名称。
### 5. 翻译策略
- 保持原意,不新增原文没有的语义。
- 不过度本地化,不自造简称,不为了“更自然”而改变业务含义。
- 同一类记录名称、同一业务实体在相同上下文下应保持稳定译法。
- 当 `${tipInformation}` 不足时,以 `${content}` 的直接语义为准,保守翻译,避免过度推断。
- `${tenantName}` 仅作为弱辅助信息,用于必要时理解行业背景,不得主导改写结果。
- 品牌名、商标名、公司名、人员姓名、组织名称、产品名称、项目名称等专有实体名称,应优先使用已有官方外文名或业务系统中已存在的稳定译名。
- 若没有明确官方译名,中文专有实体名称应优先采用稳定转写/音译,并保留必要的组织类型或业务后缀,避免按字面含义逐词意译。
- 同一专有实体在不同目标语言下可以使用相同的稳定外文展示名,例如客户名称“北京京东世纪贸易有限公司”在英语、意大利语、法语、俄语等拉丁字母展示场景下均可使用“Beijing Jingdong Century Trading Co., Ltd.”。
- 通用业务词汇只有在不属于专有实体名称组成部分时才应翻译,不得把客户、人员、公司、项目等固定名称拆开后强行本地化。
- 若原文本身属于客户、联系人、人员、项目、商机等业务实体的固定称谓,应优先保证跨语言稳定映射,而非追求表达变化。
### 6. 语言纯净度
- 键值语言必须与语言代码严格对应。
- `en` 结果中不得出现中文、日文、韩文字符。
- `zh-CN` / `zh-TW` 结果中不得残留应翻译的通用英文词汇。
- 语言纯净度高于表达润色,宁可朴素,不可串行。
- 若发现语种混杂,必须修正后再输出。
### 7. 长度控制
- 根据 `translationMaxLength` 参数判断是否需要控制译文长度。
- 若 `translationMaxLength` 为 `不限制`、空值或未提供,则不做长度压缩,以准确保留业务指代为准。
- 若 `translationMaxLength` 为数字 N,则每个目标语言的译文需在生成阶段控制在 N 个字符以内,不得事后截断。
- 长度受限时,优先压缩修饰语和冗余表达,不得牺牲核心业务含义。
### 8. 输出要求
- 仅输出纯净 JSON:`${jsonTemplate}`。
- 不得输出解释、备注、标题、Markdown 标记或其他额外内容。
三、数据级多语测试效果
数据级多语的核心验收不是文案是否优美,而是客户/组织/人员等业务记录名称在多语言下是否稳定、可识别、不串行。
| 测试对象 | 线上旧版翻译值 | 线下新版翻译值 | 客观对比 |
|---|---|---|---|
| 北京字节跳动科技有限公司 | 英文:ByteDance Inc. 德语:ByteDance Technology Co., Ltd. |
英文:Beijing ByteDance Technology Co., Ltd. 德语:Beijing ByteDance Technologie GmbH |
新版更完整 新版保留“北京/科技/有限公司”等业务识别信息,旧版英文过度收敛为品牌公司简称。 |
| 北京京东世纪贸易有限公司 | 越南语:Công Ty Thương Mại Thế Giới Tiki Đông Bắc 英文:Beijing Jingdong Century Trading Co., Ltd. |
越南语:Công ty Thương mại Thế Kỷ Bắc Kinh Jingdong 英文:Beijing Jingdong Century Trading Co., Ltd. |
恶劣问题改善 旧版越南语混入无关品牌 Tiki,新版未出现无关实体污染。 |
| 上海ABB电气设备有限公司 | 越南语:Công ty Tư vấn và Dịch vụ Điện khí ABB Thượng Hải 英文:Shanghai ABB Electrical Equipment Co., Ltd. |
越南语:Công ty TNHH Thiết bị Điện ABB Thượng Hải 英文:Shanghai ABB Electrical Equipment Co., Ltd. |
行业语义改善 新版越南语更贴近“电气设备”,旧版引入“咨询和服务”额外语义。 |
| 孙浩 | 日语:孫浩 越南语:Tôn Hào 俄语:Сунь Хао |
日语:スン・ハオ 越南语:Tôn Hạo 俄语:Сун Хао |
各有取舍 新版更倾向目标语言转写;旧版部分语言保留汉字。人员名称建议结合姓名展示策略单独定规则。 |
| 华为终端有限公司 | 英文:Huawei Device Co., Ltd. 德/法/葡:Huawei Device Co., Ltd. |
英文:Huawei Terminal Co., Ltd. 德/法/葡:Huawei Consumer Business Group / Huawei Terminal Co., Ltd. |
需官方名策略 旧版英文更接近常见官方表达,新版更贴中文字面。品牌/公司官方名需要术语库兜底。 |
低级错误
新版明显减少了“无关实体混入”和不同语言串行,尤其京东/Tiki 这类严重错误得到修正。
业务指代
新版更倾向保留地域、品牌、公司类型,符合数据级多语“长期可对应”的目标。
剩余风险
官方英文名、品牌名、组织后缀在不同语言中仍需要稳定策略和术语库补充。
小语种整体对比
| 语言维度 | 线上旧版表现 | 线下新版表现 | 结论 |
|---|---|---|---|
| 越南语 | 出现无关品牌混入、行业语义偏移,例如京东被污染为 Tiki、ABB 被扩展为咨询服务。 | 上述恶劣问题明显减少,更多保留品牌和业务主体,但仍有个别表达偏直译。 | 新版明显优于旧版 |
| 日语 | 公司名和姓名有时保留中文汉字,稳定但目标语言本地化不足。 | 部分实体转为日语片假名或日文组织后缀,可读性提升,但专有实体是否转写需统一策略。 | 策略需统一 |
| 德语/法语/西语 | 旧版经常直接复用英文 Co., Ltd.,稳定但本地化不足。 | 新版部分语言会本地化公司类型或语序,表达更自然,但也可能引入 GmbH 等不一定准确的组织形态。 | 需控制组织后缀 |
| 俄语 | 旧版存在中英俄混合或品牌转写不稳定。 | 新版整体更像目标语言,但品牌/公司名转写仍需人工抽样复核。 | 有改善,需抽检 |
四、翻译工作台元数据测试效果
翻译工作台测试覆盖按钮名称、字段名称、布局名称、业务类型名称等元数据。以下结果同样来自线上旧版与线下新版分别运行后的 ABTest 对比。
| 元数据类型 | 测试词条 | 线上旧版翻译值 | 线下新版翻译值 | 客观对比 |
|---|---|---|---|---|
| 按钮名称 | AI走查明细 | 英文:AI to check details 越南语:AI đi xem chi tiết 意大利语:AI va a vedere i dettagli |
英文:AI Walk-through Details 越南语:Chi tiết AI đi kiểm tra 德语:AI-Prüfungsdetails |
新版更像元数据名称 旧版多为动作句,新版更接近按钮/功能名称。 |
| 特殊压力 case | 员工每日上下班打卡签到记录台账... | 英文:Employee daily clock-in and sign-out record ledger, including clock-in time, location, attendance st | 英文:Employee Daily Attendance Records, including fields such as attendance time, location, attendance status, reasons for late or early departure... | 截断问题改善 该 case 本身是特殊描述文本,不按常规字段名质量扣分;客观上旧版出现半截词,新版未见硬截断。 |
| 业务类型名称 | 官网试用高意向线索 | 英文:Trial high-intent leads on the official website 日语:公式サイトで高関心事のリードを試用する 意大利语:Prova gratuita sul sito web per线索 di elevato interesse |
英文:High-intent Lead for Official Website Trial 越南语:Dẫn đầu tiềm năng thử nghiệm trên trang web 德语:Hochinteressierter Probekunden |
新版英语更优 新版英文更像线索业务类型;旧版小语种存在中文残留。新版小语种仍需复核。 |
| 业务类型名称 | 渠道报备待查重线索 | 英文:Channel Reporting Pending Duplicate Check Leads 越南语:Danh sách线索 đang chờ kiểm tra trùng lặp 德语:Kanal-Berichtung warte auf Duplikatprüfung |
英文:Channel registration pending duplicate check of leads 日语:チャネル登録待ちの重複チェック対象の線索 意大利语:Linee guida sospette di doppia registrazione per canale |
英文有改善,小语种仍不稳 新版英文比旧版更接近“报备/登记”语义,但仍偏句子化;两版小语种都存在中文残留或语义漂移。 |
| 对象/业务词 | 公海池 | Open sea pool,直译为海洋语义,严重偏离 CRM。 | Public Sea Pool,比旧版略接近,但仍未达到 CRM 术语。 | 仍需优化 |
| 字段名称 | 预计成交金额 | Estimated transaction amount,可理解但 CRM 味不足。 | Estimated Transaction Amount,大小写改善,语义未本质提升。 | 改善有限 |
| 布局名称 | 客户360视图布局 | 英文基本可用,小语种部分表达不自然。 | 英文可用,德语等部分语言更自然。 | 整体可接受 |
翻译工作台小语种整体对比
| 维度 | 线上旧版 | 线下新版 | 结论 |
|---|---|---|---|
| 英文 | 可理解,但常把按钮/业务类型翻成普通句子,例如 AI to check details。 | 按钮、业务类型更接近元数据名称,例如 AI Walk-through Details、High-intent Lead。 | 新版明显更好 |
| 越南语 | 业务类型场景可见中文“线索”残留,语言纯净度不足。 | 仍有表达不自然,但比旧版更少出现明显中文残留。 | 新版改善但未完全稳定 |
| 日语 | 部分业务类型翻成完整动作句,元数据名称感不足。 | 部分结果仍夹中文“線索/线索”或语义偏长,需针对 Lead 等 CRM 术语补规则。 | 需术语库兜底 |
| 德语/意大利语 | 存在中文残留或直译,例如 per线索。 | 业务类型仍有语义漂移,例如把线索理解成客户/指南。 | 小语种仍是主要风险 |
| 俄语/西语 | 可读性受 OCR/截图限制,但旧版存在直译和长句倾向。 | 部分语言更自然,但仍需要批量导出后抽样复核。 | 建议抽检 |
五、多维度质量评价
本次不能只按“译文是否顺”判断,要同时看稳定性、低级错误、元数据上下文、多语言一致性和长度控制。
线上旧版综合评分
- 语言纯净度60
- 业务术语准确性64
- 元数据类型适配62
- 长度/截断控制55
- 数据级实体稳定性72
线下新版综合评分
- 语言纯净度78
- 业务术语准确性78
- 元数据类型适配84
- 长度/截断控制80
- 数据级实体稳定性85
| 评价维度 | 数据级多语 | 翻译工作台 | 总体判断 |
|---|---|---|---|
| 语言串行/混杂 | 新版明显减少无关品牌和语言污染。 | 主干语言改善,但小语种仍偶见中文残留或混合。 | 核心风险下降 |
| 业务指代准确性 | 客户/公司名称更稳定,地域和组织后缀保留更好。 | 按钮、业务类型改善明显;公海池、成交金额仍缺 CRM 标准术语。 | 部分达标 |
| 元数据类型适配 | 不适用或弱相关,重点是记录名称稳定。 | 按钮名称和业务类型名称明显更像系统元数据;特殊长描述 case 主要用于验证截断,不作为常规字段名质量评价。 | 方向正确 |
| 多语言质量 | 英语和部分拉丁语系稳定性较好,小语种仍需人工复核。 | 英语改善最明显;越南语、日语、德语、俄语仍存在直译或夹中文。 | 需分语种复核 |
| 长度控制 | 未暴露明显硬截断。 | 特殊压力 case 中,旧版出现半截词,新版未见硬截断;该 case 本身不是常规字段名,不作为字段名称翻译质量扣分。 | 截断风险下降 |
| 行业/租户变量 | tenantName 可作为弱辅助,避免过度改写实体名称。 | 对医疗器械、渠道、线索等术语有帮助,但仍需 path 更细粒度判断。 | 建议继续保留 |
| 输出纪律 | Excel 结果未发现 JSON/格式外溢问题。 | 截图场景未见多余解释输出,但语言纯净度仍需模型自检约束。 | 基本稳定 |
最明显收益
新版对“这是什么业务对象”的理解更强,按钮和业务类型从直译句式开始转向元数据名称。
最主要短板
小语种仍存在中文残留、语义漂移或 CRM 术语未命中,尤其业务类型名称需要继续强化术语库和 path 上下文。
最需防守的问题
语言串行虽然下降,但仍必须作为最高优先级验收项,尤其小语种不能夹中文或英文。
六、最终总结与建议
新版提示词可以认为具备上线价值,但不建议把本轮结果定义为完全通过;更准确的结论是“主问题明显收敛,小语种和 CRM 术语命中仍需补强”。
- 总体结论新版提示词相比线上旧版有实质性提升,尤其在数据级多语的语言串行治理、客户名称稳定性,以及翻译工作台的按钮/业务类型元数据理解上表现更好。
- 可通过项数据级多语的严重串行问题明显下降;按钮名称如“AI走查明细”从动词句式改善为功能名称;线索业务类型结果更接近 CRM 语境。
- 不完全通过项小语种仍存在中文残留、语义漂移或 CRM 术语未命中;公海池、预计成交金额等标准 CRM 术语仍需继续优化。
- 上线建议若目标是先降低恶劣问题,新版可继续推进;若目标是高质量元数据翻译,需要补充术语库、path 细粒度上下文和小语种回归后再做二轮验收。
- 回归重点优先回归语言纯净度、按钮/字段/布局/业务类型差异化、tenantName 行业辅助、CRM 术语库命中率、小语种中文残留。
建议下一轮新增硬性验收:英文结果不得包含中日韩字符;越南语/日语/德语/意大利语等小语种不得残留中文;长度受限时不得出现半截词;业务类型名称必须保留 Lead/Opportunity/Customer 等 CRM 核心对象语义。