方案一:通过搜狗输入法内置词库管理(推荐小白)
操作步骤:
- 打开词库管理
- 右键点击搜狗输入法状态栏 → 选择 「属性设置」
- 左侧菜单 → 「高级」 → 「自定义短语设置」
- 点击 「管理自定义短语」
- 批量筛选删除
- 在搜索框中输入 无效短语关键词(如
www.
、广告
、乱码前缀等) - 按
Ctrl
多选目标短语 → 点击右下角 「删除」 - 或直接点击 「全选」 → 删除当前页所有短语(分页需重复操作)
- 在搜索框中输入 无效短语关键词(如
- 限制恢复(防误删)
- 删除后立即点击右上角 「恢复默认短语」 → 可还原系统初始短语(不包含用户添加内容)
方案二:导出词库文件编辑(适合大量清理)
步骤详解:
- 导出短语文件
- 在「自定义短语设置」窗口 → 点击 「导出」
- 保存为
phrases.ini
到桌面(文本文件格式)
- 批量编辑文件
- 用 记事本 或 VS Code 打开
phrases.ini
- 文件结构示例:inijingdong,1=京东 asdfg,1=乱码示例 # 目标删除行 vip,1=会员
- 删除策略:
- 删除含乱码的行(如
asdfg
、qwert
等) - 用正则表达式搜索删除广告词:
Ctrl+H
启用正则替换 → 输入.*(折扣|推广|http).*\n
→ 全部替换
- 删除含乱码的行(如
- 用 记事本 或 VS Code 打开
- 重新导入生效
- 返回搜狗设置 → 点击 「导入」 → 选择编辑后的文件
- 勾选 「清除现有短语」 → 确认覆盖
进阶技巧:自动过滤无效词
- 用Python脚本清洗词库(示例代码):pythonimport re with open(“phrases.ini”, “r”, encoding=”utf-8″) as f: lines = f.readlines() # 规则:保留长度2-5汉字且不含符号/数字的短语 valid_lines = [line for line in lines if re.match(r’^[^\d\W]{2,5},.*$’, line)] with open(“phrases_clean.ini”, “w”, encoding=”utf-8″) as f: f.writelines(valid_lines)→ 运行后导入
phrases_clean.ini
- 禁用自动学习(防新增无效词):
- 设置 → 「高级」 → 「动态词频调整」取消勾选
- 「候选词扩展」关闭「网络新词」
注意事项:
- 系统词库保护
- 内置短语(如
中国
、北京
)无法删除,仅能删用户添加内容
- 内置短语(如
- 云同步风险
- 删除后登录搜狗账号会同步到所有设备 → 建议操作前关闭账号同步
- 替代工具
若需深度清理 → 使用 「深蓝词库转换」 工具导出为Excel筛选(支持正则匹配)
💡 终极建议:
定期执行 「导出→脚本清洗→导入」 流程 + 关闭自动学习,可永久保持词库纯净。