搜狗输入法·万物输入皆搜狗

如何批量删除搜狗输入法的无效短语?(2个方法)

方案一:通过搜狗输入法内置词库管理(推荐小白)

操作步骤:

  1. 打开词库管理
    • 右键点击搜狗输入法状态栏 → 选择 「属性设置」
    • 左侧菜单 → 「高级」 → 「自定义短语设置」
    • 点击 「管理自定义短语」
  2. 批量筛选删除
    • 在搜索框中输入 无效短语关键词(如 www.广告、乱码前缀等)
    • 按 Ctrl 多选目标短语 → 点击右下角 「删除」
    • 或直接点击 「全选」 → 删除当前页所有短语(分页需重复操作)
  3. 限制恢复(防误删)
    • 删除后立即点击右上角 「恢复默认短语」 → 可还原系统初始短语(不包含用户添加内容)

方案二:导出词库文件编辑(适合大量清理)

步骤详解:

  1. 导出短语文件
    • 在「自定义短语设置」窗口 → 点击 「导出」
    • 保存为 phrases.ini 到桌面(文本文件格式)
  2. 批量编辑文件
    • 用 记事本 或 VS Code 打开 phrases.ini
    • 文件结构示例:inijingdong,1=京东 asdfg,1=乱码示例 # 目标删除行 vip,1=会员
    • 删除策略
      • 删除含乱码的行(如 asdfgqwert 等)
      • 用正则表达式搜索删除广告词:
        Ctrl+H 启用正则替换 → 输入 .*(折扣|推广|http).*\n → 全部替换
  3. 重新导入生效
    • 返回搜狗设置 → 点击 「导入」 → 选择编辑后的文件
    • 勾选 「清除现有短语」 → 确认覆盖

进阶技巧:自动过滤无效词

  1. 用Python脚本清洗词库(示例代码):pythonimport re with open(“phrases.ini”, “r”, encoding=”utf-8″) as f: lines = f.readlines() # 规则:保留长度2-5汉字且不含符号/数字的短语 valid_lines = [line for line in lines if re.match(r’^[^\d\W]{2,5},.*$’, line)] with open(“phrases_clean.ini”, “w”, encoding=”utf-8″) as f: f.writelines(valid_lines)→ 运行后导入 phrases_clean.ini
  2. 禁用自动学习(防新增无效词):
    • 设置 → 「高级」 → 「动态词频调整」取消勾选
    • 「候选词扩展」关闭「网络新词」

注意事项:

  1. 系统词库保护
    • 内置短语(如 中国北京)无法删除,仅能删用户添加内容
  2. 云同步风险
    • 删除后登录搜狗账号会同步到所有设备 → 建议操作前关闭账号同步
  3. 替代工具
    若需深度清理 → 使用 「深蓝词库转换」 工具导出为Excel筛选(支持正则匹配)

💡 终极建议
定期执行 「导出→脚本清洗→导入」 流程 + 关闭自动学习,可永久保持词库纯净。