Lazy loaded image
06 土壤、种子与收成
字数 734阅读时长 2 分钟
2026-6-25
2026-6-25
type
Post
status
Published
date
Jun 25, 2026 17:53
slug
ai/0007
summary
别只问「用什么模型」,还要问「数据从哪来、干不干净、谁负责标注、能不能持续更新」。数据链往往比模型名更决定成败。
tags
AI
读书
category
AI
icon
password

三样东西,缺一不可

训练一个 AI 系统,可以比作一次农业循环:
角色
对应物
作用
土壤
数据
决定能长出什么、长得多好
种子
算法 / 模型结构
决定生长方式和上限
农具与劳力
算力 + 训练过程
决定能不能在合理时间内收成
缺土壤,种子再好也白搭;土壤贫瘠,收成有限;只有土壤没有劳力,也等不到成熟。

土壤:为什么数据比代码更敏感

行业里有条不成文规律:
  • 框架和论文越来越愿意公开
  • 高质量数据集越来越倾向封闭
原因很简单:同样一套方法,公开后大家都能复现;但私域数据复制不了——客户行为、产线缺陷、诊疗记录、合同标注,才是差异化的来源。

数据质量的四条底线

  1. 相关:跟要解决的任务真有关系
  1. 准确:标注错误会系统性带偏模型
  1. 多样:只见过晴天,雨天就翻车
  1. 合规:来源、授权、脱敏、留存要过法务
劣质数据不会「凑合用」——它会自信地错。行业里叫 GIGO:进的是垃圾,出的也是垃圾。

种子:算法和模型别混

  • 算法:方法论,像「栽培技术」——别人也能学
  • 模型:某次训练的具体产物,像「这一季的收成」——绑定特定数据和参数
我们平时调用的 GPT、Claude 等,是成品模型;研究团队发表的 Transformer,是算法思想
深度学习模型常常是「黑箱」——输入输出清楚,中间为什么这样判断,连开发者都难完全解释。这带来幻觉、偏见、审计困难等问题,使用时要预留人工复核。

收成前后:训练与推理

训练(种地阶段)
  • 反复看样本、算误差、调参数
  • 耗电、耗卡、耗时间——通常只有平台方和大企业常做
  • 目标:把通用能力或行业能力「种」进模型
推理(上桌阶段)
  • 用训练好的模型处理新请求
  • 成本低得多,可以部署到云、服务器甚至手机
  • 大多数团队和个人,其实是在消费别人的训练成果
一句话:训练是投资,推理是使用。

本模块 takeaway

别只问「用什么模型」,还要问「数据从哪来、干不干净、谁负责标注、能不能持续更新」。数据链往往比模型名更决定成败。
上一篇
07 从地基到门面
下一篇
05 三层楼里的三个房间