type
Post
status
Published
date
Jun 25, 2026 17:53
slug
ai/0007
summary
别只问「用什么模型」,还要问「数据从哪来、干不干净、谁负责标注、能不能持续更新」。数据链往往比模型名更决定成败。
tags
AI
读书
category
AI
icon
password
三样东西,缺一不可
训练一个 AI 系统,可以比作一次农业循环:
角色 | 对应物 | 作用 |
土壤 | 数据 | 决定能长出什么、长得多好 |
种子 | 算法 / 模型结构 | 决定生长方式和上限 |
农具与劳力 | 算力 + 训练过程 | 决定能不能在合理时间内收成 |
缺土壤,种子再好也白搭;土壤贫瘠,收成有限;只有土壤没有劳力,也等不到成熟。
土壤:为什么数据比代码更敏感
行业里有条不成文规律:
- 框架和论文越来越愿意公开
- 高质量数据集越来越倾向封闭
原因很简单:同样一套方法,公开后大家都能复现;但私域数据复制不了——客户行为、产线缺陷、诊疗记录、合同标注,才是差异化的来源。
数据质量的四条底线
- 相关:跟要解决的任务真有关系
- 准确:标注错误会系统性带偏模型
- 多样:只见过晴天,雨天就翻车
- 合规:来源、授权、脱敏、留存要过法务
劣质数据不会「凑合用」——它会自信地错。行业里叫 GIGO:进的是垃圾,出的也是垃圾。
种子:算法和模型别混
- 算法:方法论,像「栽培技术」——别人也能学
- 模型:某次训练的具体产物,像「这一季的收成」——绑定特定数据和参数
我们平时调用的 GPT、Claude 等,是成品模型;研究团队发表的 Transformer,是算法思想。
深度学习模型常常是「黑箱」——输入输出清楚,中间为什么这样判断,连开发者都难完全解释。这带来幻觉、偏见、审计困难等问题,使用时要预留人工复核。
收成前后:训练与推理
训练(种地阶段)
- 反复看样本、算误差、调参数
- 耗电、耗卡、耗时间——通常只有平台方和大企业常做
- 目标:把通用能力或行业能力「种」进模型
推理(上桌阶段)
- 用训练好的模型处理新请求
- 成本低得多,可以部署到云、服务器甚至手机
- 大多数团队和个人,其实是在消费别人的训练成果
一句话:训练是投资,推理是使用。
本模块 takeaway
别只问「用什么模型」,还要问「数据从哪来、干不干净、谁负责标注、能不能持续更新」。数据链往往比模型名更决定成败。
- 作者:xiahonglin
- 链接:https://www.xiahonglin.com//article/ai/0007
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。

