2026-03-27
6

平凡世界(三)

快速刷完一遍。
今天才发现书皮腰封,写着改变马云命运的一本书。
查路遥资料,发现他和下乡的习主席彻夜不眠聊过天。
好友是贾平凹。
去世年龄42岁和张雪峰差不多。
1992年8.1日,肝硬化腹水医治无效,西安去世.
我在查路遥资料的时候发现,百度百科和ai回答的不同。
今天中午有个时间,我问ai大模型运行的原理是什么?
大白话就是ai大模型,记住了很多资料,当你问他今天早上吃什么的时候,大模型,就是把他掌握书籍等资料,包含有早上吃饭情节的资料快速统计出来,然后选择吃的最多的食物出来,然后在整理一下,给你建议或者推荐,建议和推荐这两个词也是靠概率出现在你眼前的。
当ai大模型不包含的内容,ai可能还会一本正经的告诉你答案,这就是没有命中的时候.
安娜档案馆聚合的图书资源大概6100-6300万本,学术论文是9500-9800万篇。
总数据量大概是1.1PB zlib是160TN左右。
安娜档案馆占全球图书比例可能是40%左右,zilb大概是15%左右。
ai模型9b 90亿参数,要给9b的模型投喂多少数据呢?大概是8-10tb
见过一个675b的模型 ai说训练一个 675B 大模型(尤其 MoE 架构),通常需要:

  • 6.75–30 万亿 Tokens 的高质量文本
  • 对应硬盘空间:6.75–30 TB

9b模型占用空间大小是多少呢?
FP16 / 半精度(原始格式)

  • 每个参数 2 字节
  • 总大小 ≈ 18 GB

INT8 量化(常用部署格式)

  • 每个参数 1 字节
  • 总大小 ≈ 9 GB

INT4 量化(极低显存版)

  • 每个参数 0.5 字节
  • 总大小 ≈ 4.5 GB
    前面说百度和ai说的不同,后面你会发现图书资料库很大,应该还没有人把所有图书都给ai训练。小模型可能编程,绘画,视频等ai挺强,因为排列组合少变化少可能。
    我就突然想到去看看有没有路遥的传记看看。可能ai读过这本书。所以答案和百度不同。也可能只是ai的幻觉(没有学过记录过还瞎说)