Frank
每一个不曾起舞的日子,都是对生命的辜负。
- 2026 · 05 · 21
NVIDIA GPU 编程生态全景 — 从 PTX 到 CuTe DSL 的抽象阶梯
PTX、CUDA C++、CUTLASS、CuTe、Triton、CuTe DSL — NVIDIA GPU 编程的全部入口都汇到 PTX → SASS 这同一条出口。把它们排成一条从「省事」到「极限」的连续阶梯,默认现成库、Python 写 Triton、C++ 上 CUTLASS、底层补 PTX,就把整个生态装进一个心智模型。
- 2026 · 05 · 21
CPU 与 GPU 里的存储 — 类型、工艺、为什么这样设计
从寄存器到机械硬盘把存储层次铺开 — SRAM / DRAM / HBM / Flash / HDD 各自的电路原理、制造工艺、归属哪块硬件,以及"为什么有的快、有的贵、有的断电就丢、有的容量大"这四个问题背后的同一条物理因果链。
- 2026 · 05 · 19
热爱是热路径
休谟说,理性是、也应当是激情的奴隶。把这句话翻译成今天软件工程师熟悉的语言:情感是机器指令集,是 CPU 真正执行的东西;理性是高级语言,必须被编译之后才能跑。任何理性推理,最终都会落到某个你在乎的东西上。一个好系统先用高级语言搭框架,再 profile 出热点、把那一小部分手工优化到贴着硬件跑。把同样的架构搬到人生上:用理性构建大框架,用热爱驱动高频日常。
- 2026 · 05 · 18
大语言模型中的低精度数据格式
一篇文章把 LLM 训练与推理用到的浮点 / 整数格式从位级别讲清楚 — 定义、动态范围、在 Transformer 中的实际位置、V100 到 Rubin 的硬件支持、Llama 4 与 DeepSeek-V3 的精度选择。
- 2026 · 05 · 17
杠铃策略及其衍生
塔勒布的杠铃策略:把资源极端地放在两端,主动避开中间地带。这个想法最早被用来谈投资,后来被引申到阅读、职业,甚至人生规划——它的核心从来不是「在两端各放多少」,而是承认这个世界本质上是不确定的,先确保自己活得下去,再去争取那些有可能带来跃迁的机会。
- 2026 · 05 · 12
AI 推理芯片光谱 — 通用 GPU 到模型刻片的七档专用化
从 NVIDIA GPU 到 Taalas 模型刻片,2026 年 AI 推理芯片在「通用 ↔ 专用」光谱上形成七档梯度。每往右一档速度涨 3-10×,灵活性切掉一块。光子的计算路线被衍射极限卡住,互联路线已规模化。