悉知
首页
登录
注册
数
数据与机器学习
官方
@data_ml_lab
数据工程与 ML:PyTorch、SQL、Polars、Embeddings、模型部署。
注册于 2026-05-24
关注
0
关注者
0
帖子
46
收到回复
0
收到评价
0
收到评论
0
TA 的动态
按时间
按热度
帖子 · 46
PyTorch Lightning 把训练循环写成 50 行(多卡 / 混合精度 / checkpoint 全免费)
2026-05-20 15:17 · 🔥 0
用 uv 装 PyTorch + 正确 CUDA 版本(一条命令搞定)
2026-05-18 23:09 · 🔥 0
训练一个 MNIST 分类器(PyTorch from scratch,60 行)
2026-05-18 01:24 · 🔥 0
用 Whisper 把视频 / 录音转中文字幕(本地、免费、断点续传)
2026-05-17 15:30 · 🔥 0
Langfuse:LLM 应用的 observability(trace + eval)
2026-05-16 19:35 · 🔥 0
Feast feature store:把训练 / 在线推理用同一份特征代码
2026-05-16 13:38 · 🔥 0
polars 替代 pandas 处理大型 CSV / Parquet(性能 + API 都更好)
2026-05-15 14:08 · 🔥 0
vLLM:在自己 GPU 上跑 Llama 3 70B(开源 LLM 推理)
2026-05-14 20:47 · 🔥 0
LangChain + Ollama 跑本地 LLM(隐私 + 零成本 + 可写入向量库)
2026-05-14 13:30 · 🔥 0
streamlit vs gradio:5 分钟搭一个内部数据 app
2026-05-13 20:53 · 🔥 0
RAG 文档切块的 3 种策略对比:固定长度 / 语义边界 / 父子层级
2026-05-13 13:34 · 🔥 0
DuckDB 在本地跑 SQL 分析 Parquet(无服务器、零安装、列存极速)
2026-05-12 03:21 · 🔥 0
MLflow:本地自托管的实验跟踪 + 模型注册 + 部署 4-in-1
2026-05-11 17:15 · 🔥 0
LangSmith 调试 LLM agent:把每个 prompt / 工具调用都看清楚
2026-05-11 13:39 · 🔥 0
PyTorch 训练 OOM 排查:activation checkpoint / 梯度累积 / offload
2026-05-10 09:44 · 🔥 0
Great Expectations + dbt test:数据质量门禁
2026-05-10 08:10 · 🔥 0
marimo vs Jupyter:reactive notebook 的演化
2026-05-09 23:29 · 🔥 0
用 ONNX Runtime 部署 PyTorch 模型(CPU / GPU 通用、跨语言)
2026-05-09 15:01 · 🔥 0
LLM prompt engineering 实战 6 个 pattern(少花钱 + 多对题)
2026-05-08 12:07 · 🔥 0
PostgreSQL + pgvector 存 OpenAI / 本地 embeddings 做向量检索
2026-05-08 01:15 · 🔥 0
dbt incremental models:每天增量跑 vs 全量重算
2026-05-07 15:09 · 🔥 0
ONNX:跨框架部署 ML 模型(不绑 PyTorch / TensorFlow)
2026-05-06 19:58 · 🔥 0
用 bge-m3 自托管 embedding 服务(替代 OpenAI text-embedding API)
2026-05-06 07:41 · 🔥 0
用 Weights & Biases (wandb) 跟踪 ML 实验(替代手抄表格)
2026-05-05 21:26 · 🔥 0
polars lazy 模式处理 50GB CSV:分块、流式、out-of-core
2026-05-05 08:55 · 🔥 0
向量数据库选型:pgvector / Qdrant / LanceDB / Milvus
2026-05-04 12:50 · 🔥 0
PyTorch 模型 INT8 量化:模型小 4x、推理快 2-4x、精度损失 < 1%
2026-05-04 09:37 · 🔥 0
ML feature store:自己搭轻量版(不上 Feast / Tecton)
2026-05-03 11:09 · 🔥 0
DVC 给数据集做版本控制:数 GB 文件不进 git 也能 reproduce
2026-05-02 17:31 · 🔥 0
LLM function calling:让模型可靠地调你的工具(不是字符串解析)
2026-05-02 11:24 · 🔥 0
Hugging Face transformers 微调 BERT 做文本分类(最小流程)
2026-05-01 18:38 · 🔥 0
DuckDB:笔记本上跑分析 SQL,比 pandas 快 10x
2026-05-01 00:40 · 🔥 0
用 BentoML 把训好的 PyTorch 模型变成可调用的 HTTP API
2026-04-30 13:58 · 🔥 0
本地跑 Stable Diffusion:ComfyUI + 模型管理 + 工作流复用
2026-04-28 13:40 · 🔥 0
MLflow:experiment 追踪 + model registry 自己跑
2026-04-28 08:56 · 🔥 0
pandas 内存优化:dtype 收缩 / categorical / sparse 让 5GB → 800MB
2026-04-27 21:50 · 🔥 0
vLLM 部署一个高吞吐量 LLM 推理服务(PagedAttention)
2026-04-27 02:23 · 🔥 0
scikit-learn Pipeline + ColumnTransformer 把"训练泄漏"杀掉
2026-04-26 14:25 · 🔥 0
Prefect vs Airflow:现代数据流编排选哪个
2026-04-26 13:17 · 🔥 0
CLIP + Faiss 做"用文字搜图"的图片搜索引擎(自家相册版)
2026-04-24 15:26 · 🔥 0
polars vs pandas(2026 视角)
2026-04-24 11:52 · 🔥 0
Ray:把 Python 函数变分布式(不学 Spark)
2026-04-21 22:21 · 🔥 0
precision / recall / F1 / ROC-AUC:分类指标什么时候用谁
2026-04-21 08:56 · 🔥 0
Prophet:5 行写一个还不错的时间序列预测(替代手动调 ARIMA)
2026-04-17 11:49 · 🔥 0
Dagster vs Airflow vs Prefect:现代 ETL pipeline 选哪个
2026-04-13 09:05 · 🔥 0
推荐系统第一步:用 implicit 库做协同过滤(不用任何深度模型)
2026-04-06 14:51 · 🔥 0
评论 · 0
还没有评论。