L1000 数据是 LINCS / Connectivity Map 项目中常用的基因表达扰动数据格式。它并不是完整转录组的直接测量,而是通过 978 个实测 landmark genes 加上若干 inferred genes 构成的表达签名体系。
Level 1–5 表示从原始荧光信号到最终差异表达 signature 的逐级处理流程。下面从基因数量、表达值来源和适用场景三个方面进行说明。
一、L1000 中的基因类型
| 基因类型 | 数量 | 说明 |
|---|---|---|
| Landmark genes | 978 个 | 真实测量的核心基因,通过 L1000 实验平台直接获得信号。 |
| Inferred genes | 约 11,000–12,000 个 | 不是直接测量,而是根据 978 个 landmark genes 通过模型推断得到。 |
| 总基因数 | 常见约 12,328 个 | 不同版本略有差异。经典数据集中常见为 978 个实测基因加约 11,350 个推断基因。 |
二、Level 1–5 分层说明
Level 1:原始信号 Raw Data
基因数:严格来说,Level 1 还不是明确的 gene expression matrix,因此不能简单说有多少个基因。
表达值来源:来自 Luminex 平台的 bead-level 原始荧光强度信号。
signal = fluorescence intensity
特点:Level 1 噪声较大,尚未解卷积、未归一化,通常不直接用于常规生物学分析。
Level 2:解卷积表达 Deconvoluted Data
基因数:978 个 landmark genes。
表达值来源:L1000 平台中,一个 bead 可能编码两个基因,因此需要通过解卷积算法把混合信号拆分为每个基因的表达信号。
gene_expression ≈ deconvolved intensity
特点:Level 2 已经得到 gene-level 表达值,但仍然存在系统误差和批次效应,通常还需要进一步标准化。
Level 3:标准化表达 Normalized Expression
基因数:通常约 12,000 个基因,包括 978 个实测 landmark genes 和约 11,000 多个 inferred genes。
表达值来源:
- 对 978 个 landmark genes 进行背景校正、quantile normalization、plate-level correction 等处理。
- 基于 978 个实测基因,通过模型推断其余基因表达。
X_inferred = W × X_landmark
因此,Level 3 的表达值可以理解为:
Level 3 expression = 978 个真实测量基因的标准化表达 + 约 11K 个模型推断基因的表达
特点:Level 3 是常见的单样本标准化表达层,适合作为机器学习输入,但需要注意 inferred genes 并不是真实测量值。
Level 4:重复实验合并 Replicate Consensus Signature
基因数:与 Level 3 基本一致,通常约 12,000 个基因。
表达值来源:对同一 perturbation 的多个 replicate 进行合并,常用 MODZ 等一致性加权方法。
signature = weighted_average(replicates)
特点:Level 4 比 Level 3 更稳定,可以降低单个 replicate 的实验噪声,适合构建 perturbation-level 表征。
Level 5:差异表达签名 Differential Signature
基因数:通常仍为约 12,000 个基因。
表达值来源:将 perturbation 样本与相应 control 比较,得到标准化差异表达值。
z = (x - μ_control) / σ_control
本质:Level 5 不是原始表达值,也不是 TPM、FPKM 或普通 normalized expression,而是相对于对照的差异表达 signature。
三、总览表
| Level | 基因数 | 表达值来源 | 常见用途 |
|---|---|---|---|
| Level 1 | 无明确 gene matrix | bead-level 原始荧光信号 | 底层算法或平台质量分析 |
| Level 2 | 978 | 解卷积后的 landmark gene 信号 | 较少直接使用 |
| Level 3 | 约 12K | 978 实测标准化表达 + 约 11K 推断表达 | 表达建模、机器学习输入 |
| Level 4 | 约 12K | 多个 replicate 合并后的 consensus 表达 | perturbation embedding、稳定表达签名 |
| Level 5 | 约 12K | 相对于 control 的标准化差异表达 | 扰动分析、signature 比较、driver gene 分析 |
四、重要注意事项
1. Inferred genes 不等于真实测量表达
L1000 中约 11K 个 inferred genes 是模型预测值,不是直接实验测量值。用于深度学习建模时,需要注意其潜在 bias,尤其是在 perturbation prediction 或跨数据集泛化任务中。
2. Level 5 不是普通表达矩阵
Level 5 表示相对于 control 的差异表达 signature,更接近 z-score 或 perturbation effect,不能直接当作 TPM、FPKM 或 raw expression 使用。
3. Control 和 batch 对结果影响很大
Level 5 的差异表达依赖相应 control。不同 plate、batch、cell line 下的 baseline 可能不同。因此跨实验建模时,需要考虑 batch correction、domain adaptation 或类似策略。
五、建模使用建议
1. 如果目标是表达预测,例如 A + perturbation → B
优先考虑 Level 3 或 Level 4,尤其是只使用 978 个 landmark genes。这样可以减少 inferred genes 带来的模型偏差。
2. 如果目标是扰动方向、DEG 或 driver gene 分析
Level 5 更直接,因为它已经表示 perturbation 相对于 control 的差异表达效应。
3. 如果目标是构建 foundation model
可以考虑使用 Level 3 的大规模单样本表达,或 Level 4 的高质量 consensus signature。更严格的方案是只使用 978 个实测 landmark genes 作为核心输入。
六、一句话总结
L1000 的约 12K 基因空间,本质上是 978 个真实测量 landmark genes 加上约 11K 个模型推断基因;Level 1–5 则表示从原始荧光信号、解卷积、标准化表达、replicate 合并,到最终差异表达 signature 的逐级处理流程。

