LINCS L1000 Level 1–5数据说明

2021/04/30评论104

L1000 数据是 LINCS / Connectivity Map 项目中常用的基因表达扰动数据格式。它并不是完整转录组的直接测量，而是通过 978 个实测 landmark genes 加上若干 inferred genes 构成的表达签名体系。

Level 1–5 表示从原始荧光信号到最终差异表达 signature 的逐级处理流程。下面从基因数量、表达值来源和适用场景三个方面进行说明。

一、L1000 中的基因类型

基因类型	数量	说明
Landmark genes	978 个	真实测量的核心基因，通过 L1000 实验平台直接获得信号。
Inferred genes	约 11,000–12,000 个	不是直接测量，而是根据 978 个 landmark genes 通过模型推断得到。
总基因数	常见约 12,328 个	不同版本略有差异。经典数据集中常见为 978 个实测基因加约 11,350 个推断基因。

二、Level 1–5 分层说明

Level 1：原始信号 Raw Data

基因数：严格来说，Level 1 还不是明确的 gene expression matrix，因此不能简单说有多少个基因。

表达值来源：来自 Luminex 平台的 bead-level 原始荧光强度信号。

signal = fluorescence intensity

特点：Level 1 噪声较大，尚未解卷积、未归一化，通常不直接用于常规生物学分析。

Level 2：解卷积表达 Deconvoluted Data

基因数：978 个 landmark genes。

表达值来源：L1000 平台中，一个 bead 可能编码两个基因，因此需要通过解卷积算法把混合信号拆分为每个基因的表达信号。

gene_expression ≈ deconvolved intensity

特点：Level 2 已经得到 gene-level 表达值，但仍然存在系统误差和批次效应，通常还需要进一步标准化。

Level 3：标准化表达 Normalized Expression

基因数：通常约 12,000 个基因，包括 978 个实测 landmark genes 和约 11,000 多个 inferred genes。

表达值来源：

对 978 个 landmark genes 进行背景校正、quantile normalization、plate-level correction 等处理。
基于 978 个实测基因，通过模型推断其余基因表达。

X_inferred = W × X_landmark

因此，Level 3 的表达值可以理解为：

Level 3 expression = 978 个真实测量基因的标准化表达 + 约 11K 个模型推断基因的表达

特点：Level 3 是常见的单样本标准化表达层，适合作为机器学习输入，但需要注意 inferred genes 并不是真实测量值。

Level 4：重复实验合并 Replicate Consensus Signature

基因数：与 Level 3 基本一致，通常约 12,000 个基因。

表达值来源：对同一 perturbation 的多个 replicate 进行合并，常用 MODZ 等一致性加权方法。

signature = weighted_average(replicates)

特点：Level 4 比 Level 3 更稳定，可以降低单个 replicate 的实验噪声，适合构建 perturbation-level 表征。

Level 5：差异表达签名 Differential Signature

基因数：通常仍为约 12,000 个基因。

表达值来源：将 perturbation 样本与相应 control 比较，得到标准化差异表达值。

z = (x - μ_control) / σ_control

本质：Level 5 不是原始表达值，也不是 TPM、FPKM 或普通 normalized expression，而是相对于对照的差异表达 signature。

三、总览表

Level	基因数	表达值来源	常见用途
Level 1	无明确 gene matrix	bead-level 原始荧光信号	底层算法或平台质量分析
Level 2	978	解卷积后的 landmark gene 信号	较少直接使用
Level 3	约 12K	978 实测标准化表达 + 约 11K 推断表达	表达建模、机器学习输入
Level 4	约 12K	多个 replicate 合并后的 consensus 表达	perturbation embedding、稳定表达签名
Level 5	约 12K	相对于 control 的标准化差异表达	扰动分析、signature 比较、driver gene 分析

四、重要注意事项

1. Inferred genes 不等于真实测量表达

L1000 中约 11K 个 inferred genes 是模型预测值，不是直接实验测量值。用于深度学习建模时，需要注意其潜在 bias，尤其是在 perturbation prediction 或跨数据集泛化任务中。

2. Level 5 不是普通表达矩阵

Level 5 表示相对于 control 的差异表达 signature，更接近 z-score 或 perturbation effect，不能直接当作 TPM、FPKM 或 raw expression 使用。

3. Control 和 batch 对结果影响很大

Level 5 的差异表达依赖相应 control。不同 plate、batch、cell line 下的 baseline 可能不同。因此跨实验建模时，需要考虑 batch correction、domain adaptation 或类似策略。

五、建模使用建议

1. 如果目标是表达预测，例如 A + perturbation → B

优先考虑 Level 3 或 Level 4，尤其是只使用 978 个 landmark genes。这样可以减少 inferred genes 带来的模型偏差。

2. 如果目标是扰动方向、DEG 或 driver gene 分析

Level 5 更直接，因为它已经表示 perturbation 相对于 control 的差异表达效应。

3. 如果目标是构建 foundation model

可以考虑使用 Level 3 的大规模单样本表达，或 Level 4 的高质量 consensus signature。更严格的方案是只使用 978 个实测 landmark genes 作为核心输入。

六、一句话总结

L1000 的约 12K 基因空间，本质上是 978 个真实测量 landmark genes 加上约 11K 个模型推断基因；Level 1–5 则表示从原始荧光信号、解卷积、标准化表达、replicate 合并，到最终差异表达 signature 的逐级处理流程。