LINCS L1000 Level 1–5数据说明

L1000 数据是 LINCS / Connectivity Map 项目中常用的基因表达扰动数据格式。它并不是完整转录组的直接测量,而是通过 978 个实测 landmark genes 加上若干 inferred genes 构成的表达签名体系。

Level 1–5 表示从原始荧光信号到最终差异表达 signature 的逐级处理流程。下面从基因数量、表达值来源和适用场景三个方面进行说明。

一、L1000 中的基因类型

基因类型数量说明
Landmark genes978 个真实测量的核心基因,通过 L1000 实验平台直接获得信号。
Inferred genes约 11,000–12,000 个不是直接测量,而是根据 978 个 landmark genes 通过模型推断得到。
总基因数常见约 12,328 个不同版本略有差异。经典数据集中常见为 978 个实测基因加约 11,350 个推断基因。

二、Level 1–5 分层说明

Level 1:原始信号 Raw Data

基因数:严格来说,Level 1 还不是明确的 gene expression matrix,因此不能简单说有多少个基因。

表达值来源:来自 Luminex 平台的 bead-level 原始荧光强度信号。

signal = fluorescence intensity

特点:Level 1 噪声较大,尚未解卷积、未归一化,通常不直接用于常规生物学分析。

Level 2:解卷积表达 Deconvoluted Data

基因数:978 个 landmark genes。

表达值来源:L1000 平台中,一个 bead 可能编码两个基因,因此需要通过解卷积算法把混合信号拆分为每个基因的表达信号。

gene_expression ≈ deconvolved intensity

特点:Level 2 已经得到 gene-level 表达值,但仍然存在系统误差和批次效应,通常还需要进一步标准化。

Level 3:标准化表达 Normalized Expression

基因数:通常约 12,000 个基因,包括 978 个实测 landmark genes 和约 11,000 多个 inferred genes。

表达值来源:

  1. 对 978 个 landmark genes 进行背景校正、quantile normalization、plate-level correction 等处理。
  2. 基于 978 个实测基因,通过模型推断其余基因表达。
X_inferred = W × X_landmark

因此,Level 3 的表达值可以理解为:

Level 3 expression = 978 个真实测量基因的标准化表达 + 约 11K 个模型推断基因的表达

特点:Level 3 是常见的单样本标准化表达层,适合作为机器学习输入,但需要注意 inferred genes 并不是真实测量值。

Level 4:重复实验合并 Replicate Consensus Signature

基因数:与 Level 3 基本一致,通常约 12,000 个基因。

表达值来源:对同一 perturbation 的多个 replicate 进行合并,常用 MODZ 等一致性加权方法。

signature = weighted_average(replicates)

特点:Level 4 比 Level 3 更稳定,可以降低单个 replicate 的实验噪声,适合构建 perturbation-level 表征。

Level 5:差异表达签名 Differential Signature

基因数:通常仍为约 12,000 个基因。

表达值来源:将 perturbation 样本与相应 control 比较,得到标准化差异表达值。

z = (x - μ_control) / σ_control

本质:Level 5 不是原始表达值,也不是 TPM、FPKM 或普通 normalized expression,而是相对于对照的差异表达 signature。

三、总览表

Level基因数表达值来源常见用途
Level 1无明确 gene matrixbead-level 原始荧光信号底层算法或平台质量分析
Level 2978解卷积后的 landmark gene 信号较少直接使用
Level 3约 12K978 实测标准化表达 + 约 11K 推断表达表达建模、机器学习输入
Level 4约 12K多个 replicate 合并后的 consensus 表达perturbation embedding、稳定表达签名
Level 5约 12K相对于 control 的标准化差异表达扰动分析、signature 比较、driver gene 分析

四、重要注意事项

1. Inferred genes 不等于真实测量表达

L1000 中约 11K 个 inferred genes 是模型预测值,不是直接实验测量值。用于深度学习建模时,需要注意其潜在 bias,尤其是在 perturbation prediction 或跨数据集泛化任务中。

2. Level 5 不是普通表达矩阵

Level 5 表示相对于 control 的差异表达 signature,更接近 z-score 或 perturbation effect,不能直接当作 TPM、FPKM 或 raw expression 使用。

3. Control 和 batch 对结果影响很大

Level 5 的差异表达依赖相应 control。不同 plate、batch、cell line 下的 baseline 可能不同。因此跨实验建模时,需要考虑 batch correction、domain adaptation 或类似策略。

五、建模使用建议

1. 如果目标是表达预测,例如 A + perturbation → B

优先考虑 Level 3 或 Level 4,尤其是只使用 978 个 landmark genes。这样可以减少 inferred genes 带来的模型偏差。

2. 如果目标是扰动方向、DEG 或 driver gene 分析

Level 5 更直接,因为它已经表示 perturbation 相对于 control 的差异表达效应。

3. 如果目标是构建 foundation model

可以考虑使用 Level 3 的大规模单样本表达,或 Level 4 的高质量 consensus signature。更严格的方案是只使用 978 个实测 landmark genes 作为核心输入。

六、一句话总结

L1000 的约 12K 基因空间,本质上是 978 个真实测量 landmark genes 加上约 11K 个模型推断基因;Level 1–5 则表示从原始荧光信号、解卷积、标准化表达、replicate 合并,到最终差异表达 signature 的逐级处理流程。

发表评论

匿名网友

拖动滑块以完成验证