BaseNumber DNA测序数据分析系统通过执行基于“CUDA+GPU”计算环境开发的高并行算法,将DNA测序数据二级分析速度提升百倍,极大缩短计算时间,降低用户成本。
平台内置多种分析流程,助力用户全方位提升NGS数据分析能力,释放数据价值。
BaseNumber 胚系变异分析流程可以在不损失准确性的前提下,单机用12分钟完成30X人类全基因组数据的胚系变异分析工作,相对于CPU Server运行BWA+GATK 流程提速120倍。由此带来的巨大通量优势使得用户可大幅减少用于生物信息二级分析的相关成本。
BaseNumber 胚系变异分析流程支持各种主流二代测序仪生成的全基因组(WGS)、全外显子组(WES)、靶向Panel(Target Panel)等各种测序数据。
针对下机的Reads文件(FASTQ),BaseNumber 胚系变异分析流程自动完成解压、比对、排序去重、变异分析等步骤后,生成三级分析可直接使用的标准VCF文件。此外,BaseNumber 胚系变异分析还向用户提供灵活的个性化流程配置功能。
并行解压
自研多线程解压算法
可将GZ格式文件解压提速数十倍
Reads比对
基于BWA MEM; reads预处理基于fastp
支持alt-aware reads比对
BAM排序及去重
自研预索引算法,两个功能一步完成
支持UMI去重
胚系变异分析
基于GATK HaplotypeCaller
支持GATK多个版本
无需down sampling,可处理超高深度样本
支持gVCF
可处理多倍体
gVCF合并及联合基因型分析
基于GATK
支持数千样本的联合变异分析
30X人类全基因组FASTQ→VCF分析时间只需12分钟, 比CPU服务器运行GATK分析速度提升100倍
200X人类WES数据(50M 区域)FASTQ→VCF分析时间只需1.5分钟
全流程
一组家系样本(3个50X WGS)的分析时间大约为45分钟
FASTQ to GVCF
每个50X WGS样本分析生成GVCF需13分钟
GVCF Combine & Genotyping
两个功能一步完成,3个WGS GVCF合并需5分钟
*50X NA12878; MGISEQ-2000; 金标准采用GIAB v3.3.2
BaseNumber 体细胞变异分析流程的变异分析模块由MuTect2重构而成,其分析结果与广泛使用的BWA+MuTect2流程保持高度一致。凭借超高并行度的生信算法,BaseNumber 体细胞变异分析可以大幅提高计算效率。例如对于WES数据的体细胞变异分析,BaseNumber一体机的分析速度可达CPU server的80倍以上。
BaseNumber 体细胞变异分析流程支持Tumor only模式,在无对照组的情况下也可完成变异分析; 同时计算过程中不会执行down sampling, 可极速分析超高深度样本。
并行解压
自研多线程解压算法
可将GZ格式文件解压提速数十倍
Reads比对
基于BWA MEM
包含基于fastp的reads去接头预处理
支持alt-aware reads比对
BAM排序及去重
自研预索引算法,两个功能一步完成
支持UMI去重
体细胞变异分析
基于Mutect2
无需down sampling
可处理ctDNA超高深度样本
支持tumor only运行模式
WES数据分析时间(Tumor+Normal)只需6.7分钟 50M区域,tumor ~800x,normal ~200x
Target panel数据分析(Tumor+Normal)只需4分钟 2.4M区域,tumor ~8000x,normal ~200x