基因座的命名有以下两种方式:按照 Genome Database (GDB)命名原则,以基因座所在染色体以及首次进入公共数据库的原始序号为依据进行命名,记录为D#S##,其中字母D表示DNA, S代表单拷贝序列,D与S之间的数字代表所在的染色体序号,s之后的数字表示该染色体上发现并进入公共数据库的序号。该命名方式主要适用于非编码区中的STR基因座或染色体定位不明的STR基因座。例如,D3S1359是指位于人类3号染色体上入库数据中第1359号序列。
按照 STR序列的GenBank注册命名。该命名方式主要适用于位于蛋白编码基因及其内含子和假基因的STR基因座。例如,人类a-纤维蛋白原基因第3内含子中的STR序列命名为FGA.
DNA链的选择及核心重复单位的确定
法医学常见STR基因座的基序结构参见附录A.DNA链的选择及核心重复单位的确定原则如下:
a)以D#命名的基因座,针对第一一个进入公共数据库的文献报道的原始序列确定重复单位构成;
b) 蛋白编码区域(包括内含子)的STR基因座选用编码链确定重复单位;
c) 未在附录A提供的STR基因座的重复单位序列确定宜采用人类参考序列Hg 19或GRCh38进行序列比对,且采用正向链进行比对;
d) 重复序列应从离5'端最近的一个核苷酸开始定义:
e) 已建立的与上述原则不一致的重复单位序列仍予以保留。
基于长度多态性检测结果的命名
按照重复单位的重复次数进行命名。例如,基因座D13S317的某等位基因重复单位的重复次数与同步电泳的Ladder比对后为12,则该等位基因命名为12.
对于微变异等位基因,其命名是在完整重复单位的重复次数后用一小数点分隔,然后再记录不完整重复单位的碱基数。
对于"ff-ladder" (OL)等位基因,可通过参照内标计算每个带有实际分子量标的信号峰的位置来进行命名。例如,样本在D6S1043基因座的第一个信号峰是显示为OL等位基因,落入bin 12~13, 第二个信号峰是等位基因14.计算方法可参见图1,其中,样本的等位基因14与Ladder的等位基因14的大小差值是0.12 nt, OL等位基因与等位基因13的差值是1.13 nt,则OL等位基因峰相对偏移为1.01nt,可判断OL等位基因比等位基因13少-一个核苷酸,属于微变异等位基因,应命名为12.3.