?

分子生物學文稿常見專業術語及編排格式問題探析

2022-11-10 03:36
學報編輯論叢 2022年1期
關鍵詞:斜體分子生物學相似性

陳 燕

(《南方農業學報》編輯部,廣西 南寧 530007)

自沃森和克里克提出 DNA分子的雙螺旋結構模型以來,人類逐漸意識到這支強大的“分子部隊”在各種生物體中的強大指揮能力。人類根據“分子部隊”的作戰策略和規律建立了許多強大的生物技術,如基因工程、細胞工程、酶工程等,這些技術賦予人類改造生命,甚至創造生命的能力。近十幾年來在我國高度重視生物技術發展,并從政策、環境方面采取了多項有效措施來推動生物技術及其產業的發展。隨著現代生物技術快速發展,分子生物學研究已然成為前沿和熱點,已在醫療、農業、食品加工等多個領域占據舉世矚目的地位,發表的相關論文如雨后春筍般席卷各大科技期刊雜志。筆者在編校過程中發現此類稿件常存在意思相近的專業術語誤用的現象,如同源性、相似性、一致性3個術語常在描述基因(或蛋白)序列結果時出現混用;轉化、轉導、轉染 3個術語在描述基因導入受體細胞時出現誤用。此外,分子生物學稿件還存在基因符號和工具酶正斜體且大小寫不規范、引物序列方向和酶切位點未標出、PCR反應體系和擴增程序信息不全、微生物學名未遵循物種命名原則規范表達;系統發育進化樹缺少基因(或蛋白)編號(ID)信息等編排問題。經調查發現,這些問題廣泛存在于生物學、農學、醫學等科技期刊中,不利于研究成果的推廣及學術交流。雖然部分問題已有相關研究報道,但近年來上述問題仍屢見不鮮。因此,文章對上述分子生物學文稿中的常見問題進行綜述,并提出建議,以期為分子生物學文稿的撰寫及編排提供參考。

1 易混淆的專業術語辨析

1.1 同源性、相似性和一致性

目前,分子生物學研究中常通過基因核苷酸序列或蛋白氨基酸序列比對衡量分子之間的相似性程度和同源的可能性,從而進行物種親緣關系分析,主要使用同源性(Homology)、相似性(Similarity)和一致性(Identity)反映序列比對結果。三者表達意思相近,但用法存在本質區別。雖然宋亞珍等[1]于2008年對這3個詞進行了辨析,但近年刊發的文獻仍存在誤用現象,尤其是對相似性和一致性的使用仍存在誤區,因此筆者通過查閱近年分子生物學相關書籍,結合全國科學技術名詞審定委員的術語在線,從理論和實例角度進行補充和完善。

首先,分析同源性與相似性、一致性的區別和聯系。同源性是定性的推斷(表示序列是否同源),沒有程度之分,要么為同源的,要么為非同源性的,而一致性和相似性則是數量的推斷(表示序列相關程度),均屬于同源性的量化指標,不用考慮比對序列的起源[2]。如果兩個序列的一致性和相似性較低,可初步推測兩者是非同源的,但存在不確定性。即使兩個序列核苷酸(或氨基酸)的一致性較低,兩者也可能是同源的,例如球蛋白家族成員都是同源的,但部分成員如人類的β球蛋白和腦紅蛋白在進化過程中發生了很大分化,兩者的氨基酸序列相似性僅為22%,但它們仍是同源序列[2]。間接說明不能僅憑一致性和相似性的高低,判斷序列是否同源,而且即使兩個序列為同源序列也不代表兩者具有相同的功能。由于同源性沒有程度之分,故同源性不能用具體數據來表示,如“番茄SlGT-33基因與黃瓜CsGT-33基因的核苷酸序列同源性為50%”,為錯誤表述,也不可表述為“這些序列高度同源”。綜上所述,判定兩條序列為“同源基因(或蛋白)”,或者“有同源性”等結論,必須在共同祖先或共同始祖分子的前提下,不能僅憑一致性和相似性來判定,而同源性也不能判定序列的功能是否相同。

其次,分析相似性和一致性的區別和聯系。研究者僅憑肉眼一一對應比對兩條系列的核苷酸(或氨基酸)是不切實際的,且匹配成功率也會不高,必須借助計算機來完成比對,而且允許比對中有空位出現以表示序列中出現刪除和插入,即通過調整兩條序列的排列方式已達到最大程度一致性的過程[2],那么匹配成功率可能會大幅上漲。例如,對2個蛋白的200個氨基酸殘基進行比對,結果發現有40個氨基酸殘基匹配,即氨基酸殘基相同,那么可以得出這兩個蛋白的一致性為20%。因此,一致性是指相同氨基酸(或核苷酸)總數占比對序列的氨基酸(或核苷酸)總數的百分比,用于表示兩條氨基酸(或核苷酸)序列發生變化的程度或簡單一致程度,不考慮比對序列的起源和功能。序列比對的結果另一種計算方式是統計相同氨基酸和相似氨基酸總數占比對序列的氨基酸總數的百分比表示,稱為相似性[2-3]。相似氨基酸是指分子結構和氨基酸相似,如天冬氨酸和谷氨酸均屬于酸性氨基酸;絲氨酸和蘇氨酸均屬于羥基化氨基酸;色氨酸、酪氨酸、苯丙氨酸等均屬于疏水氨基酸[2]。例如,對2個蛋白的200個氨基酸殘基進行比對,結果發現有40個氨基酸殘基相同,有60個氨基酸相似,那么可得出這兩個蛋白的相似性為50%。該數值反映比對序列間生物學功能或特點的趨同程度,可不考慮序列的具體起源,一般來說序列相似性越高,說明序列的生物學功能或結構特點越相似[4]。綜上所述,一致性和相似性均用具體百分數表示,不用考慮比對序列的起源,可間接衡量物種間的同一關系,但計算公式不一樣,如果把每個氨基酸(或核苷酸)當做1個字符,計算公式表示如下:

1.2 轉化、轉導和轉染

轉化(Transformation)、轉導(Transduction)和轉染(Transfection)是分子生物學試驗常用的專業術語。筆者在編校對過程中發現這3個詞錯誤使用頻率較高。①轉化:是指外源遺傳物質(如質粒DNA等)進入細菌,引起細菌遺傳變化的現象,但外源DNA并不整合到宿主基因組上;用病毒、化學致癌物或X射線誘發培養的細胞發生遺傳變異的現象,使細胞喪失接觸抑制等特性[4-5],而在基因工程中是將攜帶目的基因的質?;虿《据d體導入感受態宿主細胞的一種重要手段,常用于DNA重組[6-7]。②轉導:是指借助病毒、噬菌體或其他方法將外源DNA導入細胞并整合到宿主基因組上的方法,使其遺傳組成發生相應的變化[2]。在基因工程中常通過病毒或病毒載體轉導外源基因[6-7]。③轉染:起初指外源基因通過病毒或噬菌體感染細胞或個體的過程,現在常泛指外源DNA(包括裸DNA)進入真核細胞或個體導致遺傳改變的過程[7-8],轉染的主要方法有電轉、瞬時轉染、穩轉、磷酸鈣轉染等[6-7]。綜上所述,三者的區別在于轉化是向原核細胞中導入外源DNA,但不整合到宿主上;轉導是通過病毒、噬菌體或其他方法將外源DNA導入真核/原核細胞并整合到宿主基因組;轉染是主動或被動向真核細胞中導入外源DNA。三者存在本質不同,不可混用。

2 編排規范探析

2.1 基因符號用斜體且大小寫應根據具體物種而定

目前學術界對表示某基因的字母符號用斜體,其表達產物(即編碼的蛋白)符號用正體表示是比較認可的[9]。如玉木耳(Auricularia cornea)漆酶基因符號為Aclac,其編碼的蛋白符號為AcLAC[10]。其中Ac為玉木耳拉丁名的英文縮寫(即取屬名和種加詞的第一個字母),lac則表示漆酶基因(Laccase)的縮寫。同理,朱紅密孔菌(Pycnoporus cinnabarinus)漆酶基因表示為Pclac。因此,學術界為了區分同一物種相同基因,常使用“物種拉丁名屬名和種加詞的第一個字母+酶基因名稱(縮寫)”的命名方法,如黃獨赤霉素受體基因表示為DbGID1。但目前對字母后的阿拉伯數字和羅馬數字編排成正體還斜體尚存爭議,也沒有國家標準和行業標準可以遵循,造成目前國內期刊中基因符號編排格式不統一[11]。但國內外具有較大影響力的科技期刊中,大部分期刊將基因符號的所有組成部分用斜體表示?!禩IG遺傳命名指南》[12-13]規定不同物種基因符號字母的大小寫應根據具體物種而定,并不是統一的,如微生物中的細菌和真菌基因用小寫字母表示;植物物種不同,基因符號字母的大小寫也不同。因此,判斷基因符號大小寫時,首先分析此基因的物種來源,然后查閱《TIG遺傳命名指南》判斷基因符號中字母大小寫。此外,很多期刊中基因還存在重組載體(質粒)中基因符號用正體的現象。如“將重組表達載體pET28a-Aclac轉化大腸桿菌BL21(DE3)感受態細胞”,pET28a-Aclac應改為pET28a-Aclac。

2.2 引物序列應標明其方向和酶切位點

引物是人工合成的兩條寡核苷酸序列,其功能是作為核苷酸聚合作用的起始點,DNA聚合酶可由其3′端開始合成新的核酸鏈[14]。引物設計是PCR擴增成功與否的關鍵。在設計引物時,如果克隆的序列只用于序列分析,可不設計酶切位點,但如果PCR產物連接至載體,則須在5′端添加酶切位點[3,6-7,14-17]。因此,撰寫論文時應標明正反引物的方向和限制性酶切位點,如克隆ARF21基因的引物可表示為 F:5'-GAATTCGAGCAGGGTGCTCCTGAG-3'(下劃線為EcoR I酶切位點);R:5'-GCGGCCGCCAGCTGGGCCAGCTTCCG-3'(下劃線為NotI酶切位點)。但目前很多已刊發的文獻中未標明引物方向或酶切位點,僅表示為 F:GAATTCGAGCAGGGTGCTCCTGAG;R:GCGGCCGCCAGCTGGGCCAGCTTCCG。這樣不能為讀者提供更多參考信息,大大降低了參考價值,因此撰寫論文時應標注引物方向及酶切位點。

2.3 PCR反應體系中應寫明各組分濃度(或質量濃度)

PCR反應體系主要由緩沖液、脫氧核糖核苷三磷酸(dNTPs)、DNA聚合酶、引物和模板等構成。各成分的加入量直接影響試驗的成敗。如DNA模板和DNA聚合酶加入量過高,均會引起非特異性擴增,加入量過少則造成特異性產物較少,不易被檢測出;dNTPs加入量過高,則會與Mg2+結合,降低Mg2+的濃度,加入量過少則造成特異性產物較少;Mg2+濃度過高,反應特異性降低,易出現非特異擴增,濃度過低,會降低DNA聚合酶的活性,使反應產物減少[18-19]。筆者在送稿件進行同行專家評審時,經常收到審稿專家提出PCR反應體系和擴增程序信息不全的反饋意見。筆者調查發現該問題也同樣出現在很多科技期刊中。其中,反應體系的主要問題是未寫清楚成分的濃度(或質量濃度),如 50.0 μL反應體系包括 10×KOD Neo Buffer 5.0 μL,MgSO43.0 μL,dNTPs 2.0 μL,正、反向引物各 1.5 μL,cDNA 模板 2.0 μL,KOD-PLUS-Neo 1.0 μL,ddH2O補足至50.0 μL。對于讀者來說,這樣寫基本沒有參考價值,無法推算出各成分在反應體系中的具體含量。編輯審稿時應提醒作者提供各成分的初始濃度(或初始質量濃度),如 50.0 μL 反應體系:10×KOD Neo Buffer 5.0 μL,25 mmoL/L 的 MgSO43.0μL,2 mmoL/L dNTPs 2.0 μL,10 μmoL/L 的正、反向引物各 1.5 μL,100 ng/μL 的 cDNA 模板2.0 μL,1.0 U/μL 的 KOD-PLUS-Neo 1.0 μL,ddH2O 補足至 50.0 μL[19]。也可直接標明各成分的終濃度(或終質量濃度),如 50.0 μL反應體系包括10×KOD Neo Buffer 5.0 μL,MgSO4終濃度15 mmoL/L,dNTPs終濃度0.08 mmoL/L,正、反向引物終濃度0.3 μmoL/L,cDNA終質量濃度4 ng/μL,KOD-PLUS-Neo終濃度0.02 U/μL,ddH2O補足至50.0 μL。但目前大多數期刊主要采用標明各成分的初始濃度(或初始質量濃度)和體積的方法,其原因是各成分的終濃度(或終質量濃度)需要換算,比較麻煩,直接標明各成分的初始濃度(或初始質量濃度)和體積更方便,不容易出錯。

2.4 PCR擴增程序參數信息要完整

PCR擴增程序涉及預變性、變性、退火和延伸的溫度和時間等參數,其表述方式在各期刊存在異同,主要依靠標點符號和文字進行表述,如普通PCR擴增程序表示為:98 ℃預變性5 min;98 ℃變性30 s,60 ℃退火30 s,72 ℃延伸60 s,進行36個循環;72 ℃延伸2 min,還有部分文獻采用列表或繪圖的方式表示。上述這些方式均可清楚反映PCR擴增程序。但還有部分文稿中僅提供了退火溫度,其原因是認為退火溫度是PCR擴增是否成功的關鍵因素,其他因素不重要,可寫可不寫。但事實并非如此,PCR擴增程序的各項參數設置與具體試驗對象息息相關,不是一成不變的。如變性時間一般為30 s,如果模板GC含量較高,或用細胞為模板時,變性時間應適當延長;延伸時間由擴增目的片段的長度決定,目的片段越長,延伸時間也越長;循環次數則主要取決于模板的起始數量(即初始質量)[3,6-7,19],由于試驗對象、人為試驗操作或試劑等因素的差異均會造成獲得模板的初始質量濃度不一致,添加的體積要根據模板的初始質量而定。因此,編輯審稿時應盡量讓作者補充這些參數信息,以便提供給讀者更多參考信息,畢竟科技論文的發表不僅是為了傳播科技成果,還要為讀者今后的深入研究提供參考。

2.5 工具酶正斜體和大小寫應遵循其命名方法

工具酶是分子生物學研究不可缺少的工具,其中,使用頻率最高的是DNA聚合酶、DNA連接酶和限制性內切酶。雖然張志鈺[21]、王連芬等[22]、賀窯青[23]已進行研究報道,但筆者查閱的近期刊發現仍存在這些工具酶中外文字符的編排格式混亂的問題,其原因可能是部分編輯對專業領域的編排規范和標準關注較少,但相比2010年前有了明顯改善,尤其是DNA聚合酶和DNA連接酶,大多數期刊對兩者的表述形式和編排格式作了規范統一。常用的DNA聚合酶包括TaqDNA聚合酶、TthDNA聚合酶、PfuDNA聚合酶等[23]。常用的DNA連接酶包括T4 DNA連接酶、T7 DNA連接酶等。部分期刊將DNA聚合酶和DNA連接酶編排格式統一用正體或斜體,造成該問題的主要原因是編輯不了解DNA聚合酶和DNA連接酶的命名方法。

相比之下,限制性內切酶的編排格式問題較嚴重,主要有以下 3種編排形式:①字母和羅馬數字用斜體,如BamH I、Hind Ⅲ;②4個字母用斜體,羅馬數字用正體,如BamHⅠ、HindⅢ;③前3個字母用斜體,第4個字母和羅馬數字用正體,如BamH I、Hind Ⅲ。由于限制性內切酶的命名是根據細菌種類和發現的順序而定,如BamH Ⅰ是從解淀粉芽孢桿菌(Bacills amyloliquefaciens)H株首次發現的限制性內切酶(GB/T 35539—2017),故B代表Bacills(屬名);am代表amyloliquefaciens(種加詞),H 代表 H 株系;I為首先發現(在此類細菌中發現的順序)[12,24]。物種拉丁名(又稱學名)由屬名和種加詞(種小名)兩個部分構成,屬名由拉丁語法化的名詞形成,首字母須大寫;種加詞是拉丁文中的形容詞,首字母不大寫,常以斜體表示,故表明第③編排格式為正確,即物種拉丁名縮寫用斜體,其余用正體[11-12]。

2.6 微生物學名應遵循物種命名原則規范表達

在基因工程研究中,微生物既可以作為基因的供體(即提供功能基因),也可以作為基因的受體(即可擴增或表達功能基因)。因此,分子生物學研究中常涉及微生物學名(又稱拉丁學名)的表述和編排問題。根據國際物種的命名原則[25],每一種微生物都有一個專門的學名,微生物的學名同其他植物、動物等物種一樣主要采用林奈的二命名法,由兩個拉丁化名詞所組成,即“屬名+種名”,用斜體表示,如釀酒酵母的學名為Saccharomyces cerevisiae;大腸桿菌(又名大腸埃希菌、大腸埃希氏菌)的學名為Escherichia coli;枯草芽孢桿菌的學名為Bacillus subtilis。當物種出現亞種、變種時,采用三命名法,即“屬名+種名+subsp.(var.)+亞種(變種)名”,其中,“subsp.” “var.”用正體,亞種和變種名用斜體表示,如釀酒酵母橢圓變種的學名Saccharomyces cerevisiaevar.ellipsoides;脆弱擬桿菌卵形亞種的學名為Bacteroides fragilissubsp.ovatus。菌株為亞種以下的分類名詞,其學名則為“屬名+種名+菌株名稱”,菌株名稱不用斜體[26],如Escherichia coliK12。由于大腸桿菌可實現目的基因擴增,保證外源基因穩定于細胞受體內,因此,常被作為分子克隆的宿主(即受體),常用的菌株為 DH5α、BL21(DE3)、JM109、TOP1和HB101菌株。其中,DH5α菌株是一種能攝入外源DNA的受容菌,對外源DNA缺乏免疫,是基因工程中重要原核細胞表達系統。但較多科技期刊中常把大腸桿菌DH5α感受態細胞誤寫成“大腸桿菌DH5a感受態細胞”,即α誤寫成a。此外,為了避免表述累贅,當前后兩個或更多的微生物學名連排在一起時,若它們的屬名相同,首個屬名用全稱,則后面的一個或幾個署名可縮寫成一個、兩個或者三個字母,其后面加上一個點[26],例如Bacillus(芽孢桿菌屬)可縮寫成“B.”或者“Bac”,曲霉屬(Aspergillus)可縮寫成“A.”或者“Asp.”,文中后續出現可直接用縮寫形式。但目前仍有科技期刊中首次出現拉丁學名就簡寫,導致讀者無法準確判斷屬名,或者二次或多次出現仍用全稱的現象,導致文章顯得很累贅。

2.7 系統發育進化樹中應注明基因(或蛋白)編號(ID)

系統發育學主要是研究物種的形成或進化歷史,以及物種之間的進化關系。物種進化的最根本原因在于生物分子(包括DNA、RNA和蛋白質)的進化,體現在生物分子序列上的核苷酸或氨基酸殘基的變異,逐漸從一條序列變異成另一條序列,導致分子結構和功能發生明顯改變[27]。雖然隨著越來越多的物種的全基因組序列被測序,但生物分子的結構復雜,目前人們對其分子結構和功能信息不夠全面和充分,因此利用分子結構和功能信息研究物種進化關系不是主要方法。目前用于系統發育分析的信息主要是生物分子的序列,尤其是基因核苷酸序列信息或蛋白氨基酸序列信息使用更普遍。目前主要采用多條序列比對的方法,再根據比對結果構建系統發育進化樹(也稱系統發育樹),以此分析基因(或蛋白)功能及系統發育關系[28]。由于相似的序列可能起源于一個共同的祖先序列,它們很可能有相似的空間結構和生物學功能,因此對于一個已知序列但未知結構和功能的蛋白質,如果與其序列相似的某些蛋白質的機構和功能已知,則可以推測這個未知結構和功能的蛋白質的結構和功能。值得注意的是,物種基因組中存在的許多來源于同一個祖先且結構和功能相似或相關的一組基因,編碼相似的蛋白質產物[3]。選取不同的同源基因(或蛋白)所得出的系統發育分析結果也不同[2],而不同基因(或蛋白)在數據庫中的編號(ID)不同。因此,系統發育進化樹中應該標明基因(或蛋白)ID,或者在系統發育進化樹圖下面注釋 ID。但目前很多期刊刊發的文獻中系統發育進化樹只標明物種拉丁名,未標明基因(或蛋白)ID,致使文章缺乏嚴謹性。

3 結束語

由于我國生物技術發展起步較晚,缺乏相關國家標準和行業標準,是出現上述問題的原因之一。但目前較多書籍和文獻可供分子生物學文稿的寫作提供參考,如該研究領域口碑較高、認可度較高的參考書籍如《分子克隆實驗指南》《TIG遺傳命名指南》《生物信息學與功能基因組學》等,以及相關高等教科書如《現代分子生物學》等。此外,出現上述問題還與編輯自身息息相關:①編輯缺乏分子生物學相關專業知識背景,造成稿件有問題看不出,或發現問題不知道如何改,甚至無法和作者進行有效溝通的局面;②編輯標準化規范化意識不強,缺乏分子生物學稿件的編輯規范;③編輯自身只注重文字、標點等常規編校規范,而忽略分子生物學文稿的專業規范。作者自身也有較大責任:①作者平日更專注理論和試驗研究,對論文寫作規范知之甚少;②作者思想上依賴編輯,認為后續工作應有編輯負責完成,編輯會做好后續編校工作;③作者沒有嚴謹的科研態度,認為論文能發表即可,不在乎文章的質量,未對編輯的加工修改內容進行認真斟酌,而是盲目認同。

針對上述問題,筆者提出如下建議:①對于分子生物學稿件較多的科技期刊,為保證編校質量,編輯部應盡量招錄與分子生物學相關專業的賢人志士,確保編輯人員具備相關專業知識背景;②除做好本職工作外,編輯還要認真閱覽與分子生物學論文編輯規范相關的文獻,在工作中要認真執行有關科技書刊出版的標準和規范,對于把握不準的用語,應多查閱全國科學技術名詞審定委員會公布的相關專業名詞書籍;③編輯在工作中要有求真務實的精神,對把握不準的學術問題要及時應及時向相關研究領域的權威人士求證,尋求規范化的寫作和編排方法。

猜你喜歡
斜體分子生物學相似性
離心機轉速的寫法及相對離心力的正確表示
SPOC混合教學模式下分子生物學課程思政建設探索
隱喻相似性問題的探討
多字母物理量符號的科學表述探討
財經圖書所涉外文字母及符號字體的正確使用
12個毫無違和感的奇妙動物組合
基于隱喻相似性研究[血]的慣用句
淺談如何在分子生物學教學中培養研究生的科研創新能力
基于網絡教學平臺的對話式課堂建構與教學實踐
潛析結構 把握性質
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合