技術文章
TECHNICAL ARTICLES評判數(shù)據(jù)標準的指標
也許是歷史傳統(tǒng)的問題, Rint (Rsym,Rmerge)被選中了作為評判數(shù)據(jù)標準的指標。甚至在很多不是很專業(yè)的書里,學生們都被告知Rint 需要低于多少,I/σ高于多少才能表示數(shù)據(jù)可用。于是乎,這些數(shù)值變成了評判數(shù)據(jù)質量所謂的金標準。可是當提問Rint 是什么意義時,跟什么因素相關時,大多數(shù)同學卻卡在了那里??赡躌int在大多數(shù)同學眼里就是個發(fā)表文章的門檻數(shù)值,具體是什么意義已經(jīng)不再重要。不然就不會有那么多同學追問著怎么把Rint修下去,或者解決掉所謂的“錯誤"。
誠然Rint本身的意義并不復雜。它的公式也看起來一目了然,表示著合并等效衍射點之間的誤差。Rint值越低,通常表示著數(shù)據(jù)的精度越高。然而這是有一定的前提條件的。Rint實際上并不是一個很好的評判數(shù)據(jù)質量的指標。畢竟絕大多數(shù)數(shù)據(jù)都是通過Scale校正獲得。過度的Fitting,以及刻意排除太多的衍射點都可以獲得人為的更低的Rint(以及更高的I/σ)。而這些刻意追求的數(shù)字對結構精修并無意義,反而會導致精修的結果失真。甚至一些數(shù)據(jù)處理的軟件會去迎合同學們的這種“追求",去“美顏"數(shù)據(jù),讓大家“喜聞樂見",然而有時掉進了坑里,卻渾然不知。Rint同時也受到數(shù)據(jù)收集的多重度的影響。過低的多重度,會讓衍射點沒有其它等效點可以進行比較,自然Rint就會很低,甚至接近于0,然而卻毫無意義(結構甚至都無法解析)。而高多重度的數(shù)據(jù),由公式?jīng)Q定了Rint自然會升高,反而成了大家不喜歡看到的數(shù)值。但是不管怎么解釋,很多同學仍然不以為然,原因只是Checkcif不檢查多重度,但是對Rint卻有“嚴格"的門檻(而實際上大多數(shù)Rint高的問題是分辨率的問題)。同樣的I/σ也是一樣,不同的誤差模型的算法,自然得到的數(shù)值會大有不同。調高I/σ自然也是大家喜聞樂見的事情,比如故意降低σ,刪除更多的衍射點也會讓I/σ看起來更高。然而這些美顏的數(shù)據(jù),對結構精修卻毫無意義。
對于多重度對Rint的影響,Rmeas解決了這個問題,所以對于蛋白晶體學傾向于用Rmeas。此外現(xiàn)在還有CC1/2 來表征數(shù)據(jù)質量。不過在化學晶體學界似乎對這兩個數(shù)值并不感冒。也許是通常衍射太強,不需要更寬松的指標。這些指標在APEX4里都能輕松看到。
實例分析
比如前兩天講座的時候提到的一個數(shù)據(jù),大家投票的結果在意料之中。超過一半的同學都認為質量更高的數(shù)據(jù)是A。如果這是不同的數(shù)據(jù)還情有可原,然而這是同一套數(shù)據(jù),同樣的結構模型?;蛟S是顏色的誤導,讓同學們失去了基本的判斷力。A為什么會看起來更好看,因為Reject了很多數(shù)據(jù)。完整度表觀上只下降了2%,而實際上卻高達30%的數(shù)據(jù)被reject,Multiplicity極大的下降。保留下來的衍射點自然站在了一邊,雖然看起來更精確,卻丟失了準確。自然結構精修的結果就會反過來打臉。追求某些數(shù)字,對結構解析和精修本身毫無意義。結構精修的質量作為評判數(shù)據(jù)質量的指標才更加合理。比如R1,健長的精度,殘余的電子峰等。
▲圖1 Better Data Quality A or B?
除了軟件處理造成的假象,有時候會遇到一些看起來數(shù)值質量很高,卻怎么也精修不好的數(shù)據(jù)。比如有嚴重的無序,莫名的Q峰。這時候專注于結構精修,會百思不得其解。從衍射圖上才會發(fā)現(xiàn)更多的端倪。孿晶自然不需要多做解釋,而另外一些問題則更加的隱蔽,單純從hkl上其實發(fā)覺不了任何問題。因為單晶的數(shù)據(jù)還原并不是還原的所有的信息,而是通過晶胞截選而來。而很多時候,“晶胞"不能反映衍射的全部信息,自然會丟掉很多原本的衍射細節(jié)。比如很多Smear的信號,Modulation的信號,衍射點形狀的信號。這些信息都不會在hkl文件中體現(xiàn)。普通的結構精修自然也無法全部的反映晶體的實際狀況。
▲圖2 丟失的衍射信息 A,衍射點間的彌散信號 B,衍射的背景彌散,C,Modulation (Precession Image)
結論
所以數(shù)據(jù)質量的評估,從來都不是單個指標,固定的標準。從衍射圖到數(shù)據(jù)處理,到結構精修,每一步的細節(jié)都在告訴著我們的數(shù)據(jù)可能出現(xiàn)的問題。真實的數(shù)據(jù)才會有真實的結構,刻意為了迎合某些死板的標準,不惜去“美顏"甚至偽造數(shù)據(jù),也就背離了科學研究。
-轉載于《布魯克X射線部門》公眾號
掃一掃,關注公眾號
服務電話:
021-34685181 上海市松江區(qū)千帆路288弄G60科創(chuàng)云廊3號樓602室 wei.zhu@shuyunsh.com