和任何科學(xué)實(shí)驗(yàn)方法一樣,骨齡評(píng)價(jià)方法也存在有系統(tǒng)誤差和隨機(jī)誤差。檢驗(yàn)骨齡評(píng)價(jià)的可靠性,不僅對(duì)評(píng)價(jià)的方法學(xué)有深入的了解,更重要的是能夠?qū)驱g評(píng)價(jià)結(jié)果做出正確的估價(jià),增強(qiáng)不同評(píng)價(jià)者之間評(píng)價(jià)結(jié)果的一致性,提高實(shí)踐應(yīng)用的工作質(zhì)量。
一、國(guó)際間應(yīng)用G-P圖譜和TW法骨齡評(píng)價(jià)一致性的檢驗(yàn)研究
骨齡評(píng)價(jià)方法的可靠性主要表現(xiàn)在兩個(gè)的方面,一是評(píng)價(jià)者本人的讀片重復(fù)性,稱(chēng)為評(píng)價(jià)者內(nèi)的重復(fù)性;二是多名評(píng)價(jià)者之間的讀片重復(fù)性,稱(chēng)為評(píng)價(jià)者間的重復(fù)性。
G-P圖譜法和TW計(jì)分法是國(guó)際上應(yīng)用非常廣泛的骨齡評(píng)價(jià)方法。二十世紀(jì)六十年代,巴黎國(guó)際兒童中心在組織協(xié)調(diào)歐洲8個(gè)國(guó)家的兒童生長(zhǎng)研究時(shí),曾經(jīng)對(duì)G-P法和TW1方法進(jìn)行了系統(tǒng)的比較研究(Acheson et al., 1963, 1964, 1966)。來(lái)自不同國(guó)家的6名評(píng)價(jià)者,使用G-P圖譜和TW1方法評(píng)價(jià)50名2~18歲兒童的手腕X線片,結(jié)果發(fā)現(xiàn)G-P方法的系統(tǒng)誤差較小,TW1方法的隨機(jī)誤差較?。坏绻懦送蠊?,則TW1方法的系統(tǒng)誤差明顯下降,與G-P方法的差異顯著性消失。比較研究的結(jié)果引起了Tanner et al.的注意,在1975年對(duì)TW1方法進(jìn)行了修改而提出TW2法。在TW2 法中取消了評(píng)價(jià)困難的發(fā)育等級(jí)(橈骨、尺骨和頭狀骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一個(gè)發(fā)育等級(jí)),以提高讀片可靠性。
TW2方法的原作者(Tanner et al., 1994),以及長(zhǎng)期從事兒童生長(zhǎng)發(fā)育研究的工作者(Beunen et al., 1980; Tarabger et al., 1976; Wenzwl and Melsen, 1982)以TW2-RUS方法重復(fù)讀片,等級(jí)相同的例數(shù)在81%~94%左右,骨齡讀數(shù)的95%置信區(qū)間為±0.5到±0.6歲;使用TW2–Carpal方法,評(píng)價(jià)者內(nèi)等級(jí)相同的例數(shù)在80.6%~92.3%,骨齡讀數(shù)的95%置信區(qū)間為±0.48歲至±0.72歲。評(píng)價(jià)者間的讀片重復(fù)性較低,TW2-RUS和TW2-Carpal方法的評(píng)價(jià)者間的重復(fù)性分別在74.4%~80.5% 和74.1%~88.0%。但是,評(píng)價(jià)者間的重復(fù)性在不同個(gè)體間也有很大的差異,比利時(shí)的Beunen G.(1980)通過(guò)自學(xué)掌握TW2方法后,與TW2方法原作者Whitehouse R.H., Cameron N.進(jìn)行了比較研究,以TW-20方法重復(fù)閱讀112張X線片,評(píng)價(jià)者之間骨發(fā)育等級(jí)相同的例數(shù)在83%以上。但在Baughan et al.(1979)和Medicus et al.(1971)的研究中,2名或3名評(píng)價(jià)者間重復(fù)讀片的一致性則較低,TW-RUS骨在76%~82%,腕骨在72%~74%之間。
二、《中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》 RUS-CHN法和TW3-C Carpal法的讀片可靠性檢驗(yàn):
在國(guó)內(nèi),《中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05》課題組首次對(duì)骨齡評(píng)價(jià)方法可靠性進(jìn)行了較為全面的研究(張紹巖等,2006)。他們根據(jù)從事骨齡評(píng)價(jià)工作年限、是否參加過(guò)讀片培訓(xùn)、以及每年閱讀X線片的數(shù)量將11名評(píng)價(jià)者分為三類(lèi):
有經(jīng)驗(yàn)者:從事骨齡評(píng)價(jià)工作在5年以上,曾經(jīng)參加原《中國(guó)人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)1次以上,平均每年讀片數(shù)量在1000例以上者。
較有經(jīng)驗(yàn)者:從事骨齡評(píng)價(jià)工作在3年以上,曾經(jīng)參加CHN法培訓(xùn)或有自學(xué)經(jīng)歷,平均每年讀片數(shù)量在1000例以下者;
無(wú)經(jīng)驗(yàn)者:無(wú)骨齡評(píng)價(jià)經(jīng)歷者;或使用G-P方法讀片者;或雖然參加過(guò)原《中國(guó)人骨發(fā)育標(biāo)準(zhǔn)-CHN法》培訓(xùn)或自學(xué),但日常讀片數(shù)量較少者。
所有評(píng)價(jià)者集中培訓(xùn)3天,然后在不知兒童年齡、性別的情況下,11名評(píng)價(jià)者使用RUS-CHN法以隨機(jī)順序獨(dú)自閱讀75名正常兒童的左手腕部X線片,其中6名評(píng)價(jià)者同時(shí)評(píng)價(jià)TW3-C Carpal法的骨發(fā)育等級(jí)。20天后,所有評(píng)價(jià)者使用相同的評(píng)價(jià)方法,在一天時(shí)間內(nèi)獨(dú)自重復(fù)閱讀同一組兒童的手腕部X線片。檢驗(yàn)結(jié)果如下:
1、 評(píng)價(jià)者內(nèi)的可靠性:
(1)RUS-CHN法:
各評(píng)價(jià)者使用RUS-CHN法重復(fù)讀片,等級(jí)相同例數(shù)的百分?jǐn)?shù)平均在63.4%~82.2%之間。重復(fù)讀片不一致的等級(jí)主要出現(xiàn)在相鄰等級(jí)上,相差2個(gè)等級(jí)的例數(shù)很少,相差2個(gè)等級(jí)例數(shù)的百分?jǐn)?shù)的平均數(shù)在1.3%~2.9%。根據(jù)重復(fù)率可將評(píng)價(jià)者分為三類(lèi):
有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者和部分無(wú)經(jīng)驗(yàn)者,等級(jí)相同的重復(fù)率相似,在78.0%~82.2%;
1名無(wú)經(jīng)驗(yàn)者,等級(jí)相同的例數(shù)為74%;
2名無(wú)經(jīng)驗(yàn)者等級(jí)相同的例數(shù)在63.4%~67.6%。
所有評(píng)價(jià)者骨齡讀數(shù)的95%置信區(qū)間在±0.40歲~±0.76歲,除了幾名無(wú)經(jīng)驗(yàn)者外,大部分評(píng)價(jià)者本人重復(fù)讀片的隨機(jī)誤差在±0.6歲以下的適當(dāng)范圍之內(nèi)。
(2)TW3-C Carpal法:
6名評(píng)價(jià)者參加了TW3-C Carpal法的可靠性檢驗(yàn)。也可將評(píng)價(jià)者分為三類(lèi):
有經(jīng)驗(yàn)者的重復(fù)性較高,82.1%~83.2%;
較有經(jīng)驗(yàn)者和部分無(wú)經(jīng)驗(yàn)者的讀片重復(fù)性在72.1%~74.4%;
2名無(wú)經(jīng)驗(yàn)者等級(jí)相同的例數(shù)在65.6%~70.1%。
所有評(píng)價(jià)者骨齡讀數(shù)的95%置信區(qū)間為±0.32~±0.71歲,有5名評(píng)價(jià)者的隨機(jī)誤差在±0.60歲以下,2名無(wú)經(jīng)驗(yàn)者在±0.60歲以上,分別為±0.68和±0.72,分別有評(píng)價(jià)偏低和偏高的系統(tǒng)誤差。
2、評(píng)價(jià)者間的可靠性:
(1)RUS-CHN法:
各評(píng)價(jià)者與制訂中華05標(biāo)準(zhǔn)的讀片員相比,骨發(fā)育等級(jí)相同的例數(shù)平均在61.3%~77.3%。由此可見(jiàn)評(píng)價(jià)者間的等級(jí)重復(fù)性均低于評(píng)價(jià)者內(nèi)的重復(fù)性。評(píng)價(jià)者間的重復(fù)性分為3類(lèi):
有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者和1名無(wú)經(jīng)驗(yàn)者,其評(píng)價(jià)者間的重復(fù)性在73%~77%;
部分無(wú)經(jīng)驗(yàn)者評(píng)價(jià)者間的重復(fù)性在69%~70%;
部分無(wú)經(jīng)驗(yàn)者評(píng)價(jià)者間的重復(fù)性在65%左右(61%~66%)。
在各評(píng)價(jià)者骨齡讀數(shù)的95%置信區(qū)間為±0.42~±0.96歲。評(píng)價(jià)者間等級(jí)重復(fù)性在75%左右的5名評(píng)價(jià)者的隨機(jī)誤差在±0.60歲以下(±0.41~±0.58歲);評(píng)價(jià)者間等級(jí)重復(fù)性在61%~70%的評(píng)價(jià)者(無(wú)經(jīng)驗(yàn)者)的隨機(jī)誤差大于±0.60歲(±0.64~±0.96歲)。
(2)TW3-C Carpal法:
各評(píng)價(jià)者與制訂中華05標(biāo)準(zhǔn)的讀片員相比,評(píng)價(jià)者間腕骨等級(jí)的重復(fù)率在77.4%~88.0%,普遍高于RUS-CHN方法:
有經(jīng)驗(yàn)者和1名較有經(jīng)驗(yàn)者,評(píng)價(jià)者間等級(jí)相同例數(shù)的平均數(shù)在86%~88%;
部分無(wú)經(jīng)驗(yàn)者。等級(jí)相同例數(shù)平均在82%~84%;
一名無(wú)經(jīng)驗(yàn)者,等級(jí)相同例數(shù)的平均數(shù)在77%。
有經(jīng)驗(yàn)者、較有經(jīng)驗(yàn)者以及1名無(wú)經(jīng)驗(yàn)者骨齡讀數(shù)的95%置信區(qū)間在±0.60歲以下,1名無(wú)經(jīng)驗(yàn)者在±0.60歲以上。
通過(guò)上述的檢驗(yàn)說(shuō)明,RUS-CHN法與TW3-C Carpal法的可靠性與TW3-RUS法基本相同。在有不同經(jīng)驗(yàn)的評(píng)價(jià)者之間,骨齡評(píng)價(jià)的可靠性有顯著性差異;有經(jīng)驗(yàn)者讀片可靠性水平較高,少數(shù)無(wú)經(jīng)驗(yàn)者通過(guò)一次學(xué)習(xí)培訓(xùn)可以達(dá)到較有經(jīng)驗(yàn)者的類(lèi)似水平,但大部分無(wú)經(jīng)驗(yàn)者可靠性水平較低。這些研究不經(jīng)說(shuō)明讀片練習(xí)與經(jīng)驗(yàn)是取得可靠骨齡結(jié)果的基礎(chǔ),而且也說(shuō)明了通過(guò)可靠性檢驗(yàn),實(shí)行讀片質(zhì)量控制的重要性。
三、骨齡讀片質(zhì)量控制方法
(一)、評(píng)價(jià)者內(nèi)的讀片可靠性檢驗(yàn):
(1)計(jì)算重復(fù)率:應(yīng)用者應(yīng)選擇、閱讀一定數(shù)量的手腕骨部X線片(最好在50張以上),年齡范圍應(yīng)包括所欲應(yīng)用年齡段。相隔一段時(shí)間后(應(yīng)至少15天以上),重復(fù)讀片,比較兩次讀片結(jié)果,統(tǒng)計(jì)相同等級(jí)例數(shù)的百分?jǐn)?shù),判斷重復(fù)性。如果分別統(tǒng)計(jì)每塊骨的重復(fù)率,還可以分析出那一塊骨,或哪些發(fā)育等級(jí)的重復(fù)性較差,使用圖譜法時(shí),通過(guò)檢驗(yàn)可發(fā)現(xiàn)重復(fù)讀片差異較大的年齡范圍,然后重點(diǎn)學(xué)習(xí)、練習(xí),以提高重復(fù)性。
(2)計(jì)算骨齡讀數(shù)95%的置信區(qū)間:該統(tǒng)計(jì)量說(shuō)明了所評(píng)價(jià)骨齡的隨機(jī)誤差范圍,計(jì)算公式為:
±t0.05√(∑d2/2n),
其中∑d2為兩次讀片骨齡差值的平方和,n為X線片的數(shù)量,t0.05為t檢驗(yàn)中0.05水平上的t值。
(3)系統(tǒng)誤差:分別計(jì)算兩次讀片骨齡的平均數(shù)和標(biāo)準(zhǔn)差,比較平均數(shù)的差異,觀察系統(tǒng)誤差的大小,并同時(shí)進(jìn)行兩相關(guān)樣本的差異顯著性檢驗(yàn)。
(二)、評(píng)價(jià)者間的讀片可靠性檢驗(yàn):
在不同評(píng)價(jià)者之間重復(fù)閱讀一定數(shù)量的手腕部X線片,使用上述相同的統(tǒng)計(jì)方法計(jì)算,即可得出評(píng)價(jià)者間的隨機(jī)誤差和系統(tǒng)誤差。評(píng)價(jià)者之間的讀片可靠性檢驗(yàn)也同樣重要,但在施行起來(lái),其難度大于評(píng)價(jià)者內(nèi)的可靠性檢驗(yàn),最好是在應(yīng)用領(lǐng)域內(nèi),定期組織、交流經(jīng)驗(yàn),討論、統(tǒng)一評(píng)價(jià)尺度,是提高讀片質(zhì)量,保證臨床和科研工作可比性的重要措施。
【喜高科技】骨齡評(píng)價(jià)專(zhuān)家、專(zhuān)業(yè)骨齡研究科技機(jī)構(gòu)及骨齡軟件應(yīng)用服務(wù)商
參考文獻(xiàn)
張紹巖, 吳真列, 沈勛章, 等. 中國(guó)人手腕骨發(fā)育標(biāo)準(zhǔn)-中華05 II. RUS-CHN 和TW3-C腕骨方法的讀片可靠性.
中國(guó)運(yùn)動(dòng)醫(yī)學(xué)雜志, 2006, 25(6): 641-646.
Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from
X-ray. Part II. The Bone-Specific Approach. Hum Biol, 1964, 36:211-228.
Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from X-ray.
Part III. Greulich-Pyle atlas and Tanner-Whitehouse method contrasted. Hum Biol, 1966, 38:205-218.
Acheson RM, Fowler GB, Fry EI, et al. Studies in the reliability of assessing skeletal maturity from X-ray. I.
Greulich-Pyle atlas. Hum Biol, 1963, 35:317-349.
Baughan B, Demirjian A, and Levesque GY. Skeletal maturity standards for French-Canadian children of
school-age with a discussion of the reliability and validity of such measures. Hum Biol, 1979, 51(3):
353-370.
Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.
Ann Hum Biol, 1980,7(2): 155-162.
Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.
Ann Hum Biol, 1980,7(2): 155-162.
Medicus H, Gron AM andMoorees CFA. Reproducilibity of rating stages of osseous development. Am J Phys
Anthropol, 1971, 35:359-372.
Wenzel A. and Melsen B. Replicability of assessing radiographs by the Tanner and Whitehouse-2 method.
Hum Biol, 1982, 54(3):575-581.
Taranger J, Burning B, Claesson I, et al. Skeletal development from birth to 7 years. Acta Paediatr Scand, 1976,
258 (Suppl.):98-108.
Tanner, JM and Gibbons RD. A computerized image analysis system for estimating Tanner-Whitehouse 2 bone
age. Horm Res, 1994, 42:282-287.
熱門(mén)文章推薦
不同方法預(yù)測(cè)特發(fā)性矮身高兒童成年身高的變化