庆祝上市 全新改版

【起评分2分的讨论】量表的信、效度检验问题

我正在做国外量表的翻译及信、校度检验的课题,但有一些问题没找到确定的答案,请各位高手帮我答疑。
1、例数如何确定?
我看到的文献病例数都很多,一般在100以上,有没有规定的数字?从何而来?有没有计算公式确定病例数?
2、检验手段是否足够?
我的课题设计是用前后两次(相隔两周)量表分的重测信度及Cronbach′sα 内部一致性系数评价量表的信度。以该量表分数与其他常用同类量表分数之间的Pearson相关性评价其校标校度。检验手段会不会单薄一些?有没有这方面的标准?
3、请有相关经验的同道指导一下,还有什么需要注意的?我快要开始做了,可不想做了一半再返工。
这个问题置顶一周,请大家都来谈一谈。
谢绝单纯的转贴文字,特别是诸如“这一篇文章可能有用PDF”之类的东东。
可以将转贴的文字标明出处并说明自己的看法。
1、鼓励原创性意见。
2、也希望大家能结合一些实际的例子谈谈前人的做法。
3、楼主请自己鉴别贴子的有效性和实用性。
4、跟贴者符合以上要求或版主认可的起评分2分
斑竹本人有这方面的东西,而且自己也在做,
先说权威的要求例数最少在200以上;
第二,在作因子分析之前先做球形检验,必须大于0.7,方可以进行因子聚类分析。
我最近帮他们做了个省课题写了个东西,用的就是这个!
而且,前面的同志说“我的课题设计是用前后两次(相隔两周)量表分的重测信度及Cronbach′sα 内部一致性系数评价量表的信度。以该量表分数与其他常用同类量表分数之间的Pearson相关性评价其校标校度。检验手段会不会单薄一些?有没有这方面的标准?”,
希望 你注意一下你题目选择项目的分布问题,这个也必须讨论,如果是硕士问题不大,可以对付,如果是博士就不行了,另外你自己可以从期刊网上,或者心理科学上找,有这样的文章,我这里也有,就是事情太多!
re:我正在做国外量表的翻译及信、校度检验的课题,但有一些问题没找到确定的答案,请各位高手帮我答疑。
谈谈自己的看法。
1、例数如何确定?
例数的确定一般根据前人的文献或自己的预实验,一般来说如果作量表分析至少要上百例样本,你看的文献也证实这点。样本也不是越大越好,只要达到检验目的即可。
2、检验手段是否足够?
如果有总量表和各分量表,需检验它们之间的内部一致性。信度分析时,可同时采用联合检查法和重测法,前者可采取组内相关法(ICC),若项目较多,还应做奇偶条目总分的相关检验。因子分析时,评估结构效度一般取极大方差正交旋转法,将量表的各项组合成若干因子,评估因子方差的总贡献值需采用多元统计方法。另外如果是诊断量表,最好有国际公认的“金标准”评定方法作比较。

另外国外量表的翻译需注意译本的检验,检验中译本是否与原文相符,常用的检验方法为回译法,想必楼主已经联系到量表的原著者。另外量表的版权一定要注意,尤其我国已经加入WTO后,防止卷入版权纠纷。
量表评价大致从信度、效度和反应度三方面进行的:
1信度指标:包括重测信度、分半信度和克朗巴赫系数
(1)重测信度是相同量表前后两次测量同一批被访者量表得分的简单相关系数r,一般要求达到0.7以上。
(2)分半信度是相同量表的调查项目分成两半,如分前后两个部分、按提问项目号的奇数和偶数分两个部分。计算两个部分得分的简单相关系数r,分半信度为R=2r÷(1+r)。
(3)克朗巴赫系数你已经算得了,就不赘述了。
2效度指标:包括内容效度、标准关联效度和结构效度。
(1)内容效度一般通过专家评议打分。
(2)标准关联效度是以一个公认有效的量表作为标准,检验新量表与标准量表测量结果的相关性,以两种量表测定得分的相关系数表示标准效度。
(3)结构效度主要用证实性因子分析(CFA)评价。
3反应度:指量表能测出不同对象、不同时间相应变化的能力。

最近师姐做量表,所以学来的,比较肤浅,希望有用!

另外例数确定是有公式的,但我不大在行,很多人也都像上面“冯特”先生那样确定,如果只是翻译量表200例足够。
——————————————————————————————————————————————————
感谢参与讨论,确实比较肤浅,本来不打算评分了,考虑一直积极参与各种讨论,还是……
谢谢七主任一如既往的支持!也谢谢各位的精彩发言,收获很大,不胜感激!

各位战友能否提供几本好的相关书籍?

我课题中的量表原文及初译稿如下:
>
请问各位战友,如果是你做这个量表,你会怎么做?请具体到病例数、方法(如何评价信度、效度)、工具、预期结果。

gwb70:
第二,在作因子分析之前先做球形检验,必须大于0.7,方可以进行因子聚类分析。
我最近帮他们做了个省课题写了个东西,用的就是这个希望 你注意一下你题目选择项目的分布问题,这个也必须讨论,如果是硕士问题不大,可以对付,如果是博士就不行了


我是翻译国外量表后检验国内版本,因子分析在国外已做过,我是否可以不做因子分析,而只做效标校度?

shmu :
例数的确定一般根据前人的文献或自己的预实验

如何通过预实验确定病例数?

shmu :
另外国外量表的翻译需注意译本的检验,检验中译本是否与原文相符,常用的检验方法为回译法,想必楼主已经联系到量表的原著者。另外量表的版权一定要注意,尤其我国已经加入WTO后,防止卷入版权纠纷。

回译工作已做,正在修改译文。至于版权,只是同作者进行了e-mail的联系,不知是否足够,还需要更正式的文件,如授权书之类的吗?
以下是作者给我回信的相关部分:
Thank you for your message. I would be delighted for you to translate
the SADQ.
我这里有一篇文章也许对你的工作有些帮助。

西方量表译本的评价和修订.doc (28.0k)
好的书籍我推荐

张明园主编,精神科评定量表手册,1998,第二版,湖南科学技术出版社,长沙。

如何通过预实验确定病例数? 你可以参考《医学统计学》,金丕焕,复旦大学出版社。具体你可能还要和流行病学专家讨论,尤其是做过流调工作的。

考虑到你已经回译并联系作者,另外作者没有提到版权问题(作者有没有在正式发表的论文后附量表?),应该不会有这方面纠纷。如果作者申请版权保护,你一定要他亲笔签名的书面授权书。
这些书籍很多,金俞的《心理测量》里面有详细的例子,华东出版社出版的,你可以去看!
例数一般必须在200以上,我这里绝对说的是权威的答案!另外,翻译的量表,必须经过校对,再回译,比较最后一致后,才可以用!请你注意这些!
谢谢认识冯特的lolaego
1、re:例数如何确定?
这个问题最好用合适的公式计算得到,才比较有说服力。你说是吗?公式在许多统计学书上都有,请选用合适你的。我做过一个研究某“疾病”发病率和相关因素的研究,使用的是估计总体率的样本含量计算公式:uα2π(1-π)/δ2
(2表示平方,显示错误)。δ为误差,一般不超过文献找到的总体率×30%
2.re:我是翻译国外量表后检验国内版本,因子分析在国外已做过,我是否可以不做因子分析,而只做效标校度?
国外是用国外的资料做的因子分析,既然你要翻译成中文量表,自然要在国内做调查,必须用在国内调查得出的资料做结构效度分析(因子分析)得到的因子符合量表的设计初衷就可以说明量表的效度是好的。
3.re:回译工作已做,正在修改译文。至于版权,只是同作者进行了e-mail的联系,不知是否足够,还需要更正式的文件,如授权书之类的吗?
只要你和作者联系了,如果需要授权书,他会和你说得。一般学术上的使用不会多严格。

————————————————————————————————————————————————————
本版第4500贴,值得纪念,故标记一下!!!向5000贴进军!七叶草2004/5/9/13:31
screen.width-333)this.width=screen.width-333" width=459 height=55 title="Click to view full 4500.JPG (459 X 55)" border=0 align=absmiddle>
呵呵,深感荣幸!继续努力!
re:例数如何确定?
我作的课题就是研制一个心理量表,因此用到了信度效度等问题。
关于例数如何确定,我看某心理学研究方法中写着,研究例数应是根据多因素分析样本量为自变量5-10倍的原则,但是我听一位资深的统计老师说应该是变量7-10倍,我想想办法达到后一标准最好了。
“自变量”指的是什么?
和自变量相应的是因变量,比如学生的学习成绩可能和他的努力,压力,IQ等等有关。在这个模型里努力,压力,IQ等可以对成绩起影响的因素就是自变量(常用X表示);而成绩就是因变量了。
changee99 wrote:
我正在做国外量表的翻译及信、校度检验的课题,但有一些问题没找到确定的答案,请各位高手帮我答疑。
1、例数如何确定?
我看到的文献病例数都很多,一般在100以上,有没有规定的数字?从何而来?有没有计算公式确定病例数?
自变量就是你要翻译的量表中的问题数目。比如SCL-90量表一共有90个问题,那你就要以90作为自变量数目,然后选择相应的例数。
2、检验手段是否足够?
我的课题设计是用前后两次(相隔两周)量表分的重测信度及Cronbach′sα 内部一致性系数评价量表的信度。以该量表分数与其他常用同类量表分数之间的Pearson相关性评价其校标校度。检验手段会不会单薄一些?有没有这方面的标准?

重测信度的时间间隔选择要根据你的量表性质而定,测人格、智商、态度等的要求都不一样,不知道你是哪种?
不知道你是否有分半信度的测量?
效度方面:有了效标效度,还要请专家评分,计算内容效度比CVR,此外进行因子分析和证实性因子分析,看看构想(结构)效度如何。

对于信度的质量问题,不同量表有不同要求,
例如态度量表:
质量 低 中 高

信度系数 0.47 0.79 0.98
不知道你的是哪一类量表?告诉我,我可以帮你找找。

一点补充:
估计总体率公式:
N=μα2 л(1-л)/δ2
N为所需样本量,a有单双侧之分,μα为相应的正态分位数,δ为期望估计误差的最小值,当然是越小越好。
估计总体均数公式:
N=(μα·σ/δ)2
N为所需样本量,a有单双侧之分,μα为相应的正态分位数,δ为期望估计误差的最小值,σ为总体标准差。
有关心理学的书建议你看郭庆科编著 孟庆茂审校的《心理测验的原理与应用》人民军医出版社。还有楼上推荐的张明园主编,精神科评定量表手册,1998,第二版,湖南科学技术出版社,长沙。
请问如何判断国外量表是否适合中国人群呢?文化差异是否会影响量表的使用呢?如何解决呢?
taotao168 wrote:
请问如何判断国外量表是否适合中国人群呢?文化差异是否会影响量表的使用呢?如何解决呢?

所以要做中国的人群常模啊,文化差异就要修订这个两表来符合中国人。不过我看到好多国外的两表即使修订了,那里的好多的问题也是晦涩的很,总是很饶脑筋。
谈谈结构效度

做结构效度一般要做两步,探索性因素分析和验证性因素分析,而且需要两个样本。如果某个量表德结构也十分确定,则直接做验证性因素分析即可。后者需要特别德软件,如LISREL, AMOS等。

至于的人数(例子),一般比较容易找的,最好有350以上,有些样本属于特殊群体,100多也可以。
我现在是想做课题了,想采用硕士论文的别人自编的量表,那这种科学性有多大,我还需要对它做什么样的评定呢 ?
还有对心理量表的编制的话,有什么比较好的书本可以介绍一下吗 ?
谢谢
我也想知道。
1。重测信度及Cronbach′sα 内部一致性系数这些检查只是形式上的,我从没没有不通过的
2。这个样本要是建立在得常模的基础上,根据以往一些论文信息,估计方差会大,就样本大些。中国人的比较特殊,国外一些不一定适用,语言需要再三考虑,把对象视为没有文化的比较好
3。你还想细致些作验证性因子分析,这个不一定是做效度的好工具。不同软件算法不一样,对样本要求不一样的。
Rasch analyses will be conducted by the Rasch Unidimensional Measurement Models (RUMM2020) software based on the IRT. Initial analyses are based on traditional measurement theory or Classical Test Theory (CTT), whereas Rasch analyse is based on the IRT. Table 1 provides key differences between CTT and IRT models. Due to the limitations with the CTT with regards to sample and test dependencies, these variations make it nearly impossible to compare respondent scores across different measure. However, researchers such as Mc- Horney and Cohen demonstrate that linking instruments within the framework of IRT modelling can allow comparisons of instruments and respondents. The application of Rasch analyses based on the IRT can help to create more precise tools. Item and scale analysis within the framework of IRT will ensure reliable, valid, and accurate measurement of respondent trait levels. Identification of items that are informative or problematic can help investigators to understand the domain they are measuring as well as the population they measure.

Table 1. Comparison between CTT and IRT models
CTT                   IRT
Measures of precision fixed for all scores  Precision measures vary across scores
Longer scales increase reliability  Shorter, targeted scales can be equally reliable
Test properties are sample dependent  Test properties are sample free
Mixed item formats lead to unbalanced impact on total test scores  Easily handles mixed item formats
Comparing respondents requires parallel scales  Different scales can be placed on a common metric
Summed scores are on ordinal scale         Score on interval scale
                     Graphical tools for item and scale analysis
古典測驗理論的內涵,主要是以真實分數模式(亦即,觀察分數等於真實分數與誤差分數之和,數學公式為)為理論架構,依據弱勢假設(weak assumption)而來,其理論模式的發展已為時甚久,且發展得相當規模,所採用的計算公式簡單明瞭、淺顯易懂,適用於大多數的教育與心理測驗資料,以及社會科學資料的分析,為目前測驗學界使用與流通最廣的理論依據。
  然而,除上述各項優點外,古典測驗理論卻有下列諸項先天的缺失(Guion & Ironson, 1983; Wright, 1977):

古典測驗理論所採用的指標,諸如:難度(difficulty)、鑑別度(discrimination)、和信度(reliability)等,都是一種樣本依賴(sample dependent)的指標;也就是說,這些指標的獲得會因接受測驗的受試者樣本的不同而不同,因此,同一份試卷很難獲得一致的難度、鑑別度、或信度。

古典測驗理論以一個相同的測量標準誤(standard error of measurement),作為每位受試者的測量誤差指標,這種作法並沒有考慮受試者能力的個別差異,對高、低能力兩極端組的受試者而言,這種指標極為不合理且不準確,致使理論假設的適當性受到懷疑。

古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數間,無法提供有意義的比較,有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。

古典測驗理論對信度的假設,是建立在複本(parallel forms)測量的概念假設上,但是這種假設往往不存在於實際測驗情境裡。道理很簡單,因為不可能要求每位受試者接受同一份測驗無數次,而仍然假設每次測量間都彼此獨立不相關,況且,每一種測驗並不一定同時都有製作複本,因此複本測量的理論假設是行不通的,從方法學邏輯觀點而言,它的假設也是不合理的、矛盾的。

古典測驗理論忽視受試者的試題反應組型(item response pattern),認為原始得分相同的受試者,其能力必定一樣;其實不然,即使原始得分相同的受試者,其反應組型亦不見得會完全一致,因此,其能力估計值應該會有所不同。

  一般說來,為了克服古典測驗理論的缺失,才有當代測驗理論的誕生。當代測驗理論的內涵,主要是以試題反應理論為理論架構,依據強勢假設(strong assumptions)而來,其理論的發展為時稍晚,理論模式也不斷的在發展當中,所採用的計算公式複雜深奧、艱澀難懂,為一立論與假設均合理與嚴謹的學說,所適用的測驗資料種類雖屬有限,但深受測驗學者的青睞,已有逐漸凌駕古典測驗理論之上,甚至進而取而代之之勢。
  當代測驗理論是為改進古典測驗理論的缺失而來,它具有下列幾項特點,這些特點正是古典測驗理論所無法具備的(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980):

當代測驗理論所採用的試題參數(item parameters)(如:難度、鑑別度、猜測度等),是一種不受樣本影響(sample-free)的指標;也就是說,這些參數的獲得,不會因為所選出接受測驗的受試者樣本的不同而不同。

當代測驗理論能夠針對每位受試者,提供個別差異的測量誤差指標,而非單一相同的測量標準誤,因此能夠精確推估受試者的能力估計值。

當代測驗理論可經由適用的同質性試題組成的分測驗,測量估計出受試者個人的能力,不受測驗的影響(test-free),並且對於不同受試者間的分數,亦可進行有意義的比較。

當代測驗理論提出以試題訊息量(item information)及試卷訊息量(test information)的概念,來作為評定某個試題或整份試卷的測量準確性,倒有取代古典測驗理論的「信度」,作為評定試卷內部一致性指標之勢。

當代測驗理論同時考慮受試者的反應組型與試題參數等特性,因此在估計個人能力時,除了能夠提供一個較精確的估計值外,對於原始得分相同的受試者,也往往給予不同的能力估計值。

當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit),可以提供考驗模式與資料間之適合度、受試者的反應是否為非尋常(unusual)等參考指標。
因此,量表评价除了从基于古典的测量理论(信度、效度和反应度)进行评价外,还需对条目进行基于Rasch模型的 IRT(ITEM RESPONSE THEORY)分析,计算条目与模型的拟合度,从条目水平进行评估,可以使用RUMM2020软件进行统计
您的位置:医学教育网 >> 医学资料