1. 临床试验设计类型
申请人针对所申报产品进行的临床试验是临床研究类型中的纵向研究,但并非仅仅指随机平行对照的实验性研究,基于与产品设计表征相关的临床先验信息的分析,其他具有对照组的临床试验类型也应当考虑,从法规层面来讲,这些试验类型往往能体现出相应的伦理学及减轻试验负担等研究价值。例如历史对照试验(如目标值法等非同期历史对照)、部分随机试验(如试验组随机而对照组不随机等)、回顾性病例-对照研究等等,即使是平行分组对照试验,也不应局限于传统的配对平行设计,还应考虑试验组与对照组不等量分配的平行分组设计等研究类型。不同类型临床试验(临床研究)的数据质量及证据级别水平请参见相关教科书的阐述。虽然更先进的统计学原理能够帮助医疗器械的临床试验更加符合伦理且科学严谨地减少样本量或缩短临床试验时间,但需要强调的是所遵循的统计学原则及运用的统计计算方法应与不同试验设计类型相适应,以控制由于对随机性和盲态的破坏而造成的系统性偏倚。例如,贝叶斯分层模型基于前代及同类产品的先验信息与参数后验分布,在运用其原理进行适应性设计时,应严密注意引入的操作误差,包括选择偏倚、评价方法偏倚、治疗修订偏倚、治疗效应相应的可信区间错误、资料收集偏倚、患者纳入标准与分组变化、假设与统计矛盾等,对采取的应对措施应在方案中有相应的详细描述和论证,包括揭盲程序、独立数据管理委员会、独立的中心实验室、独立终点评价、对后验概率和预测分布的中期分析计划、所应用统计软件参数的设定等等。不过,经典的RCT试验的样本量计算和随访时点的设定及最终统计计算都比其他试验类型更简单,混杂因素控制得也最好,因而在技术审评中更容易得出结论。
统计学类型方面,具有对照组的试验常见的检验类型有非劣效、等效及优效。非劣效检验最为常用,但仍然需根据申报产品在主要评价指标方面预期所具有及宣称的有效性及安全性进行合理选择,否则一味地减少样本量或减轻时间等试验成本,将可能出现试验结果与方案设定的假设检验及参数不一致,引发进一步临床试验,例如方案中非劣效界值设定较大但两组试验结果均为100%,甚至试验组大大优于对照组,将可能挑战试验对假阳性的控制,或者挑战方案设定依据与试验执行之间的一致性,至少需要运用精确概率法对组间差异的点估计及可信区间做出计算,并严格考察实验设计的灵敏度。事实上如果在非劣效界值的论证中严格秉持高质量文献数据分析的原则,并确保与试验执行内容的一致性,则可确保假设检验的合理前提。
以下内容以经典频率学派的平行对照试验类型为例。
2. 临床评价指标
评价指标(观察终点)应从安全性与有效性两方面设定,有效性指标分主要评价指标与次要评价指标。
(1)主要评价指标
椎间融合器临床试验应以影像学终点为主要评价指标,观察椎间隙融合和融合器稳定性,即通过X线和CT三维重建来静态观察终板之间的骨小梁衔接,X线动力位观察包括椎间平移运动与屈伸角度变化,以构成联合指标。该联合指标对椎间融合的判定标准一般是分级式评价标准,按优良中可差分为若干等级。骨融合的静态影像学评定标准众多,临床试验方案中应明确表述。例如经典的Brantigan和Steffee提出的评定标准。需要注意的是,在该标准中须将第4、5级别合并统计出病例组的融合率,方为临床试验中通常使用的病例组的“优良率”或“有效率”所指的静态影像学信息。
表1 Brantigan和Steffee提出的融合结果影像学分级(和描述)
融合区的骨从影像学来看较术中达到的状态有更高密度和成熟度。虽然理想状况下移植骨和椎体骨之间没有分界面,然而移植骨和椎体骨之间的硬化线提示着融合。其他实性融合的指征包括成熟的骨小梁桥接融合区,前方牵引性骨刺的吸收,骨移植物在椎间隙前方的生长,小关节融合,CT或3D影像重建中的“环形”现象
鉴于联合终点考虑静态融合度、椎间活动度等多个终点,应注意根据高质量权威文献制定联合量表,以确保最终设定的病患评定标准(治疗有效率的优良等级划分)的信度、效度、灵敏度、统一性。
值得注意的是,若临床试验方案设定的随访终点时辅助的内固定器械仍未取出,则椎间平移运动应为0mm,屈伸角度变化<2°,此类临床试验时颈椎与胸腰椎病患可以入组于同一临床试验,但对产品的应用会产生较大的约束(详见后述“脊椎节段比例”部分的分析)。
影像学终点为主要评价指标的临床试验,通常会考虑使用独立的中央影像学评价中心,以此来减小评价中的偏倚。
(2)次要评价指标
脊柱功能评分与围手术期处理、术中操作及术后康复训练等临床治疗的综合因素相关,其评价内容并非针对所申报融合器与同品种已上市产品的差异之处,亦非单纯针对融合器应发挥的作用,混杂因素较多,故而应作为次要评价指标。当然,若临床前研究所确定的风险盲点无法仅通过单纯的椎间融合状况来评价,就可能考虑将综合的疗效评价量表纳入主要评价指标的联合终点中。例如某些新材料融合器,若必需通过融合节段附近及全身的免疫反应来评价与人体的相容性时,对病患的脊柱功能评价就应成为主要评价指标的要素之一。
JOA评分、Oswestry功能丧失指数ODI、NDI、ODOM量表、VAS量表、SF-36调查问卷等均为临床诊治中常用的功能评价表,在使用中不仅应记录治疗前后的分值,还应计算改善率,例如JOA评分的改善率计算公式:
JOA评分改善率=(术后分-术前分)/(总分-术前分)×100%
各类评价表的运用对于控制临床试验中入组病例的基线是很有意义的。
(3)安全性评价指标
除了融合器相关不良事件如融合器移位、沉陷等等失效事件,椎间隙高度丢失率的计算也同样应进行记录。不良事件及继发干预相关的信息都是记录的重点,尤其严重不良事件。
不良事件是临床数据中的重点内容,尤其严重不良事件。严重不良事件,是指临床试验过程中发生的导致:死亡;病人、使用者或者他人健康严重恶化,包括:致命的疾病或者伤害、身体结构或者身体功能的永久性缺陷、需住院治疗或者延长住院时间、需要进行医疗或者手术介入以避免对身体结构或者身体功能造成永久性缺陷;导致胎儿窘迫、胎儿死亡或者先天性异常/先天缺损等事件。
临床试验过程中的全部不良事件均应报告,并对不良事件发生率做出整体评价,应按照与器械的相关度进行分层分析,例如:从神经/功能/疼痛等并发症的术前/术中/术后与器械/手术部位/全身系统的关系进行分层。同时有多项不良事件发生的病例应着重描述。其中,与产品操作使用(而非产品失效)相关的不良事件会较多,且不同医疗地区所上报的情况会有所不同。各分层数据的原因分析中,要注意产品及植入操作本身对人体的作用模式本身会否产生数据评价中的不良事件,例如由于融合器存在而引起的疼痛、不适或感觉异常,由于手术操作引起的软组织或血管损伤,因神经根或硬膜的过度撑开牵引或损伤而导致的神经并发症(Horner综合征、迷走神经损伤等)、脑脊液漏、术后颈肩痛、腰背肌损伤所致的术后难治性腰背痛、吞咽或呼吸困难、临近节段退变等。这些不良事件应与由于融合器安全性较差而产生的不良事件相区别,如融合器下沉、松动、移位、脱落、碎裂,椎体骨折、骨裂、骨吸收、骨不连以及由之引发的神经压迫症状(包括疼痛、麻痹等)和病理体征,另外也应明示植入后诱发的过敏反应、局部肿瘤等不良反应。若不良事件体现出产品风险分析中未纳入分析防控的危害,应着重进行阐述,包括采取的改进措施如设计修改、植入操作改进或适应证(如具体的椎体滑脱Meyerding分型等)、禁忌证及注意事项的进一步细化。
在不良事件中,继发的外科干预要独立进行分析。这些外科干预包含翻修(包括去除、替换和重置融合器或组件)、移除融合器但不替换新产品而选择其他融合方式、再手术(如进一步解压操作)和补充植入其他固定物,等等。
3. 样本量设定
针对主要评价指标和临床历史数据,进行高质量数据分析和计算,确定试验组主要评价指标的预期有效率,结合所设定的统计学类型之后,方能合理设定样本量。样本量的计算公式及计算结果有诸多的统计学文献可供直接查询,例如历史数据支持的联合终点有效率(优良率)为95%,双侧检验α取0.05,β取0.1,非劣效界值δ取0.15时,每组病例数为45例,一般考虑10%脱落率后每组入组病例数为50例,其他参数不变而δ取0.1时每组入组病例数为111例;单组目标值试验时,双侧检验下若经文献等历史数据统计后的目标值设定为85%,β取0.2时,一般考虑10%脱落率后入组病例数为87例。这里要注意,较少的样本量通常情况下需要较多高质量文献数据集对各项参数取值进行支持,这在一定程度上也会增加申请人的负担。例如单侧检验、非劣效检验中预期有效率提高、目标值降低、β扩大及δ扩大均会降低样本量,但必须经统计处理的、充分分析的文献数据支持。
4. 入排标准和脊椎节段比例
入排标准及病例结构关系到主要评价指标的观察是否建立在均衡的基线上,对于试验质量及试验结果对所宣称功效的支持力度很重要。
(1)入选标准
椎间融合器临床试验入选病例时首先应注意年龄和性别的分布,这两项因素关系到患者骨质代谢状况,从而影响着试验的均一性。鉴于脊柱融合术一般用于骨骼发育成熟患者,建议入组患者年龄>18岁并具有较集中的分布。中老年男性与女性在病因及骨代谢特点上有一定的统计学差别,因而建议试验组与对照组的组内男女病患比例相一致。
入组病例治疗所涉及的脊柱节段应明示,如颈椎及胸腰椎的具体位置。尤其对于多节段治疗的患者,应将各节段的疾病信息表述清晰,这对入组病例基线均衡性的分析至关重要。
与主要评价指标相适应,病患节段的疾病信息主要包括影像学上判定的脊柱失稳的病理类型(如创伤还是退行性变引起的、脊髓型还是神经根型的脊椎病)、疾病分级分期分型(如脊柱滑脱的Meyerding分型、椎间盘退变的病理分型)等等,尤其对于特殊设计的椎间融合器产品。
与临床实践相符的是,入组患者一般都经历了至少4—6周的不成功的非手术保守治疗。
按照常规临床试验“意向性试验”的基本要求,入组患者必须是自愿参加试验,能够准确理解并签署知情同意书,能够遵守术后管理程序,能够配合试验计划完成术后随访。
(2) 排除标准
排除标准的内容不仅仅关系到入组患者的基线均衡性、整体试验的质量及试验结果的意义,还关系到入组患者的安全性。以下是脊柱临床试验普遍的排除标准,常常与最终的禁忌症有一定相关性:
a)明显的局部或全身严重感染,如骨髓炎;
b)可能导致术后护理期间出现难以接受的固定失败或并发症风险的任何精神或神经肌肉及血管疾患;
c)妊娠;
d)手术部位没有足够软组织覆盖的患者;
e)明确的或怀疑对产品所用金属、高分子材料或对异物过敏;
f)骨质疏松症、骨软化症或类似的骨密度降低是手术的相对禁忌症,因为他们可能会降低已达到的校正程度和/或机械固定的效果,尤其是对于高龄严重骨质疏松症患者;
g)系统性或代谢性疾病;
h)患者的总体健康状况不良,如冠心病、高血压等常规全麻手术禁忌症;
i)会导致植入物固定失败或者植入物本身因负荷过重而损坏的肥胖症;
j)患者不愿意或无能力遵循术后疗法和/或康复方案的指示;
k)精神疾病、药物滥用或酗酒;不能保证在骨折愈合期间戒烟患者;
l)由于疾病、感染或以往的手术操作而影响现存骨量,使之不能给植入装置提供足够的支撑和/或固定,并影响骨性融合;
m)脊柱肿瘤,包括转移瘤;
n)长期服用影响骨、软组织愈合的药物(如化疗药物、皮质类固醇激素,除外甲泼尼龙);
o)正在接受放射治疗者;
p)使用生长因子,长期使用镇静催眠药(连续使用3个月以上),长期使用非甾体类消炎药(连续使用3个月以上);
q)研究者判断不适合入选的其他情况(如:小儿麻痹后遗症等)等;
r)患者精神上无能力或者不能理解参与研究的要求;
s)预计无依从性;
t)骨骼不成熟,正在发育中的患者;
u)受试者合并的其他疾病限制其参加研究,不能依从随访或影响研究的科学性完整性;
v)拒绝签署知情同意书者。
需明确指出的是,未纳入临床试验与不列入产品适应证是两个概念。研究者需要将试验所验证的适应证扩展到对最终宣称的适应证的支持,此部分分析论证也包括前述假关节病患及既往融合失败病患。通常外推出的适应证需要明确更多的注意事项及限制条件。
(3)脊椎节段比例
椎间融合器通常与脊柱内固定系统联合使用,脊柱内固定系统已可提供坚强的脊柱初始稳定性,这就使得辅助脊柱内固定的情况下,颈椎间和胸腰椎间的局部融合环境及对椎间融合器融合效果的影像学观察指标趋于同质化,临床试验中主要评价内容就集中为评价椎间融合器促进椎间骨性融合的能力。因此联合脊柱内固定的椎间融合器的病例,不论术式、手术入路或应用部位,在评价椎间骨性融合效果上具有同质性,可以招募入同一组进行试验并统一进行统计分析。
鉴于其他次要评价指标及安全性评价指标的需要,试验组与对照组间应有可比性,建议各组内均包含颈椎或胸腰椎病例,例如均不少于该组病例总数的1/3。
然而,颈胸腰椎入组的同质性是有严格前提的,即:直至随访时间终点,所治疗的病患节段的内固定系统仍未取出。这貌似减少了临床试验的成本,但对融合器的长期风险评价及使用方法会产生极大限制,例如,若产品宣称在一定时间后或一定情况下可移除内固定,则随访观察节点应包括取出内固定后椎间融合效果的观察,此时由于颈椎段与胸腰椎段脊柱的生理活动度差异,颈椎与胸腰椎融合的动力位X线平片的判定标准在椎间平移运动度及成角运动度方面有差异,故而可能造成颈椎与胸腰椎病例的异质性,最终需要分别进行临床试验或补充已有的临床试验。如果融合时的平移运动度及成角运动度的衡量能够统一,例如统一取脊柱融合判定的最严格标准即平移运动=0mm、成角运动<2°,则颈胸腰椎原则上仍可招募在同一试验内。但此时应注意,这可能使更多病例被判定为不融合,尤其对于生理活动度本身很大的颈椎部位的融合术,临床试验结果将可能不支持受试产品的安全有效。
5. 随访窗口及试验持续时间
为全面客观地体现入组病患的椎间融合效果,一般来讲椎间融合术后需经历6—12个月的随访期。缩短试验时间将可能仅仅观察到内固定辅助环境下的椎间活动度,对远期去除脊柱内固定后椎间融合效果的支持力度较弱。
每例病患的随访时间点至少包括术前、术后1周内、术后3月±2周、术后6月±2周,若方案中设定随访期为9或12个月,应相应包括术后9月±1月及术后12月±1月,鼓励根据患者安全性数据的表现相应地增加随访窗口数量并缩短各窗口期的跨度。
6. 数据呈现
各入组病例的信息清单中,患者术前及术后诊断结果(包括受累节段和疾病类别等)、所使用器械的型号规格数量等信息应详尽。临床试验过程中所有来源于CRF的随访信息均应列表汇总,而非笼统地描述。注意应按组别而非个体病患汇总各随访时间窗的各项观察终点的信息,例如术后3月±2周时试验组达到“优”级融合的比率及融合器移位率,术后6月±2周时对照组达到“优”级融合的比率及融合器移位率。这里“率”的呈现应以“达标病例数/随访病例数×100% =比率”的方式在数据表格中给出,例如“10/50×100%=20%”。建议各随访时点的各观察终点信息应并列呈现在同一表格内。含有多个融合节段的病例应将各节段中最差表现作为该病例观察终点的信息。
对未遵守临床试验方案的病例应单独呈现,并最终分析这些病例对整体试验结果的统计学影响。
不良事件应按各随访时间点及各观察终点全面客观呈现,与前述“安全性评价指标”内容一致,应分层为器械、手术和全身系统相关的不良事件,并进行原因分析。术后的翻修、移除、再手术、补充固定及其他继发外科干预事件要独立于其他不良事件,单独进行呈现。“翻修”可包含去除、替代和重置一个组件,“移除”可能带有替换,“再手术”不包括移除、修正、替换或增加植入器械,“其他外科干预”是与所研究融合器无关的外科手术。值得注意的是继发外科干预事件的病例应与死亡等严重不良事件病例一同纳入失败病例。
7. 统计分析
人口统计学与基线特征方面,除了骨科医疗器械临床试验常见的共性信息,如性别、年龄、体重、骨质情况、既往病史、手术史(尤其脊柱手术)及伴随的内科疾病情况等,研究者还应对试验干预脊柱节段的病情基线(如各类评价表得分)进行分析,具体方面与入选标准中考虑的因素相一致。最终的分析结果应对入选病例基线不均衡之处,以及对试验偏倚的影响进行论证,必要时可考虑协方差分析等方法进行基线分析。对多中心效应、非随机化设计等带来的试验偏倚,可通过倾向评分法(包括变量调整法、分层分析法及配比法)和回归分析等统计方法进行控制。
数据分析时应考虑数据的完整性,受试产品及受试者数据的剔除条件或偏倚数据的处理必须在统计方案中预先界定并给出依据。
对于涉及多节段融合治疗的病例,应对试验结果进行灵敏度分析,以患者为单位和以植入融合器为单位分别进行统计分析并比较。
临床试验的数据分析应基于不同的分析集,通常包括全分析集、符合方案集和安全分析集,研究方案中应明确各分析集的定义。全分析集中脱落病例主要评价指标缺失值的填补方法(如最差值法等)应在临床试验方案中予以事先明确,并进行灵敏度分析,以评价缺失数据对研究结果稳定性的影响。主要评价指标的分析应同时在全分析集和符合方案集上进行;安全性指标的分析应基于安全分析集。
对于主要评价指标,统计结果需采用点估计及相应的95%可信区间进行分析与评价。对于非劣效检验,主要评价指标的组间差值必须与非劣效界值有统计学意义上的差异,并且其差异的95%可信区间下限须大于-δ(以影像学稳定性的优良率为主要评价指标时),若以假体的影像学移位率为主要评价指标则组间差值的95%可信区间下限须小于δ,此时方能使假设检验的备择假设H1成立,从而判定试验器械非劣于对照组产品。
统计方案中应预先明确具体的统计分析方法(例如平衡基线的协方差、分析多中心效应的CMH、贝叶斯模型中马尔科夫链蒙特卡洛法等统计方法)、统计分析软件及其版本和相关计算过程中参数的设定,例如EpiData3.0、SAS9.4、SPSS19.0、WinBUGS14等软件及参数。
统计分析报告应纳入最终的临床试验总结报告中,各中心的数据应统一进行报告。