MANUAL GRADE

Grading of Recommendations, Assessment, Development and Evaluation

Versión en Español 2017

EXTRACTO

El Manual GRADE describe el proceso de calificación de la calidad de la mejor evidencia disponible y la elaboración de recomendaciones de atención en salud, a partir de la metodología propuesta por el Grupo de Trabajo GRADE, de su sigla en inglés -Grading of Recommendations, Assessment, Development and Evaluation- (www.gradeworkinggroup.org).


Primera edición en español: marzo de 2017

Autores:

Holger Schünemann, McMaster University, Hamilton, Canada

Jan Brożek, McMaster University, Hamilton, Canada

Gordon Guyatt, McMaster University, Hamilton, Canada

Andrew Oxman, Norwegian Knowledge Centre for the Health Services, Oslo, Norway

Traducción al español

Paola Andrea Orrego. MD.

María Ximena Rojas Reyes. RN. MSc. PhD.

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE MEDICINA

DEPARTAMENTO DE EPIDEMIOLOGIA Y BIOESTADISTICA

Bogotá D.C., Colombia

-Javeriana GRADE Center-

 

Editores de la version en español

María Ximena Rojas, Departamento de Epidemiología Clinica, Pontficia Universidad Javeriana, Bogotá Colombia

María Teresa Ochoa, Departamento de Epidemiología Clinica, Pontficia Universidad Javeriana, Bogotá Colombia

Fecha de traduccion: octubre de 2016

Traducción de la edición original en Ingles del manual en línea “Handbook for grading the quality of evidence and the strength of recommendations using the GRADE approach” actualizado en octubre 2013, disponible en: http://gdt.guidelinedevelopment.org/app/handbook/handbook.html

Revisión de la versión española:

Laura Charry. MD.MSc.

Pablo Alonso Coello MD. PhD.

Ignacio Neumann MD. PhD.

Agradecimientos

Los autores agradecen las contribuciones de Roman Jaeschke, Robin Harbour y Elie Akl a las versiones iniciales del manual.

La versión en español ha sido posible gracias al aporte de:

Pontificia Universidad Javeriana, Bogotá. Facultad de Medicina. Departamento de Epidemiología Clínica y Bioestadística. Javeriana GRADE center.

COLCIENCIAS. Gobierno de Colombia. Convocatoria RC 706-2014Contrato del proyecto 120365740898

¿Cómo citar este manual?

Schünemann H, Brożek J, Guyatt G, Oxman A. (2013). Manual GRADE para calificar la calidad de la evidencia y la fuerza de la recomendación (1ª Ed. en español). P.A Orrego & M.X. Rojas (Trans.) Mar 2017. Publicación Original: http://gdt.guidelinedevelopment.org/app/handbook/handbook.html

Cuando se hace referencia a un capítulo en específico o sección se debe hacer mención del título o el número de sección y no por el número de la página. Por ejemplo: Autores del capítulo; nombre del Capítulo; en Schünemann H, Brożek J, Guyatt G, Oxman A. Manual GRADE para calificar la calidad de la evidencia y la fuerza de la recomendación. (1ª Ed. Español). P. A Orrego & M.X. Rojas (Trans.)Mar 2017.

¿Cómo citar el software?

GRADEpro GDT: GRADEpro Guideline Development Tool [Software]. McMaster University, 2015 (developed by Evidence Prime, Inc.). Available from gradepro.org.

Introducción al Manual GRADE

CAPÍTULO 1. Descripción general de la aproximación GRADE

1.1. Objetivos y ventajas de la aproximación GRADE

1.2. Separación de la confianza en el estimativo del efecto y la fuerza de las recomendaciones

1.3. Desafíos especiales en la aplicación de la aproximación GRADE

1.4. Modificaciones a la aproximación GRADE

CAPÍTULO 2. Planteamiento de la pregunta del cuidado de la salud

2.1. Definición de la población y la intervención

2.2. Manejo de múltiples comparadores

2.3. Otras consideraciones

2.4. Formato de preguntas de cuidado de salud con la aproximación GRADE

CAPÍTULO 3. Selección y calificación de la importancia de los desenlaces

3.1. Pasos para considerar la importancia relativa de los desenlaces

3.2. Influencia de la perspectiva

3.3. Uso de la evidencia en la calificación de la importancia de los desenlaces

3.4. Desenlaces alternativos (sustitutos)

CAPÍTULO 4. Resumen de la evidencia

4.1. Tablas de evidencia

4.2. Perfil de evidencia GRADE

4.3. Tareas para crear un perfil de evidencia GRADE en GRADEpro-GDT

4.4. Evaluación de la evidencia, resumen de hallazgos y calificación de la importancia del desenlace (para cada desenlace).

4.4.1. Diseño del estudio.

4.4.2. Calidad de la evidencia.

4.4.3. Resumen de hallazgos

4.4.4. Riesgo asumido (Riesgo basal)

4.4.4.1. Riesgo asumido cuando un efecto se analizó y expresó como una diferencia de medias (DM)

4.4.4.2. Riesgo asumido (puntaje) cuando un efecto se analizó y expresó como una diferencia estandarizada de medias (DEM)

4.4.4.3. Riesgo asumido cuando un efecto se analizó y expresó como una razón de medias

4.4.5. Efecto absoluto

4.4.5.1. Elección del denominador para presentar los efectos absolutos

4.4.5.2. Cálculo del efecto absoluto en el perfil de evidencia GRADE

4.4.5.1 Presentación de un desenlace continuo

4.4.5.2 Presentación narrativa de un desenlace

4.5. Tabla de resumen de hallazgos (tabla SoFt)

4.5.1. Tareas para crear una tabla de resumen de hallazgos en GRADEpro GDT

CAPÍTULO 5. Calidad de la evidencia

5.1. Calidad de la evidencia GRADE

5.2. Factores que determinan la calidad de la evidencia

5.3. Factores que pueden disminuir la calidad de la evidencia

5.3.1. Limitaciones en el estudio (Riesgo de sesgo)

5.3.2. Inconsistencia de los resultados

5.1.1.1. Decisión de usar estimativos a partir de un análisis de subgrupos

5.3.3. Evidencia indirecta

5.3.3.1. Diferencias en la población (aplicabilidad)

5.3.3.2. Diferencias en la intervención (aplicabilidad)

5.3.3.3. Diferencias en los desenlaces medidos (desenlaces alternativos)

5.3.3.4. Comparaciones indirectas

5.3.4. Imprecisión

5.3.4.1. Imprecisión en las guías de práctica clínica

5.3.4.2. Imprecisión en las revisiones sistemáticas

5.3.4.3. Bajar dos niveles por imprecisión

5.3.5. Sesgo de publicación

5.4. Factores que pueden aumentar la calidad de la evidencia

5.4.1. Efecto de gran magnitud

5.4.2. Gradiente dosis- respuesta

5.4.3. Efecto de los potenciales factores de confusión residual

5.5. Calidad global de la evidencia

CAPÍTULO 6. De la evidencia a las recomendaciones

6.1. Las recomendaciones y su fuerza

6.1.1. Recomendaciones fuertes

6.1.2. Recomendaciones débiles

6.1.3. Recomendaciones para el uso de intervenciones únicamente en investigación

6.1.4. Ninguna recomendación

6.2. Factores que determinan la dirección y fuerza de las recomendaciones

6.2.1. Balance entre consecuencias deseables e indeseables

6.2.2. Confianza en el mejor estimativo de la magnitud del efecto (calidad de la evidencia)

6.2.3. Confianza en valores y preferencias

6.2.4. Uso de los recursos (costos)

6.2.4.1. Diferencias entre costos y otros desenlaces

6.2.4.2. Perspectiva

6.2.4.3. Implicación de los recursos que se consideran

6.2.4.4. Confianza en el estimado del uso de los recursos (calidad de la evidencia de los costos)

6.2.4.5. Presentación del uso de los recursos

6.2.4.6. El modelo económico

6.2.5. Consideración del uso de los recursos en la formulación de recomendaciones

6.3. Presentación de las recomendaciones

6.3.1. Redacción de las recomendaciones

6.3.2. Representación simbólica

6.4. Declaraciones transparentes acerca de los valores y preferencias asumidas

6.5. El marco de evidencia a la decisión

6.5.1. Propósito del marco

6.5.2. Desarrollo del marco

6.5.3. Descripción del marco

6.5.4. Uso del marco

6.5.5. Explicaciones de los criterios del marco

6.5.6. Directrices para hacer juicios

6.5.7. Explicaciones útiles en el marco de trabajo EtD

1CAPÍTULO 7. La aproximación GRADE para pruebas y estrategias diagnósticas

7.1. Preguntas de pruebas diagnósticas

7.1.1. Establecer el propósito de una prueba

7.1.2. Establecer el rol de una prueba

7.1.3. Preguntas clínicas claras

7.2. Patrón de oro y prueba de referencia

7.3. Estimación del impacto en los pacientes

7.4. Evidencia indirecta y el impacto en los desenlaces importantes para los pacientes

7.5. Juicio acerca de la calidad de la evidencia subyacente

7.5.1. Diseño inicial del estudio

7.5.2. Riesgo de sesgo

7.5.3. Evidencia indirecta

7.5.4. Inconsistencia, imprecisión, sesgo de publicación y subir por dosis efecto, grandes estimativos de precisión y posibles factores de confusión residuales

7.5.5. Confianza global en los estimativos de los efectos

CAPÍTULO 8. Criterios para determinar si se utilizó la aproximación GRADE

Glosario de términos y conceptos (orden alfabético)

Recursos adicionales

Acerca del Grupo de trabajo GRADE


Introducción al Manual GRADE

El Manual GRADE describe el proceso de calificación de la calidad de la evidencia disponible y la elaboración de recomendaciones de atención en salud, a partir de la metodología propuesta por el Grupo de Trabajo GRADE (de su sigla en inglés Grading of Recommendations, Assessment, Development and Evaluation) (www.gradeworkinggroup.org).

El propósito de éste manual es brindar una guía para quienes son responsables de utilizar la aproximación GRADE para la elaboración de resúmenes de evidencia y recomendaciones calificadas.

Los usuarios de este manual son los autores de revisiones sistemáticas y de evaluaciones de tecnologías en salud (ETS), panelistas y metodólogos que contribuyen a la elaboración de las guías. Aúnque muchos de los ejemplos que se presentan para ilustrar conceptos son ejemplos clínicos, también se intentó incluir un rango más amplio de ejemplos que incluyen salud pública y políticas públicas. Por último, hay secciones específicas que hacen referencia a cómo deben ser interpretadas las recomendaciones por parte de los usuarios de las mismas.

Cómo utilizar el Manual GRADE

El manual está dividido en capítulos que corresponden a los pasos para aplicar la aproximación GRADE. El capítulo Descripción general de la aproximación GRADE ofrece una breve descripción de los procesos de desarrollo de una guía y en qué lugar tiene cabida la aproximación GRADE. Los capítulos Planteamiento de la pregunta del cuidado de salud y Selección y calificación de la importancia de los desenlaces proporcionan una guía acerca de cómo formular las preguntas para las revisiones sistemáticas y las guías, y cómo calificar la importancia de los desenlaces en las preguntas incluidas en las guías. El capítulo Evidencia explica cómo realizar los resúmenes de la evidencia a partir del software GRADEpro-GDT.

GRADE reconoce que los términos o las expresiones alternativas a los que GRADE define como calidad de la evidencia por lo general son apropiados. Por lo tanto, nosotros interpretamos y utilizamos de forma intercambiable las frases calidad de la evidencia, fuerza de la evidencia, certeza en la evidencia y confianza en el estimativo. Cuando GRADE se refiere a la confianza en el estimado se refiere a qué tanta confianza se puede tener en que el estimativo del efecto es adecuado para soportar una recomendación (en el contexto de la elaboración de una guía), o que el efecto estimado es cercano al efecto verdadero (en el contexto del resumen de la evidencia); es así que cuando GRADE utiliza la frase “confianza en el estimativo” no hace referencia a los intervalos de confianza estadísticos, aún cuando la amplitud de dichos intervalos hacen parte de las consideraciones para juzgar el criterio GRADE de imprecisión.

El capítulo Evidencia provee instrucciones para calificar la evidencia y expone los cinco factores descritos por la aproximación GRADE que pueden disminuir la calidad de la evidencia y los tres factores que pueden incrementar la calidad de la misma. El capítulo De la evidencia a las recomendaciones se encarga de la transición desde la evidencia hasta la recomendación en las guías, y a su vez de clasificar las recomendaciones en fuertes o débiles de acuerdo a los criterios trazados por GRADE. El capítulo Diagnóstico explica cómo usar GRADE específicamente para preguntas acerca de pruebas y estrategias diagnósticas. Y finalmente el capítulo Criterios para determinar si la aproximación GRADE se utilizó proporciona los criterios sugeridos que debe cumplir el texto que acompaña una recomendación, para certificar que se usó la aproximación GRADE.

A lo largo del manual ciertos términos y conceptos tienen hipervínculos para acceder a las definiciones y a las secciones específicas de dichos conceptos. El glosario de términos y conceptos se encuentra bajo el título conceptos. Cuando resulta aplicable, el manual resalta la información que es específica para los desarrolladores de guías o autores de revisiones sistemáticas, así como notas importantes de temas específicos. Los encargados de las ETS, pueden decidir cuál enfoque les resulta más apropiado en el desarrollo de sus objetivos. Adicionalmente, se exponen ejemplos que demuestran la aplicabilidad de los conceptos de cada tema. Dichos ejemplos se citan en caso de que los lectores deseen aprender más acerca de ellos y de sus fuentes.

Actualización del manual

El Manual se actualiza periódicamente para reflejar los avances en la aproximación GRADE y con base en la retroalimentación de los usuarios. Incluye información de los documentos publicados acerca de la aproximación GRADE y los vínculos para los recursos se encuentran bajo el título Recursos.

Invitamos a los usuarios del Manual a proveer retroalimentación y correcciones al mismo dirigidas a los editores del manual por correo electrónico.

Software de la aproximación GRADE: GRADEpro-GDT (GuidelineDevelopmentTool)

Este manual está destinado a acompañar el software de la estrategia: GRADE profiler (GRADEpro) para facilitar el desarrollo de los resúmenes de la evidencia y las recomendaciones en salud usando la aproximación GRADE, a su vez integrados en la herramienta GDT (por su sigla en inglés Guideline Development Tool) versión en español. Remítase a www.guidelinedevelopment.org para más información.

Reproducción y traducción

El permiso para reproducir y traducir el Manual GRADE para la calificación de la calidad de la evidencia y la fuerza de las recomendaciones debe obtenerse de los editores. La traducción de este manual al español fue aprobada por los autores.

Agradecimientos

Queremos agradecer particularmente las contribuciones de Román Jaeschke, Robin Harbour y Elie Akl a las versiones iniciales del manual.


CAPÍTULO 1. Descripción general de la aproximación GRADE

La aproximación GRADE es un sistema para calificar la calidad del cuerpo de la evidencia en revisiones sistemáticas y otras síntesis de evidencia, como evaluaciones de tecnologías en salud y en guías, y formular recomendaciones en salud. La aproximación GRADE ofrece un proceso transparente y estructurado para desarrollar y presentar los resúmenes de la evidencia, y para llevar a cabo los pasos que implica la formulación de las recomendaciones. Se puede utilizar para desarrollar guías de práctica clínica (GPC) y otras recomendaciones del área de la salud (p.ej. Salud pública, sistemas y políticas públicas y decisiones de cobertura en salud).

La figura 1.1 muestra los pasos y la participación en un proceso de desarrollo de una guía. (Schünemann 2013).  

http://www.guidelinedevelopment.org/handbook/images/image00.png

Figura 1.1. Pasos en el proceso de desarrollo de una guía

Fuente: (Schünemann 2013).

Los pasos y los procesos se interrelacionan y no necesariamente son secuenciales. El panel de la guía y los grupos de apoyo (p.ej. Metodólogos, economistas de la salud, equipo de revisiones sistemáticas, grupo de soporte administrativo) trabajan de forma colaborativa, nutridos e informados a partir de la participación de los pacientes y los grupos de interés. Ellos usualmente informan a un comité de supervisión o una junta que supervisa los procesos. Por ejemplo, mientras se decide cómo involucrar a las partes interesadas tempranamente para seleccionar y establecer los temas prioritarios, el grupo desarrollador de la guía debe a su vez considerar cómo desarrollar relaciones formales con las partes interesadas para permitir la difusión efectiva de la guía y su implementación. Adicionalmente, el proceso completo de desarrollo de las guías abarca consideraciones para la organización, planeación y entrenamiento. Otros pasos como el de documentar la metodología empleada y las decisiones tomadas, y considerar el conflicto de interés de los participantes en cada recomendación, ocurren a lo largo de todo el proceso.

El sistema está diseñado para revisiones sistemáticas y guías de práctica clínica que evalúan estrategias o intervenciones de manejo alternativas, que pueden incluir la no intervención o los mejores estándares de manejo disponibles y a su vez múltiples comparaciones. GRADE ha considerado un amplio rango de preguntas clínicas, incluyendo diagnóstico, tamización, prevención y tratamiento. La guía específica para aplicar la aproximación GRADE a las preguntas de diagnósticas, se ofrece en el capítulo La aproximación GRADE para las pruebas y estrategias diagnósticas.

GRADE provee un marco específico para preguntas del área de la salud, que van desde la selección de desenlaces de interés y la calificación de su importancia, pasando por la evaluación de la evidencia disponible, y el análisis de dicha evidencia a la luz de consideraciones de valores y preferencias de los pacientes y de la sociedad, para llegar a elaborar una recomendación. A su vez GRADE proporciona una guía a los clínicos y a los pacientes para usar las recomendaciones en la práctica clínica y también una guía para su uso por parte de quienes elaboran las políticas públicas.

La aplicación de la aproximación GRADE inicia con la definición de la pregunta en salud, en términos de población de interés, alternativas de manejo (intervención y comparador) y todos los desenlaces importantes para los pacientes. Como un paso específico para los desarrolladores de guías, los desenlaces se califican de acuerdo a su importancia, ya sea en críticos o importantes o no críticos. Seguidamente se realiza una búsqueda sistemática para identificar todos los estudios relevantes y los datos de cada estudio individual incluido, se utilizan para calcular un estimativo agrupado del efecto para cada uno de los desenlaces importantes para los pacientes, así como la medida de la incertidumbre asociada a ese estimativo (usualmente el intervalo de confianza). La calidad de la evidencia para cada desenlace a lo largo de los estudios (p.ej. El cuerpo de la evidencia para un desenlace particular) se califica de acuerdo a los factores expuestos por la estrategia, incluyendo cinco factores que pueden disminuir la calidad de la evidencia y tres que pueden aumentar la calidad de la evidencia. Generalmente los autores de las revisiones sistemáticas completan el proceso hasta este punto, mientras que los desarrolladores de las guías continúan los pasos subsecuentes. Las pruebas y estrategias relacionadas con la atención en salud se consideran intervenciones (o comparadores) puesto que utilizarlas tiene consecuencias que pueden considerarse desenlaces. (Ver el capítulo 7)

Paso seguido, los desarrolladores de guías revisan toda la información resultante de la búsqueda sistemática y, si es necesario, reevalúan y toman decisiones finales acerca de cuáles desenlaces son críticos y cuáles son importantes teniendo en cuenta las recomendaciones que buscan formular. La calidad global de la evidencia a través de todos los desenlaces se asigna basándose en laevaluación. Los desarrolladores de las guías después formulan la(s) recomendación(es), considerando la dirección (a favor o en contra) y la fuerza (fuerte o débil) basados en los criterios de la aproximación GRADE. La figura 1.2 proporciona una visión esquemática de la aproximación.

Figura 1.2. Visión esquemática de la aproximación GRADE para sintetizar la evidencia y formular las recomendaciones.

La mitad superior describe los pasos comunes para las revisiones sistemáticas y la formulación de recomendaciones en salud, y la mitad inferior describe los pasos que son específicos para la formulación de las recomendaciones. (Basado en la reunión GRADE, en Edimburgo 2009).

Para los autores de las revisiones sistemáticas

Las revisiones sistemáticas deben proporcionar un resumen exhaustivo de la evidencia, pero por lo general no deben incluir recomendaciones. Por tanto, el uso de la aproximación GRADE por parte de los autores de revisiones sistemáticas finaliza después de la calificación de la evidencia de los desenlaces y de presentar los resultados de forma clara en una tabla de evidencia, por ejemplo, en un Perfil de Evidencia GRADE o en una Tabla de Resumen de hallazgos (SoFt por su sigla en inglés, Summary of Findings table). Aquellos que se encuentren desarrollando recomendaciones de cuidado de salud, por ejemplo, panelistas de las guías, deben completar los pasos subsecuentes.

Los siguientes capítulos brindarán información detallada acerca de los factores que influyen la calidad de la evidencia y la fuerza de las recomendaciones, así como instrucciones y ejemplos para cada paso en la aplicación de la aproximación. Una descripción detallada de la aproximación para los autores de las revisiones sistemáticas y aquellos que formulan recomendaciones en salud se encuentra también disponible en una serie de artículos publicados en la revista Journal of Clinical Epidemiology. Una descripción general de la aproximación incluyendo la calidad de la evidencia y la fuerza de las recomendaciones está disponible en una serie de seis partes publicada en la revista British Medical Journal. Versiones resumidas han sido publicadas en otras revistas, principalmente con ejemplos para ciertas especialidades. La versión de este manual, en formato electrónico, incluye las innovaciones de GRADE y se mantendrá actualizado a medida que se renuevan las publicaciones (disponible en:

http://gdt.guidelinedevelopment.org/app/handbook/handbook.html)

  1. Objetivos y ventajas de la aproximación GRADE

Las guías de práctica clínica ofrecen recomendaciones para el manejo de pacientes típicos. Estas decisiones de manejo involucran el balance de consecuencias deseables e indeseables de una acción determinada. Con el fin de ayudar a los clínicos a tomar decisiones basadas en la evidencia, los desarrolladores de las guías usualmente califican la fuerza de las recomendaciones y la calidad de la evidencia al momento de informar dichas recomendaciones.

Los sistemas previos de calificación tenían muchas desventajas incluyendo la falta de separación entre la calidad de la evidencia y la fuerza de la recomendación, la falta de transparencia acerca de los juicios, y la ausencia de reconocimiento explícito de los valores y preferencias en que se basaban las recomendaciones. Adicionalmente la existencia de muchos sistemas de calificación, generalmente desactualizados, ha creado confusión en los desarrolladores de guías y los usuarios finales.

La aproximación GRADE se desarrolló con el fin de subsanar las limitaciones de los sistemas previos. Las ventajas de GRADE sobre otros sistemas de calificación son:

A pesar de que la aproximación GRADE lleva a realizar juicios acerca de la calidad de la evidencia a través de la confianza en el estimativo del efecto, y de la fuerza de las recomendaciones de una forma sistemática y transparente, no elimina la necesidad de juicios. Por tanto, la aproximación GRADE no minimiza la importancia de los juicios ni sugiere que la calidad siempre puede ser determinada de forma objetiva.

Aunque la evidencia sugiera que estos juicios, después de un entrenamiento metodológico apropiado, permiten una determinación acertada de la calidad de la evidencia (Mustafa 2013), existirán casos en los que quienes realizan esos juicios tendrán desacuerdos legítimos acerca de la interpretación de la evidencia. GRADE proporciona una guía a través de componentes críticos para la evaluación en una forma estructurada. Al permitir realizar juicios explícitos en lugar de implícitos, se garantiza la transparencia y las bases claras para la discusión.

  1. Separación de la confianza en el estimativo del efecto y la fuerza de las recomendaciones

Al momento de pasar de la evidencia a las recomendaciones, se deben usar un cierto número de criterios (consulte el Capítulo De la evidencia a la recomendación). Durante ese proceso, se necesitan juicios para cada uno de los criterios. En particular, separar los juicios acerca de la confianza en el estimativo del efecto o la calidad de la evidencia de la fuerza de las recomendaciones es importante, considerando que por ejemplo una alta confianza en el estimativo del efecto, no necesariamente implica una recomendación fuerte, y que una recomendación fuerte puede resultar de una confianza en el efecto estimado baja o muy baja (ver tabla 6.3). Los sistemas de calificación que fallan en separar estos juicios crean confusión, mientras que ésta es la característica que define a la aproximación GRADE.

La aproximación GRADE hace hincapié en la necesidad de considerar el balance entre las consecuencias deseables e indeseable y reconocer otros factores como, por ejemplo, los valores y preferencias subyacentes a las recomendaciones. Debido a que los pacientes tomarán distintas decisiones en cuanto a los desenlaces y las intervenciones, partiendo de valores y preferencias diferentes los panelistas de las guías, se verán enfrentados a una variabilidad importante en los valores y preferencias, que los obligará a formular recomendaciones débiles a pesar de la alta calidad de la evidencia. Considerar la importancia de los resultados y las intervenciones, los valores, las preferencias y las utilidades, incluye integrar en el proceso de desarrollo de una recomendación, cómo las personas afectadas por estas recomendaciones evalúan las posibles consecuencias. Estos incluyen el conocimiento de los pacientes y los cuidadores, las actitudes, expectativas, valores morales y éticos y, creencias; las metas de salud y de vida de los pacientes; experiencias previas con las intervenciones y la enfermedad; los síntomas experimentados (p.ej. dificultad respiratoria, disnea, dolor, pérdida de peso); preferencias a favor de desenlaces en salud deseables o no deseables; impacto percibido de la condición o de las intervenciones en la calidad de vida, bienestar o satisfacción y las interacciones entre el trabajo de implementar la intervención, la intervención en sí misma y otros contextos que los pacientes pueden estar experimentando; preferencias por cursos de acción alternativos; y preferencias relacionadas al contenido y los estilos de la comunicación, información y la inclusión en la toma de decisiones. Esto se puede relacionar con lo que en la literatura económica se conoce como utilidades. Una intervención por si misma se puede considerar consecuencia de una recomendación (p.ej. La carga de tomar un medicamento o someterse a una cirugía) y un nivel de importancia o de valor se asocian con esto. Tanto la dirección como la fuerza de la recomendación se pueden modificar después de tener en cuenta las implicaciones de la utilización de los recursos, equidad, aceptabilidad y factibilidad de las alternativas de manejo.

Es por esto que, a diferencia de otros sistemas de calificación, la aproximación GRADE hace énfasis en que las recomendaciones débiles también conocidas como condicionales, con confianza alta en el efecto estimado de cualquier intervención son comunes, por estos otros factores que influyen en la fuerza de la recomendación distintos de la calidad de la evidencia. Por la misma razón, la aproximación permite recomendaciones fuertes con base en una confianza baja o muy baja en el efecto estimado.

Ejemplo 1. 1 Recomendación débil basada en calidad de la evidencia alta

Varios Ensayos Clínicos Aleatorizados (ECAs) comparan el uso de la combinación de quimioterapia y radioterapia versus radioterapia únicamente en cáncer pulmonar de célula no pequeña localmente avanzado irresecable (estadio IIIA). La calidad global para el cuerpo de la evidencia se calificó como alta. Comparado con radioterapia como única alternativa, la combinación de quimioterapia y radioterapia reduce el riesgo de muerte, correspondiente a una ganancia promedio en expectativa de vida de pocos meses, pero incrementando los riesgos y la carga relacionada a la quimioterapia. Entonces considerando los valores y preferencias, los pacientes pondrían el beneficio de la pequeña sobrevida a la luz de los riesgos y la carga, y los panelistas de la guía pueden ofrecer una recomendación débil a pesar de la alta calidad de la evidencia disponible (Schünemann 2006)

Ejemplo 1.2. Recomendación débil basada en calidad de la evidencia alta

Los pacientes que experimentan un primer episodio de trombosis venosa profunda sin ningún factor claro desencadenante deben después de los primeros meses de anticoagulación decidir si continúan tomando la warfarina como anticoagulante a largo plazo. ECAs de alta calidad han demostrado que continuar la warfarina disminuiría el riesgo de trombosis recurrente, pero a costa de un mayor riesgo de sangrado y sus inconveniencias. Considerando que los pacientes con diferentes valores y preferencias, tomarán decisiones diferentes, los panelistas de la guía, que evalúan si los pacientes deben continuar o suspender la warfarina, a pesar de la alta calidad de la evidencia ofrecen una recomendación débil.

Ejemplo 1.3 Recomendación fuerte basada en calidad de la evidencia baja o muy baja

El principio de administración de antibióticos apropiados de forma temprana en el evento de una infección severa o sepsis no se ha evaluado frente a la no administración temprana en ningún ECA. Sin embargo, los panelistas de la guía muy probablemente formularán una recomendación a favor del uso temprano de los antibióticos en este contexto, basados en estudios observacionales disponibles calificados como baja calidad de la evidencia, porque los beneficios de la terapia antibiótica claramente superan las desventajas en la mayoría de los pacientes, independientemente de la evaluación de la calidad (Schünemann 2006).

  1. Desafíos especiales en la aplicación de la aproximación GRADE

Aquellos que apliquen la aproximación para preguntas de pruebas diagnósticas, salud pública y sistemas de salud se verán enfrentados a algunos desafíos especiales. Este manual abordará estos desafíos y se someterá a revisión cuando nuevos desarrollos impulsen al Grupo de Trabajo a aceptar cambios al enfoque. Además, se contará con avances metodológicos y refinamientos en el futuro no únicamente para las innovaciones sino para los conceptos establecidos.

  1. Modificaciones a la aproximación GRADE

GRADE recomienda no hacer modificaciones al enfoque teniendo en cuenta que los elementos del proceso se encuentran interrelacionados, y las modificaciones podrían generar confusión en los usuarios de los resúmenes de evidencia y las guías, porque los cambios pueden comprometer el objetivo de un único sistema con el que los clínicos, los generadores de políticas públicas y los pacientes se han familiarizado. Sin embargo, la literatura de los diferentes enfoques de la aplicación de la aproximación GRADE continúa incrementándose y es útil para determinar cuándo el pragmatismo resulta apropiado.


CAPÍTULO 2. Planteamiento de la pregunta del cuidado de la salud

El panel de una guía debe definir el alcance de la guía y las recomendaciones previstas. Cada recomendación debe responder una pregunta concreta y sensible del cuidado de la salud y que conlleve a una acción. De forma similar, los autores de las revisiones sistemáticas deben formular preguntas concretas que la revisión responda. Una revisión sistemática puede responder una o más preguntas dependiendo del alcance de dicha revisión.

La estrategia PICO presenta una metodología aceptada para el planteamiento de las preguntas. Ésta establece cuatro componentes específicos:

Existen muchos derivados de este formato como, por ejemplo, agregar la T de tiempo o la E dependiendo del diseño del estudio. Estas modificaciones no son ni útiles ni necesarias. En cuanto al tiempo (p.ej. Duración del tratamiento, momento en el que se debe medir el desenlace etc.), éste se encuentra cubierto al momento que se especifican la intervención (es) y el desenlace (s) de forma apropiada (p.ej. Mortalidad a un año). Adicionalmente los estudios, y por lo tanto su diseño, que han de responder la pregunta se desconocen al momento de formular la pregunta. Es decir, los estudios observacionales pueden dar respuesta a una pregunta formulada cuando no se encuentran disponibles estudios aleatorizados o, cuando no se asocian a una alta confianza en el estimativo del efecto. Por tanto, no resulta adecuado definir el diseño del estudio de antemano. Las preguntas de las guías por lo general involucran otra especificación: el escenario en el que la guía se va a implementar. Por ejemplo, las guías destinadas a escenarios con disponibilidad de recursos no van a resultar aplicables a los ambientes con recursos limitados. Sin embargo, incluso el escenario se puede definir como parte de la población (p.ej. Mujeres en países de bajos ingresos u hombres con infarto de miocardio en un centro de atención primaria o rural).

Algunos de los errores que se cometen frecuentemente en la formulación de la pregunta incluyen el no incluir todos los desenlaces importantes para los pacientes (p.ej. Toxicidad o efectos adversos), así como no considerar todas las alternativas relevantes (esto resulta particularmente problemático cuando las guías tienen como objetivo impactar audiencias globales)

  1. Definición de la población y la intervención

La decisión más difícil al momento de formular la pregunta es qué tan amplia debe definirse la población y la intervención (ver Ejemplo 2.1). Para los pacientes y las intervenciones definidas, la naturaleza subyacente debe sugerir que a lo largo del rango seleccionado de pacientes e intervenciones es posible que la magnitud del efecto en los desenlaces claves sea más o menos la misma. Si ese no es el caso, la revisión y la guía generarán estimativos erróneos para al menos algunos subgrupos de pacientes y de intervenciones. Basados en la información presentada en el Ejemplo 2.1, si los antiagregantes plaquetarios difieren en efectividad entre aquellos con enfermedad vascular periférica versus aquellos con infarto de miocardio, un único estimativo a lo largo del rango de pacientes e intervenciones seleccionadas no resultará útil al momento de tomar las decisiones por parte de los pacientes y de los clínicos. Por tanto, estas subpoblaciones se deben definir de forma separada.

A menudo las revisiones sistemáticas se ocupan de la pregunta de qué tan amplia debe ser la selección de la población y de las intervenciones empezando con preguntas que abarquen un rango amplio, pero incluyendo una especificación a priori de los efectos en los subgrupos que puedan explicar cualquier heterogeneidad que encuentren. Las hipótesis a priori pueden estar relacionadas con diferencias en los pacientes, intervenciones, el comparador, los desenlaces o factores relacionados con el sesgo (p.ej. Estudios con alto riesgo de sesgo producen diferentes efectos en comparación con los estudios con bajo riesgo de sesgo).

Ejemplo 2.1. ¿Qué tan ampliamente definir los pacientes y la intervención?

Al abordar los efectos de los antiagregantes plaquetarios en la enfermedad vascular, uno puede incluir únicamente pacientes con ataques isquémicos transitorios, aquellos con ataques isquémicos o trombóticos, o aquellos con cualquier enfermedad vascular (cerebro-, cardio-, enfermedad vascular periférica). La intervención podría ser un rango relativamente estrecho de dosis de aspirina, todas las dosis de aspirina, o todos los antiagregantes plaquetarios.

Como el riesgo relativo asociado a una intervención versus un comparador específico generalmente es similar a lo largo de una amplia variedad de riesgos basales, resulta apropiado que las revisiones sistemáticas generen un único estimativo agrupado (p.ej. Meta-análisis) de efectos relativos a lo largo de un amplio rango de subgrupos de pacientes. Las recomendaciones, sin embargo, pueden diferir a lo largo de los subgrupos de pacientes con riesgos basales diferentes para un desenlace, a pesar de haber un único riesgo relativo que aplique a todos ellos. Por ejemplo, en el caso de la terapia con warfarina, el riesgo incrementado de sangrado es mucho mayor en los pacientes con fibrilación auricular con riesgo mínimo de trombosis cerebral versus los pacientes con fibrilación auricular con riesgo sustancial de trombosis cerebral. Por lo tanto, el panel de la guía debe definir preguntas separadas (y producir resúmenes de evidencia separados) para los pacientes con riesgo bajo y con riesgo alto, y para los pacientes en quienes la calidad de la evidencia difiera.

  1. Manejo de múltiples comparadores

Otro reto importante aparece cuando hay varios comparadores para una intervención. La claridad al momento de definir los comparadores hace que una guía sea interpretable, mientras que la falta de claridad puede causar confusión. Algunas veces el comparador resulta obvio, pero en los casos en que no, el panel de la guía debe especificar de forma explícita el comparador. En particular, cuando múltiples agentes están involucrados deben especificar si las recomendaciones sugieren que todos los agentes son igualmente recomendados o que algunos se recomiendan por encima de los otros (ver ejemplo 2.2).

Ejemplo 2.2. Claridad con múltiples comparadores

Al momento de formular recomendaciones para el uso de antiagregantes plaquetarios en pacientes con síndrome coronario agudo sin elevación del segmento ST que recibe manejo conservador (no invasivo), se deben considerar como posibles agentes como fondaparinux, heparina y enoxaparina. Es más, el estimativo del efecto para cada uno de los agentes puede provenir de niveles de evidencia variable (por ejemplo, alta calidad de evidencia para heparina y baja calidad de evidencia para fondaparinux). Además, se debe dejar claro si las recomendaciones formuladas por el panel serán a favor del uso de estos agentes versus no usar ningún anticoagulante, o si van a recomendar a favor de uno de ellos por sobre otros o un gradiente de preferencia.

  1. Otras consideraciones

GRADE ha empezado a abordar la pregunta de cómo determinar la confianza en el estimativo para pronóstico. Esto usualmente resulta importante para el desarrollo de guías. Por ejemplo, al tratar con intervenciones que influyen en el desenlace de la influenza o la esclerosis múltiple, se requiere establecer la historia natural de las enfermedades. Esto implicaría especificar la población (influenza o esclerosis múltiple de Novo) y el desenlace (mortalidad o tasa de recaída o progresión). Tales preguntas de pronóstico se pueden refinar para incluir múltiples predictores como la edad, el género o la severidad. La respuesta a estas preguntas será una importante base para formular las recomendaciones e interpretar la evidencia sobre los efectos de los tratamientos. En particular, los desarrolladores de las guías deben decidir si el pronóstico de los pacientes en la comunidad es similar al pronóstico de los pacientes incluidos en los ensayos, y si existen subgrupos con pronósticos diferentes que se deban considerar al momento de formular las recomendaciones. Los juicios acerca de si la evidencia refleja de forma directa el riesgo basal afecta la calificación de la evidencia (ver Evidencia Indirecta).

  1. Formato de preguntas de cuidado de salud con la aproximación GRADE

Definir una pregunta de salud incluye especificar todos los desenlaces de interés. Aquellos que formulan recomendaciones acerca del uso o no de cierta intervención (terapéutica o diagnóstica) tienen que considerar todos los desenlaces relevantes de forma simultánea. La Herramienta para Desarrollo de Guías, conocida como “GDT” por su sigla en inglés (GuidelineDevelopmentTool), permite seleccionar dos formatos para las preguntas de manejo:

Como también un formato para preguntas de diagnóstico:

Ejemplo2.3. Preguntas de intervención

¿Se debe usar cepillo de dientes manual versus cepillo de dientes eléctrico para salud dental?

¿Se debe usar esteroides nasales tópicos en niños con rinitis alérgica persistente?

¿Se debe usar Oseltamivir versus ningún antiviral para tratar la influenza?

¿Se debe usar la Troponina I seguida de estrategias adecuadas de manejo versus TroponinaT seguida de estrategias apropiadas en el manejo de infarto agudo de miocardio?


CAPÍTULO 3. Selección y calificación de la importancia de los desenlaces

Considerando que las recomendaciones no se pueden formular con base en la información acerca de un único desenlace, y que el proceso de decisión involucra siempre un balance entre riesgos y beneficios, los autores de las revisiones sistemáticas harán más útiles sus revisiones al buscar o evaluar un rango amplio de desenlaces que permitan la toma de decisiones en salud. Muchas, o incluso la mayoría de las revisiones sistemáticas fallan en abordar desenlaces claves, especialmente los riesgos asociados a una intervención.[1]

Por el contrario, para formular recomendaciones sensibles los panelistas de una guía deben considerar todos los desenlaces que son importantes o críticos para los pacientes al momento de la toma de decisiones. Adicionalmente deben poner en consideración desenlaces que resulten importantes para otros, incluyendo los recursos pagados por terceros, las consideraciones de equidad, el impacto sobre los cuidadores y el impacto en salud púbica (p.ej. Diseminación de infecciones o la resistencia antibiótica).

La decisión acerca de los desenlaces debe ser tomada por los desarrolladores de las guías, basándose en cuál desenlace es importante y no en cuáles desenlaces son medidos, y para cuales se encuentra disponible la evidencia. Si no hay evidencia disponible para un desenlace importante, esto se debe reconocer y no ignorar dicho desenlace. Como la mayoría de revisiones sistemáticas no resumen la evidencia para todos los desenlaces importantes, los paneles de las guías deben utilizar múltiples revisiones sistemáticas de diferentes fuentes o, deben llevar a cabo sus propias revisiones, o por el contrario actualizar las existentes.

  1. Pasos para considerar la importancia relativa de los desenlaces

Los desarrolladores de las guías deben, y se alienta a los autores de revisiones a, especificar todos los desenlaces potencialmente importantes para los pacientes como el primer paso en sus esfuerzos. Los desarrolladores de las guías también harán una clasificación preliminar de la importancia de estos desenlaces. GRADE establece tres categorías para los desenlaces de acuerdo a su importancia para la toma de decisiones:

Los desenlaces críticos e importantes serán los que soporten las recomendaciones en las guías, por el contrario, los terceros en la mayoría de situaciones no lo serán. Clasificar los desenlaces de acuerdo a su importancia relativa contribuye a concentrar la atención en aquellos desenlaces que se consideran más importantes, y a resolver o clarificar las divergencias que existan. La tabla 3.1 brinda un resumen de los pasos para considerar la importancia relativa de los desenlaces.

Tabla 3.1. Pasos para considerar la importancia relativa de los desenlaces

Paso

Qué

Por qué

Cómo

Evidencia

PASO 1

Clasificación preliminar de los desenlaces como críticos, importantes, pero no críticos o de baja importancia, antes de revisar la evidencia.

Con el fin de concentrar la atención en aquellos desenlaces que son considerados como los más importantes al momento de buscar y resumir la evidencia y para resolver y aclarar las discrepancias.

Realizando una revisión sistemática de la literatura relevante.

Preguntando a los miembros del panel y los posibles pacientes o miembros del público para identificar los desenlaces importantes, juzgando la importancia relativa de los desenlaces y discutiendo las diferencias.

Estos juicios idealmente se sustentan mediante una revisión sistemática de la literatura, concentrándose en lo que la población blanco considera desenlaces críticos o importantes para la toma de decisiones.

La literatura acerca de los valores, preferencias o utilidades se utiliza usualmente en estas revisiones, que por naturaleza deben ser sistemáticas. *

PASO 2

Reevaluación de la importancia relativa de los desenlaces después de revisar la evidencia.

Para asegurar que los desenlaces importantes identificados durante la revisión de la evidencia, que inicialmente no se consideraron, sean incluidos. Y para reconsiderar la importancia relativa de los desenlaces importantes a la luz de la evidencia disponible.

Solicitando a miembros del panel (y si resulta relevante a los pacientes y miembros del público) que consideren la importancia relativa de los desenlaces incluidos en el primer paso y todos los desenlaces adicionales derivados de la revisión de la evidencia

Experiencia de los miembros del panel y otros informantes y revisiones sistemáticas acerca del efecto de la intervención.

PASO 3

Juzgando el balance entre desenlaces de salud deseables y no deseables de una intervención

Para contribuir a la formulación de las recomendaciones y determinar la fuerza de la recomendación

Invitando a los miembros del panel a realizar el balance entre los desenlaces deseables e indeseables, utilizando un marco de transición entre evidencia y recomendación, que incluye tablas de resumen de hallazgos o perfiles de evidencia, y si es relevante, basados en un análisis de decisión.

Experiencia de los miembros del panel y otros informantes, revisiones sistemáticas de los efectos de una intervención, evidencia del valor atribuido por la población blanco a los desenlaces clave (de ser relevante y estar disponible) y análisis de decisión y evaluaciones económicas (de ser relevantes y estar disponibles)

*Alternativamente la experiencia colectiva de los miembros del panel, los pacientes y el público puede ser usada empleando métodos transparentes para documentarla y tenerla en consideración. (Santesso 2012).

Los desarrolladores de las guías deben primero considerar si los beneficios particulares en salud y los riesgos de la terapia son importantes para tomar decisiones acerca de la estrategia óptima de manejo, o si son de importancia limitada. Si el panel cree que un desenlace en particular es importante, entonces se debe considerar si el desenlace es crítico o solamente importante, mas no crítico. Para facilitar la calificación de los desenlaces de acuerdo a su importancia, los desarrolladores de las guías deben asignar un puntaje numérico en escala del 1 al 9 (7 a 9: crítico; 4 a 6: importante; 1 a 3 de importancia limitada) para distinguir entre las categorías de importancia.

En la práctica, para generar una lista de desenlaces relevantes, se pueden utilizar los siguientes tipos de escalas.

1

2

3

4

5

6

7

8

9

Menos importante

Más importante

De importancia limitada para la toma de decisiones

(no incluidos en el perfil de evidencia)

Importante, mas no crítico para la toma de decisiones

(incluidos en el perfil de evidencia)

Críticos para la toma de decisiones

(incluidos en el perfil de evidencia)

El primer paso para la calificación de la importancia de los desenlaces debe ocurrir durante el protocolo de la revisión sistemática o, cuando el panel de la guía apruebe las preguntas que deben ser evaluadas en la guía. Por tanto, se debe realizar antes que se complete el protocolo. Cuando la evidencia se encuentre disponible, se debe reevaluar la importancia, para asegurar que desenlaces importantes, identificados durante la revisión de la evidencia que no fueron incluidos previamente, sean incluidos, y que a la luz de la evidencia se reconsidere la importancia relativa de los desenlaces establecidos previamente. Es posible que no exista asociación entre el desenlace y la intervención de interés, lo cual soporta no considerar más ese desenlace.

El panel de la guía debe considerar la posibilidad que en algunas circunstancias la importancia de un desenlace (p.ej. Un efecto adverso serio) podrá hacerse evidente únicamente después de que se escriba el protocolo, o que se revise la evidencia, o que se lleve a cabo el análisis y por tanto se deben tomar acciones apropiadas para incluirlo en las tablas de evidencia.


Ejemplo 3.1. Jerarquía de los desenlaces de acuerdo a la importancia al momento de evaluar el efecto del oseltamivir en pacientes con influenza H5N1.

La mortalidad en los pacientes afectados por H5N1 puede ser tan alta como del 50%. Los pacientes generalmente se encuentran con compromiso respiratorio severo y requieren soporte ventilatorio. Se sospecha que las complicaciones de un medicamento potencialmente útil, el oseltamivir, son de naturaleza neurológica temporal y otros efectos adversos como las náuseas ocurren durante el tratamiento.

MORTALIDAD                                             9

ADMISION HOSPITALARIA                    8

NEUMONÍA                                                    7

COMPLICACIONES NEUROLÓGICAS    6

                                                                            5

4

                                                                            3

NAUSEA                                                           2

                                                                            1


Ejemplo 3.2. Jerarquía de los desenlaces de acuerdo a su importancia al evaluar el efecto de los medicamentos que disminuyen los fosfatos en pacientes con falla renal e hiperfosfatemia

   MORTALIDAD   9

Ca2+/P-productCalcificación coronariaINFARTO               8

Ca2+/P-productDensidad ósea  FRACTURAS          7

Ca2+/P-productCalcificación tisularDOLOR                   6

    5

                                                                             4

                                                                              3

                                                           FLATULENCIA      2

                                                                               1

Ejemplo 3.3. Reevaluación de la importancia relativa de los desenlaces

Consideremos, por ejemplo, una intervención de tamizaje (cribado), como es el tamizaje de aneurisma de aorta abdominal. Inicialmente, es probable que el panel de la guía considere como desenlace crítico el impacto de la intervención en la mortalidad por cualquier causa. Digamos, sin embargo, que el resumen de la evidencia establece una reducción importante de la mortalidad por causas específicas de aneurisma de aorta abdominal, pero no logra establecer de forma definitiva una reducción en la mortalidad por cualquier causa.  La reducción de la mortalidad por causas específicas se puede juzgar lo suficientemente convincente que aún en ausencia de reducción del riesgo de mortalidad por cualquier causa, (que puede ser indetectable por el error aleatorio derivado de otras causas de muerte), el tamizaje claramente vale la pena. La mortalidad por cualquier causa, entonces, se convierte en menos relevante y deja de ser un desenlace crítico.

La importancia relativa de los desenlaces debe considerarse cuando se determina la calidad global de la evidencia, que puede depender de cuales desenlaces se calificaron como críticos o importantes (ver Calidad), y juzgando el balance entre los beneficios y los riesgos de una intervención al momento de formular las recomendaciones (ver el Capítulo De la evidencia a las recomendaciones).

Solo los desenlaces considerados críticos (calificados de 7 a 9) son los principales factores que influyen en la recomendación, y se utilizaran para determinar la calidad global de la evidencia que soporta la recomendación.

  1. Influencia de la perspectiva

Es probable que la importancia de los desenlaces varíe dentro o a través de las culturas o cuando es visto desde la perspectiva de la población blanco (p.ej. Pacientes o el público), clínicos o generadores de políticas públicas. La diversidad cultural por lo general influye en la importancia relativa de los desenlaces, particularmente cuando se desarrollan recomendaciones para una audiencia internacional.

Los paneles de las guías deben decidir cuál perspectiva van a tener en cuenta. A pesar que los diferentes paneles pueden elegir tomar diferentes perspectivas (p.ej. Aquella perspectiva de pacientes individuales o de un sistema de salud), la importancia relativa otorgada a los desenlaces en salud debe reflejar la perspectiva de los afectados. Cuando la audiencia blanco de una guía son los clínicos y los pacientes que ellos tratan, la perspectiva por lo general sería la del paciente. (Ver Capítulo De la evidencia a las recomendaciones que aborda el aspecto de la perspectiva desde el punto de vista del uso de los recursos)

  1. Uso de la evidencia en la calificación de la importancia de los desenlaces

Los desarrolladores de las guías idealmente deben revisar la evidencia o conducir una revisión sistemática de la evidencia, en relación con los valores y preferencias de los pacientes acerca de la intervención bajo evaluación en la pregunta, con el fin de informar la calificación de la importancia de los desenlaces. Revisar la evidencia proporciona al panel una noción acerca de la variabilidad de los valores de los pacientes, la experiencia de los mismos con respecto a los efectos adversos y el peso atribuible a los desenlaces deseables versus indeseables.

En ausencia de dicha evidencia los miembros del panel deben usar su experiencia previa con la población blanco asumiendo los valores y preferencias relevantes.

  1. Desenlaces alternativos (sustitutos)

No es infrecuente que los desenlaces más importantes para los pacientes pasen desapercibidos o no sean evaluados. Cuando los desenlaces importantes son relativamente infrecuentes, u ocurren en periodos de tiempo prolongados, los investigadores por lo general eligen medir desenlaces alternativos, sustitutos o subrogados de esos desenlaces.

Los desarrolladores de las guías deben considerar los desenlaces subrogados únicamente cuando la evidencia de los desenlaces importantes para la población no existe. Cuando este es el caso, deben especificar los desenlaces importantes y, si es necesario los subrogados utilizados para sustituir dichos desenlaces importantes. Los desarrolladores de las guías no deben enumerar los desenlaces alternativos (subrogados) por sí mismos como medidas de los desenlaces. La necesidad de sustituir un subrogado generaría en últimas la disminución de la calidad de la evidencia debido a evidencia indirecta (ver el capítulo Calidad de la evidencia).

Los desenlaces seleccionados por el panel deben ser incluidos en un perfil de evidencia, a pesar de que exista o no evidencia disponible acerca de ellos (ver el capítulo Resumen de la evidencia), es decir, una línea vacía en un perfil de evidencia puede ser informativa ya que identifica vacíos de investigación.


CAPÍTULO 4. Resumen de la evidencia

El panel de una guía debe basar sus recomendaciones en el mejor cuerpo de evidencia disponible relacionado con la pregunta de investigación. El panel de la guía puede usar revisiones sistemáticas existentes de buena calidad o conducir sus propias revisiones sistemáticas, dependiendo de circunstancias específicas como la disponibilidad de revisiones sistemáticas de buena calidad y los recursos, pero GRADE recomienda que las revisiones sistemáticas deben ser la base para realizar recomendaciones en salud. Se debe buscar evidencia relacionada para todos los desenlaces importantes para los pacientes y para los valores otorgados por los pacientes a dichos desenlaces, al igual que las opciones de manejo.

El punto final de las revisiones sistemáticas y de las evaluaciones de tecnología (ETS) limitadas a reportes de evidencia, es el resumen de la evidencia, la calificación de la calidad para cada desenlace y el efecto estimado. Para los desarrolladores de las guías y ETS que proporcionan información a los generadores de políticas, un resumen de evidencia representa el pilar en la vía hacia una recomendación. La evidencia recolectada de una revisión sistemática es utilizada para producir Perfiles de evidencia GRADE y Tablas de resumen de hallazgos.

  1. Tablas de evidencia

Una tabla de evidencia es una herramienta clave en la presentación de la evidencia y los resultados correspondientes. Las tablas de evidencia son un método de presentar la calidad de la evidencia disponible, los juicios que sustentan la calificación de la calidad y los efectos de las alternativas de manejo en los desenlaces de interés.

Los clínicos, pacientes, el público, los desarrolladores de guías y los generadores de políticas, requieren resúmenes de evidencia concisos y transparentes para apoyar la toma de decisiones. Si bien una pregunta de investigación que no sea ambigua es clave para los resúmenes de evidencia, los requisitos para los usuarios específicos pueden diferir en cuanto a contenido y detalle. Por tanto, el formato de cada tabla puede ser diferente dependiendo de las necesidades de los usuarios.

Existen dos formatos (con repetición) disponibles, que sirven para distintos propósitos y dirigidos a diferentes audiencias:

La herramienta desarrolladora de guías (GDT) facilita la elaboración de los perfiles de evidencia y las tablas de resumen de hallazgos. Después de completar el diligenciamiento de las tablas, dicha información se guarda y puede ser actualizada. Existen distintos formatos disponibles para cada aproximación, elegidos de acuerdo a la preferencia de la audiencia

Los desenlaces considerados importantes (4-6) o críticos (7-9) para la toma de decisiones deben ser incluidos en el perfil de evidencia y la tabla SoFt.

  1. Perfil de evidencia GRADE

Los perfiles de evidencia GRADE contienen información detallada acerca de la evaluación de la calidad de la evidencia y el resumen de hallazgos para cada desenlace individual incluido. Están destinados a autores de revisiones, a aquellos que preparan tablas SoFt y cualquier persona que solicite una evaluación de la calidad. Le ayuda a quienes elaboran tablas SoFt asegurar que los juicios que hagan son sistemáticos y transparentes y permite a los demás inspeccionar estos juicios. El panel de la guía debe usar los perfiles de evidencia para asegurar que están de acuerdo con los juicios que se basa la evaluación de la calidad.

Un perfil de evidencia GRADE permite presentar información clave acerca de todos los desenlaces relevantes para una pregunta de investigación. Este perfil presenta información acerca del cuerpo de la evidencia (p.ej. Número de estudios), los juicios acerca de la calidad de la evidencia, los resultados estadísticos claves y la calificación de la evidencia para cada desenlace.

Un perfil de evidencia GRADE es particularmente útil para presentar la evidencia que soporta una recomendación en las guías de práctica clínica, pero también como un resumen de la evidencia para otros propósitos como cuando los usuarios necesitan o quieren entender los juicios acerca de la calidad de la evidencia con mayor detalle. [2]

El formato estándar para el perfil de la evidencia incluye:

Ejemplo 4.1. Perfil de evidencia GRADE (versión original)

Ejemplo 4.2. Perfil de evidencia GRADE (nueva versión)

  1. Tareas para crear un perfil de evidencia GRADE en GRADEpro-GDT

Para crear un perfil GRADE usted puede ver los tutoriales en:cebgrade.mcmaster.ca

Cree un proyecto en Gradepro (corresponde a una revisión sistemática única o guía)

Agregue una nueva pregunta/comparación (corresponde a las preguntas/comparaciones en la revisión o la guía) bien sea manual o importando un archivo de Revman

Agregue o edite información acerca de la pregunta/comparación

Cree un desenlace

Agregue o edite la información acerca del desenlace

Proporcione la duración de seguimiento en los estudios que reportaron cada desenlace. Esto es importante, ya que la interpretación de los efectos observados depende del tiempo en el cual los eventos ocurrieron. Usted tendrá que hacer juicios a lo largo de los estudios, porque es probable que la duración del seguimiento sea la misma en todos los estudios. Usted debe proporcionar la información del seguimiento para cada uno de los desenlaces separados, ya que estos se han medido en diferentes periodos.

Nota: la duración de la intervención (se debe describir como parte de la intervención, p.ej. “glucosamina por 8 semanas”) puede diferir de la duración del seguimiento (p.ej. seguimiento de la calidad de vida relacionada con salud o función después de 1 año).

Ciertos desenlaces pueden haber sido evaluados/medidos con diferentes instrumentos o usando diferentes definiciones (p.ej. uno puede utilizar ecocardiografía tras-esofágica, tomografía computarizada, resonancia magnética, o angiografía intervencionista para evaluar el tamaño de un aneurisma de aorta torácica). Puede proporcionar esta información si cree que es importante para el lector que conozca el método en el cual se evaluó.

Hay dos tipos de desenlaces: dicótomos o continuos, que requieren diferentes presentaciones de los hallazgos, porque la estadística difiere. Cuando no hay resultados numéricos o los resultados no se pueden combinar a lo largo de los estudios y requieren de descripción narrativa se puede elegir un tipo narrativo de desenlace.

Nota: el término “continuo” en estadística convencional se refiere a los datos que puede tomar cualquier valor en un rango específico. Para presentar en un perfil de evidencia los desenlaces continuos pueden ser:

La estadística de resumen y la presentación de los resultados para ambos tipos de desenlaces continuos son generalmente los mismos.

El tipo de desenlace determinará cuales datos se deberán ingresar en GRADEpro. Cuando los datos se importan desde RevMan, el tipo de desenlace se determinará de forma automática.

Estado del análisis para un desenlace determina que tanto una medida de efecto se presenta en el perfil de evidencia:

Pase a realizar la evaluación completa de la calidad de la evidencia

  1. Evaluación de la evidencia, resumen de hallazgos y calificación de la importancia del desenlace (para cada desenlace).

La evaluación completa de la calidad confirmando primero el número y el tipo de estudios, después evaluar la calidad de la evidencia para el desenlace. Baje o suba la calidad de acuerdo a los criterios GRADE y agregue las explicaciones/notas al pie cuando sean necesarias. (Ver Capítulo 5)

  1. Diseño del estudio.

El diseño del estudio determina la calidad de la evidencia (ver el capítulo 5) y en algunos casos también determina la presentación de los datos en el perfil de evidencia. Elegir el diseño básico del estudio es un prerrequisito para calificar la calidad de la evidencia para cualquier desenlace.

Los perfiles de evidencia GRADE requieren una presentación específica de los resultados cuando los desenlaces se derivan de estudios de casos y controles o de estudios observacionales con otro diseño.

Ejemplo 4.3. Estudios de casos y controles

Ejemplo 4.4. Estudios combinados de casos, controles y cohortes

  1. Calidad de la evidencia.

Se debe considerar cuidadosamente y calificar todos los factores que pueden influenciar la calidad de la evidencia. Mientras lo hace, tenga en cuenta que subir o bajar por un factor de calidad específico se debe hacer en el contexto de todos los factores que influencia la calidad de la evidencia: tener que bajar por un criterio de calidad puede influir en el siguiente criterio de calidad. Por tanto, eso puede influir en el umbral para bajar por otro criterio. Aunque es aceptable evitar los juicios que pueden ser muy severos, las decisiones se deben hacer de forma transparente. Por ejemplo, situaciones limítrofes en las cuales podría ser razonable bajar por limitaciones en el estudio, o no hacerlo, pueden existir. Esto ilustra que el mérito de GRADE no es necesariamente asegurar la consistencia en las conclusiones (aunque esto se ha comprobado), sino que requiere de juicios explícitos y transparentes. En cualquier caso, debe explicar su decisión en una nota al pie. (Ver el capítulo 5 para más detalles).

  1. Resumen de hallazgos

El resumen completo de los hallazgos, agregando los datos acerca del efecto de las intervenciones en este desenlace (dicótomo, continuo o narrativo).

Presentación de un desenlace dicotómico

La medida absoluta de un efecto en un perfil de evidencia GRADE se estima basado en la suposición de un efecto relativo consistente. Este concepto se explica más ampliamente en el   capítulo 9.4.4.4 ¿Qué medidas para desenlaces dicótomos? Del Manual de la Colaboración Cochrane para Revisiones sistemáticas (Higgins 2011). Es entonces importante considerar las implicaciones de este efecto para poblaciones con diferentes riesgos basales (p.ej. riesgo asumido) un riesgo ilustrativo de un desenlace con una intervención control.

Opciones para expresar las medidas relativas de un efecto

Las medidas relativas de efecto incluyen el RR (riesgo relativo o razón del riesgo), razón de probabilidades (OR), densidad de incidencia, y cociente de riesgo. OR tiene propiedades estadísticas ventajosas pero los RR son más entendible intuitivamente y más fáciles de usar para estimar medidas de efecto absolutas en pacientes individuales. Por tanto, el RR es preferible al OR para la presentación del efecto relativo. GRADE sugiere convertir OR a RR utilizando el riesgo basal asumido.

Nota: GRADEpro puede convertir un OR o HR (que previamente se ingresó o importó a GRADEpro en RR. Después de entrar los valores de OR o HR, cambiando la etiqueta de estadística de resumen en el menú a RR, producirá una ventaja emergente que pregunta si usted quiere convertir OR/HR a RR o simplemente cambiar el nombre de la etiqueta. Esta conversión se basa en el riesgo asumido proporcionado del grupo control.

  1. Riesgo asumido (Riesgo basal)

El riesgo asumido es el puntaje de los participantes que recibieron la intervención control (en el contexto de revisiones sistemáticas o un único estudio) o para quienes las recomendaciones estén dirigidas (en el contexto de guías).

El riesgo asumido puede ser tanto el valor final o un puntaje de cambio en el grupo control. La elección del puntaje de control para presentar en un perfil de evidencia dependerá de si el cambio o el valor final se utilizaron en el metanálisis y seleccionado para la presentación.

Uno puede estimar el riesgo asumido evaluando los puntajes típicos en diferentes grupos de pacientes o en diferentes tiempos de seguimiento. Idealmente, estos grupos reflejarían pacientes que los clínicos pueden identificar fácilmente con base en sus características de presentación. Uno puede derivar los puntajes en los controles bien sea directamente de una revisión sistemática de la cual el estimativo del efecto de la intervención se obtiene o que uno puede extraerse de estudios observacionales de pacientes similares a aquellos para los cuales se dirige la intervención.

Uno debe siempre proporcionar una nota al pie aclarando la fuente del puntaje asumido que se utilizó cuando se importa desde RevMan, los puntajes asumidos no se importarán de forma automática a GRADEpro GDT.

Se puede proporcionar hasta tres valores típicos de riesgos basales

En el ejemplo anterior se proporcionaron tres riesgos asumidos del grupo control: cada uno correspondiente a un grupo de riesgo bien definido basados en la escala CHADS. Los efectos absolutos correspondientes se calcularán para cada riesgo asumido del grupo control basado en el efecto relativo, que se presume que sea constante a lo largo de un rango de riesgos basales.

  1. Riesgo asumido cuando un efecto se analizó y expresó como una diferencia de medias (DM)

Uno puede proporcionar una media, mediana o un rango de los valores finales o cambios de puntuación en los grupos control.

Media – el riesgo de nivel medio se puede basar en un promedio ponderado de los puntajes en los grupos control a lo largo de los estudios en una revisión sistemática o en los datos de estudios observacionales representativos.

Mediana – el riesgo de nivel medio se puede basar en la mediana de los puntajes en los grupos control a lo largo de los estudios en una revisión sistemática o en los datos de estudios observacionales representativos.

Rango – puede ser el puntaje estimado más alto y el más bajo en el grupo control, sin embargo, si hay “valores atípicos”, entonces otro abordaje para obtener los valores estimados más altos y más bajos puede ser utilizar el segundo puntaje del grupo control más bajo y el segundo más alto de los estudios.

Nota: uno debe siempre proporcionar las unidades de la escala en la cual se midieron los valores (p.ej. kg, puntos, días, etc.).

  1. Riesgo asumido (puntaje) cuando un efecto se analizó y expresó como una diferencia estandarizada de medias (DEM)

Existen 3 métodos alternativos para presentar una DEM (ver arriba: re-expresión de la DEM) y por tanto 3 presentaciones diferentes de los valores finales o cambios de puntaje en los grupos control.

Nota: todos estos métodos alternativos para re-expresar una DEM tienen limitaciones ya que requieren supuestos estadísticos que no se aplican a todas las circunstancias. Sin embargo, estas aproximaciones facilitan la interpretación de los resultados presentados.

  1. Riesgo asumido cuando un efecto se analizó y expresó como una razón de medias

En este caso no se debe proporcionar valores para un riesgo asumido.

Elección del riesgo asumido para presentar en un perfil de evidencia GRADE

El riesgo asumido de un desenlace entre aquellos que recibirían una intervención control se puede derivar de estudios en poblaciones con diferentes riesgos basales de un desenlace, y con diferentes periodos de seguimiento. Idealmente, los riesgos reflejarían los grupos que los clínicos pueden identificar fácilmente con base en sus formas de presentación. Esto permite la facilidad en la aplicación de la información presentada en un perfil de evidencia en la toma de decisiones. Usted puede presentar hasta 3 riesgos basales asumidos por desenlace.

GRADE proporciona las siguientes sugerencias para la elección del riesgo basal:

Cualquiera que sea el riesgo asumido que elija presentar, es importante proporcional la explicación de porqué un estimativo particular se eligió e indicar cuál es la fuente.

  1. Efecto absoluto

  1. Elección del denominador para presentar los efectos absolutos

Usted puede presentar el efecto absoluto de una intervención como un número de sujetos por 100, por 1000, 100.000 o por 1´000.000. Se sugiere que, por defecto, el riesgo se presente por 1000 personas. Denominadores más grandes (p.ej. 100.000) pueden resultar útiles si los eventos son raros, y un denominador más pequeño (p.ej. por 100) – si los eventos son más frecuentes.

  1. Cálculo del efecto absoluto en el perfil de evidencia GRADE

Diferencia del riesgo (DR o reducción absoluta del riesgo – ARR) por 1000 personas se presenta en el perfil de evidencia GRADE como una medida anticipada de efecto absoluto de una intervención comparada con el control.

DR = riesgo con control – riesgo con la intervención

GRADEpro calcula automáticamente la DR basado en el riesgo basal asumido y el estimativo del efecto relativo:

DR a partir de riesgo relativo

RD (por 1000 personas) = (riesgo asumido con control x (1-RR)) x 1000

Ejemplo 4.5.

RR de un metanálisis es 0,83 (IC 95% 0,78 a 0,89)

Riesgo asumido con el control es 40% (400 por 1000 o 0,4)

Por tanto: RD = 1000 x (0,4 x (1-0,83)) = 68 menos por 1000

DR a partir de OR

GRADE sugiere convertir el OR a RR para presentarlo en las tablas de evidencia porque es más comprensible. Sin embargo, si usted decide presentar el OR en un perfil de evidencia, entonces se estimará la DR convirtiendo OR a RR y luego calculando RD a partir de RR como se describió previamente.

En GRADEpro, la fórmula para convertir el OR a RR utiliza la tasa de eventos control como se presenta en la columna Número de pacientes en intervención control en el perfil de evidencia GRADE.

RR = OR/ (1- riesgo asumido con el control x (1 – OR))

Ejemplo 4.6.

OR de un metanálisis es 0,64 (IC 95%: 0,47 a 0,89)

Riesgo asumido con control = 25,6% o 0,256

Por tanto

RR = 0,64 / (1-0,256 x (1-0,64)) = 0,70

RD = 1000 x 0,256 x (1 – 0,70) = 77 menos por 1000

DR a partir de HR

 En GRADEpro un HR se convierte primero a RR y después se calcula la RD como enunciado anteriormente a partir del RR.

RR = 1 – eHR x ln (1 – riesgo asumido con el control) / riesgo asumido con el control

  1. Presentación de un desenlace continuo

Cambio en los puntajes y valores finales

A diferencia de los desenlaces dicótomos que se miden solo una vez al final del estudio, las variables continuas se pueden medir al inicio (basal – antes de que inicie la observación o que se administren las intervenciones) y al final del estudio. Es importante considerar cuales diferencias en los valores usted va a presentar en el perfil de evidencia GRADE. Usted puede presentar la diferencia entre los grupos en:

Al momento de nombrar un desenlace hay que indicar si es un valor final o un cambio en el puntaje. Por ejemplo: intensidad del dolor vs cambio en la intensidad del dolor, calidad de vida vs cambio con respecto a la calidad de vida basal, etc.

Es muy importante resaltar que al momento de agrupar los datos de estudios utilizando la DEM no se deben combinar cambios en los puntajes con puntajes finales, sino por el contrario agruparlos de forma separada (Manual Cochrane, Sección 9.4.5.2) (Higgins 2011). Usted puede decidir presentar el análisis que proporciona mejor calidad de evidencia (ver el capítulo 5) o presentar los resultados de ambos análisis.

Estimativo del efecto

El estimativo del efecto se puede presentar en una variedad de formas. Hay 5 opciones:

Cuando se utiliza la DM, DEM, media o mediana

Ingrese el estimativo puntual y el intervalo de confianza. Uno puede agregar una nota al pie para proporcionar más información acerca del efecto y al intervalo de confianza según sea necesario.

Nota: cuando se importa la información de RevMan 5 el estimativo puntual y el intervalo de confianza se importarán automáticamente.

Cuando se re-expresa la DEM

Uno tiene que ingresar o editar los datos dependiendo de cómo se re-exprese la DEM (ver abajo)

Cuando se utiliza la razón de medias

La razón de medias representa el promedio ponderado de los puntajes promedio en el grupo de intervención dividido por el promedio ponderado de los puntajes promedio en los grupos control. Solo se proporciona el efecto relativo y los valores finales o el cambio en los puntajes en el grupo control o en el grupo de intervención no se proporcionan. Usted debe elegir otro… del menú e ingresar la información acerca de la razón de medias directamente en la columna de comentarios.

Re-expresión de la DEM

Cuando los estudios han usado diferentes instrumentos para medir el mismo constructo, una diferencia estandarizada de medias (DEM) puede utilizarse en un me análisis para combinar los datos continuos. La DEM expresa el efecto de la intervención en unidades de una desviación estándar (DE) en vez de las unidades originales de medición. La diferencia de medias (bien sea el cambio en el puntaje o los valores al final del estudio) es estandarizada puesto que se divide en la desviación estándar. Los promedios estandarizados de los estudios individuales se combinan en un me análisis posterior para calcular la DEM. Consecuentemente, el valor de la DEM depende tanto del tamaño del efecto (la diferencia entre las medias) y la variabilidad entre los participantes (Desviación estándar).

Como la DEM se basa en promedios estandarizados de los estudios incluidos y no en una escala específica, no tiene unidades. Esto hace que la interpretación del efecto sea muy difícil. Hay 3 opciones para re-expresar una DEM con el fin de mejorar su interpretación.

Uso reglas de oro para el tamaño de los efectos

Las reglas de oro existen para interpretar las Demás o el “tamaño de los efectos”. Si usted elige este modo de presentar la DEM debe incluir la regla de oro en una nota al pie. Debe tener en cuenta que algunos metodólogos creen que tales interpretaciones son problemáticas, porque la importancia del paciente de un hallazgo, es contexto-dependiente y no está sujeto a declaraciones genéricas.

Regla de oro de acuerdo a la interpretación de Cohen acerca del tamaño del efecto

Hay variaciones a la interpretación de Cohen. Un ejemplo puede ser:

El siguiente perfil de evidencia GRADE, presenta la DEM del ejemplo descrito anteriormente, en el cual se ha utilizado la interpretación de Cohen del tamaño del efecto:

Transformación a razón de probabilidades

Transformar de DEM a razón de probabilidades (OR) es posible. Debido a las presunciones subyacentes para hacer esta conversión, los resultados son solo una aproximación. Para calcular el OR utilice la fórmula:

Dónde:  es aproximadamente 1,8138

El OR estimado se puede ingresar de forma similar como para los desenlaces dicótomos. Uno debe agregar una nota al pie explicando el cálculo, p.ej. “OR se estimó utilizando una DEM (-0,19; IC 95% -0,50 a 0,11”).

Ejemplo 4.7.

En el diagrama de bosque la DEM fue 0,19 que al multiplicarla por 1,8138 da 0,34.

Si el ln (OR) = 0,34, entonces OR = 1,41. A partir de este ejemplo, se construye el siguiente perfil de evidencia GRADE, para el cual se ha transformado la DEM a OR:

Re- expresión de la DEM utilizando un instrumento conocido

El efecto combinado se puede re-expresar convirtiendo la DEM de nuevo en la escala utilizada en uno de los estudios originales. Para hacer esta transformación de la DEM a una escala conocida

Este número resultante representa la diferencia de medias estimada (DM) y se puede presentar en una tabla de evidencia como la DM para la escala empleada en el estudio representativo seleccionado.

Nota: uno siempre debe interpretar dichos resultados con precaución puesto que la transformación del tamaño del efecto se basa en los resultados de solo 1 estudio.

El siguiente perfil de evidencia GRADE presenta la DEM del ejemplo previo, utilizando la transformación a un instrumento conocido:

Consideraciones especiales para desenlaces continuos, datos ordinales, conteo de eventos y razón de medias

El término continuo en estadística convencional se refiere a los datos que pueden tener cualquier valor en un rango específico (Manual Cochrane, sección 9.2.3) (Higgins 2011). Ejemplos de datos verdaderamente continuos son el peso, concentración de sustancias en sangre, etc. En la práctica, uno puede usar los mismos métodos estadísticos para otros tipos de datos, más comúnmente para datos ordinales provenientes de mediciones con escalas y conteo de grandes números de eventos (Manual Cochrane, sección 9.2.4) (Higgins 2011).

Un conteo de eventos por grupo de pacientes en un periodo específico de tiempo (p.ej. el número de exacerbaciones de la enfermedad por paciente por año o el número de nuevos pólipos por 100 pacientes-año) se puede considerar un caso especial en el cual un desenlace binario se presenta como un desenlace continuo. Sin embargo, si usted elige presentar el conteo como una variable continua, esto puede realizarse únicamente cuando los eventos son muy frecuentes. De lo contario, cuando los eventos son relativamente raros, es más deseable utilizar el riesgo relativo del metanálisis y presentar el efecto relativo como un riesgo relativo (Manual Cochrane, sección 9.4.8) (Higgins 2011).

Las tasas relacionan el conteo con la cantidad de tiempo durante el cual estas pudieron haber sucedido. Por ejemplo, si hubo 20 exacerbaciones de enfermedad pulmonar obstructiva crónica en 100 pacientes durante un periodo de 300 personas-año de seguimiento, entonces la tasa asociada a este resultado será 0,067 por persona-año o 6,7 por 100 personas-año.

Otra forma informativa de presentar desenlaces continuos es la razón de medias (p.ej. la razón de la media de ganancia de peso en un grupo comparado con otro).

  1. Presentación narrativa de un desenlace

Cuando no es posible combinar los resultados de los estudios (p.ej. porque no se reporta la variabilidad de los resultados) o no es deseable por otras razones (Manual Cochrane, Sección 9.1.4), entonces usted puede describir los resultados en formato narrativo.

La Importancia

  1. Tabla de resumen de hallazgos (tabla SoFt)

Las tablas de resumen de los hallazgos brindan un resumen de los hallazgos para cada uno de los desenlaces incluidos y la calificación de la calidad de la evidencia para cada desenlace en un formato rápido y accesible, sin el detalle acerca de los juicios de la calidad de la evidencia. Están destinadas a una audiencia más amplia, incluyendo los usuarios finales de las revisiones sistemáticas y de las guías. Estos proporcionan un breve resumen de la información clave que necesita alguien en la toma de decisiones, y en el contexto de una guía, provee un resumen de la información clave que soporta una recomendación.

El formato de las tablas SoFt elaboradas a través de la herramienta desarrolladora de las guías GRADEpro-GDT se ha perfeccionado durante los últimos años, mediante una amplia consulta, pruebas al usuario y evaluación. Está diseñado para apoyar la óptima presentación de los hallazgos clave en una revisión sistemática. El formato de la tabla SoFt se ha desarrollado con el propósito de asegurar la consistencia y la facilidad de uso a lo largo de las revisiones, de incluir la información más importante y necesaria para la toma de decisiones y la óptima presentación de dicha información. Sin embargo, pueden existir buenas razones para modificar el formato de las tablas en algunas revisiones.

El formato estándar de las tablas SoFt incluye:

Las revisiones sistemáticas que abordan más de una comparación principal (p.ej. Examinar el efecto de un número de intervenciones) van a requerir tablas SoFt por separado para cada comparación. Para cada comparación de estrategias alternativas de manejo, todos los desenlaces se deben presentar juntos en un perfil de evidencia GRADE o tabla SoFt. Es probable que todos los estudios relevantes para la pregunta de investigación no proporcionen evidencia para cada uno de los desenlaces. Incluso, pueda que no se superpongan los estudios que proporcionan evidencia para un desenlace y aquellos que proporcionan evidencia para otro. Teniendo en cuenta que la mayoría de las revisiones sistemáticas no abordan de forma adecuada todos los desenlaces relevantes, el proceso GRADE debe soportarse en una o más revisiones sistemáticas.


Ejemplo 4.8. Tabla de resumen de hallazgos GRADE

Ejemplo 4.9. Tabla de resumen de hallazgos (versión alternativa)

Ejemplo 4.10. Tabla de resumen de hallazgos (versión alternativa)

  1. Tareas para crear una tabla de resumen de hallazgos en GRADEpro GDT

A continuación, se describen los pasos para crear una SoFt basada en la efectividad de las intervenciones, para la descripción de las tablas basadas en precisión diagnóstica remítase al capítulo 7.

Cree un “proyecto” en Gradepro

Cada proyecto corresponde a una revisión sistemática única o a una guía de práctica clínica.

Agregue una nueva pregunta/comparación (corresponde a las preguntas/comparaciones en la revisión o la guía) bien sea manual o importando un archivo de Revman

Agregue o edite información acerca de la pregunta/comparación


CAPÍTULO 5. Calidad de la evidencia

GRADE provee una definición especifica de la calidad de la evidencia que es diferente en el contexto de formular recomendaciones y en el contexto de resumir los hallazgos en una revisión sistemática. Si bien GRADE sugiere diferentes enfoques para la calificación de la evidencia para una revisión sistemática y para una guía, el manual se encarga de resaltar la información que es específica para cada uno de los grupos. Los elaboradores de ETS pueden decidir cuál de los dos abordajes resulta más adecuado de acuerdo con sus objetivos.

  1. Calidad de la evidencia GRADE

Para los paneles de guías

La calidad de la evidencia refleja el grado en que nuestra confianza en el estimativo del efecto es adecuado para soportar una recomendación particular.

El panel de la guía debe emitir juicios acerca de la calidad de la evidencia en relación a un contexto específico para el cual están usando la evidencia.

La aproximación GRADE implica separar la calidad de la evidencia para cada desenlace importante y a continuación determinar la calidad global de la evidencia a lo largo de los desenlaces.

Para los autores de las revisiones sistemáticas

La calidad de la evidencia refleja el grado en el que estamos seguros que el estimativo del efecto es correcto.

Como las revisiones sistemáticas no, o por lo menos no deberían, formular recomendaciones, requieren una definición diferente. Los autores de las revisiones sistemáticas califican la calidad del cuerpo de la evidencia de forma separada para cada uno de los desenlaces importantes para los pacientes.

La calidad de la evidencia se califica para cada desenlace a través de los estudios (p.ej. El cuerpo de la evidencia). Esto no significa calificar cada estudio como una sola unidad. Sino por el contrario, GRADE es “centrado en desenlace”; la calificación se hace para cada desenlace, y la calidad puede, incluso es probable, que difiera de un desenlace al otro a lo largo de un mismo estudio y a lo largo del cuerpo de la evidencia.

Ejemplo 5.1. La calidad de la evidencia puede diferir entre un desenlace y otro a lo largo de un mismo estudio

En una serie de ECAs no enmascarados, en los que se medía tanto la ocurrencia de trombosis cerebral y la mortalidad por todas las causas, es posible que en el caso de la trombosis, que es mucho más susceptible a los juicios sesgados, se baje la calificación por riesgo de sesgo, mientras que para la mortalidad por todas las causas no suceda lo mismo.

De forma similar, una serie de estudios en los que muy pocos pacientes se pierdan en el seguimiento para el desenlace de mortalidad, y sí se pierden muchos más para el desenlace de calidad de vida, es posible que resulte en un juicio de baja calidad para éste último desenlace. Problemas con la evidencia indirecta pueden llevar a disminución en la calidad para un desenlace y no para otro a lo largo de un mismo estudio o estudios, si por ejemplo las tasas de fractura se miden usando un desenlace alternativo (subrogado) (p.ej. Densidad mineral ósea) y por el contrario los efectos adversos se midan de forma directa.

A pesar que la calidad de la evidencia representa un continuo, la aproximación GRADE evalúa la calidad del cuerpo de la evidencia en uno de cuatro grados:

Tabla 5.1. Grados de calidad de la evidencia

Grado

Definición

Alta

Hay una confianza alta en que el verdadero efecto está cercano del estimativo del efecto.

Moderada

Hay una confianza moderada en el estimativo del efecto: el verdadero efecto es probable que este cercano al estimativo del efecto, pero hay una posibilidad que sea sustancialmente diferente.

Baja

La confianza en el estimativo del efecto es limitada: el verdadero efecto puede ser sustancialmente diferente del estimativo del efecto.

Muy baja

Se tiene muy baja confianza en el estimativo del efecto: el verdadero efecto es probable que sea sustancialmente diferente al estimativo del efecto.

La calidad de la evidencia es un continuum; cualquier categorización discreta implica algún grado de arbitrariedad. Sin embargo, las ventajas de la simplicidad, la transparencia y la intensidad superan estas limitaciones.

  1. Factores que determinan la calidad de la evidencia

El abordaje de la calificación de la calidad de la evidencia parte del diseño del estudio (ensayos clínicos o estudios observacionales) y posteriormente evalúa cinco razones que posiblemente pueden disminuir la calidad o tres que la puedan aumentar. Las siguientes secciones del manual abordaran cada uno de los factores en detalle.

Tabla 5.2. Factores que pueden disminuir la calidad de la evidencia

Factor

Consecuencia

Limitaciones en el diseño o ejecución del estudio (riesgo de sesgo)

↓ 1 o 2 niveles

Inconsistencia en los resultados. Resultados inconsistentes

↓ 1 o 2 niveles

Evidencia indirecta/Ausencia de evidencia directa

↓ 1 o 2 niveles

Imprecisión

↓ 1 o 2 niveles

Sesgo de publicación

↓ 1 o 2 niveles

Tabla 5.3. Factores que pueden aumentar la calidad de la evidencia

Factor

Consecuencia

Gran magnitud del efecto -Efecto de gran tamaño

↑ 1 o 2 niveles

Todos los posibles distractores podrían reducir el efecto demostrado o incrementar el efecto, si el efecto no es observado

↑ 1 nivel

Gradiente dosis- respuesta

↑ 1 nivel

Si bien los factores que influyen en la calidad de la evidencia son aditivos, así como la disminución o el incremento de cada factor individual se suma en conjunto al otro factor para reducir o incrementar la calidad de la evidencia para un desenlace, la calificación de la calidad de la evidencia involucra juicios que no son exclusivos. Por tanto, GRADE no es un sistema cuantitativo para calificar la calidad de la evidencia. Cada factor para disminuir o incrementar no refleja categorías discretas sino un continuum entre cada categoría y a lo largo de ellas. Cuando el cuerpo de la evidencia es intermedio con respecto a un factor particular, la decisión acerca de si el estudio cae por debajo o por encima del umbral para disminuir o incrementar la calidad (por uno o más factores) depende de un juicio.

Por ejemplo, si hubiera algún grado de incertidumbre acerca de tres factores: limitaciones del estudio, inconsistencia e imprecisión, pero no lo suficientemente serias para disminuir por cada una de ellas, uno podría razonablemente disminuir o no hacerlo. El autor de una revisión en cada categoría podría darle a los estudios el beneficio de la duda e interpretar la calidad de la evidencia como alta. Otro, por el contrario, podría decidir disminuir la calidad de la evidencia en un nivel, y calificarla como moderada. Los autores deben calificar la calidad de la evidencia teniendo en consideración los factores individuales en el contexto de otros juicios hechos acerca de la calidad de la evidencia para el mismo desenlace.

En tal caso, uno debería elegir una o dos categorías de limitaciones que se podrían ofrecer como argumentos para disminuir la calidad y explicar las razones de la elección en las notas al pie. También se debe poner una nota al pie junto a ese otro factor en el cual se decidió no disminuir la calidad, explicando que, si bien hubo incertidumbre, ya se había disminuido por el otro factor y resultaría inapropiado disminuir aún más. GRADE alienta fuertemente a los autores de las guías y de las revisiones sistemáticas a ser explícitos y transparentes cuando se encuentran en este tipo de situaciones, reconociendo decisiones dudosas.

A pesar de las limitaciones que implica separar un continuo en categorías, el tratar cada criterio para aumentar o disminuir la calidad como categorías discretas, promueve la transparencia. De hecho, el gran mérito de GRADE no es que asegura juicios reproducibles, sino que requiere de juicios explícitos que resultan transparentes a los usuarios.

El diseño del estudio

El diseño del estudio es crítico para los juicios acerca de la calidad de la evidencia.

Para las recomendaciones acerca de las estrategias de manejo, al contrario de establecer pronóstico o la precisión de los exámenes diagnósticos, los ensayos aleatorios por lo general, proveen evidencia mucho más fuerte que aquella de los estudios observacionales, y a su vez los estudios observacionales rigurosos proveen de evidencia más fuerte que las series de caso.

En la aproximación GRADE para la calidad de la evidencia:

Las fortalezas especiales o las limitaciones de los mismos pueden, sin embargo, modificar la calidad de la evidencia tanto de los ensayos aleatorizados como de los estudios observacionales.

Nota:

Los ensayos experimentales no aleatorizados (cuasi- ECA) sin limitaciones importantes también proveen evidencia alta, pero automáticamente se va a reducir por limitaciones en el diseño (riesgo de sesgo), tales como la ausencia de ocultamiento en la asignación y generación de la secuencia aleatoria (p.ej. Número en una tabla).

Las series de casos y los reportes de caso son estudios observacionales que investigan únicamente pacientes expuestos a la intervención. La fuente de resultados del grupo control no es clara o está implícita, y por tanto, usualmente justifican reducir la calidad de baja a muy baja.

La opinión de un experto no es una categoría de calidad de la evidencia. La opinión de un experto representa la interpretación de la evidencia en el contexto de experiencia de expertos y su conocimiento. Los expertos pueden tener opiniones acerca de la evidencia basados en la interpretación de estudios que van desde, series de casos no controlados (p.ej. Observaciones realizadas por el experto en su práctica) hasta ensayos aleatorizados y revisiones sistemáticas conocidas por el experto. Es importante describir que tipo de evidencia (si publicada o no) se está usando como base para la interpretación.

  1. Factores que pueden disminuir la calidad de la evidencia

Las siguientes secciones discutirán en detalle los 5 factores que pueden disminuir la calidad de la evidencia para un desenlace específico y, por tanto, reducir la confianza en el estimativo del efecto.

  1. Limitaciones en el estudio (Riesgo de sesgo)

Las limitaciones en el diseño y ejecución del estudio pueden sesgar los estimativos del efecto del tratamiento. La confianza en el estimativo del efecto y en las recomendaciones disminuye si un estudio tiene limitaciones mayores. Entre más serias sean las limitaciones, más probable es que la calidad de la evidencia se disminuya. Existen numerosas herramientas para evaluar el riesgo de sesgo en los ensayos aleatorizados y los estudios observacionales. Este manual describe criterios clave usados por la aproximación GRADE.

La confianza en el estimativo del efecto disminuye si los estudios tienen limitaciones mayores que resulten en una evaluación sesgada del efecto de la intervención. Para los ensayos aleatorizados, las limitaciones resaltadas en la Tabla 5.4 es probable que terminen en resultados sesgados.

Tabla 5.4. Limitaciones de estudio en los ensayos controlados aleatorizados

Explicación

Ausencia de enmascaramiento/

ocultamiento en la asignación

Los encargados de reclutar pacientes son conscientes del grupo (o del periodo en un ensayo crossover) al cual el siguiente paciente va a ser asignado (lo que resulta un problema mayor en los ensayos “seudo” o “cuasi” aleatorios con asignación por día de la semana, fecha de nacimiento o número en una tabla, etc.)

Ausencia de enmascaramiento

Los pacientes, cuidadores, quienes registran los desenlaces y quienes juzgan los desenlaces o los analistas de datos son conscientes del brazo al cual los pacientes fueron asignados (o el medicamento que está recibiendo en un ensayo crossover)

Recuento incompleto de pacientes y desenlaces

Pérdidas durante el seguimiento y falla en la adherencia al principio de intención a tratar en los ensayos de superioridad; o en ensayos no inferioridad, pérdida en el seguimiento y falla para conducir ambos análisis considerando únicamente quienes se adhieren al tratamiento, así como todos para los que se encuentre disponible los datos de los desenlaces.

La significancia de las tasas particulares de pérdida al seguimiento, varían ampliamente y son dependientes de la relación entre la pérdida del seguimiento y el número de eventos. Entre más alta sea la proporción de las pérdidas durante el seguimiento en relación con la tasa de eventos en los grupos de intervención y control, y las diferencias entre los grupos de intervención y control, mayor será el riesgo de sesgo.

Reporte selectivo de los desenlaces

Reporte incompleto o ausencia de reporte de algunos desenlaces y no de otros con base en sus resultados.

Otras limitaciones

Detener tempranamente el estudio por beneficios obtenidos. Es probable sobreestimar de forma sustancial en los estudios con un número de eventos inferior de 500 y aún más en aquellos estudios con menos de 200 eventos. Evidencia empírica sugiere que las reglas formales de cuando parar no reducen el sesgo.

  • Uso de medidas de desenlaces no validadas (p.ej. Desenlaces reportados por pacientes)
  • Efectos remanentes o de arrastre en los estudios cruzados
  • Sesgo de reclutamiento en los ensayos aleatorios de grupos

Revisiones sistemáticas acerca de las herramientas para evaluar la calidad metodológica de los estudios no aleatorios, han identificado más de 200 listas de chequeo e instrumentos. En la tabla 5.5 se resumen los criterios clave para los estudios observacionales que reflejan el contenido de estas listas de chequeo.

Tabla 5.5. Limitaciones de estudio en los estudios observacionales.

Explicación

Falla para desarrollar y aplicar criterios de elegibilidad apropiados (inclusión de población control)

  • Sobreapareamento o subapareamentoen los estudios de casos y controles
  • Selección de los expuestos y los no expuestos de diferentes poblaciones en los estudios de cohorte

Falla en la medición tanto de la exposición como del desenlace

  • Diferencias en la medición de la exposición (p.ej. Sesgo de recuerdo en estudios de casos y controles)
  • Vigilancia diferencial de los desenlaces en los expuestos y los no expuestos en los estudios de cohortes

Falla para controlar de forma adecuada la confusión o factores de confusión

  • Falla en la medición precisa de todos los factores pronóstico conocidos
  • Falla para parear los factores pronósticos y/o ajustar en el análisis estadístico

Seguimiento incompleto o inadecuadamente corto

Especialmente en estudios de cohorte prospectiva, ambos grupos se deben seguir por el mismo espacio de tiempo.

Dependiendo del contexto y el tipo de estudio, puede haber limitaciones adicionales a las mencionadas previamente. Los paneles de las guías y los autores de las revisiones sistemáticas deben considerar todas las limitaciones posibles y deben considerar hasta qué punto las limitaciones de un estudio puedan sesgar los resultados (ver ejemplos 5.2 al 5.8). Si las limitaciones son serias ellos pueden disminuir la calidad de la evidencia en uno o dos niveles.

La transición entre los criterios de riesgo de sesgo de cada estudio individual hacia los juicios acerca de disminuir la calidad de la evidencia por riesgo de sesgo a lo largo de un grupo de estudios que abordan un desenlace particular resulta un desafío. Se sugieren los siguientes principios:

Los autores se van a encontrar en muchas de estas situaciones. Ellos deben reconocer que se encuentran en esta situación, hacer explícito porque piensan que están en esa situación y exponer las razones que soporten el juicio realizado.

Para los autores de revisiones sistemáticas

Los autores trabajando en el contexto de Revisiones Sistemáticas Cochrane, pueden usar la siguiente guía para abordar las limitaciones en el estudio (riesgo de sesgo) en dichas revisiones. El Capítulo 8 del Manual Cochrane (Higgins 2011). proporciona una discusión detallada del abordaje del riesgo de sesgo a nivel del estudio en el contexto de una revisión Cochrane, y propone una clasificación del riesgo de sesgo para un desenlace a lo largo de estudios como “riesgo de sesgo bajo”, “riesgo de sesgo no claro” y “riesgo de sesgo alto” (Higgins 2011). Estas evaluaciones caben dentro de la evaluación de las limitaciones del estudio. En particular “riesgo de sesgo bajo” indicaría “sin limitación”; “riesgo de sesgo no claro” indicaría o “sin limitación” o “limitación seria”; y “riesgo de sesgo alto” indicaría “limitación seria” o “limitación muy seria” en la aproximación GRADE. Los autores de las revisiones sistemáticas Cochrane deben usar su juicio para decidir entre las categorías alternativas, dependiendo de la probable magnitud de los potenciales sesgos.

Cada estudio que evalúe un desenlace particular va a ser diferente en cierta medida en el riesgo de sesgo. Los autores deben hacer un juicio global en cuanto a si la calidad de la evidencia implica disminuir con base en las limitaciones del estudio. La evaluación de las limitaciones del estudio se debe aplicar a aquellos estudios que contribuyen a los resultados de la Tabla SoFt, y no a todos los estudios que pueden ser potencialmente incluidos en el análisis.

Tabla 5.6. Guía para evaluar las limitaciones del estudio (riesgo de sesgo propuesta por la Colaboración Cochrane y la calidad de la evidencia correspondiente según GRADE

Riesgo de sesgo

A lo largo de los estudios

Interpretación

Consideraciones

Enfoque GRADE para evaluar las limitaciones de los estudios

Bajo

La mayoría de la información es de estudios con bajo riesgo de sesgo

Poco probable que el sesgo plausible afecte seriamente los resultados

Sin limitaciones aparentes

Sin limitaciones serias, no disminuir

No claro

La mayoría de la información es de estudios con bajo riesgo de sesgo o riesgo no claro

Sesgo plausible que genera cierta duda acerca de los resultados

Es poco probable que las potenciales limitaciones disminuyan la confianza en el estimativo del efecto

Sin limitaciones serias, no disminuir

No claro

La mayoría de la información es de estudios con bajo riesgo de sesgo o riesgo no claro

Sesgo plausible que genera cierta duda acerca de los resultados

Es probable que las potenciales limitaciones disminuyan la confianza en el efecto estimativo.

Limitaciones serias, disminuir un nivel

Alto

La proporción de información de los estudios con alto riesgo de sesgo es suficiente como para afectar la interpretación de los resultados

Sesgo plausible que debilita seriamente la confianza en los resultados

Limitación crucial para un criterio, o algunas limitaciones en múltiples criterios, suficientes para disminuir la confianza en el estimativo del efecto

Limitaciones serias, disminuir un nivel

Alto

La proporción de información de los estudios con alto riesgo de sesgo es suficiente como para afectar la interpretación de los resultados

Sesgo plausible que debilita seriamente la confianza en los resultados

Limitación crucial para uno o más criterios, suficiente para disminuir la confianza en el estimativo del efecto

Limitaciones muy serias, disminuir dos niveles

Ejemplo 5.2. Riesgo de sesgo no claro (no disminuido)

Una revisión sistemática investigó si menos personas con cáncer murieron cuando se les administró anticoagulante comparado con placebo. Había 5 ECAs. En tres estudios no era clara la generación de la secuencia aleatoria puesto que no fue reportada por los autores, y en un estudio (que contribuía con pocos pacientes para el meta análisis) no era claro el enmascaramiento de la asignación y los datos de los desenlaces estaban incompletos. En este caso, las limitaciones globales no eran serias y no se disminuyó la calidad de la evidencia por riesgo de sesgo.

Ejemplo 5.3. Riesgo de sesgo no claro (disminuido un nivel)

Una revisión sistemática sobre los efectos de la testosterona en la satisfacción de la erección en hombres con bajos niveles de testosterona, identificó cuatro ECAs. Los resultados del ensayo más grande se reportaron únicamente como “no significativos” y no pudieron por tanto contribuir al meta análisis. Los datos de los tres ensayos más pequeños sugieren un efecto de tratamiento grande (1,3 desviaciones estándar, intervalo de confianza 95% 0,2- 2,3). Los autores no pudieron obtener los datos faltantes, y no pudieron tener confianza en que el efecto del tratamiento fuera certero, por tanto, disminuyeron la calidad del cuerpo de la evidencia por sesgo de reporte selectivo en el estudio más grande.

En otro escenario, los autores de la revisión obtuvieron los datos completos del estudio más grande. Después de incluir los resultados menos imprecisos, la magnitud del efecto fue menor y sin significancia estadística (0,8 desviaciones estándar, intervalo de confianza 95% 0,05- 1,63). En este caso la evidencia no se disminuiría.

Ejemplo 5.4. Alto riesgo de sesgo debido a falta de enmascaramiento (disminuido en un nivel)

ECAs acerca del efecto de la intervención A en injuria espinal aguda, midieron todas las causas de mortalidad y la función motora basados en los hallazgos del examen físico detallado. Quienes medían los desenlaces no estaban enmascarados para ningún desenlace. El enmascaramiento en los evaluadores no resulta tan importante en la medición de la mortalidad, pero si es crucial para la evaluación de la función motora. La calidad de la evidencia para el desenlace de mortalidad puede no disminuirse. Sin embargo, la calidad se debería disminuir para el desenlace de función motora.

Ejemplo 5.5. Alto riesgo de sesgo por ausencia de enmascaramiento en la asignación (disminuido en un nivel)

Una revisión sistemática de 2 ECAs mostró que la terapia familiar en niños con asma mejoraba las sibilancias durante el día. Sin embargo, la asignación claramente no se realizó de forma enmascarada en los dos ensayos incluidos. Esta limitación justificaría disminuir la calidad de la evidencia en un nivel.

Ejemplo 5.6. Alto riesgo de sesgo por ausencia de enmascaramiento en la asignación (disminuido en un nivel)

Una revisión se llevó a cabo para evaluar los efectos de tratamiento temprano versus tardío con oseltamivir en influenza con estudios observacionales. Los investigadores encontraron 8 estudios observacionales que evaluaban el riesgo de mortalidad. El análisis estadístico de los 8 estudios no ajustó de acuerdo a los posibles factores de confusión como la edad, condiciones pulmonares crónicas, inmunizaciones y estado inmune.  La calidad de la evidencia se debió disminuir de bajo a muy bajo por limitaciones serias en el diseño del estudio.

Ejemplo 5.7. Alto riesgo de sesgo (disminuido dos niveles)

Tres ECAs acerca de los efectos de la cirugía en pacientes con prolapso de disco lumbar medido con síntomas de 1 año o más de duración. Los ECAs tenían inadecuado enmascaramiento de la asignación, y evaluación no enmascarada de los desenlaces, realizado por evaluadores potencialmente sesgados (cirujanos) utilizando una herramienta no validada de calificación. Los beneficios de la cirugía son inciertos. La calidad de la evidencia se disminuyó en dos niveles por las limitaciones en la calidad del estudio.

Ejemplo 5.8. Alto riesgo de sesgo (disminuido dos niveles)

La evidencia del efecto de inmunoterapia sublingual en niños con rinitis alérgica en el desarrollo del asma proviene de un único ensayo aleatorizado, sin descripción de la aleatorización, ni descripción del enmascaramiento de la asignación o el tipo de análisis, no hubo enmascaramiento y el 21% de los niños se perdieron en el seguimiento. Estas grandes limitaciones justifican la disminución de la calidad de la evidencia, dos niveles, de alta a baja.

  1. Inconsistencia de los resultados

Inconsistencia se refiere a la heterogeneidad inexplicada de los resultados.

Diferencias verdaderas en el efecto del tratamiento pueden existir cuando hay estimativos del efecto del tratamiento muy diferentes a lo largo de los estudios (e. heterogeneidad o variabilidad en los resultados). Los investigadores deben explorar explicaciones para dicha heterogeneidad, y si no pueden identificar una explicación posible/plausible, la calidad de la evidencia se debe disminuir. La decisión de si se debe disminuir en uno o dos niveles va a depender de la magnitud de la inconsistencia en los resultados.

Los pacientes varían en cuanto a sus riesgos basales o pre-intervención para desenlaces adversos que las intervenciones en salud están diseñadas para prevenir (p.ej. Muerte, trombosis cerebral, infarto de miocardio). Como resultado, las diferencias del riesgo (reducción absoluta de riesgo) en subpoblaciones tienden a variar ampliamente. La reducción del riesgo relativo (RR), por otro lado, tiende a ser similar a lo largo de los subgrupos, incluso si los subgrupos tienen diferencias sustanciales de riesgos basales. Por tanto, cuando se hace referencia a inconsistencias en el tamaño del efecto, nos referimos a las medidas relativas (riesgo relativo (RR) y razón de riesgos (HR) que son las que se prefieren, o razón de probabilidades (OR)).

Cuando características de los pacientes fácilmente identificables permiten con confianza, clasificar a los pacientes en subpoblaciones con riesgos apreciables diferentes, las diferencias absolutas en los desenlaces entre el grupo de intervención y el control diferirán sustancialmente en estas subpoblaciones. Esto a su vez puede justificar diferencias en las recomendaciones a lo largo de las subpoblaciones, más que una disminución en la calidad de la evidencia por inconsistencia en el tamaño del efecto.

A pesar que existen métodos estadísticos para medir la heterogeneidad, existe también una variedad de criterios para evaluarla, que se pueden usar cuando los resultados no se agrupar de forma estadística. Los criterios para determinar si se debe disminuir por inconsistencia se pueden aplicar cuando los resultados son de más de un estudio e incluyen:

El estadístico I2, que cuantifica la proporción de la variación en estimativos puntuales debido a diferencias entre estudios, es grande (ver la nota a continuación para decisiones basadas en el estadístico I2)

Nota: Aunque determinar que constituye un valor I2 grande es subjetivo, se puede usar la siguiente regla de oro:

La superposición en estos rangos y el uso del “puede ser” como terminología, ilustra la incertidumbre que existe al momento de hacer estos juicios. También es importante resaltar las limitaciones implícitas de este estadístico. Cuando los tamaños de muestra de los estudios individuales son pequeños, el estimativo puntual puede variar sustancialmente, pero como la variación se puede explicar por azar, el I2 puede ser bajo. Por el contrario, cuando los tamaños de muestra son grandes, una diferencia relativa pequeña en el estimativo puntual puede producir un I2grande. Otro estadístico, τ2 (tau cuadrado) es una medida de la variabilidad que tiene una ventaja sobre las otras medidas y es que no depende del tamaño de la muestra.

Todos los abordajes estadísticos tienen limitaciones, y sus resultados se deben ver en el contexto de una evaluación subjetiva de la variabilidad en los estimativos puntuales y la sobre posición de los intervalos de confianza.

Ejemplo 5.9. Diferencias en la dirección, pero mínima heterogeneidad

La figura presenta un diagrama de bosque con cuatro estudios, dos a cada lado de la línea del no efecto. No habría ninguna inclinación para disminuir por inconsistencia. Las diferencias en la dirección en sí mismas no constituyen un criterio por variabilidad en el efecto, si la magnitud de las diferencias en estimativos puntuales es pequeña.

Como definimos antes, la inconsistencia es solo importante cuando reduce la confianza en los resultados en relación a una decisión particular. Incluso cuando la inconsistencia es grande, pueda que no disminuya la confianza en los resultados acerca de una decisión particular.

Ejemplo 5.10.Cuando la inconsistencia es grande, pero las diferencias son entre efectos beneficiosos pequeños y grandes

Considere la figura, en la cual la variabilidad es sustancial, pero las diferencias entre efectos son de tratamiento pequeños y grandes.

Los desarrolladores de las guías pueden y no considerar este grado de variabilidad importante. Los autores de las revisiones sistemáticas, en menor condición de juzgar si la alta heterogeneidad aparente puede ser desestimada con el argumento que es poco importante, son mucho más propensos a disminuir por inconsistencia.

Ejemplo 5.11. Heterogeneidad sustancial de importancia inequívoca

Considere la figura a anterior La magnitud de la variabilidad de los resultados es similar a aquella de la figura presentada en el ejemplo 5.9. Sin embargo, como dos estudios sugieren un beneficio y dos sugieren un riesgo, incuestionablemente elegiríamos disminuir la calidad de la evidencia como resultado de inconsistencia.

Ejemplo 5.12.Probar hipótesis a priori a cerca de inconsistencia aún cuando la inconsistencia parezca ser pequeña

Un metanálisis de ensayos aleatorizados de rofecoxib evaluando el desenlace de infarto de miocardio encontraron resultados aparentemente consistentes (heterogeneidad p=0,82, I2=0%). Sin embargo, cuando los investigadores examinaron el efecto en los ensayos que usaron un comité externo de evaluación final (RR 3,88, IC 95% 1,88-8,02) versus los ensayos que no lo usaron (RR 0,79, IC 95% 0,29-2,13), encontraron diferencias que eran grandes y poco probable que fuesen explicadas por el azar (p=0,01).

Aunque este aspecto es controversial, se recomienda que el metanálisis incluya pruebas formales de si las hipótesis a priori explican la inconsistencia entre los subgrupos importantes, aún si la variabilidad que existe aparenta ser explicada por el azar (p.ej. Valores p altos en las pruebas de heterogeneidad y valores I2 bajos).

Si el tamaño del efecto difiere a lo largo de los estudios, las explicaciones para la inconsistencia pueden ser debidas a diferencias en:

Si la inconsistencia se puede explicar por diferencias en las poblaciones, intervenciones o desenlaces, los autores deben ofrecer diferentes estimativos para los grupos de pacientes, intervenciones y desenlaces. Los paneles de las guías deben ofrecer diferentes recomendaciones para los diferentes grupos de pacientes e intervenciones. Si los métodos de los estudios son argumento de las diferencias en los resultados entre los estudios, entonces los autores deben considerar concentrarse en el efecto estimado de los estudios con bajo riesgo de sesgo.

Si una gran variabilidad en la magnitud del efecto persiste sin explicación y los autores fallan en atribuirla a diferencias en alguna de esas cuatro variables, entonces la calidad de la evidencia disminuye. Los autores de las revisiones y el panel de la guía deben también considerar hasta qué punto la incertidumbre del efecto se debe a la inconsistencia. La incertidumbre se refiere a la importancia de la inconsistencia en la confianza en el resultado.

Ejemplo 5.13. Probar hipótesis a priori a cerca de inconsistencia aún cuando la inconsistencia parezca ser pequeña

Cuando el análisis de los beneficios de la endarterectomía se agrupo para todos los pacientes con estenosis de la arteria carótida, hubo una alta heterogeneidad. La heterogeneidad se exploró y se explicó al separar los pacientes sintomáticos con un grado mayor de estenosis (en los cuales la endarterectomía era beneficiosa) y los pacientes asintomáticos con un grado moderado de estenosis (en los que la cirugía no era beneficiosa). Los autores presentaron y calificaron la evidencia por grupos de pacientes y no disminuyeron la calidad de la evidencia por inconsistencia. El panel de la guía elaboró dos recomendaciones diferentes para cada grupo de pacientes.

  1. Decisión de usar estimativos a partir de un análisis de subgrupos

Es preferible encontrar una explicación para la inconsistencia. La explicación puede radicar en diferencias en la población, la intervención o los desenlaces, que implican dos o más estimativos del efecto, posiblemente con recomendaciones separadas. Sin embargo, los efectos de los subgrupos pueden resultar falsos y pueden no explicar toda la variabilidad en el grado de inconsistencia. De hecho, la mayoría de los efectos de los subgrupos putativos en últimas resultan falsos. Se debe hacer una nota aclaratoria acerca del análisis de los subgrupos y su presentación. (Guyatt 2011).

Los autores de las revisiones y los desarrolladores de las guías deben tener un alto grado de escepticismo con respecto a las explicaciones de los potenciales efectos de los subgrupos, poniendo particular atención en los siguientes 7 criterios:

  1. ¿La variable del subgrupo es una característica especificada antes o después de la aleatorización? (las hipótesis de los subgrupos se deben desarrollar a priori)
  2. ¿Las diferencias de los subgrupos surgieron por comparación dentro o en lugar de entre los estudios?
  3. ¿El análisis estadístico sugiere que el azar es una explicación poco probable para las diferencias de los subgrupos?
  4. ¿Las hipótesis precedieron o resultaron después del análisis, e incluyeron una dirección de la hipótesis la cual fue confirmada posteriormente?
  5. ¿Fue la hipótesis del subgrupo una de las de menor número de pruebas?
  6. ¿Las diferencias del subgrupo son consistentes a lo largo de los estudios y para los desenlaces importantes?
  7. ¿La evidencia externa (raciocinio biológico o sociológico) apoya la hipótesis de las diferencias de los subgrupos?

La credibilidad del efecto del subgrupo no es un asunto de sí o no, sino un continuum. Se requiere de un juicio para determinar qué de una manera convincente si el análisis de los subgrupos se basa en los criterios previamente mencionados.

Ejemplo 5.14. El análisis de los subgrupos explica la inconsistencia de los resultados

Una revisión sistemática y los datos de un metanálisis de pacientes individuales, evalúa el impacto de la Presión Positiva Alta vs Baja del Final de la Espiración (PEEPs por sus siglas en inglés Positive end-expiratory pressures) en tres estudios aleatorios que incluyeron 2299 pacientes adultos con injuria pulmonar aguda severa con requerimiento de ventilación mecánica.

El resultado de este metanálisis sugirió una posible reducción de las muertes durante la hospitalización con la estrategia de PEEP alta, pero la diferencia no fue estadísticamente significativa (RR 0,94; IC 95%: 0,86-1,04). En los pacientes con enfermedad severa (síndrome de dificultad respiratorio agudo), el efecto claramente favorecía la estrategia con PEEP alta (RR 0,90 IC 95% 0,81-1,00; P50, 049). En pacientes con enfermedad severa, los resultados sugieren que la estrategia con PEEP alta puede ser inferior (RR 1.37; IC 95%: 0,98- 1,92).

Aplicando los siete criterios, se encontró que seis de ellos se cumplían, y el séptimo, consistencia a lo largo de los estudios y desenlaces, se cumplía parcialmente: los resultados del análisis de los subgrupos eran consistentes a lo largo de los tres estudios, pero otras formas de medir la severidad de la injuria pulmonar (por ejemplo, tratar la severidad como una variable continua) falló en demostrar una interacción estadísticamente significativa entre la severidad y la magnitud del efecto. En este caso, el análisis del subgrupo es relativamente convincente.

Ejemplo 5.15. Probar hipótesis a priori a cerca de inconsistencia aún cuando la inconsistencia parezca ser pequeña

Tres ensayos aleatorizados han evaluado el efecto de la vasopresina versus la epinefrina en la sobrevida de pacientes con paro cardíaco. El resultado ha mostrado diferencias apreciables en los estimativos puntuales con intervalos de confianza ampliamente superpuestos, y un valor p para la prueba de heterogeneidad de 0,21 y un I2 de 35%.

Dos ensayos incluyeron tanto pacientes en quienes la asistolia era la responsable del paro cardiaco, así como pacientes con fibrilación ventricular como ritmo de paro. Uno de estos dos ensayos reportó un beneficio estadísticamente significativo limítrofe – nuestro análisis fue limítrofe no significativo- de la vasopresina sobre la epinefrina, restringido a pacientes con asistolia (en comparación con pacientes con paro inducido por fibrilación ventricular).

No es muy probable que el análisis del subgrupo pueda explicar la inconsistencia moderada en los resultados. El azar puede explicar el efecto del subgrupo putativo y la hipótesis falla en los otros criterios (incluyendo un número pequeño de hipótesis a priori y la consistencia del efecto). En este caso los desarrolladores de las guías deben formular las recomendaciones con base en un estimativo agrupado de los datos de ambos grupos. Si la calidad de la evidencia se debe o no disminuir por inconsistencia es otro juicio; nosotros argumentaríamos a favor de no bajar por inconsistencia.

  1.  Evidencia indirecta

Se está más confiado en los resultados cuando hay evidencia directa. La evidencia directa consiste en investigaciones que comparan directamente las intervenciones en las que se está interesado, aplicadas en la población de interés y que mide los desenlaces importantes para los pacientes.

Los autores de revisiones sistemáticas y los paneles de las guías deben considerar hasta qué punto están confiados en la aplicabilidad de la evidencia en su pregunta relevante, y de acuerdo a esto disminuir la calidad de la evidencia en uno o dos niveles.

Para los autores de las revisiones sistemáticas

La evidencia directa es juzgada por los usuarios de las tablas de evidencia, dependiendo de la población blanco, la intervención y los desenlaces de interés. Los autores de las revisiones deben responder la pregunta de investigación planteada, y por tanto van a calificar la evidencia directa que encuentran. Las consideraciones realizadas por los autores de las revisiones sistemáticas pueden ser diferentes a las de los paneles de las guías que utilizan revisiones sistemáticas. Entre más clara y explícita se haya formulado la pregunta de investigación, más fácil será para los usuarios entender los juicios de los autores de la revisión sistemática.

Existen cuatro fuentes de evidencia indirecta, que se describen a continuación.

  1. Diferencias en la población (aplicabilidad)

Las diferencias entre las poblaciones de los estudios en una revisión sistemática son un problema común para los autores de revisiones sistemáticas y para los paneles desarrolladores de guías. Cuando esto ocurre la evidencia es indirecta. El efecto de la calidad global de la evidencia variará dependiendo qué tan diferentes son las poblaciones, porque puede no disminuirse la calidad o, puede disminuirse en uno o en dos niveles en casos muy extremos. La discusión se refiere a poblaciones humanas diferentes, pero en algunos casos la única evidencia disponible será de estudios en animales como ratas o primates. En general, disminuiríamos la calidad de dicha evidencia en dos niveles por tratarse de evidencia indirecta. Sin embargo, los estudios en animales pueden proveer indicaciones importantes de toxicidad de medicamentos. Aunque los datos de toxicidad en animales no predicen con fiabilidad la toxicidad en los humanos, la evidencia de toxicidad en animales debe generar precaución en las recomendaciones. Otros tipos de estudios no realizados en humanos (p.ej. Evidencia de laboratorio) puede generar evidencia de calidad alta.

Ejemplo 5.16. Evidencia indirecta en población (Disminuido en dos niveles)

Estudios aleatorizados de calidad alta han demostrado la efectividad del tratamiento antiviral para la influenza estacional. El panel juzga que la biología de la influenza estacional era suficientemente diferente de aquella de la influenza aviar (el organismo de la influenza aviar puede responder mucho menos a los agentes antivirales que la influenza estacional), la calidad de esa evidencia debe disminuirse en dos niveles, de alta a baja por tratarse de evidencia indirecta.

Ejemplo 5.17.Estudios no humanos que proporcionan evidencia de alta calidad (no se disminuye)

Considere la evidencia de laboratorio acerca del cambio en los patrones de resistencia bacteriana a los agentes antimicrobianos (p.ej. Emergencia de estafilococo aureusmeticilino resistente SAMR). Estos hallazgos de laboratorio pueden constituirse evidencia de alta calidad en cuanto a la superioridad de los antibióticos a los cuales es sensible el SAMR versus la meticilina como tratamiento inicial en pacientes con sospecha de sepsis por estafilococo en escenarios de alta prevalencia de SAMR.

  1. Diferencias en la intervención (aplicabilidad)

Los autores de las revisiones sistemáticas deben hacer un esfuerzo por asegurar que solo estudios con intervenciones relevantes se incluyan en sus revisiones. Sin embargo, pueden existir excepciones. Generalmente, cuando las intervenciones indirectamente relacionadas con el estudio se incluyen en la revisión, la calidad de la evidencia va a disminuir. En algunos casos la intervención usada será la misma, pero puede ser aplicada de forma diferente dependiendo del contexto.

Ejemplo 5.18. Intervenciones entregadas de forma diferente en diferentes escenarios (disminuido en un nivel)

Una revisión sistemática de terapias musicales para el autismo encontró que unos estudios evaluaron estrategias estructuradas usadas más frecuentemente en Norteamérica que en Europa. Como las intervenciones eran diferentes, los resultados de estrategias estructuradas son más aplicables en Norteamérica y los resultados de estrategias menos estructuradas son más aplicables en Europa.

Los panelistas deben considerar disminuir la calidad de la evidencia si la intervención no se pudiera implementar con el mismo rigor o sofisticación técnica en su contexto, así como se aplicó en el ECA del cual provienen los datos.

Ejemplo 5.19.Estudios de intervenciones relacionadas (disminuido en uno o dos niveles)

Los desarrolladores de las guías usualmente encuentran la mejor evidencia para abordar su pregunta en estudios de intervenciones relacionadas, pero diferentes. Una guía que aborda el valor del tamizaje con colonoscopia en cáncer de colon, encontrará los ECAs de tamizaje con sangre oculta en materia fecal que demuestran que dicha intervención disminuye la mortalidad por cáncer de colon. El hecho de disminuir en este caso la calidad en uno o dos niveles por tratarse de evidencia indirecta es un asunto de juicio.

Ejemplo 5.20. Evidencia indirecta en intervenciones (no se disminuye)

Estudios más antiguos demuestran alta eficacia con el uso de penicilina intramuscular para infecciones gonocócicas, pero las guías pueden razonablemente recomendar regímenes antibióticos alternativos basados en los patrones actuales de resistencia in vitro, lo que no implicaría disminuir la calidad de la evidencia por tratarse de evidencia indirecta.

Ejemplo 5.21. Intervenciones no lo suficientemente diferentes (no se disminuye)  

Los estudios de Simvastatina demuestran reducción en la mortalidad. Sugerir la administración nocturna versus diurna (porque hay una reducción mayor de los niveles de colesterol) no justificaría que se disminuya la calidad de la evidencia por diferencias en la intervención.

  1. Diferencias en los desenlaces medidos (desenlaces alternativos)

La aproximación GRADE especifica que aquellos que conducen revisiones sistemáticas como aquellos desarrollando guías de práctica deben comenzar especificando cada desenlace de interés importante. Los estudios disponibles pueden haber medido el impacto de la intervención de interés en desenlaces relacionados, pero diferentes de aquellos de importancia para los pacientes.

La diferencia entre los desenlaces deseados y los medidos pueden relacionarse al período del tiempo (p.ej. Desenlace medido a los 3 meses versus a los 12 meses). Otra fuente de evidencia indirecta relacionada con la medición de los desenlaces es el uso de puntos finales subrogados o sustitutos en lugar de los desenlaces de interés importantes para los pacientes.

Tabla 5.7. Desenlaces subrogados comunes y sus correspondientes desenlaces importantes para los pacientes

Condición

Desenlace (s) importante para los pacientes

Desenlace (s) subrogado

Diabetes mellitus

Síntomas diabéticos, ingreso hospitalaria, complicaciones (cardiovasculares, oftalmológicas, renales, neuropáticas)

Glucosa sanguínea, hemoglobina glicosilada A1C.

Hipertensión

Muerte cardiovascular, infarto de miocardio, ataque cerebrovascular

Presión arterial

Demencia

Funcionalidad del paciente, comportamiento, carga para el  cuidador

Función cognitiva

Osteoporosis

Fracturas

Densidad ósea

Síndrome de dificultad respiratoria del adulto

Mortalidad

Oxigenación

Enfermedad renal estadio final

Calidad de vida, morbilidad (trombosis de derivación o falla cardíaca), mortalidad

Hemoglobina

Trombosis venosa

Trombosis venosa sintomática

Trombosis venosa asintomática

Enfermedad respiratoria crónica

Calidad de vida, exacerbaciones, mortalidad

Función pulmonar, capacidad de ejercicio

Enfermedad cardiovascular

Infarto de miocardio, eventos vasculares, mortalidad

Lípidos en suero, calcificación coronaria, metabolismo calcio/fosfato

En general, el uso de un desenlace subrogado requiere disminuir la calidad de la evidencia en un nivel o incluso en dos. Tener en cuenta la biología, el mecanismo y la historia natural de la enfermedad puede ser de ayuda en la toma de decisiones acerca de evidencia indirecta. Para los subrogados que se encuentran muy alejadas de las vías causales putativas de los desenlaces importantes, nosotros disminuiríamos la calidad de la evidencia con respecto a este desenlace en dos niveles. Los subrogados más cercanos a las vías causales de los desenlaces producen que solo se disminuya la calidad en un nivel.

Ejemplo 5.22.Diferencias en el tiempo de los desenlaces (disminuido un nivel)

Una revisión sistemática de las intervenciones comportamentales y cognitivo- comportamentales dirigidas a las conductas agresivas en personas con problemas de aprendizaje, mostró que un programa de 3 semanas de entrenamiento en relajación reducía significativamente el comportamiento disruptivo a los 3 meses. Desafortunadamente, ningún estudio elegible evaluó el desenlace de interés predefinido por los autores, el impacto a largo plazo definido como un efecto mayor o igual a 9 meses. El argumento para disminuir la calidad de la evidencia por evidencia indirecta se hace más fuerte cuando se considera que otros tipos de intervenciones comportamentales hayan demostrado beneficio temprano que no hubiese continuado a los 6 meses del seguimiento

Ejemplo 5 23. Desenlaces alternativos (disminuido uno o dos niveles)

El metabolismo del calcio y el fosfato se encuentran alejados de la vía causal de los desenlaces importantes para los pacientes como el infarto de miocardio, e implican disminuir la calidad de la evidencia en uno o dos niveles. Los desenlaces alternativos que se encuentran más cercanos a las vías causales de los desenlaces importantes tales como la calcificación coronaria en el infarto de miocardio, la densidad ósea en las fracturas, y la calcificación de los tejidos blandos en el dolor, implican bajar la calidad en un nivel por evidencia indirecta.

Ejemplo 5.24. Incertidumbre en la relación entre el subrogado y los desenlaces subrogados (disminuido en uno o dos niveles)

Los investigadores evaluaron la “validez” de la sobrevida libre de progresión como un subrogado para la sobrevida global en las quimioterapias basadas en antraciclinas y taxanos en cáncer de seno avanzado. Encontraron que había una asociación estadísticamente significativa entre la sobrevida libre de progresión y la sobrevida global en los ensayos aleatorizados analizados, pero predecir la sobrevida global usando la sobrevida libre de progresión siguió siendo incierto. Disminuir la calidad en un nivel sería apropiado en esta situación.

  1. Comparaciones indirectas

Ocurre cuando no se encuentra disponible una comparación entre la intervención A versus B, pero se comparó A versus C y a su vez se comparó B versus C. Dichos estudios permiten comparaciones indirectas de la magnitud del efecto de A versus B. Como resultado de esta comparación indirecta, la evidencia es de menor calidad que la que produciría una comparación cara a cara A y B.

La validez de una comparación indirecta descansa en el supuesto que los factores del diseño del estudio (los pacientes, intervenciones, medición de los desenlaces) y la calidad metodológica no son lo suficientemente diferentes como para resultar en efectos diferentes (en otras palabras, las verdaderas diferencias en el efecto explican las diferencias aparentes). Algunos autores se refieren acerca de esto como “supuesto de similitud”. Como este supuesto siempre es dudoso, las comparaciones indirectas siempre implican bajar la calidad de la evidencia en un nivel. El hecho de disminuirlo dos niveles depende de la posibilidad que los factores alternativos (población, intervenciones, co-intervenciones, desenlaces y métodos del estudio) expliquen o escondan las diferencias en el efecto.

Ejemplo 5.25. Comparaciones indirectas de dosis bajas versus dosis intermedia de aspirina (disminuido en un nivel)

Una revisión sistemática que consideraba los méritos relativos de la dosis baja versus dosis intermedia de aspirina en la prevención de oclusión del injerto después de una cirugía de bypass de arterias coronarias. Los autores encontraron cinco ensayos relevantes que comparaban la aspirina con el placebo, de los cuales dos evaluaron dosis intermedia y tres, dosis baja de aspirina. El riesgo relativo combinado de la probabilidad de oclusión del injerto fue 0.74 (IC 95%: 0,60- 0,91) en el ensayo de bajas dosis y 0.55 (IC 95%: 0,28- 0,82) en el ensayo de dosis intermedia. El riesgo relativo de dosis intermedia versus baja fue 0.74 (IC 95%: 0,52- 1,06; P = 0,10) sugiriendo la posibilidad de un mayor efecto con los regímenes de dosis intermedia. Esta comparación es más débil que si los ensayos aleatorizados hubiesen comparados dos regímenes de dosis de aspirina directamente, porque hay otras características de los estudios que pueden ser responsables de las diferencias encontradas.

Ejemplo 5.26.Metanálisis en red- Comparaciones indirectas -(disminuido en dos niveles)

Investigadores condujeron una comparación simultánea de tratamientos de 12 antidepresivos de nueva generación. Los autores evaluaron 117 ensayos aleatorizados que involucraron más de 25000 pacientes; el artículo no proporcionó información acerca de la similitud entre los pacientes, o acerca de las co-intervenciones. Sin embargo, en correspondencia con los autores, ellos indicaron que excluyeron los ensayos con depresión resistente al tratamiento, argumentando que distintos tipos de depresión tienen respuestas similares a los tratamientos, y que es muy probable que los pacientes no recibieran co-intervenciones importantes. Con respecto al riesgo de sesgo, los autores informaron que usando la estrategia de la colaboración Cochrane para evaluarlo, la mayoría de los estudios tenía un riesgo de sesgo “no claro”, y 12 tuvieron un riesgo bajo de sesgo; probablemente un menor número tenían riesgo alto de sesgo. Esto resulta útil, aún cuando “no claro” representa un rango muy amplio para el riesgo de sesgo. Todos los estudios incluían comparaciones cara a cara entre al menos dos de los 12 medicamentos: los 117 ensayos involucraron 70 comparaciones individuales (p.ej. Dos comparaciones entre fluoxetina y fluvoxamina). Los autores reportaron diferencias estadísticamente significativas entre comparaciones directas e indirectas en solo tres de las 70 comparaciones acerca de respuesta a medicamentos. Sin embargo, el poder de esas evaluaciones probablemente no era tan alto. En general, estaríamos inclinados a tener precaución con estos metanálisis en red y bajar la calidad de la evidencia en dos niveles por evidencia indirecta.

  1. Imprecisión

En general los resultados son imprecisos cuando los estudios incluyen relativamente pocos pacientes y pocos eventos y por tanto tienen intervalos de confianza (IC) amplios alrededor del estimativo del efecto. En este caso, uno puede juzgar la calidad de la evidencia más baja de lo que se consideraría a causa de incertidumbre acerca de los resultados.

Adicionalmente a describir cómo se debe usar el intervalo de confianza del 95% como criterio principal para hacer juicios acerca de la imprecisión, también se introduce el tamaño óptimo de información (TOI) (conocido como OIS por su nombre en inglés optimal information size) como un segundo criterio, necesario para determinar la precisión adecuada.

Como GRADE define la calidad de la evidencia de forma diferente para las revisiones sistemáticas y las guías, los criterios para disminuir por imprecisión difieren en tanto que los panelistas de las guías necesitan considerar el contexto de una recomendación y otros desenlaces, mientras que el juicio acerca de un desenlace específico en una revisión sistemática es libre del contexto. Es por esto, que la aproximación GRADE sugiere lineamientos separados para determinar la imprecisión, como se describe en las siguientes secciones.

  1. Imprecisión en las guías de práctica clínica

La calidad de la evidencia se refiere hasta qué punto nuestra confianza en el estimativo de efecto es adecuada para soportar una decisión particular. En las guías se consideran todos los desenlaces en conjunto, atendiendo si son críticos o importantes, pero no críticos.

Para los paneles de las guías la decisión de bajar la calidad de la evidencia por imprecisión depende del umbral que representa la base para una decisión de manejo y tomar en consideración el equilibrio entre consecuencias deseables e indeseables. Determinar el umbral aceptable inevitablemente involucra un juicio que debe hacerse explícito.

Consideraciones sobre imprecisión en desenlaces dicótomos

Los desarrolladores de las guías deben considerar el contexto de una recomendación particular para determinar si los resultados de un desenlace dicótomo (binario) son lo suficientemente precisos para soportar dicha recomendación. Establecer un umbral específico para un estimativo aceptable de un efecto de tratamiento involucrará un juicio en el contexto de factores como efectos adversos, toxicidad medicamentosa y costos (ver ejemplo 5.27). Examinar los límites superiores e inferiores del IC en relación con el umbral establecido por el panel de la guía, y a continuación determinar si los criterios para el tamaño óptimo de información se cumplen, ayudará a decidir si se debe bajar la calidad de la evidencia por imprecisión.

Se sugiere que los desarrolladores de las guías consideren los siguientes pasos para decidir si deben o no bajar la calidad de la evidencia por imprecisión:

Aunque los intervalos de confianza por lo general capturan el grado de imprecisión, pueden resultar engañosos en algunas circunstancias a causa de fragilidad. Específicamente los IC pueden parecer muy robustos, pero un número pequeño de eventos puede producir resultados frágiles. Los intervalos de confianza asumen que todos los pacientes tienen el mismo riesgo (p.ej. Hay un equilibrio pronóstico), y dicha presunción es falsa. La aleatorización mejora un poco este problema en la medida en que equilibra los factores pronósticos entre los grupos de intervención y control, pero la única forma de confiar en que se logra el balance pronóstico es cuando el tamaño de la muestra es grande. Un gran efecto de tratamiento en presencia de tamaños de muestra pequeños, incluso en ECAs, puede ser debido a un desequilibrio pronóstico e implica tener precaución.

Ensayos tempranos que evalúan una pregunta, particularmente si son pequeños, van a sobreestimar sustancialmente el efecto del tratamiento. Una revisión sistemática de estos ensayos también generará un sobreestimado del efecto. Algunos ejemplos de metanálisis que generaron efectos beneficiosos o perjudiciales que fueron refutados posteriormente por ensayos más grandes incluyen los estudios del uso de magnesio en la reducción de la mortalidad después de un infarto de miocardio, los inhibidores de la enzima convertidora de angiotensina en la reducción de la incidencia de diabetes, los nitratos en la reducción de la mortalidad infarto de miocardio, y la aspirina para reducir la hipertensión inducida por el embarazo. Una circunstancia similar ocurre cuando los ensayos se detienen tempranamente por beneficios (p.ej. Antes de alcanzar el número necesario total de eventos, o el tamaño de la muestra, que se había calculado para que el ensayo tenga poder suficiente). Estudios simulados y la evidencia empírica sugiere que los ensayos detenidos de forma temprana sobreestiman los efectos del tratamiento (ver ejemplo 5.30). Cuando un efecto de un tratamiento se sobreestima, el IC alrededor del efecto puede parecer falsamente adecuada para cumplir el umbral de decisión clínica, indicando precisión adecuada.

Por tanto, el criterio del umbral de decisión clínica no es suficiente para lidiar con el asunto de precisión, y se requiere también el criterio de tamaño óptimo de información.

Nota: Tamaño óptimo de información (TOI). Para hacer frente a la vulnerabilidad del intervalo de confianza como un criterio para adecuada precisión, se sugiere el “tamaño óptimo de información” como segundo criterio necesario a considerar. El TOI se aplica como una regla de acuerdo a lo siguiente:

Existen muchas calculadoras disponibles en línea para el cálculo del tamaño de la muestra. Una simple de usar se puede encontrar en http://www.stat.ubc.ca/rollin/stats/ssize/b2.html. Como alternativa al cálculo del TOI los desarrolladores de las guías también pueden consultar las figuras que muestran la relación entre el tamaño de la muestra requerido, o el número de eventos necesario y el tamaño del efecto. Ver en el ejemplo 5.28 que demuestra cómo se usan estas figuras.

Excepción: Tasa de eventos baja con tamaños de muestra grandes, una excepción a la necesidad de TOI

Cuando las tasas de eventos son bajas, los IC alrededor del efecto relativo pueden ser amplios, pero si los tamaños de muestra son lo suficientemente grandes, es probable que el equilibrio pronóstico se haya alcanzado en efecto y que el IC alrededor del efecto absoluto sea angosto. En tales circunstancias el juicio acerca de la precisión se puede basar en el IC alrededor del efecto absoluto y puede no disminuir la calidad de la evidencia por imprecisión. (Ver ejemplos 5.31 y 5.32)

Ejemplo 5.27. Establecer umbrales de decisión clínica para determinar la imprecisión en las guías.

Una revisión sistemática hipotética de ECAs de una intervención para prevenir un evento cerebrovascular llega a un estimativo puntual de reducción absoluta en eventos cerebrovasculares de 1,3% con un IC 95% de 0,06% a 2,0%. Esto se traduce a un número necesario a tratar (NNT) de 77 (100÷1,3) pacientes por año para prevenir un evento cerebrovascular. El IC 95% alrededor del NNT es de 50 a 167. Por tanto, mientras que 77 es nuestro mejor estimativo, es posible que se necesite tratar tan solo 55 o hasta 167 personas para prevenir un único evento cerebrovascular

Si consideramos que la intervención es un medicamento sin efectos adversos serios, inconveniencia mínima y un costo modesto, podríamos establecer un umbral para una reducción absoluta de eventos cerebrovasculares de 0,5% o un NNT= 200, incluso este pequeño efecto garantizaría una recomendación. El IC completo (0,6% a 2,0%) cae a la izquierda del umbral del 0,5% y por tanto excluye cualquier beneficio menor del umbral. Podemos concluir que la precisión de la evidencia es suficiente para soportar una recomendación y no bajar la calidad de la evidencia por imprecisión.

Por otro lado, si el medicamento se asocia con toxicidad seria, estaríamos reacios a hacer una recomendación a menos que la reducción absoluta del evento cerebrovascular sea al menos del 1% o NNT =100 (línea roja en la figura previa). En estas circunstancias, la precisión es insuficiente ya que el IC abarca efectos del tratamiento menores que este umbral (p.ej. Tan pequeños como 0,6%). Una recomendación a favor de la intervención todavía sería apropiada si el estimativo puntual de 1,3% llega al umbral, pero bajaríamos la calidad de la evidencia en un nivel por imprecisión (p.ej. De alta a moderada).

Como una alternativa al cálculo del TOI, los autores de las revisiones y las guías pueden también consultar una figura para determinar el TOI.

Ejemplo 5.28. Uso de figuras para determinar el tamaño óptimo de información

La figura a continuación presenta el tamaño de muestra requerido (asumiendo un α de 0,05 y β de 0,2) para una reducción relativa del riesgo (RRR) del 20%, 25% y 30% a lo largo de diferentes niveles de riesgos en el grupo control. Por ejemplo, si el mejor estimativo del grupo control fue 0,2 y se especifica una RRR del 25%, el TOI es de 2000 pacientes aproximadamente.

El poder, sin embargo, se relaciona en mayor medida al número de eventos que al tamaño de la muestra.

Nota: Elección de la Reducción Relativa del Riesgo

Nosotros hemos sugerido usar RRR del 20% al 30% para calcular el TOI. La elección de la RRR es una cuestión de juicio, y existirán casos en las que la información recolectada previamente sugiere elegir un valor menor o un mayor valor de la RRR para calcular el TOI.

Ejemplo 5.29. Aplicación el criterio del TOI

Una revisión sistemática de flavonoides para el tratamiento de hemorroides, evaluó el desenlace de falla en alcanzar una reducción sintomática importante. Al momento de calcular el TOI, los autores fueron conservadores utilizando un α de 0,01, una RRR del 20%, un β de 0,2 y un riesgo del grupo control del 50%. El TOI calculado fue marginalmente mayor que el total del tamaño de la muestra incluido (1194 vs. 1102 pacientes).

Un ejemplo más dramático proviene de una revisión sistemática y metanálisis de fluoroquinolonas como profilaxis en pacientes con neutropenia. Solo uno de ocho estudios que contribuyeron al metanálisis cumplía con los criterios convencionales de significancia estadística, pero el estimativo agrupado sugirió una reducción impresionante y robusta de la mortalidad relacionada con infección con el uso de profilaxis (RR: 0,38; IC 95%: 0,21 a 0,69). El número total de eventos fue solo de 69 y el número total de pacientes 1022. Considerando el riesgo de grupo control de 6,9% y estableciendo un α de 0,05, β de 0,02 y una RRR de 25% el resultado del TOI es de 6400 pacientes- este metanálisis falla en cumplir el criterio de TOI, y es necesario bajar por imprecisión

Detener tempranamente los ensayos puede resultar en un efecto sobreestimado del tratamiento y un juicio incorrecto de precisión.

Ejemplo 5.30.Juicio incorrecto de precisión

Considere un ensayo aleatorizado de β bloqueadores en 112 pacientes que se someten a cirugía por enfermedad vascular periférica que cumplió con los criterios preestablecidos de O´Briene-Fleming para detenerse tempranamente. De 59 pacientes a los que se les dio bisoprolol, 2 sufrieron muerte o infarto de miocardio no fatal, así como 18 de 53 pacientes del grupo control. A pesar de un total de 20 eventos solamente, el IC 95% alrededor del cociente de riesgo (0,02 a 0,41) excluye todo menos un gran efecto del tratamiento. El IC sugiere que el menor efecto plausible es una RRR del 59%. Una recomendación para administrar este tratamiento basado en estos resultados se presume que tendría adecuada precisión.

Sin embargo, existen razones para poner en duda la magnitud del estimativo del efecto de este ensayo. En primer lugar, es mucho mayor que el esperado basándose en el efecto de los β bloqueadores en muchas otras situaciones. Segundo el estudio se terminó tempranamente con base al gran efecto. En tercer lugar, existe una sensación de fragilidad con respecto a estos resultados considerando que una RRR menor del 59% resulta imposible basándose solo en 20 eventos, y se viola el sentido común. Si se movieran solo cinco eventos del grupo control al de intervención, el resultado perdería su significancia estadística y el nuevo estimado puntual (una RRR de 52%) se encuentra por fuera del IC original.

Ejemplo 5.31. Concentrarse en efectos absolutos cuando las tasas de eventos son bajas y el tamaño de las muestras es grande

Una revisión sistemática de siete ensayos aleatorizados de angioplastia versus endarterectomía carotídea para enfermedad cerebrovascular encontró que un total de 16 de 1482 (1,1%) pacientes que recibieron angioplastia murieron, así como 19 de 1465(1,3%) de los llevado a endarterectomía. Mirando al IC 95% (0,43 a 1,66) alrededor del estimativo puntual del riesgo relativo (0,85), los resultados son consistentes con un beneficio sustancial y un riesgo sustancial, sugiriendo la necesidad de bajar por imprecisión.

Sin embargo, la diferencia absoluta sugiere una conclusión diferente. La diferencia absoluta en las tasas de muerte entre los dos procedimientos es muy pequeña (diferencia absoluta de 0,2% con un IC 95% que oscila entre -0,5% a 1,0%). Establecer un límite en el umbral de decisión clínica del 1% de diferencia absoluta (la diferencia mínima importante para los pacientes), los resultados de la revisión sistemática excluyen una diferencia favoreciendo alguno de los procedimientos. Si uno aceptara este umbral de decisión clínica como apropiado, no se bajaría por imprecisión. Se podría argumentar que una diferencia de menos del 1% podría ser importante para los pacientes: si fuese el caso, se bajaría por imprecisión, incluso después de considerar el IC alrededor de la diferencia absoluta, puesto que el IC cruzaría el umbral.

Ejemplo 5.32. No hay necesidad de bajar por imprecisión cuando los tamaños de muestra son muy grandes

Un metanálisis de ensayos aleatorizados de β bloqueadores para prevenir eventos cardiovasculares en pacientes sometidos a cirugía no cardíaca sugirió una duplicación en el riesgo de eventos cerebrovasculares con los β bloqueadores (RR: 2,2; IC 95% 1,39 a 3,56). La mayoría de los ensayos en el metanálisis no tenían limitaciones importantes, la evidencia era directa y consistente y no se había detectado sesgo de publicación. Considerando el límite inferior del IC (un incremento en el RR de 39%), el umbral para una precisión adecuada no se iba a cruzar si se creía que la mayoría de los pacientes serían reacios a usar bloqueadores con un aumento en el RR de eventos cerebrovasculares del 39%.

Sin embargo, el número total de eventos (75), parecía insuficiente, dicha inferencia se confirma con el cálculo del TOI (α 0,05, β 0,2 usando la tasa de eventos del 1% del grupo de β bloqueadores como control, y Δ 0,25, un tamaño de muestra total 43586 en comparación con los 10889 pacientes incluidos). Los lineamientos propuestos para calcular la precisión implicarían bajar la calidad por imprecisión.

Sin embargo, con un tamaño de muestra de más de 5000 pacientes por grupo, es probable que la aleatorización hubiese logrado crear el equilibrio pronóstico. Si esto es cierto, los β bloqueadores realmente incrementan el riesgo de eventos cerebrovasculares. Y por tanto en esta situación sería apropiado no disminuir por precisión. Información preliminar sugiere que para un riesgo basal bajo (<5%) uno estaría seguro con respecto al equilibrio pronóstico con un total de 4000 pacientes (2000 pacientes por grupo). Disponer de este número de pacientes implicaría no bajar por imprecisión a pesar de no cumplir el criterio de TOI.

Consideraciones para desenlaces continuos

Las consideraciones para bajar la calidad de la evidencia por imprecisión en las variables continuas siguen la misma lógica que para las variables binarias. El proceso comienza bajando la calidad por imprecisión si una recomendación se alterara si el límite inferior o superior del IC representara el verdadero efecto. Si el IC no cruza este umbral, pero la evidencia falla en cumplir el criterio de TOI, los autores de la guía deberían considerar bajar la calidad de la evidencia por imprecisión. En este caso, juzgar el criterio del TOI requerirá el cálculo del tamaño de la muestra para variables continuas.

En el contexto de una guía, el umbral de decisión clínica para un estimativo de tratamiento aceptable requiere consideración del contexto completo de una recomendación, incluyendo otros desenlaces, como todos los potenciales beneficios y efectos adversos importantes (ver ejemplo 5.33).

Ejemplo 5.33. Considerar el contexto completo de una recomendación

Una revisión sistemática sugiere que la administración de corticoides disminuye la estancia hospitalaria en pacientes con exacerbaciones de enfermedad pulmonar obstructiva crónica (EPOC) en 1,42 días (IC 95%: 0,65 a 2,2). El límite inferior del IC es 0,65 días, un tamaño de efecto muy pequeño que no es considerado importante para los pacientes.

Mientras tanto, los esteroides también reducen el riesgo de falla terapéutica (definido de forma variable) durante el seguimiento intrahospitalario y extra-hospitalario (RR 0,54; IC 95%: 0,41 a 0,71). El mejor estimativo de la probabilidad de deterioro sintomático en aquellos no tratados con esteroides es aproximadamente 30%. Administrar esteroides a estos pacientes reduce el riesgo de 30% a 16% (30-[0,54x30]), una diferencia de 14%, y el efecto es poco probable que sea menor del 9% (30-[0,71x30]).

Los efectos adversos fueron pobremente reportados en los estudios. El único problema reportado consistentemente fue la hiperglicemia, que se incrementó hasta casi seis veces, representando un incremento absoluto del 15% al 20%. El grado en el cual esta hiperglicemia tiene consecuencias importantes para los pacientes, es incierto. Una conclusión posible de esta información, es que dada la magnitud de la reducción en el deterioro y la falta de evidencia que sugiera efectos adversos importantes, un beneficio en la reducción de inclusive 0,65 días del promedio de hospitalización implicaría la administración de esteroides. Si esta fuera la conclusión, el IC (0,65 a 2,2) no cruzaría el umbral en la toma de decisión y el panel de la guía procedería a considerar si la evidencia cumple el criterio de TOI.

  1. Imprecisión en las revisiones sistemáticas

La calidad de la evidencia se refiere a la confianza en el estimativo del efecto. En las revisiones sistemáticas cada desenlace se considera de forma separada.

Los autores de las revisiones sistemáticas no deberían bajar la calidad por imprecisión con base a un balance entre consecuencias deseables e indeseables, no hace parte de su trabajo hacer juicios de valor y preferencias. Por tanto, al momento de juzgar la precisión no se deben concentrar en el umbral que representa la base para tomar una decisión de manejo, sino que por el contrario deben considerar el tamaño óptimo de información para hacer estos juicios.

Consideraciones para desenlaces dicótomos

Sugerimos que los autores de las revisiones sistemáticas consideren los siguientes pasos para decidir bajar la calidad de la evidencia por imprecisión:

Nota: Para poder ser usadas por los desarrolladores de las guías, una revisión sistemática puede señalar cuales umbrales de beneficio implicarían bajar por imprecisión.

Aunque cumplir el umbral del TOI en la presencia de un IC que excluye el no efecto indica una precisión adecuada, lo mismo no es cierto cuando el estimado puntual falla en excluir el no efecto. Considere el ejemplo a continuación, éste sugiere que cuando el criterio de TOI se cumple y el IC incluye el efecto nulo, los autores de la revisión sistemática deben considerar si el IC incluye un beneficio o riesgo apreciable.

Ejemplo 5.34. Cumplir el umbral del TOI puede no asegurar la precisión

Considere la revisión sistemática de los β bloqueadores en cirugía no cardiaca previamente introducida en el ejemplo 5.32. Para la mortalidad total, con 295 muertes y un tamaño de muestra de más de 10000, el estimativo puntual y el IC 95% para el RR con β bloqueadores fue 1,24 (IC 95% 0,99 a 1,56). A pesar del gran tamaño de muestra y el número de eventos, uno puede ser reacio a concluir que la precisión es adecuada cuando hay una reducción pequeña de la mortalidad con los β bloqueadores, así como es posible un incremento del 56%.

Los autores deben usar su juicio al decidir qué constituye un beneficio y un riesgo apreciable y justificar sus elecciones. Si los autores fallan en argumentar el umbral, nuestro umbral predeterminado sugerido para un beneficio o riesgo apreciable que garantiza bajar es una RRR o un incremento del RR de 25% o mayor.

Consideraciones para desenlaces continuos

Los autores de las revisiones pueden calcular el TOI para una variable continua exactamente de la misma forma que lo hacen para variables binarias, especificando umbral de los errores α y β (hemos sugerido 0,05 y 0,2) y del Δ, y seleccionando la desviación estándar poblacional apropiada basados en uno de los estudios relevantes.

Si se va a bajar por imprecisión depende de la elección de la diferencia (Δ) que se desea detectar y el tamaño de la muestra requerido. De nuevo, el mérito de la aproximación GRADE no es que asegura un acuerdo entre individuos racionales, sino que los juicios que se hacen, se hagan de forma explícita.

Ejemplo 5.35. Los juicios acerca de la imprecisión dependen de la elección de la diferencia a detectar

Considere la revisión sistemática previamente introducida en el ejemplo 7, que sugiere que la administración de corticoesteroides disminuye la estancia hospitalaria en pacientes con exacerbaciones de enfermedad pulmonar obstructiva crónica (EPOC) en 1,42 días (IC 95%: 0,65 a 2,2).

Elegir un Δ de 1,0 (insinuando que una reducción en la estancia hospitalaria de más de un día es importante) y usando la desviación estándar asociada con la estancia hospitalaria en los cuatro estudios relevantes (3,4, 4,5, y 4,9) produce unos tamaños de muestra requeridos correspondientes de 364, 636 y 754. El numero de 602 pacientes disponibles para este análisis no cumple el criterio de TOI y uno consideraría bajar por imprecisión.

De haber querido detectar una diferencia más pequeña (p.ej. 0,5 días), el tamaño de la muestra de los estudios habría sido inequívocamente insuficiente. De haber elegido un valor mayor (p.ej. 1,5 días) el tamaño de la muestra de 602 habría cumplido el criterio de TOI.

Desenlaces reportados como una diferencia promedio estandarizada

Un desafío particular al momento de calcular el TOI para las variables continuas aparece cuando los estudios han utilizado diferentes instrumentos para medir un constructo, y el estimativo agrupado se calcula usando una diferencia promedio estandarizada. Los autores de revisiones sistemáticas y de las guías se van a encontrar por lo general con esta situación al momento de tratar con los desenlaces reportados por pacientes tales como la calidad de vida. En este contexto, se sugiere que los autores elijan uno de los instrumentos disponibles (idealmente uno en el cual esté disponible un estimativo de la diferencia mínima importante) y se calcule el TOI usando este instrumento.

Como puede generar falsas esperanzas, dudamos en ofrecer umbral como regla de oro para el número absoluto de pacientes requeridos para una precisión adecuada para variables continuas. Por ejemplo, usar el α estándar (0,05) y β (0,2) y el tamaño del efecto de 0,2 desviaciones estándar representando un efecto pequeño, requiere un tamaño de muestra total aproximado de 400 (200 por grupo), tamaño de muestra que puede no ser suficiente para asegurar un equilibrio pronóstico.

Sin embargo, cuando hay tamaños de muestra que son menores de 400, los autores de la revisión y los desarrolladores de las guías deben considerar bajar por imprecisión. En el futuro simulaciones estadísticas van a proporcionar la base para una regla de oro robusta para los desenlaces continuos. Las limitaciones para un umbral del tamaño de muestra arbitrario sugieren la conveniencia de abordar la precisión calculando el TOI relevante para cada variable continua.

  1. Bajar dos niveles por imprecisión

Cuando existen muy pocos eventos y los IC alrededor de los estimativos del efecto absoluto y relativo, que incluye tanto un beneficio como un riesgo apreciable, los autores de las revisiones y los desarrolladores de las guías deben considerar bajar la calidad de la evidencia en dos niveles.

Ejemplo 5.36. Bajar dos niveles por imprecisión

Una revisión sistemática del uso de prebióticos en la inducción de la remisión de la enfermedad de Crohn encontró un ensayo clínico aleatorizado que incluía 11 pacientes. Cuatro de cinco pacientes en el grupo de tratamiento lograron remisión, y cinco de seis pacientes en el grupo control lograron remisión. El estimativo puntual del riesgo relativo (0,96) sugiere no diferencia, pero el IC incluía una reducción de la probabilidad de remisión de casi la mitad o un incremento del riesgo de más del 50% (IC 95%; 0,56-1,69). Como hay pocos eventos y el IC incluye beneficios y riesgos apreciables, uno podría bajar la calidad de la evidencia dos niveles por imprecisión.

  1. Sesgo de publicación

El sesgo de publicación es una sub o sobre estimación sistemática de los efectos beneficiosos o riesgosos subyacentes debido a una publicación selectiva de estudios. La confianza en los estimativos combinados de los efectos de una revisión sistemática puede disminuirse cuando se sospecha sesgo de publicación, incluso cuando los estudios por si solos tienen bajo riesgo de sesgo.

Nota: Algunos sistemas que evalúan la calidad del cuerpo de evidencia usan el término “sesgo de reporte” con 2 subcategorías: reporte selectivo de desenlaces y sesgo de publicación. Sin embargo, GRADE considera el reporte selectivo de desenlaces bajo el riesgo de sesgo (limitaciones del estudio), puesto que se puede evaluar en cada estudio. Por el contrario, cuando todo un estudio se queda sin publicar (no reportado), se puede evaluar la posibilidad de sesgo de publicación solo con mirar el grupo de los estudios. Actualmente GRADE sigue el abordaje de la Colaboración Cochrane y considera el reporte selectivo de desenlaces como un aspecto del riesgo de sesgo en los estudios individuales (The Cochrane Collaboration’s tool for assessing risk of bias. [Higgns 2011b]).

La evidencia empírica sugiere que los estudios que reportan hallazgos estadísticamente significativos son más probables que sean aceptados para publicación que aquellos que reportan hallazgos estadísticamente insignificantes (“estudios negativos”). El sesgo de publicación aparece cuando un estudio completo no se reporta. La falta de éxito en identificar estudios es un resultado típico de estudios que permanecen no publicados u obscuramente publicados (p.ej. En revistas con circulación limitada, no indexadas en grandes bases de datos, como resúmenes de conferencias o tesis), y por tanto los metodólogos han llamado este fenómeno como “sesgo de publicación”. Los autores de revisiones sistemáticas pueden fallar en identificar estudios no publicados o que hayan sido publicados en revistas no indexadas, de circulación limitada o en literatura gris, aún cuando empleen las técnicas más rigurosas de búsqueda. Si no se implementan técnicas de búsqueda rigurosas es difícil hacer un juicio de sesgo de publicación puesto que los estudios pueden no ser identificados debido a sesgo de publicación como por un esfuerzo insuficiente para identificarlos.

El riesgo de sesgo de publicación puede ser mayor en revisiones sistemáticas de estudios observacionales que en las revisiones de ECAs. Esto puede ocurrir especialmente si los estudios observacionales se conducen automáticamente a partir de registros de pacientes o historias clínicas. En estas instancias resulta difícil para el autor saber si el estudio observacional que aparece en la literatura representa todo o una fracción (usualmente aquellos que mostraron resultados “interesantes”) de los estudios conducidos.

Tabla 5.8. Posibles fuentes de sesgo de publicación a lo largo del proceso de publicación

Fases de publicación de investigación

Acciones que contribuyen o resultan en sesgo

Estudios preliminares y pilotos

Los estudios más pequeños tienen mayor probabilidad de ser “negativos” (p.ej. Aquellos con hipótesis descartadas o fallidas) y permanecen sin publicar; las compañías clasifican algunos como información del propietario

Finalización del informe

Los autores consideran que reportar un estudio “negativo” no es interesante; y no invierten el tiempo y esfuerzo requerido en la publicación

Elección de la revista

Los autores deciden someter el reporte “negativo” a revistas no indexadas, de lenguas no nativas o de circulación limitada.

Consideraciones editorials

El editor decide que el estudio “negativo” no amerita una revisión de pares y rechaza el manuscrito.

Revisión de pares

Los pares revisores concluyen que los estudios “negativos” no contribuyen al área de investigación y recomiendan rechazar el manuscrito. Lo que ocasiona que el autor busque una revista de menor impacto. Retraso en la publicación

Revisión del autor y reenvío para nuevo sometimiento

El autor del manuscrito rechazado decide abstenerse de enviar un estudio “negativo” o lo envía más tarde a otra revista (ver elección de la revista)

Publicación del informe

Las revistas retrasan la publicación de estudios “negativos”. Los propietarios interesados someten y son aceptados por diferentes revistas.

Los estudios con tamaños de muestra pequeños son más propensos a no ser publicados o ignorados. Discrepancias entre los resultados de metanálisis de estudios pequeños y de estudios más grandes posteriores pueden ocurrir hasta en el 20% de los casos, el sesgo de publicación puede contribuir de manera importante en dichas discrepancias. Por lo tanto se debe sospechar sesgo de publicación cuando la evidencia se limita a un pequeño número de estudios pequeños. Esto resulta especialmente cierto si muchos de estos estudios pequeños muestran beneficios de alguna intervención.

Los métodos para detectar el posible sesgo de publicación en una revisión sistemática incluyen inspección visual y pruebas de asimetría en los gráficos de embudo (para mayor información los lectores pueden consultar el Manual Cochrane. Capítulo 104. Detectando sesgos de publicación). El examen empírico de los patrones de los resultados puede sugerir sesgo de publicación si los resultados son asimétricos con respecto al resumen del estimado del efecto. Esto se puede determinar tanto mediante inspección visual de la gráfica de embudo (como se muestra a continuación) o a partir de un resultado positivo en una prueba estadística de asimetría. Como regla de oro, la gráfica de embudo y las pruebas estadísticas de asimetría se deben usar para detectar sesgo de publicación si existen al menos 10 estudios incluidos en el metanálisis (algunos dicen que al menos 5 estudios).

Otra prueba utilizada para detectar sesgo de publicación es el método de “recortar y llenar”, que es una extensión del gráfico de embudo. Esta técnica de “recortar y llenar” comienza quitando los estudios pequeños y “positivos” que no tienen una contraparte negativa, dejando así un gráfico de embudo simétrico. El supuesto nuevo efecto verdadero se calcula usando los efectos de los estudios incluidos en el nuevo gráfico de embudo. El siguiente paso es agregar los estudios hipotéticos que reflejan los resultados de los estudios positivos, pero conservando el nuevo efecto estimado combinado. Es importante notar que aún si se detecta asimetría, puede no ser resultado de un sesgo de publicación. Por ejemplo, en estudios pequeños, efectos sobreestimados puede producir un gráfico de embudo asimétrico que podría explicarse por limitaciones diferentes del sesgo de publicación como una población de estudio restrictiva. Para fortalecer conclusiones en relación con el sesgo de publicación se recomienda usar múltiples pruebas.

Los metanálisis recursivos acumulados, utilizados para detectar el sesgo de retraso en el tiempo, realizan un metanálisis al final de cada año, identificando cambios en el estimado del efecto para cada año en curso. Si el efecto de una intervención continúa disminuyendo, indica fuertemente sesgo de retraso en el tiempo.

Independientemente de la prueba utilizada, los autores de revisiones sistemáticas y los desarrolladores de las guías deben tener presente que dichas pruebas son susceptibles de tener errores y que sus resultados se deben interpretar con precaución. Es extremadamente difícil estar seguro que no existe sesgo de publicación y casi igual de difícil de establecer un umbral de cuando bajar la calidad de la evidencia porque hay una sospecha fuerte de sesgo de publicación. Por ésta razón GRADE sugiere bajar la calidad de la evidencia por sesgo de publicación máximo en un nivel.

Ejemplo 5.37. Los estudios con hallazgos positivos (p.ej. Diferencias estadísticamente significativas) es más probable que sean publicados que aquellos con hallazgos negativos o nulos.

Una revisión sistemática evaluó hasta qué punto la publicación de una cohorte de ensayos clínicos estaba influenciada por la significancia estadística, importancia percibida o por la dirección de los resultados. Encontró cinco estudios que investigaron esta asociación en una cohorte de ensayos clínicos registrados. Los ensayos con hallazgos positivos tenían mayor probabilidad de ser publicados que los estudios con hallazgos negativos y nulos (OR 3,9 IC 95%: 2,7 a 5,7). Esto corresponde a un riesgo relativo de 1,8 (IC 95%: 1,6 a 2,0), asumiendo que el 41% de los ensayos negativos son publicados (la mediana de los estudios incluidos, rango=11% a 85%). En términos absolutos, esto significa que, si el 41% de los estudios negativos se publica, se esperaría que el 73% de los estudios positivos se publicaran. Dos estudios evaluaron el tiempo hasta la publicación y mostraron que los estudios con hallazgos positivos tendían a ser publicados después de 4 a 5 años comparados con aquellos con hallazgos negativos, los cuales se publicaban después de 6 a 8 años. Tres estudios no encontraron una asociación estadísticamente significativa entre el tamaño de la muestra y la publicación. Uno de los estudios encontró que no hay asociación estadísticamente significativa entre el mecanismo de financiación, el ranking del investigador o el sexo y la publicación.

Las revisiones sistemáticas realizadas tempranamente en el desarrollo del cuerpo de la investigación pueden estar sesgadas por la tendencia a publicar tempranamente los resultados “positivos” y por la no publicación o la publicación tardía de los resultados negativos. Esto se conoce como “sesgo de tiempo” y es especialmente cierto en los estudios financiados por la industria.

Ejemplo 5.38. Estimativo del efecto reducido como resultado de estudios negativos no publicados

Una investigación de 74 estudios de antidepresivos con un promedio de tamaño de muestra de menos de 200 pacientes fue sometida a la FDA. De los 38 estudios vistos como positivos por la FDA, 37 se publicaron. De los 36 estudios vistos como negativos por la FDA solo 14 se publicaron. Un sesgo de publicación de esta magnitud puede sesgar seriamente el estimado del efecto.

Uso de gráficos de embudo para detectar sesgo de publicación

En el grafico A los círculos representan los estimados puntuales en los estudios. El patrón de distribución asemeja un embudo invertido. Los estudios más grades tienden a estar más cerca al estimado combinado (la línea discontinua). En este caso, los tamaños de los efectos de los estudios más pequeños se encuentran más o menos simétricamente distribuidos alrededor del estimado combinado.

En el grafico B se detecta el sesgo de publicación. Este gráfico de embudo muestra que los estudios más pequeños no están simétricamente distribuidos ni alrededor del estimado puntual (dominado por los estudios más grandes) ni de los resultados de los mismos estudios más grandes. Los estudios que se deberían encontrar en el cuadrante inferior derecho están ausentes. Una posible explicación para estos resultados es el sesgo de publicación – un sobreestimado del efecto de tratamiento relativo al verdadero efecto subyacente.

Ejemplo 5.39.Sesgo de publicación detectado

Un número de ensayos pequeños de una revisión sistemática de la terapia de oxígeno en pacientes con enfermedad pulmonar obstructiva crónica mostraron que la intervención mejoró la capacidad de ejercicio, pero la evaluación de la información sugería sesgo de publicación. [Higgins 2011]

El gráfico de embudo de la distancia de ejercicio muestra la distancia en el eje x y la varianza en el eje y. Los puntos rojos representan las diferencias promedio de los estimados de cada estudio individual y la línea punteada el estimado puntual del efecto promedio indicando beneficio de la terapia con oxígeno. La distribución de estos puntos a la derecha de la línea punteada sugiere que puede ser equivalente el número de estudios “negativos” que no han sido incluidos en el análisis. Por tanto uno puede bajar la calidad de la evidencia en este caso por la incertidumbre que resulta de la asimetría en el patrón de los resultados.

Ejemplo 5.40. Sesgo de publicación detectado

Una revisión sistemática de anticoagulación parenteral para prolongar la sobrevida en pacientes con cáncer que no tienen otra indicación para anticoagulación mostró cinco ECAs que estaban simétricamente distribuidos alrededor del mejor estimado del efecto. El sesgo de publicación no es detectado en este escenario y por lo tanto no debería bajarse la calidad de la evidencia. [Higgins 2011]

¿Cuándo bajar la calidad de la evidencia por sospecha de sesgo de publicación?

Los paneles de las guías y los autores de revisiones sistemáticas deben considerar el grado de incertidumbre acerca de la magnitud del efecto debido a publicación selectiva de estudios y deben bajar la calidad de la evidencia en un nivel. Considere:

La consideración de los factores que disminuyen la calidad de la evidencia debe preceder la consideración de las razones para aumentarla. Por tanto, los 5 factores que disminuyen la calidad de la evidencia (riesgo de sesgo, imprecisión, inconsistencia, evidencia indirecta y sesgo de publicación) deben ser calificados previo a los 3 factores para aumentar la calidad (gran efecto/efecto de gran magnitud, gradiente dosis- respuesta y efectos de confusión residual). La decisión para aumentar la calidad de la evidencia solo debe realizarse cuando no hay limitaciones serias en cualquiera de las 5 áreas que reducen la calidad de la evidencia.

Las siguientes secciones discuten en detalle los 3 factores que permiten aumentar la calidad de la evidencia, p.ej. Incrementar la confianza en el estimado del efecto.

  1. Factores que pueden aumentar la calidad de la evidencia

Bajo la aproximación GRADE, el cuerpo de la evidencia proveniente de estudios observacionales se clasifica inicialmente como baja calidad de evidencia (p.ej. Baja confianza en el estimado del efecto). Sin embargo, existen ocasiones en las que se tiene alta confianza en el estimado del efecto proveniente de estudios observacionales (incluyendo cohortes, casos y controles, antes y después, estudios de series de tiempo, etc.) y estudios experimentales no aleatorizados (p.ej. Estudios cuasi-aleatorios o ensayos controlados no aleatorizados). Las circunstancias en las cuales el cuerpo de evidencia de estudios observacionales puede proveer más alta confianza que la baja confianza en los estimados de los efectos probablemente ocurren con poca frecuencia.

Nota: aunque existe teóricamente la posibilidad de incrementar la calidad de estudios controlados aleatorizados, tenemos que encontrar un ejemplo convincente de una instancia de este tipo.

  1. Efecto de gran magnitud

Cuando el cuerpo de la evidencia de estudios observacionales no se disminuye por ninguno de los 5 factores, y arroja estimados grandes o muy grandes de la magnitud del efecto una intervención, en ese caso se puede tener más confianza acerca de los resultados. En esas situaciones, a pesar que los estudios observacionales tienen mayor probabilidad de sobreestimar el verdadero efecto, el diseño del estudio que es más propenso al sesgo es poco probable que explique la totalidad del beneficio aparente (o riesgo). La decisión de aumentarla calidad de la evidencia porque hay un efecto grande o muy grande (tabla 5.9) debe considerar no solo el estimado puntual sino también la precisión (amplitud del IC) alrededor del efecto: uno debe rara vez y con mucha precaución subir la calidad de la evidencia por un gran efecto aparente si el IC se superpone sustancialmente con efectos más pequeños que el umbral elegido de importancia clínica.

Tabla 5.9. Definiciones de efecto grande y muy grande

Magnitud del efecto

Definición

Calidad de la evidencia

Grande

RR* >2 o <0,5

(basado en evidencia directa y sin posibles factores de confusión)

Puede aumentar un nivel

Muy grande

RR* >5 or<0,2

(basado en evidencia directa sin problemas serios, sin riesgo de sesgo o precisión, p.ej. Con intervalos de confianza muy angostos)

Puede aumentar 2 niveles

*Estas reglas aplican cuando el efecto medido se expresa como riesgo relativo (RR) o razón de riesgos (HR). No se pueden aplicar siempre si la medida del efecto está expresada como (OR).  Se sugiere convertir OR a RR y ahí si evaluar la magnitud del efecto.

Existe mayor probabilidad de aumentar la calidad de la evidencia por magnitud de efecto grande o muy grande si:

Nota: cuando los desenlaces son subjetivos es importante tener precaución al momento de considerar subir la calidad sólo por los grandes efectos observados. Esto resulta especialmente cierto cuando los evaluadores de los desenlaces conocían a qué grupo del estudio pertenecían los sujetos (p.ej. no eran ciegos)

Ejemplo 5.41.

Una revisión sistemática de estudios observacionales que evaluaba la relación entre la posición de dormir de los niños y el síndrome de muerte súbita del lactante (SMSL), encontró un OR de 4,1 (IC 95% 3,1 a 5,5) de SMSL ocurriendo en posición de decúbito supino versus prono. En adelante las campañas “de espalda para dormir” (por su traducción en inglés “back to sleep”) que iniciaron en 1980 para promover la posición de espalda al momento de dormir se asociaron a una disminución en la incidencia de SMSL en un 50 a 70% en numerosos países.

  1. Gradiente dosis- respuesta

La presencia del gradiente dosis respuesta ha sido reconocido por mucho tiempo como un criterio importante por aceptar como cierto la relación causa-efecto putativa. La presencia del gradiente dosis-respuesta puede incrementar nuestra confianza en los hallazgos de los estudios observacionales y por tanto aumentar la calidad de la evidencia.

Ejemplo 5.42. Gradiente dosis respuesta (aumentar un nivel)

La observación que en los pacientes anticoagulados con warfarina, existe un gradiente dosis respuesta entre los niveles más altos de INR (razón normalizada internacional), un indicador del grado de anticoagulación, y un mayor riesgo de sangrado, incrementa nuestra confianza que los niveles supra terapéuticos de anticoagulación incrementan el riesgo de sangrado.

Ejemplo 5.43. Gradiente dosis respuesta (aumentar un nivel)

El gradiente dosis respuesta asociado con la rapidez de la administración de antibióticos en pacientes con sepsis e hipotensión también puede ser una razón para aumentar la calidad de la evidencia para tales estudios. Existe un gran incremento absoluto en la mortalidad por cada hora de retraso en la administración de antibiótico. Esta relación dosis respuesta incrementa nuestra confianza que el efecto sobre la mortalidad es real y sustancial y conlleva a aumentar la calidad de la evidencia.

  1. Efecto de los potenciales factores de confusión residual

En ocasiones todos los potenciales factores de confusión residual de estudios observacionales pueden estar funcionando para disminuir el efecto demostrado o incrementar el efecto, si no se observó ningún efecto

Los estudios observacionales rigurosos medirán con precisión los factores pronóstico asociados al desenlace de interés y conducirán un análisis ajustado que demuestre las diferencias en la distribución de estos factores entre los grupos de intervención y control. La razón por la cual en la mayoría de las instancias se considera que los estudios observacionales solo proveen evidencia de baja calidad es que los determinantes no medidos o desconocidos de desenlaces no incluidos en el análisis ajustado es probable que se distribuyan de forma desigual entre los grupos de intervención y control, lo que se refiere como “confusión residual” o “sesgo residual”.

En ocasiones, todos los posibles factores de confusión (sesgos) de estudios observacionales no evaluados en el análisis ajustado (p.ej. factores de confusión residual) de un estudio observacional riguroso puede resultar en una subestimación de un efecto del tratamiento aparente. Si, por ejemplo, solo los pacientes más enfermos reciben una intervención o exposición experimental, y sin embargo todavía les va mejor, es probable que el efecto de la intervención o exposición actual sea incluso mayor que el sugerido por los datos. Una situación paralela existe cuando los estudios observacionales han fallado en demostrar una asociación.

Ejemplo 5.44 Cuando se espera que los factores de confusión reduzcan el efecto demostrado (subir por un nivel)

Una revisión sistemática rigurosa de estudios observacionales que incluyó un total de 38 millones de pacientes demostró tasas más altas de muerte en hospitales privados con fines de lucro versus hospitales privados sin ánimo de lucro. Sin embargo, es probable que los pacientes en los hospitales sin ánimo de lucro estuvieran más enfermos que aquellos pacientes en los hospitales con fines lucrativos. Esto podría sesgar los resultados en contra de los hospitales sin ánimo de lucro. El segundo sesgo probable es la posibilidad que un mayor número de pacientes con seguros privados con excelente cobertura conducirían hospitales con más recursos y un efecto “indirecto” que podría beneficiar aquellos sin esa cobertura. A su vez como en los hospitales con fines lucrativos es más probable que admitan una mayor proporción de pacientes con dichos seguros, que los hospitales sin ánimo de lucro, el sesgo es una vez más en contra de estos últimos. Como todos los posibles sesgos disminuirían el efecto de la intervención demostrado, se puede considerar la calidad de la evidencia de este estudio observacional como moderada en vez de baja.

Ejemplo 5.45 Cuando se espera que los factores de confusión reduzcan el efecto demostrado (subir por un nivel)

En una revisión sistemática investigando el uso de condones en relaciones homosexuales entre hombres como una forma de prevención de la transmisión del VIH, se identificaron cinco estudios observacionales. El estimativo combinado fue un riesgo relativo de 0,34 (IC 95% 0,21 a 0,54) a favor del uso del condón. Los autores fallaron en ajustar el análisis al hecho que los usuarios de los condones son más propensos a tener más parejas que los que no usan condones. Uno esperaría que a mayor número de parejas mayor sea el riesgo de adquirir VIH y por tanto reduce el riesgo relativo resultante de infección por VIH. Por lo tanto, la confianza en este efecto que sigue siendo grande, llevaría a subir en un nivel.

Ejemplo 5.46. Cuando se espera que los factores de confusión incrementen el efecto pero no se observa ningún efecto (subir por un nivel)

El medicamento hipoglucemiante Fenformina causa acidosis láctica, y el agente relacionado Metformina está bajo sospecha por la misma toxicidad. Estudios observacionales muy grandes han fallado en demostrar una asociación entre metformina y acidosis láctica. Dada la probabilidad que los clínicos hubiesen estado más alerta a la acidosis láctica con la metformina y que habría sobre-reportado su ocurrencia, y aún así no se ha encontrado asociación, se podría aumentar la evidencia.

Ejemplo 5.47. Cuando se espera que los factores de confusión incrementen el efecto pero no se observa ningún efecto (subir por un nivel)

Considere los reportes tempranos que asociaban la vacuna MMR con autismo. Se pensaría que habría sobre-reporte de autismo en niños que recibieron la vacuna MMR. Sin embargo, las revisiones sistemáticas fallaron en probar cualquier asociación entre los dos. Debido a los resultados negativos, a pesar de la potencial presencia de factores de confusión que aumentarían la probabilidad de reportar autismo, no se encontró ninguna asociación. Por tanto, se puede subir la evidencia en un nivel.

  1. Calidad global de la evidencia

La calidad global de la evidencia es la calificación combinada de la calidad de la evidencia a lo largo de todos los desenlaces considerados críticos para responder la pregunta de investigación (p.ej. tomar una decisión o recomendación).

Se advierte en contra de un enfoque mecánico en la aplicación de criterios para disminuir o aumentar la calidad de la evidencia. Aunque GRADE sugiere la consideración inicial por separado de cinco categorías de razones para reducir la calidad de la evidencia y tres categorías para aumentarla, con decisiones de si/no para subirla o bajarla en cada caso, la calificación final de la calidad global de la evidencia ocurre como un continuum de confianza en las estimaciones de los efectos.

Para los autores de las revisiones sistemáticas

Los autores de las revisiones sistemáticas no califican la calidad global de la evidencia a lo largo de los desenlaces. Como las revisiones sistemáticas no formulan recomendaciones, o al menos no lo deberían hacer, los autores califican la calidad de la evidencia solo para cada desenlace de forma separada.

Para los paneles de las guías y otros que formulan recomendaciones

El panel de la guía debe determinar la calidad global de la evidencia a lo largo de todos los desenlaces críticos esenciales para la recomendación que realizan. Los paneles de las guías proveen un único grado de la calidad de la evidencia para cada recomendación, pero la fuerza de la recomendación usualmente depende de la evidencia no solo de uno, sino de varios desenlaces importantes para los pacientes y de la calidad de la evidencia para cada uno de estos desenlaces.

Como la aproximación GRADE califica la calidad de la evidencia de forma separada para cada desenlace, es frecuente que la calidad difiera a lo largo de los desenlaces. Al momento de determinar la calidad global de la evidencia a lo largo de los desenlaces:

Ejemplo 5.48. Calificar la calidad global de la evidencia basado en la importancia de los desenlaces

Varias revisiones sistemáticas de ensayos aleatorizados de alta calidad sugieren una disminución en la incidencia de infecciones y, probablemente, en la mortalidad de pacientes ventilados en unidad de cuidado intensivo recibiendo descontaminación digestiva selectiva (DDS). La calidad de la evidencia del efecto de DDS en la emergencia de resistencia antibiótica bacteriana y su relevancia clínica no es tan clara. Uno podría razonablemente calificar la evidencia de este temido efecto adverso potencial como de baja calidad. Si quienes formulan las recomendaciones consideran que las desventajas de esta terapia son críticas, la calidad global de la evidencia para DDS sería baja. Si el panel de la guía considera que la emergencia de resistencia antibiótica fuese importante más no crítica, la calidad global de la evidencia sería alta.

Sin embargo, cuales desenlaces son críticos depende de la evidencia. En ocasiones, la confianza global en el estimativo del efecto puede que no provenga de los desenlaces juzgados como críticos al principio del proceso del desarrollo de la guía – los juicios acerca de cuáles desenlaces son críticos para la decisión (recomendación) pueden cambiar al considerar los resultados. Nótese que dichos juicios requieren consideraciones cuidadosas y rara vez suceden.

Ejemplo 5.49. Situaciones prototipo en las cuales un desenlace considerado inicialmente crítico deja de serlo cuando se resume la evidencia:

  • Un desenlace resulta no ser relevante (p.ej. un efecto adverso particular se puede considerar como crítico al principio del proceso de la guía, pero si resulta que ese evento ocurre de forma infrecuente, la decisión final puede ser que este efecto adverso es importante pero no crítico para la recomendación).
  • Un desenlace resulta no necesario si, a lo largo de todos los posibles efectos de la intervención de ese desenlace, la recomendación y su fuerza permanecerían iguales. Si hay calidad de la evidencia más alta para algunos desenlaces críticos que apoyen una decisión, entonces no se necesitaría disminuir la calidad de la evidencia por baja confianza en el estimativo del efecto en otros desenlaces críticos que apoyen la misma recomendación.

Por ejemplo, considere la siguiente pregunta: ¿se debe usar estatinas versus no estatinas en individuos en los que no se ha documentado enfermedad coronaria, pero con alto riesgo de eventos cardiovasculares? los desarrolladores de las guías inician el proceso considerando los desenlaces: muerte por causas cardiovasculares, infarto de miocardio, eventos cerebrovasculares y efectos adversos, como críticos para la decisión.

Una revisión sistemática o ensayos aleatorizados demostraron reducción consistente en el infarto de miocardio y eventos cerebrovasculares, pero no encontraron reducciones significativas en las muertes coronarias. Los efectos adversos serios fueron inusuales y reversibles con la descontinuación del medicamento. Los autores de las guías encontraron que para tres de cuatro desenlaces (infarto de miocardio, eventos cerebrovasculares y efectos adversos) había alta calidad de la evidencia. Para las muertes coronarias la calidad de la evidencia era moderada por imprecisión.

¿La calidad global de la evidencia a lo largo de los desenlaces debería ser alta o moderada? Los juicios realizados al principio del proceso sugieren que la respuesta es calidad de la evidencia “moderada”. Sin embargo, una vez que se establece que el riesgo de infarto de miocardio y de eventos cerebrovasculares disminuye con estatinas, la mayoría de las personas considerarían que es una razón convincente para usar estatinas. Saber si la mortalidad coronaria también disminuye ya no resulta necesario para la decisión (siempre y cuando sea poco probable que se incremente). Considerando esto, la forma más apropiada de designar la calidad global de la evidencia es “alta”.


CAPÍTULO 6. De la evidencia a las recomendaciones

  1. Las recomendaciones y su fuerza

La fuerza de una recomendación refleja el grado de confianza de un panel de una guía, en que los efectos deseados de una intervención son mayores que los efectos indeseables, o viceversa, a lo largo de los pacientes para los cuales está dirigida la recomendación.

GRADE específica dos categorías de la fuerza de la recomendación. Si bien GRADE sugiere usar los términos recomendación fuerte y recomendación débil, aquellos que formulan las recomendaciones pueden elegir distintos términos para caracterizar estas dos categorías de la fuerza.

En casos especiales, el panel de la guía puede recomendar que una intervención se use solo en investigación hasta que se generen más datos, lo que permitiría una recomendación más completa o no hacer una recomendación en absoluto.

Existen limitaciones para la calificación formal de las recomendaciones. Al igual que la calidad de la evidencia, el balance entre efectos deseables e indeseables refleja un continuum.  Es por esto, que se asociará con algún grado de arbitrariedad el poner una recomendación particular en categorías como “fuerte” y “débil”. La mayoría de organizaciones que producen guías han decidido que las ventajas de un grado de recomendación explícita sobrepasan sus desventajas.

Figura 6.1. Fuerza de las recomendaciones: un continuum dividido en categorías

Para un panel de guía y otros que formulen recomendaciones para ofrecer recomendaciones fuertes, deben tener certeza de los varios factores que influyen la fuerza de la recomendación. El panel también debe tener la información relevante disponible que soporta el balance hacia los efectos deseables de una intervención (para recomendar la acción) o los efectos indeseables (para recomendar en contra de la acción).

Cuando el panel de una guía no tiene certeza si el balance es claro o cuando la información relevante acerca de los varios factores que influyen en la fuerza de la recomendación no se encuentra disponible, el panel de la guía debe ser más cauteloso y en la mayoría de los casos debe optar por formular recomendaciones débiles.

Figura 6.2. Escalas de balance para describir recomendaciones fuertes versus débiles

Para ayudar a la interpretación, GRADE sugiere implicaciones de recomendaciones fuertes o débiles que acompaña a las recomendaciones. La ventaja de dos categorías de la fuerza de la recomendación es que provee una clara dirección para pacientes, clínicos y desarrolladores de políticas.

Tabla 6.1. Implicaciones de recomendaciones fuertes y débiles para los diferentes usuarios de las guías

 

Recomendaciones fuertes

Recomendaciones débiles

Para pacientes

La mayoría de los individuos en esta situación desearían el curso de acción recomendado y solo una pequeña proporción no lo desearía.

La mayoría de los individuos desearían el curso de acción sugerido, pero muchos no

Para clínicos

La mayoría de los individuos debería recibir el curso de acción recomendado. La adherencia a esta recomendación de acuerdo a la guía podría ser usada como un criterio de calidad o un indicador de rendimiento.

Es poco probable que se necesite ayuda en las decisiones formales para ayudar a los individuos a tomar decisiones coherentes con sus valores y preferencias.

Reconocer que opciones diferentes serían apropiadas para distintos pacientes, y que se debe ayudar para que cada paciente alcance una decisión de manejo consistente con sus valores y preferencias. Las ayudas en decisiones pueden resultar útiles al momento de ayudar a los individuos en la toma de decisiones coherentes con sus valores y preferencias. Los clínicos deben esperar pasar más tiempo con los pacientes en el proceso de la toma de decisión.

Para desarrolladores de políticas

La recomendación se puede adaptar como política en la mayoría de las situaciones incluyendo su uso como indicador de rendimiento.

Formular políticas requeriría de debates importantes y la participación de muchas partes interesadas.

Es muy probable que las políticas varíen entre regiones. Los indicadores de rendimiento tendrían que centrarse en el hecho que la deliberación adecuada acerca de las opciones de manejo ha tenido lugar.

La individualización de la toma de decisiones clínicas con recomendaciones débiles sigue siendo un desafío. Aunque los clínicos deben siempre considerar las preferencias y valores de los pacientes, cuando se enfrentan a una recomendación débil deben tener una conversación más detallada con los pacientes que la que deberían tener si fuese una recomendación fuerte, para asegurar que la decisión final es coherente con las preferencias y valores del paciente.

Es importante resaltar que los clínicos, pacientes, pagadores, comités de revisión institucional, otros interesados o los tribunales nunca deberían ver las recomendaciones como obligación. Incluso las recomendaciones fuertes basadas en evidencia de alta calidad no se aplicarán a todos los pacientes y en todas las circunstancias.

Los usuarios de las guías pueden concluir razonablemente que seguir algunas recomendaciones fuertes basadas en evidencia de alta calidad puede ser un error para algunos pacientes. Ninguna guía de práctica clínica o recomendación puede tener en cuenta todas las posibles características únicas de pacientes o circunstancias clínicas. Por lo tanto, nadie a cargo de evaluar las acciones de los clínicos, debe intentar aplicar las recomendaciones de memoria o de manera absoluta.

  1. Recomendaciones fuertes

Una recomendación fuerte es aquella con la cual el panel de la guía tiene confianza que el efecto deseable de la intervención supera los efectos indeseables (recomendación fuerte para una intervención) o que los efectos indeseables de una intervención, superan los efectos deseables (recomendación fuerte en contra de una intervención).

Nota: las recomendaciones fuertes no necesariamente son recomendaciones de alta prioridad

Una recomendación fuerte implica que la mayoría o todos los individuos se beneficiarían por el curso de acción recomendado. 

Ejemplo 6.1. Algunas recomendaciones fuertes

Anticoagulación temprana en pacientes con trombosis venosa profunda para prevención de embolismo pulmonar;

Antibióticos para el tratamiento de la neumonía adquirida en la comunidad;

Dejar de fumar para prevenir consecuencias adversas de la exposición al humo del cigarrillo;

Uso de broncodilatadores en pacientes con EPOC

  1. Recomendaciones débiles

Una recomendación débil es aquella en la cual el efecto deseable probablemente sobrepase los efectos indeseables (recomendación débil para una intervención), o los efectos indeseables probablemente sobrepasen los efectos deseables (recomendación débil en contra de una intervención), pero existe una incertidumbre apreciable.

Una recomendación débil sugiere que no todos los individuos se beneficiarían por el curso de acción recomendado. Se necesita considerar más cuidadosamente que lo usual las circunstancias individuales, las preferencias y los valores de los pacientes. Cuando hay recomendaciones débiles, los clínicos deben dedicar más tiempo a compartir el proceso de toma de decisión, asegurándose que se explican de forma clara y comprensible los beneficios y riesgos potenciales a los pacientes.

Nombres alternativos para recomendaciones débiles

Algunos se han preocupado que el término “recomendación débil”, experimente una connotación negativa no intencionada con la palabra “débil”, incluso confundiéndola frecuentemente con evidencia “débil”. Para evitar confusión, se pueden usar los siguientes términos en lugar de “recomendación débil”:

Si se usa alguna de las variaciones, es esencial que los autores sean consistentes con todas las recomendaciones a lo largo de la guía y en todas las guías que produzcan.

  1. Recomendaciones para el uso de intervenciones únicamente en investigación

Intervenciones prometedoras (usualmente nuevas) con evidencia hasta ahora insuficiente del beneficio que soporte su uso, pueden estar asociadas con potenciales daños o costos. Quienes tomas las decisiones pueden preocuparse de proveer recomendaciones favorables prematuras de uso, alentando la rápida difusión de intervenciones potencialmente ineficaces o perjudiciales, y previniendo el reclutamiento de investigaciones en curso. Igualmente pueden estar reacios a recomendar en contra de dichas intervenciones por miedo a inhibir investigación futura. Formulando una recomendación para el uso de una intervención únicamente en el contexto de investigación, los autores pueden proporcionar un estímulo importante a los esfuerzos para responder las preguntas de investigación, resolviendo la incertidumbre sobre el manejo óptimo.

Recomendaciones para usar intervenciones únicamente en investigación son apropiadas cuando se cumplen tres condiciones:

Las recomendaciones para el uso de intervenciones en investigación deben acompañarse de sugerencias detalladas sobre las preguntas de investigación específicas que se deberían abordar, particularmente los desenlaces importantes para el paciente que se deben medir.  La recomendación para investigación se puede acompañar de una recomendación fuerte explícita acerca de no usar la intervención experimental fuera del contexto de investigación.

  1. Ninguna recomendación

Existen 3 razones por las cuales quienes formulan las recomendaciones pueden estar reacios a formular una recomendación a favor o en contra de una estrategia de manejo particular, y también concluyen que recomendar el uso de la intervención solo en investigación tampoco es apropiado. Estas razones son:

La tercera razón requiere explicación. Considere pacientes adultos con talasemia mayor que están considerando trasplante de células hematopoyéticas (posibilidad de cura pero con un riesgo de mortalidad temprana del 33%) versus tratamiento médico continuo con transfusión y quelación de hierro (morbilidad continua y un pronóstico incierto). Un panel de una guía puede considerar que en dichas situaciones la única recomendación sensata es una discusión entre el paciente y el médico para determinar las preferencias de los pacientes.

Sin embargo, para los usuarios de las guías puede resultar frustrante la falta de orientación cuando el panel de la guía falla en formular una recomendación. El USPSTF establece: “quienes toman las decisiones no se pueden dar el lujo de esperar cierta evidencia. Aún cuando la evidencia es insuficiente, los clínicos deben proporcionar consejo, los pacientes deben tomar decisiones, y los desarrolladores de políticas deben establecer políticas” [Petitti 2009].

Los clínicos rara vez explorarán la evidencia tan minuciosamente como el panel de la guía, ni van a dedicar mucha atención al balance, o los posibles valores y preferencias subyacentes de la población. GRADE alienta a los paneles a pasar este inconveniente y a formular recomendaciones aún cuando la confianza en el estimativo del efecto es baja y/o las consecuencias deseables e indeseables están estrechamente balanceadas. Dichas recomendaciones, inevitablemente serán débiles y se pueden acompañar de calificaciones.

En la circunstancia inusual en la que el panel decida no formular la recomendación, deben especificar la razón de esta decisión (ver arriba).

  1. Factores que determinan la dirección y fuerza de las recomendaciones

Cuatro factores clave influyen la dirección y la fuerza de una recomendación (tabla 6.2)


Tabla 6.2. Dominios que contribuyen a la fuerza de la recomendación

Dominios

Comentarios

Balance entre desenlaces deseables e indeseables (intercambio) teniendo en cuenta:

-el mejor estimativo de la magnitud del efecto en los desenlaces deseables e indeseables

-importancia de los desenlaces (valores y preferencias típicos estimados)

Entre mayor sean las diferencias entre las consecuencias deseables e indeseables, mayor probabilidad de justificar una recomendación fuerte. Entre más pequeño sea el beneficio neto y menor sea la certeza del beneficio, mayor probabilidad de garantiza una recomendación débil

Confianza en la magnitud de los estimativos del efecto de intervenciones en los desenlaces importantes (calidad global de la evidencia para desenlaces)

A mayor sea la calidad de la evidencia, mayor es la probabilidad de una recomendación fuerte

Confianza en los valores y preferencias y su variabilidad

A mayor sea la variabilidad en los valores y preferencias, o la incertidumbre acerca de los valores típicos y preferencias, mayor probabilidad de una recomendación débil.

Uso de los recursos y costos

Cuanto mayores sean los costos de una intervención (más recursos consumidos), menor probabilidad de una recomendación fuerte

  1. Balance entre consecuencias deseables e indeseables

Al momento de decidir acerca del balance entre desenlaces deseables e indeseables (intercambio), se deben considerar dos dominios:

Estimativos de la magnitud de los efectos deseables e indeseables

Efectos relativos grandes de una intervención consistentemente apuntando a la misma dirección – hacia efectos deseables o hacia efectos indeseables, es más probable que garanticen una recomendación fuerte.

Al contrario, efectos relativos grandes de una intervención apuntando en direcciones opuestas – grandes efectos deseables acompañados de grandes efectos indeseables llevarán a una recomendación débil.

También es más probable que los grandes efectos absolutos conduzcan a una recomendación fuerte, que los efectos absolutos pequeños. El riesgo basal (tasa de eventos en el grupo control) puede influenciar el balance de desenlaces deseables e indeseables. Grandes diferencias en el riesgo basal resultarán en grandes diferencias en efectos absolutos de una intervención. Por tanto, la fuerza de la recomendación y su dirección probablemente diferirá en los grupos de alto y de bajo riesgo.

Ejemplo 6.2. Influencia del balance de efectos deseables/indeseables en la definición de la recomendación

Gran balance entre efectos deseables e indeseables (mayor probabilidad de una recomendación fuerte)

  1. El gran balance entre los beneficios de bajas dosis de aspirina en la reducción de la mortalidad y la recurrencia del infarto del miocardio, y las consecuencias indeseables de efectos adversos mínimos y los costos hacen que sea muy probable una recomendación fuerte.

Pequeño balance entre efectos deseables e indeseables (mayor probabilidad de una recomendación débil)

  1. Considere la elección de agentes inmunomoduladores, a saber ciclosporina o tacrolimus, en receptores de trasplante renal. Tacrolimus resulta en una mejor sobrevida del injerto (desenlace altamente valorado), pero a un costo importante, por una mayor incidencia de diabetes (las complicaciones a largo plazo que pueden ser devastadoras).
  2. Los pacientes con fibrilación auricular típicamente son más reacios a los eventos cerebrovasculares que al sangrado. Sin embargo, si el riesgo de eventos cerebrovasculares es lo suficientemente bajo, el balance entre la reducción de eventos cerebrovasculares y el incremento en el riesgo de sangrado con los anticoagulantes está estrechamente equilibrado.
  1. Confianza en el mejor estimativo de la magnitud del efecto (calidad de la evidencia)

Para todos los desenlaces considerados, el proceso de la aproximación GRADE requiere una calificación de la calidad de la evidencia. Finalmente, los autores de las guías formularán las recomendaciones basadas en la confianza en todos los estimativos del efecto para cada desenlace considerado crítico para la recomendación y la calidad de la evidencia. La calificación de la calidad de la evidencia se determina por los ocho factores previamente discutidos; los cinco criterios que resultan en disminución de la calidad de la evidencia (limitaciones en el estudio, inconsistencia, evidencia indirecta, imprecisión y sesgo de publicación), mientras que los tres criterios restantes llevan a aumentar  la calidad de la evidencia; gran magnitud del efecto, gradiente dosis respuesta y cuando todos los posibles sesgos o factores de confusión incrementan nuestra confianza en el estimativo del efecto.

Típicamente, una recomendación fuerte se asocia a confianza alta o al menos moderada en el estimativo del efecto para los desenlaces críticos. Si se tiene alta confianza en el efecto de algunos desenlaces considerados críticos (usualmente beneficios), pero baja confianza en efectos de otros desenlaces críticos (por lo general riesgos a largo plazo), se garantiza por lo general una recomendación débil. Aún cuando aparentemente existe un gradiente grande en el balance de desenlaces deseables versus indeseables el panel será reacio a ofrecer una recomendación fuerte, si la confianza en el estimativo del efecto para algunos desenlaces críticos es baja.

Para algunas preguntas, la evidencia directa acerca de efectos en ciertos desenlaces críticos puede estar ausente (p.ej. calidad de vida no se ha medido en ningún estudio). En tales instancias, aún si los subrogados medidos están disponibles, la confianza en el estimativo del efecto de desenlaces importantes para los pacientes, es muy probable que sea baja.

Rara vez una baja confianza en el estimativo del efecto, se asocia a recomendaciones fuertes. En general GRADE desalienta a los paneles de las guías a hacer recomendaciones fuertes cuando la confianza en el estimativo del efecto para desenlaces críticos, es baja o muy baja. GRADE ha identificado cinco situaciones paradigmáticas en las cuales se garantizan recomendaciones fuertes o muy fuertes a pesar de la baja o muy baja calidad de la evidencia (tabla 6.3). Estas situaciones se pueden conceptualizar como aquellas en las que el panel tendría un bajo grado de arrepentimiento si la evidencia subsecuente demuestra que la recomendación formulada fue errónea.

Tabla 6.3. Situaciones paradigmáticas en las cuales se garantiza una recomendación fuerte a pesar de la baja o muy baja confianza en el estimativo del efecto

Condición

Ejemplo

1

Cuando evidencia de baja calidad sugiere beneficio en una situación que amenace la vida (la evidencia acerca de los riesgos puede ser baja o alta)

1. Plasma fresco congelado o vitamina K en un paciente recibiendo warfarina que tiene un INR elevado y tiene sangrado intracraneal. Solo evidencia de baja calidad soporta el beneficio de limitar el grado de sangrado.

2. Anfotericina B vs. itraconazol en blastomicosis diseminada que amenaza la vida. Evidencia de alta calidad sugiere que la anfotericina B es más tóxica que el itraconazol, y evidencia de baja calidad sugiere que ésta reduce la mortalidad en este contexto.

2

Cuando evidencia de baja calidad sugiere beneficio y evidencia de alta calidad sugiere riesgo o costos muy altos

Tamizaje de cáncer con TAC/RMN de cabeza a pies. Evidencia de baja calidad de beneficios de detección temprana, pero evidencia de alta calidad de posibles riesgos y/o evidencia de costos altos ∑ (recomendación fuerte en contra de esta estrategia)

3

Cuando evidencia de baja calidad sugiere equivalencia de dos alternativas, pero evidencia de alta calidad de menor riesgo para una de las alternativas

Erradicación de Helicobacter pylori en pacientes con linfoma gástrico MALT en fases tempranas con H. pilory positivo. Evidencia de baja calidad sugiere que la erradicación inicial de H. pillory resulta en tasas similares de respuesta completa en comparación con las alternativas de radioterapia o gastrectomía; evidencia de alta calidad sugiere menos daño/morbilidad.

4

Cuando evidencia de alta calidad sugiere equivalencia de dos alternativas y evidencia de baja calidad sugiere riesgo en una de las alternativas

Hipertensión en mujeres planeando concebir y en embarazo. Recomendaciones fuertes para labetalol y nifedipino y recomendaciones fuertes en contra de inhibidores de la enzima convertidora de angiotensina (IECA) y antagonistas de receptores de angiotensina (ARA), todos los agentes tienen evidencia de alta calidad para desenlaces equivalentes beneficiosos, con evidencia de baja calidad de efectos adversos mayores con IECAs y ARAs

5

Cuando evidencia de alta calidad sugiere beneficio moderado y evidencia de baja o muy baja calidad sugiere posibilidad de riesgo catastrófico.

Testosterona en hombres con cáncer de próstata o en riesgo de tenerlo. Evidencia de alta calidad para beneficios moderados del tratamiento con testosterona en hombres con deficiencia de andrógenos sintomática en mejorar la densidad mineral ósea y la fuerza muscular. Evidencia de baja calidad para riesgos en pacientes con cáncer de próstata o en riesgo de tenerlo.

INR – razón normalizada internacional; TAC – tomografía axial computarizada; RMN– Resonancia magnética nuclear; MALT – Tejido linfoide asociado a mucosa.

  1. Confianza en valores y preferencias

La incertidumbre sobre los valores y preferencias o su variabilidad entre los pacientes puede disminuir la fuerza de la recomendación.

Como se mencionó anteriormente, los estudios sistemáticos de valores y preferencias de los pacientes son muy limitados. Por este motivo, los paneles usualmente no tendrán certeza acerca de los valores y preferencias típicos. A mayor incertidumbre, mayor será la probabilidad de emitir una recomendación débil. Debido a la carencia de estudios sistemáticos de valores y preferencias de pacientes, se podría argumentar la gran incertidumbre que siempre va a existir con respecto a la perspectiva de los pacientes. Por otro lado, la experiencia de los clínicos con los pacientes, puede proporcionar una visión adicional considerable. Es más, en ocasiones el panel, con base en la experiencia clínica, puede estar confiado en los valores y preferencias típicas de los pacientes. La fuerte aversión de las mujeres en embarazo al mínimo riesgo de anormalidades fetales importantes, puede ser una de estas situaciones.

La gran variabilidad en los valores y preferencias puede hacer más probable la formulación de una recomendación débil. En estas situaciones, es menos probable que una única recomendación sea aplicable de forma uniforme a todos los pacientes, y el curso de acción correcto es probable que varíe entre pacientes. De nuevo, la investigación sistemática acerca de la variabilidad en los valores y preferencias es escasa. Por otro lado, la experiencia clínica puede hacer que el panel confíe en que existen diferencias entre los valores y preferencias de los pacientes.

Ejemplo 6.3. Influencia de los valores y preferencias en la definición del tipo de recomendación

1. Un paciente esperanzado puede prestar más atención en una pequeña probabilidad de beneficio, mientras que un paciente pesimista, reacio a los riesgos puede concentrarse más en evitar los riesgos asociados a una terapia potencialmente beneficiosa. Algunos pacientes pueden creer que incluso cuando el riesgo de un evento adverso es bajo, ellos serán aquella persona que va a padecer dicho efecto adverso. Por ejemplo, en pacientes con fibrosis pulmonar idiopática, la evidencia de los beneficios de los esteroides garantiza solo baja confianza, mientras que se puede estar muy confiado en un amplio rango de efectos adversos asociados a los esteroides. El paciente optimista con fibrosis pulmonar puede ser entusiasta acerca del uso de esteroides, mientras que el paciente reacio a riesgos es probable que se niegue.

2. La trombo-profilaxis reduce la incidencia de trombo embolismo venoso en pacientes hospitalizados inmóviles y severamente enfermos. La trombo-profilaxis cuidadosa tiene efectos adversos mínimos y relativamente a bajos costos mientras permanece siendo muy efectiva en la prevención de trombosis venosa profunda y sus secuelas. Los valores y preferencias de los pacientes son tales que virtualmente todos los pacientes admitidos en un hospital optarían, si entendieran la opción que están eligiendo, por recibir alguna forma de trombo-profilaxis. Aquellos que formulan las recomendaciones pueden por tanto ofrecer una recomendación fuerte a favor de la trombo-profilaxis en pacientes para este escenario.

3. Una revisión sistemática y un metanálisis describen una reducción relativa del riesgo (RRR) de aproximadamente 80% en trombosis venosa profunda (TVP) recurrente para profilaxis mayor de 3 meses hasta un año. Este gran efecto apoya una recomendación fuerte a favor de la warfarina. Adicionalmente el relativamente angosto intervalo de confianza del 95%, (aproximadamente 74 a 88%) sugiere que la warfarina provee una RRR de al menos 74% y por tanto apoya una recomendación fuerte. Así mismo, la warfarina se asocia a una carga inevitable de mantener una ingesta de vitamina k en la dieta, relativamente constante, monitorizar la intensidad de la anticoagulación con pruebas sanguíneas y vivir con un riesgo incrementado de sangrado mayor y menor. Sin embargo, es probable que la mayoría de los pacientes prefieran evitar una nueva TVP y aceptan el riesgo de un episodio de sangrado. Como resultado, casi la mayoría de los pacientes con alto riesgo de TVP recurrente elegirían tomar warfarina por 3 a 12 meses, lo que sugiere la conveniencia de una recomendación fuerte. Después de eso, puede haber un número apreciable de pacientes que rechazarán la anticoagulación de por vida.

Los mejores estimados de valores y preferencias

Sin considerar los valores y preferencias asociadas, evaluar la magnitud de efectos grandes versus pequeñas puede ser engañoso. Balancear la magnitud de los desenlaces deseables e indeseables requiere considerar el peso (importancia) de aquellos desenlaces que están determinados por los valores y preferencias.

Idealmente para informar los estimados de los valores y preferencias típicos de los pacientes, los paneles de las guías conducirán o identificarán revisiones sistemáticas de estudios relevantes acerca de los valores y preferencias de los pacientes. Sin embargo, hay escasez de pruebas empíricas de los valores y preferencias de los pacientes.

Los paneles de las guías con adecuados recursos, usualmente complementarán dichos estudios con consultas a pacientes individuales y a grupos de pacientes. El panel deberá discutir cuales valores están siendo representados por estas personas, es decir pacientes representativos, un grupo definido de pacientes o representantes de la población general.

Los paneles de las guías con menos recursos, sin revisiones sistemáticas de valores y preferencias o sin forma de consultar a los pacientes o grupos de pacientes, deben basarse en revisiones no sistematizadas disponibles en la literatura y en su experiencia derivada de la interacción con los pacientes. Qué tanto corresponda dichos estimados a los valores y preferencias típicos verdaderos, seguirá siendo incierto.

Sea cual sea la fuente de los estimados de los valores y preferencias, resulta imperativo formular declaraciones explícitas y transparentes acerca de las elecciones del panel (ver 6.3.3 proporcionar declaraciones transparentes acerca de los valores y preferencias asumidos).

  1. Uso de los recursos (costos)

Los paneles pueden o no considerar el uso de los recursos en sus juicios acerca de la dirección y la fuerza de las recomendaciones. Las razones para no considerar el uso de los recursos incluyen la ausencia de datos confiables, que la intervención no sea útil y el esfuerzo de calcular el uso de los recursos se puede ahorrar, el efecto deseable sobrepasa en gran medida cualquier efecto indeseable que las consideraciones de los recursos no alterarían el juicio final, o que ellos elijan (o se haya indicado) dejar las consideraciones de los recursos a otras instancias de decisión. El panel debe ser explícito acerca de la decisión de no considerar el uso de los recursos y las razones de dicha decisión.

Si ellos eligen incluir la utilización de los recursos cuando hacen la recomendación, pero no han incluido el uso de los recursos como una consecuencia al momento de preparar el perfil de evidencia, deben ser explícitos sobre qué tipos de uso de recursos ellos consideraron al momento de hacer la recomendación y si se utilizó la lógica o evidencia en sus juicios.

Los costos se pueden considerar como otro desenlace potencialmente importante, tal como mortalidad, morbilidad y calidad de vida, asociado a formas alternativas de manejo de problemas de los pacientes. Adicionalmente a estos desenlaces clínicos, una intervención puede incrementar o disminuir costos. La aproximación GRADE recomienda que el uso de recursos importantes o críticos sea considerarado al igual que otros desenlaces relevantes en los perfiles de evidencia, y en las tablas de resumen de hallazgos. Es importante el uso de unidades naturales cuando se presenten los datos del uso de recursos, ya que pueden ser aplicados en cualquier escenario.

Consideraciones especiales al momento de incorporar el uso de los recursos (costos) en las recomendaciones:

  1. Diferencias entre costos y otros desenlaces

Existen varias diferencias entre los costos y otros desenlaces:

Con los costos es más prominente el asunto de quien paga y quien gana

Para la mayoría de desenlaces diferentes de costos, es claro que el paciente y en segunda medida la familia del paciente, ganan las ventajas y deben vivir con las desventajas (esto no es cierto para todos los desenlaces – con vacunación la comunidad entera se beneficia del efecto rebaño, o el uso generalizado de antibióticos puede tener consecuencias adversas de resistencia antibiótica). Los costos de atención en salud usualmente están a cargo de la sociedad como un conjunto. Incluso dentro de una sociedad, quien se hace cargo de los costos puede variar dependiendo de la edad y situación del paciente.

Las actitudes acerca del grado en el cual los costos deberían influir las decisiones difieren dependiendo de quién asume los costos.

Si los costos son asumidos por el gobierno, o un tercero pagador, algunos argumentarían que la responsabilidad del médico con el paciente significa que los costos no deberían influenciar la decisión. Por otra parte, la responsabilidad del médico al momento de cuidar al paciente se descarga en un contexto más amplio: los recursos que se usan en una intervención no se pueden usar para nada más y pueden afectar la habilidad del sistema de salud para cubrir con las necesidades de aquellos a quienes sirve.

Los costos tienden a variar ampliamente entre jurisdicciones y a lo largo del tiempo.

Los costos de los medicamentos no se relacionan con los costos de producción, ni con las decisiones de mercadeo ni con las políticas nacionales. Los hospitales y las organizaciones de mantenimiento de la salud pueden, por ejemplo, negociar acuerdos especiales con compañías farmacéuticas por precios sustancialmente menores a los que están disponibles para los pacientes u otros proveedores. Aún cuando el uso de los recursos permanezca igual, las implicaciones de los recursos pueden variar ampliamente entre jurisdicciones. Los costos también pueden variar en gran medida con el tiempo (p.ej. cuando los medicamentos salen de las patentes o una nueva tecnología más baratas está disponible). La gran variabilidad de los costos en el tiempo y jurisdicciones requiere que los paneles de las guías formulen preguntas de investigación tan específicas como sea posible al momento de incluir los costos a la ecuación. La elección del comparador puede ser un problema particular en los análisis económicos. Si la elección del comparador es inapropiada (por ejemplo, no tratamiento en lugar de una intervención alternativa menos efectiva) las conclusiones pueden ser equivocadas. Aún cuando el uso de los recursos sea el mismo, las implicaciones de los recursos pueden variar ampliamente entre jurisdicciones. El suministro anual de un medicamento muy costoso puede pagar el salario de una enfermera en los Estados Unidos, el salario de seis enfermeras en Polonia y el salario de 30 enfermeras en China. Por lo tanto, lo que se puede comprar con los recursos ahorrados si se deja de comprar el medicamento (el “costo de oportunidad”) – y los beneficios de salud logrados con esos gastos – diferirán en gran medida.

Las personas tienen diferentes perspectivas sobre lo que están considerando costos de oportunidad.

La farmacia de un hospital con un presupuesto fijo al considerar la compra de un nuevo medicamento costoso tendrá una idea clara de lo que dicha compra significará en términos de otros medicamentos que no se podrán comprar. Las personas generalmente asumen que el sobrecosto son gastos de salud pública – financiar un nuevo medicamento o un programa limitará los recursos para otros gastos de salud pública. Sin embargo, no se puede estar seguro que abstenerse de esa compra realmente significa que los recursos equivalentes estarán disponibles para el sistema de salud. Además, puede uno preguntarse si el sistema de salud público está gastando en lo correcto.

La asignación de los recursos es un asunto mucho más político que considerar otros desenlaces

Si el panel considera o no de forma explícita los asuntos de asignación de recursos, esas políticas pueden influir en la función del panel de la guía a través de los conflictos de interés.

A pesar de estas diferencias, los enfoques de los costos (uso de los recursos) son similares a otros desenlaces:

  1. Perspectiva

Una recomendación podría estar destinada a una audiencia muy estrecha, como por ejemplo la farmacia de un hospital, un hospital individual o una organización del mantenimiento de salud. Alternativamente podría estar destinada a una región en salud, un país o una audiencia internacional.

Independientemente de qué tan estrecha o amplia sea la audiencia, los grupos de las guías que eligen incorporar implicaciones de los recursos, deben ser explícitos acerca de la perspectiva que están tomando.

 De forma alternativa una guía puede elegir tomar una perspectiva social, e incluir todas las implicaciones de recursos importantes, independientemente de quien asuma los costos.

En un sistema de salud financiado con fondos públicos la perspectiva del paciente consideraría únicamente las implicaciones de los recursos que afectan directamente los pacientes individuales (p.ej. costos de bolsillo), e ignoraría muchos de los costos generados (p.ej. costos asumidos por el gobierno). En el sistema de salud europeo, en el cual, en la mayoría de los casos, el gobierno asume los costos del cuidado de la salud, los gastos asumidos directamente por los pacientes serán mínimos. La perspectiva de una farmacia ignoraría el ahorro en costos resultantes de eventos adversos (p.ej. infarto de miocardio o evento cerebrovascular) prevenidos por los medicamentos. La perspectiva de un hospital ignoraría los costos tanto incurridos como prevenidos en pacientes ambulatorios. En el sector privado, en el cual la desafiliación y la pérdida de los seguros pueden cambiar la carga de los costos de un sistema a otro, el estimado del uso de los recursos debería incluir los costos posteriores de todos los pacientes tratados, y no solo aquellos que permanecen en un plan de salud particular.

Una perspectiva más amplia, la de la sociedad, se incluirían los gastos indirectos o ahorros (salarios perdidos, por ejemplo).

Una perspectiva aún más amplia, la de la sociedad, incluiría los costos indirectos o ahorros (p.ej. salarios perdidos). Estos son difíciles de estimar y controversiales porque se asume que la pérdida de productividad no será reemplazada por un individuo que de otra manera estaría desempleado o subempleado, e implícitamente colocan un menor valor en individuos que no trabajan (p.ej. los pensionados). Tomar la perspectiva de los sistemas de salud tiene otra ventaja. Una presentación del uso de los recursos asociado con estrategias de manejo alternativas permite a un individuo o un grupo – un paciente, la farmacia o un hospital—examinar los méritos relativos de las alternativas desde su perspectiva particular.

Los clínicos que atienden pacientes sin seguro, ni público ni privado, deben pueden necesitar ayudar a estos individuos en la toma de decisiones teniendo en cuenta los costos de bolsillo. Esto es especialmente cierto cuando las ventajas y desventajas clínicas están estrechamente balanceadas, y existen costos de bolsillo sustanciales. En estas circunstancias, si el panel de la guía ha usado la aproximación GRADE y hace que los perfiles de evidencia estén disponibles para los usuarios de las guías, los clínicos pueden revisar los resúmenes de evidencia y asegurar que la decisión del paciente, de aceptar la estrategia de manejo recomendada es consistente con sus valores y preferencias – bien sea comunicando directamente la información al paciente, o averiguando cuál es la situación del paciente, sus valores y sus preferencias.

GRADE sugiere que es más deseable una perspectiva amplia.

  1. Implicación de los recursos que se consideran

Los perfiles de evidencia y las tablas de resumen de hallazgos siempre deberían presentar el uso de los recursos, no solo valores monetarios porque éstos, para el mismo recurso, variarán dependiendo del escenario.

Se sugiere que los desarrolladores de las guías documenten el mejor estimado del uso de los recursos, y no el mejor estimado de los costos. Los costos están en función de los recursos gastados y el costo por unidad de recurso. Dada la amplia variabilidad en los costos por unidad, reportar solamente los costos totales a lo largo de amplias categorías del gasto de los recursos, deja a los usuarios sin la información requerida para juzgar si los estimados de costos de unidad aplican a su escenario. Se recomienda por tanto que se utilicen unidades naturales para estimar el uso de los recursos. Por el ejemplo, número de días requeridos de estancia hospitalaria, los costos por noche variarán dependiendo del escenario.

Los usuarios de las guías estarán mejor informados, si los desarrolladores de las guías especifican los recursos consumidos por estrategias de manejo alternas, porque pueden:

A menos que se especifique el uso de los recursos, los usuarios en escenarios diferentes a aquellos en los que los analistas se concentraron, no pueden estimar el costo incremental asociado de la intervención.

  1. Confianza en el estimado del uso de los recursos (calidad de la evidencia de los costos)

La evidencia del uso de los recursos puede venir de diferentes fuentes que no sean la evidencia de los beneficios de salud. Este puede ser el tanto el caso por el cual los ensayos de intervenciones no reportan plenamente el uso de los recursos, porque la situación del ensayo no refleja completamente las circunstancias (y por tanto el uso de los recursos) que se esperaría en la práctica clínica, porque el uso de recursos relevantes se puede extender más allá de la duración del ensayo, y porque el uso de los recursos puede variar sustancialmente a lo largo de los escenarios.  

Para el uso de los recursos reportados en el contexto de ensayos, los criterios para evaluar la calidad son idénticos a los de los demás desenlaces. Así como para los demás desenlaces de un ensayo, la calidad de la evidencia puede diferir a lo largo de los diferentes recursos. Por ejemplo, el uso de medicamentos puede ser relativamente fácil de estimar, mientras que el uso del tiempo de los profesionales de la salud puede ser más difícil, y por tanto el estimado del uso de medicamentos puede ser de mayor calidad.

  1. Presentación del uso de los recursos

Una hoja de balance (p.ej. perfil de evidencia) debe informar los juicios acerca de si los beneficios netos justifican los costos incrementales. Las hojas de balance presentan de manera eficiente la información cruda necesaria para hacer juicios explícitos informados acerca del uso de los recursos en las recomendaciones de las guías. Sin embargo, cuando se necesita tomar decisiones de intercambio complejas que involucran varios desenlaces, los juicios pueden permanecer implícitos o se pueden describir cualitativamente.

Es poco frecuente el agrupar los estimados de los recursos de diferentes estudios, ya que puede resultar bastante controversial y se debe considerar cuidadosamente. Sin embargo, algunos autores pueden considerar presentar el estimado agrupado de los recursos cuando confían que el desenlace en cuestión tiene un significado común (p.ej. número de noches de estancia hospitalaria) a lo largo de los estudios involucrados en el análisis. Incluso en este caso, se recomienda que los autores ajusten por diferencias en costos geográficas y temporales.

  1. El modelo económico

Modelos económicos formales pueden – o no—ser útiles.

Los modelos económicos formales resultan en costos por unidad de beneficio alcanzado: costo por unidad natural, tales como costo por evento cerebrovascular prevenido (análisis de costo-efectividad), costo por años de vida ajustados por calidad ganados (análisis de costo-utilidad) costo y beneficios valorados en valores monetarios (análisis de costo-beneficio). Estos resúmenes pueden ser útiles para informar los juicios. Desafortunadamente, muchos análisis de costo-efectividad publicados tienen una mayor probabilidad de estar falseados o sesgados, y son escenario-específicos. Cuando los estimados de los riesgos, beneficios y recursos usados se basan en evidencia de baja calidad, la transparencia del modelo económico se reducirá y el modelo puede ser engañoso.

¿Deberían los paneles de las guías considerar desarrollar sus propios modelos económicos formales?

Crear un modelo económico puede ser recomendable si:

Hacer un modelo – si bien es necesario para tener en cuenta las complejidades e incertidumbre en el cálculo del costo por unidad de beneficio – reduce la transparencia. Cualquier modelo es tan bueno como los datos en los que se basa. Cuando los estimados de los beneficios, de los riesgos o de los recursos usados proviene de evidencia de baja calidad, los resultados de cualquier modelo económico, será altamente especulativos.

Aunque están disponibles los criterios para evaluar la credibilidad que se da a los resultados de los modelos estadísticos de costo-efectividad o costo-utilidad, estos modelos incluyen generalmente un gran número de supuestos y calidad de la evidencia variable para los estimados que se incluyen en el modelo. Por estas razones, el grupo de trabajo GRADE recomienda no incluir modelos de costo-efectividad o de costo-utilidad en los perfiles de evidencia. Estos modelos pueden, sin embargo, informar los juicios de un panel, o del gobierno o de los terceros pagadores que están considerando incluir una intervención dentro de sus programas de beneficios.

  1. Consideración del uso de los recursos en la formulación de recomendaciones

El panel de la guía puede elegir considerar explícitamente o no considerar el uso de los recursos en las recomendaciones.

El panel de una guía puede legítimamente elegir dejar las consideraciones de los recursos a un lado, y ofrecer una recomendación únicamente con base en otras ventajas y desventajas de las alternativas que se están considerando. La asignación de los recursos debe considerarse en el último nivel de la toma de decisiones – bien sea el paciente, el profesional de la salud, una organización (p.ej. farmacia de un hospital o una organización de mantenimiento de la salud) el tercero pagador, o el gobierno. Los paneles de las guías deben ser explícitos acerca de la decisión de considerar o no considerar la utilización de los recursos.

Si el panel de la guía considera el uso de los recursos debe, antes de incluir los costos a la ecuación, decidir primero sobre la calidad de la evidencia acerca de los otros desenlaces, y sopesar las ventajas y desventajas. Las decisiones concernientes a los aspectos de la importancia del uso de los recursos fluirán desde este primer paso. Por ejemplo, la implicación de los recursos puede ser irrelevante si la evidencia de los beneficios netos en salud no existe. Si las ventajas de una intervención sobrepasan por mucho las desventajas, es menos probable que el uso de los recursos sea importante. El uso de los recursos generalmente se vuelve importante cuando las ventajas y las desventajas están estrechamente equilibradas.

La aproximación GRADE sugiere que los paneles que consideran el uso de recursos deben ofrecer solamente una única recomendación teniendo en cuenta el uso de recursos. El panel debe abstenerse de formular dos recomendaciones – una sin tener en cuenta el uso de recursos y la segunda teniéndolos en cuenta. Aunque esto tendría la ventaja de ser explícito, en lo cual GRADE pone un gran valor, el grupo de trabajo GRADE se preocupa que aquellos con interés en la diseminación de una intervención utilizarían efectivamente solo la recomendación que ignora la implicación de los recursos como un arma en su batalla por fondos (fondos públicos en particular).

  1. Presentación de las recomendaciones

  1. Redacción de las recomendaciones

La forma en la que se redacta una recomendación debería ofrecer al clínico tantos indicadores como sea posible para entender e interpretar.

Las recomendaciones siempre deben responder la pregunta clínica inicial. Por tanto, siempre deben especificar los pacientes o la población (caracterizada por la enfermedad y otros factores que los identifican) a quienes está dirigida la recomendación, y la intervención recomendada tan específica y detallada como sea posible. A menos que sea obvio, también deben especificar el comparador. En algunos casos, la recomendación puede incluir una referencia a un escenario (p.ej. nivel de atención primaria o terciario, países de bajos ingresos o altos, etc.).

Por lo general, pareciera preferible presentar recomendaciones a favor de una estrategia de manejo particular que hacerlo en contra de una alternativa. Por ejemplo, al considerar adicionar aspirina al clopidogrel en pacientes que han tenido eventos cerebrovasculares, sería preferible decir: “en pacientes que han tenido un evento cerebrovascular, se sugiere clopidogrel únicamente versus adicionar aspirina al clopidogrel”, en lugar de: “en pacientes que han tenido un evento cerebrovascular y están usando clopidogrel, se sugiere no adicionar aspirina”. Sin embargo, cuando hay una terapia inútil o dañina ampliamente usada, las recomendaciones en contra de esta estrategia de manejo son apropiadas. Por ejemplo, “en pacientes que van a ser sometidos a cirugía cardiaca que no se encuentran recibiendo betabloqueadores, se sugiere no iniciar la terapia peri operatoria con beta bloqueadores”.

Las recomendaciones en voz pasiva pueden carecer de claridad, por tanto, GRADE sugiere que los desarrolladores de guías presenten recomendaciones en voz activa.

Para las recomendaciones fuertes, el grupo de trabajo GRADE ha sugerido adoptar terminología tal como, “nosotros recomendamos…” o “los clínicos deberían…”, “los clínicos no deberían…” o “Haga…”, “No haga…”

Para recomendaciones débiles, el grupo de trabajo GRADE ha sugerido frases menos definitivas, tales como “nosotros sugerimos” o “los clínicos podrían…” o “Nosotros recomendamos condicionalmente…” o “Nosotros hacemos una recomendación calificada que…”.

La redacción de las recomendaciones fuertes y débiles es particularmente importante cuando las guías se desarrollan por organizaciones internacionales y/o son dirigidas a pacientes y clínicos en diferentes regiones, culturas, tradiciones y uso del lenguaje. También es fundamental tener en cuenta la redacción de manera explícita y precisa al momento traducir las recomendaciones a diferentes idiomas. Cualquiera que sea la terminología seleccionada por el panel de la guía para comunicar la naturaleza dicotómica de una recomendación, es esencial que ellos informen a sus usuarios lo que los términos implican proporcionando explicaciones como en la tabla 6.4.

Es posible que haya malinterpretación, a pesar de expresar la fuerza de la recomendación. Nosotros sugerimos que los desarrolladores de las guías consideren usar tanto palabras como símbolos (que pueden ser menos confusos que números o letras) para expresar la fuerza de la recomendación.

  1. Representación simbólica

Una variedad de presentaciones de la calidad de la evidencia y la fuerza de la recomendación puede ser apropiada. La mayoría de los paneles de las guías han utilizado letras y número para resumir sus recomendaciones. Debido a la amplia variabilidad en el uso de los números y las letras por las diferentes organizaciones, la presentación puede ser confusa. La representación simbólica de la calidad de la evidencia y la fuerza de las recomendaciones resulta atractiva, en cuanto a que no están limitados por esta confusión histórica. Por otro lado, los clínicos parecieran estar muy a gusto con números y letras, que son particularmente adecuados para la comunicación verbal, y por tanto existen buenas razones por las que las organizaciones han elegido usarlas.

El grupo de trabajo GRADE ha decidido ofrecer las representaciones simbólicas preferidas, pero los usuarios de las guías basadas en la aproximación GRADE por lo general verán usar números y letras para expresar la calidad de la evidencia y la fuerza de la recomendación.


Tabla 6.4. Representaciones sugeridas de la calidad de la evidencia y la fuerza de las recomendaciones

Calidad de la Evidencia

Símbolo

Letras (varía)

Alta

⨁⨁⨁⨁ 

A

Moderada

⨁⨁⨁◯

B

Baja

⨁⨁◯◯ 

C

Muy baja

⨁◯◯◯ 

D

Fuerza de la Recomendación

Símbolo

Número

Fuerte a favor de la intervención

↑↑

1

Débil a favor de la intervención

↑?

2

Débil en contra de la intervención

↓?

2

Fuerte en contra de la intervención

 ↓↓

1

  1. Declaraciones transparentes acerca de los valores y preferencias asumidas

Idealmente las recomendaciones deben estar acompañadas de una declaración presentando los valores y preferencias asumidos que subyacen a la recomendación. Por ejemplo, una guía que aborda temas de prevención y tratamiento de trombosis en el embarazo señaló: “nuestras recomendaciones reflejan la creencia de que la mayoría de las mujeres pondrían un valor bajo en evitar el dolor, costos y la inconveniencia de la terapia con heparinas para evitar el pequeño riesgo de incluso una anormalidad menor en sus hijos, asociado a la profilaxis con warfarina”.

Adicionalmente a, o en cambio de, hacer tales declaraciones generales, los paneles de las guías pueden proporcionar declaraciones asociadas a recomendaciones individuales, especialmente aquellas que son particularmente sensibles a los valores y preferencias. En esos casos los autores deberían poner las declaraciones acerca de los valores y preferencias con las recomendaciones, en lugar del texto que lo acompaña. Este posicionamiento prominente de las declaraciones hará menos probable que los usuarios de las guías pierdan la importancia de los juicios de valores y preferencias.

Considere, por ejemplo, dos grupos que fueron parte de un esfuerzo más amplio de guía que hicieron recomendaciones aparentemente contradictorias acerca de la aspirina versus clopidogrel en pacientes con enfermedad vascular aterosclerótica, a pesar de usa la misma evidencia de un ensayo que incluyó tanto pacientes en riesgo de eventos cerebrovasculares como aquellos con enfermedad vascular periférica. Un grupo que se concentró en la prevención de eventos cerebrovasculares recomendó clopidogrel sobre la aspirina indicando: “esta recomendación pone un valor relativamente alto en una pequeña reducción absoluta del riesgo en la tasa de eventos cerebrovasculares, y un valor relativamente bajo en minimizar el gasto de medicamentos”. El otro grupo que se centró en la enfermedad vascular periférica recomendó la aspirina sobre el clopidogrelindicando: “esta recomendación pone un valor relativamente alto en evitar gastos excesivos de recursos para alcanzar reducciones mínimas de eventos vasculares”. Estas recomendaciones sugieren cursos de acción opuestos. Las dos son apropiadas considerando los valores y preferencias establecidas, los cuales fueron hechos explícitamente en las declaraciones de calificación que acompañan cada recomendación.

Otra forma de enmarcar las declaraciones de los valores y preferencias, que el panel puede querer considerar, es en términos de pacientes que no comparten los valores y preferencias en que se basan las recomendaciones. Por ejemplo, se puede decir: “para la mayoría de las personas sanas con acalasia que se someten a procedimientos invasivos, se sugiere miotomía mínimamente invasiva, en vez de dilatación neumática. Los pacientes que prefieren evitar la cirugía y las altas tasas de enfermedad por reflujo gastroesofágico postquirúrgico, y que están dispuestos a aceptar una tasa inicial de fracaso mayor y una tasa de recurrencia a largo plazo, pueden razonablemente elegir la dilatación neumática”.

  1. El marco de evidencia a la decisión

Finalmente, los paneles deben integrar los determinantes de la dirección y la fuerza para elaborar recomendaciones fuertes o débiles a favor o en contra de una intervención. La tabla 6.5 presenta la tabla genérica de la “Evidencia-a la-Decisión” (EtD por sus siglas en ingles Evidence to Desicion), que pueden usar los grupos que elaboran recomendaciones para facilitar la toma de decisiones, registrar los juicios y documentar el proceso desde la evidencia hasta la decisión. La tabla 6.6 presenta un ejemplo del marco de EtD utilizado en el desarrollo de las recomendaciones, acerca del uso de ASA en los pacientes con fibrilación auricular.

Tabla 6.5. El marco de evidencia a la decisión (EtD)

Criterio

Juicio

Evidencia

Consideraciones adicionales

Problema

¿El problema es una prioridad?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si
○ Si
○ Varía

Beneficios y riesgos de las opciones

¿Cuál es la certeza global de la evidencia?

○ No hay estudios incluidos
○ Muy baja
○ Baja
○ Moderada
○ Alta

La importancia relativa o los valores de los principales desenlaces de interés:

Desenlace

Importancia relativa

Certeza de la evidencia (GRADE)

Desenlace 1

CRITICA

⨁⨁⨁⨁
ALTA

Desenlace 2

CRITICA

⨁⨁⨁
MODERADA

Resumen de hallazgos: intervención C

Desenlace

Sin la intervención I

Con la intervención I

Diferencia (IC 95%)

Efecto relativo (RR) (IC 95%)

Desenlace 1

61 de 1000

37 de 1000
(25 a 49)

25 menos por 1000(de 12 menos a 37 menos)

RR 0.6
(0.4 a 0.8)

Desenlace 2

108 de 1000

99 de 1000
(80 a 134)

9 menos por 1000(de 26 más a 28 menos)

RR 0.92
(0.74 a 1.24)

¿Existe incertidumbre importante acerca de cómo valoran las personas los desenlaces principales?

○ Incertidumbre o variabilidad importante
○  Incertidumbre o variabilidad importante posible
○  Probable Incertidumbre o variabilidad no importante
○ Incertidumbre o variabilidad no importante

○ No se conoce incertidumbre

¿Son los efectos deseados anticipados grandes?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si          ○ Si
○ Varía

¿Son los efectos indeseables anticipados pequeños?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si

○ Si
○ Varía

¿Son los efectos deseables grandes relativos a los efectos indeseables?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si

○ Si
○ Varía

Uso de los recursos

¿Los recursos requeridos son pequeños?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si

○Si
○ Varía

¿El costo incremental es pequeño en relación a los beneficios netos?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si

○ Si
○ Varía

Equidad

¿Cuál sería el impacto en las inequidades en salud?

○ Incrementaría
○ Probablemente incrementaría

○ Incierto
○ Probablemente reducido
○ Reducido
○ Varía

Aceptabilidad

¿La opción es aceptable para las partes clave interesadas?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si          ○ Si
○ Varía

Factibilidad

¿Es viable implementar la opción?

○ No
○ Probablemente no
○ Incierto
○ Probablemente si        ○ Si
○ Varía

  1. Propósito del marco

El propósito del marco es ayudar a los paneles que desarrollan guías a moverse de la evidencia a las recomendaciones. La intención es:

  1. Desarrollo del marco

El marco está siendo desarrollando como parte del proyecto DECIDE usando un proceso iterativo informado por la aproximación GRADE para ir desde la evidencia hasta las recomendaciones clínicas, una revisión de la literatura relevante, lluvia de ideas, retroalimentación de las partes involucradas, aplicación del marco a los ejemplos, encuestas a desarrolladores de políticas, pruebas de usuarios y ensayos. DECIDE (sigla en inglés de Developing and Evaluating Communication Strategies to Support Informed Decisions and Practice Based on Evidence – Desarrollando y evaluando estrategias de comunicación para apoyar las decisiones informadas y la práctica basada en evidencia), es un proyecto de 5 años (desarrollado desde enero 2011 al 2015), cofinanciado por la Comisión Europea bajo el programa Séptimo Marco. El objetivo principal de DECIDE es mejorar la difusión de las recomendaciones basadas en la evidencia, basándose en el trabajo del grupo de trabajo GRADE para desarrollar y evaluar métodos que se enfoquen en la difusión de las guías.

  1. Descripción del marco

El marco incluye una tabla con las siguientes columnas:

El marco también incluye las siguientes conclusiones a las cuales deben llegar los miembros del panel, que deben incluir borradores o versiones preliminares de conclusiones sugeridas por las personas que han preparado el marco:

El marco es flexible. Las organizaciones pueden decidir modificar la terminología (y el idioma) que se usa, los criterios, las opciones de respuesta y las directrices para usar el marco, para asegurar que el marco se ajusta a su propósito.

  1. Uso del marco

Las sugerencias de cómo usar el marco se encuentran en: Marco para ir de la evidencia a la recomendación – guía para las recomendaciones del sistema de salud y de salud pública, incluyendo sugerencias para preparar los marcos, apoyar el uso del marco por los paneles de las guías y usar el marco para apoyar decisiones bien informadas por los usuarios de las guías.

La recomendación final elaborada por el panel de la guía es un consenso basado en los juicios de los miembros del panel, informados por la evidencia presentada en el marco y su experticia y experiencia.

  1. Explicaciones de los criterios del marco

¿Por qué estos criterios?

Los criterios incluidos en el marco son aquellos que han surgido de nuestra revisión de la literatura, lluvia de ideas, retroalimentación de las partes involucradas, aplicación del marco a ejemplos, encuestas a los desarrolladores de políticas y evaluación de los usuarios. Es posible que se hagan modificaciones en el futuro, basados en una retroalimentación continua, la aplicación del marco y la evaluación de los usuarios. Los desarrolladores de guías pueden querer también hacer modificaciones, tales como agregar o eliminar criterios que son o no importantes para considerar. A pesar que hay un apoyo claro y consistente para incluir de forma rutinaria todos estos criterios, hasta el momento, falta un apoyo claro y consistente para incluir otros criterios potenciales.

Juicios detallados

Los juicios que se necesitan hacer en ocasiones resultan complejos. Los paneles de las guías pueden encontrar útil para hacer y registrar de forma detallada los juicios para algunos criterios, utilizar tablas para juicios detallados. Estas incluyen, por ejemplo, juicios detallados del tamaño del efecto para cada desenlace, la certeza de la evidencia de la importancia relativa de los desenlaces y el uso de recursos, y consideraciones importantes de subgrupos. Algunos criterios se pueden dividir a su vez en dos o más criterios separados y algunos paneles pueden elegir hacer esto para resaltar consideraciones clave que tienen importancia particular para sus guías. Por ejemplo, existen varias razones por las que una opción puede no ser aceptable para las partes involucradas - interesadas, y estas podrían considerarse potencialmente como criterios separados.

¿Desde la perspectiva de quién?

Los paneles de guías deben indicar explícitamente la perspectiva que ellos están teniendo en cuenta al momento de hacer las recomendaciones. Esto es importante especialmente para determinar cuáles costos (uso de recursos) se deben considerar. Esto puede influenciar también cuales desenlaces y de quien son los valores que se están considerando. Por ejemplo, los costos de bolsillo son importantes desde la perspectiva de un paciente individual, mientras que los costos de gobierno son importantes desde la perspectiva del gobierno.  Las decisiones del sistema de salud y de salud pública se toman en nombre de la población y se requiere una perspectiva más amplia. Sin embargo, debido a su mandato, algunos paneles pueden tomar la perspectiva del ministerio de salud o departamentos de salud, mientras que otros paneles pueden tomar una perspectiva de la sociedad (incluyendo todos los costos, independientemente de quién pague). Otras perspectivas (la distribución de los beneficios, riesgos y costos) deben tomarse cuando se considera la aceptabilidad de la opción para las partes claves involucradas.

¿Grandes o pequeños comparados con qué?

Algunos de los criterios implican una comparación; por ejemplo, ¿el tamaño de los efectos o los requerimientos de los recursos comparados con qué? Las comparaciones o los estándares que se usan son propensos a ser diferentes para diferentes organizaciones, paneles de las guías y jurisdicciones. Algunas organizaciones o paneles de guías pueden elegir especificar las comparaciones o los estándares que se van a utilizar. En ausencia de tales comparaciones especificadas, los miembros de los paneles deben considerar cuáles serán sus comparaciones o estándares cuando no están de acuerdo, por ejemplo, acerca de si el requerimiento de los recursos es grande. Cuando la comparación utilizada, es la fuente de desacuerdo, deberán estar de acuerdo en una comparación apropiada, e incluirla como una consideración adicional en el marco, cuando sea relevante.

  1. Directrices para hacer juicios

Las sugerencias de cómo hacer los juicios en relación a cada criterio se proporcionan en el Marco de la evidencia a la recomendación – guía para las recomendaciones del sistema de salud y de salud pública.

Para cada criterio existen cuatro o cinco opciones de respuesta, desde aquellas que favorecen la recomendación en contra de la opción a la izquierda, hasta aquellas que favorecen la recomendación a favor de la opción en la derecha. Adicionalmente, la mayoría de opciones incluye “varía” como una opción de respuesta para situaciones en las cuales  existe una variación importante a lo largo de diferentes escenarios para los cuales se pretenden las guías, y esas diferencias son lo suficientemente importantes que pueden llevar a diferentes recomendaciones para diferentes escenarios.

Preguntas a considerar para cada criterio y su relación con la recomendación

Para cada criterio sugerimos considerar una o más preguntas detalladas al momento de hacer el juicio, y explicar la relación entre los criterios y la recomendación. Estos criterios se presentan en la tabla 6.6.

Tabla 6.6. Criterios para hacer los juicios en el EtD

Criterio

Preguntas

Explicaciones

¿El problema es una prioridad?

¿Las consecuencias del problema son serias (p.ej. severas o importantes en términos de beneficios potenciales o ahorro)? ¿El problema es urgente? ¿Es una prioridad reconocida (p.ej. basado en un plan nacional de salud)? ¿El problema afecta a gran número de personas?

Entre más serio sea el problema, es más probable que una opción que aborda el problema sea una prioridad (p.ej. Las enfermedades que son fatales o incapacitantes son más probables que sean una mayor prioridad que las enfermedades que solo causan una alteración menor). Entre más personas se vean afectadas, es más probable que una opción que aborda el problema sea una prioridad.

¿Existe incertidumbre importante sobre cómo las personas valoran los desenlaces principales?

¿Qué tanto aquellos afectados por la opción valoran cada uno de los desenlaces en relación con los otros desenlaces (p.ej. cuál es la importancia relativa de los desenlaces)? ¿Existe evidencia que apoye los juicios de valor, o existe evidencia de la variabilidad en aquellos valores, tan grande que conlleve a decisiones diferentes?

Entre más probable sea que las diferencias en los valores lleven a decisiones diferentes, menos probable es que exista un consenso de que una opción es una prioridad (o cuanto más importante sea obtener evidencia de los valores de aquellos afectados por la opción).

Los valores en este contexto se refieren a la importancia relativa de los desenlaces de interés (cómo valoran cada uno de los desenlaces). Estos valores se llaman en ocasiones “valores de utilidad”.

¿Cuál es la certeza1global de la evidencia de la efectividad?

¿Cuál es la certeza global de la evidencia de los efectos, a lo largo de los desenlaces que son críticos para la toma de decisiones?

Cuanto menos certera sea la evidencia para los desenlaces críticos (aquellos que conducen a una recomendación), es menos probable que una opción sea recomendada (o entre más importante sea conducir un estudio piloto o una evaluación de impacto, si es recomendada).

¿Qué tan importantes son los efectos deseables esperados?

¿Qué tan importantes (grandes) son los efectos deseables esperados de la opción (incluyendo salud y otros beneficios) (teniendo en cuenta la severidad o importancia de las consecuencias deseables y el número de personas afectadas)?

A mayor sea el beneficio, mayor probabilidad que la opción sea recomendada

¿Qué tan importantes son los efectos indeseables esperados?

¿Qué tan importantes (grandes) son los efectos indeseables esperados de la opción (incluyendo riesgos para la salud y otros riesgos) (teniendo en cuenta la severidad o importancia de los efectos adversos y el número de personas afectadas)?

A mayor sea el riesgo, menor la probabilidad que la opción sea recomendada.

¿Los efectos deseables son mayores que los efectos indeseables?

¿Son los efectos deseables mayores con respecto a los efectos indeseables?

Entre mayor sean los efectos deseables en relación con los efectos indeseables, teniendo en cuenta los valores de aquellos afectados (p.ej. el valor relativo que atribuyen a los desenlaces deseables e indeseables), mayor será la probabilidad que la opción sea recomendada.

¿Qué tan grandes son los requerimientos de recursos?

¿Qué tan grande sería la inversión de recursos que requeriría o ahorraría la opción?

A mayor sea el costo, menor será la probabilidad que una opción deba ser una prioridad. Por el contrario, entre mayor sea el ahorro, mayor será la probabilidad que una opción sea una prioridad.

¿Qué tan grande es el costo incremental con relación al beneficio neto?

¿El costo es pequeño con relación al beneficio neto (beneficios menos riesgos)?

Entre mayor sea el costo por unidad de beneficio, menor probabilidad que una opción sea una prioridad.

¿Cuál sería el impacto sobre las inequidades en salud?

¿La opción reduciría o incrementaría las inequidades en salud?

Las políticas o programas que reducen las inequidades tienen mayor probabilidad de ser prioridad que aquellos que no (o aquellos que incrementan las inequidades).

¿Es aceptable la opción para las partes clave involucradas?

¿Es probable que las partes clave involucradas encuentren la opción aceptable (dada la importancia relativa que atribuyen a las consecuencias deseables e indeseables de la opción; el tiempo de los beneficios, riesgos y costos; y sus valores morales)?

Entre menos aceptable sea la opción para las partes clave involucradas, menos probable que una opción sea recomendada, o si es recomendada, mayor será la probabilidad que la recomendación deba incluir una estrategia de implementación para abordar las preocupaciones acerca de la aceptabilidad. La aceptabilidad puede reflejar quien se beneficia (o resulta afectado) y quien paga (o ahorra); y cuando ocurren los beneficios, efectos adversos y costos (y las tasas de descuento de las partes clave; p.ej. Los políticos pueden tener una tasa de descuento mayor por cualquier cosa que ocurra después de la siguiente elección).

La inaceptabilidad puede deberse a algunas partes interesadas:

  • No aceptando la distribución de los beneficios, riesgos y costos
  • No aceptando los costos o efectos indeseables a corto plazo, por efectos deseables (beneficios) en el futuro
  • Atribuir más valor (importancia relativa) a las consecuencias indeseables que a las consecuencias deseables o costos de una opción (por como ellos puede estar afectados personalmente o por su percepción de la importancia relativa de las consecuencias para otros)
  • Desaprobación moral (p.ej. en relación con los principios éticos tales como autonomía, no-maleficencia, beneficencia o justicia)

¿Es viable implementar la opción?

¿Se puede lograr o llevar a cabo la opción?

Entre menos factible sea una opción (capaz de ser lograda o de llevarla a cabo), menor será la probabilidad que sea recomendada (p.ej. gran cantidad de barreras que son difíciles de sobrepasar).

1La “certeza de la evidencia” es una evaluación de la probabilidad que el efecto será sustancialmente diferente de aquel encontrado por la investigación.

  1. Explicaciones útiles en el marco de trabajo EtD

Tabla 6.7. Explicaciones de los términos usados en los resúmenes de hallazgos

Término

Explicación

Desenlaces

Estos son todos los desenlaces (beneficios o riesgos potenciales) que se consideran importantes para aquellos afectados por la intervención, y los cuales son importantes para hacer una recomendación o una decisión. Para seleccionar los desenlaces importantes se puede consultar a aquellos afectados por la intervención (como pacientes y sus cuidadores) y otros miembros del público. También se puede realizar una revisión de la literatura para informar la selección de los desenlaces importantes. La importancia (o valor) de cada desenlace en relación a los otros desenlaces también se debe considerar. Ésta es la importancia relativa del desenlace.

Intervalo de confianza del 95% (IC)

El intervalo de confianza es un rango alrededor de un estimado que indica que tan preciso es el estimado. El intervalo de confianza es una guía de qué tan seguro se puede estar sobre la cantidad en la que se está interesado. Entre menos amplio sea el rango entre los dos números, mayor será la confianza que podemos tener sobre cuál es el verdadero valor; entre más amplio sea el rango, menos seguro se puede estar. La amplitud del intervalo de confianza refleja el grado en el cual el azar puede ser responsable del estimado observado (un intervalo más amplio refleja más azar). Un intervalo de confianza del 95% (IC) significa que se puede tener 95 porciento de confianza que el verdadero tamaño del efecto se encuentra entre los límites inferior y superior de confianza. Por el contrario, existe un 5 por ciento de probabilidad que el verdadero efecto esté por fuera de ese rango.

Efecto relativo o RR (Razón de riesgo)

Aquí el efecto relativo se expresa como razón de riesgo (RR). El riesgo es la probabilidad que ocurra un desenlace. La razón de riesgo es la razón entre el riesgo en el grupo de intervención y el riesgo en el grupo control. Por ejemplo, si el riesgo en el grupo de intervención es 1% (10 por cada 1000) y el riesgo en el grupo control es 10%(100 por cada 1000), el efecto relativo es 10/100 o 0,10. Si el RR es exactamente 1,0, esto significa que no hay diferencia entre la ocurrencia del desenlace en el grupo de intervención o el control. Si el RR es mayor de 1, la intervención aumenta el riesgo del desenlace. Si es un buen desenlace (por ejemplo, el nacimiento de un bebé sano), un RR mayor de 1,0 indica un efecto deseable para una intervención. Mientras que si un mal desenlace (por ejemplo, muerte), un RR mayor de 1,0 indicaría un efecto indeseable. Si el RR es menor de 1,0, la intervención disminuye el riesgo del desenlace. Esto indica un efecto deseable, si es un mal desenlace (por ejemplo, muerte) y un efecto indeseable si es un buen desenlace (por ejemplo, nacimiento de un bebé sano).

Certeza de la evidencia (GRADE)2

La certeza de la evidencia es una evaluación de que tan buena es la indicación proporcionada por la investigación acerca del efecto probable, p.ej. la probabilidad que el efecto sea sustancialmente diferente de aquel encontrado por la investigación. Con sustancialmente diferente nos referimos a una diferencia lo suficientemente grande que pueda afectar la decisión. Esta evaluación se basa en una evaluación global de las razones, de que haya más o menos certeza utilizando la aproximación GRADE.

En el contexto de las decisiones, estas consideraciones incluyen la aplicabilidad de la evidencia en un contexto específico. Otros términos se pueden usar como sinónimos de certeza de la evidencia, incluyendo calidad de la evidencia, confianza en el estimado y fuerza de la evidencia. Las definiciones de las categorías usadas para calificar la certeza de la evidencia (alta, moderada, baja y muy baja) se detallan en la tabla a continuación.

Tabla 6.8. Definiciones para calificar la certeza de la evidencia

Calificaciones

Definiciones

http://www.guidelinedevelopment.org/handbook/images/image01.png

Alta

Esta investigación proporciona una muy buena indicación del efecto probable. La probabilidad que el efecto sea sustancialmente diferente es baja.

http://www.guidelinedevelopment.org/handbook/images/image02.png

Moderada

Esta investigación proporciona una buena indicación del efecto probable. La probabilidad que el efecto sea sustancialmente diferente es moderada.

http://www.guidelinedevelopment.org/handbook/images/image03.png

Baja

Esta investigación proporciona alguna indicación del efecto probable. Sin embargo, la probabilidad que sea sustancialmente diferente (una diferencia suficientemente grande que pueda tener un efecto en la decisión) es alta.

http://www.guidelinedevelopment.org/handbook/images/image04.png

Muy baja

Esta investigación no proporciona una indicación confiable del efecto probable. La probabilidad que el efecto sea sustancialmente diferente (una diferencia suficientemente grande que pueda tener un efecto en la decisión) es muy alta.

Para cada conclusión, sugerimos considerar una o más preguntas al momento de hacer el juicio y explicar lo que sea necesario. (tabla 6.7)

Tabla 6.9. Explicaciones útiles para cada conclusión

Término

Pregunta

Explicación

Juicio global entre todos los criterios  

¿Cuál es el balance global entre todas las consecuencias deseables e indeseables?

Un juicio global de si las consecuencias deseables sobrepasan las consecuencias indeseables, o viceversa (basado en toda la evidencia e información adicional considerada en relación con todos los criterios). Las consecuencias incluyen la salud y otros beneficios, efectos adversos y otros riesgos, uso de recursos e impactos en equidad.

Tipo de recomendación

Basado en el balance de las consecuencias en relación a todos los criterios del marco, ¿cuál es su recomendación?

Una recomendación basada en el balance de las consecuencias y sus juicios en relación a todos los criterios, por ejemplo:

  • No implementar la opción
  • Considerar la opción solo en el contexto de investigación rigurosa
  • Considerar la opción solo con seguimiento y evaluación específica.
  • Considerar la opción solo en contextos específicos
  • Implementar la opción

Recomendación (texto)

¿Cuál es su recomendación en lenguaje simple?

Una recomendación concisa, clara y accionable

Justificación

¿Cuál es la justificación para la recomendación, basado en los criterios del marco que llevaron a la recomendación?

Un resumen conciso del racionamiento que sustenta la recomendación

Consideraciones de subgrupos

¿Qué subgrupos, si existen, fueron considerados, y qué factores específicos, si existen, (basados en los criterios del marco) se deben considerar en relación con esos subgrupos al momento de implementar la opción?

Un resumen conciso de los subgrupos que se consideraron y cualquier modificación de la recomendación con relación a cualquiera de esos subgrupos

Consideraciones de implementación

¿Qué se debe considerar al momento de implementar la opción, incluyendo estrategias que aborden las preocupaciones de aceptabilidad y viabilidad?

Consideraciones clave, incluyendo estrategias que aborden las preocupaciones de aceptabilidad y viabilidad, al momento de implementar la opción

Consideraciones de seguimiento y evaluación

¿Qué indicadores deben ser monitoreados? ¿Existe alguna necesidad de evaluar los impactos de la opción, bien sea en un estudio piloto o una evaluación de impacto, llevada a cabo a lo largo o antes de la implementación total de la opción?

Cualquier indicador importante que deba ser monitoreado si la opción es implementada

Prioridades de investigación

¿Existe incertidumbre importante en relación con cualquiera de los criterios que son prioridad para futuras investigaciones?

Cualquier prioridad de investigación


CAPÍTULO 7. La aproximación GRADE para pruebas y estrategias diagnósticas

Las recomendaciones que conciernen a las pruebas diagnósticas comparten la lógica fundamental de las recomendaciones para intervenciones terapéuticas y otras intervenciones tales como tamizaje. Sin embargo, las preguntas diagnósticas también presentan desafíos únicos.

Mientras que algunas pruebas reportan naturalmente resultados positivos y negativos (p.ej. embarazo, infección por VIH), otras pruebas reportan sus resultados como variables ordinales (p.ej. escala de coma de Glasgow o el examen Mini-mental) o variables continuas (p.ej. medidas metabólicas), usualmente con un incremento en la probabilidad de enfermedad o eventos adversos a medida que los resultados de las pruebas se hacen más extremos. Por simplicidad, en esta discusión generalmente asumimos un enfoque diagnóstico que categoriza finalmente los resultados de las pruebas como positivos y negativos. Esto a su vez reconoce que muchas pruebas en última instancia conducen a decisiones dicotómicas acerca de tratar o no tratar.

Los clínicos y los investigadores generalmente administran pruebas diagnósticas como un paquete o una estrategia compuesta por varias pruebas. Por lo tanto, uno puede por lo general pensar en evaluar o recomendar una estrategia diagnóstica en lugar de una única prueba.

Ejemplo. 7.1

  1. En el manejo de pacientes con diagnóstico de neoplasia intra-epitelial cervical, un precursor prevenible de cáncer cervical, basado en la inspección visual con ácido acético (IVA), los clínicos pueden proceder a tratar directamente o aplicar una estrategia para evaluar virus del papiloma humano e IVA.
  2. La estrategia diagnóstica  puede usar una prueba inicial sensible pero no específica, la cual, si es positiva, es seguida por una prueba más específica (p.ej. las pruebas de VIH incluyen el uso de una prueba de ELISA seguida por la determinación cuantitativa de RNA de VIH, en aquellos con una prueba de ELISA positiva; pero uno podría preguntar por qué no es apropiado usar únicamente una determinación cuantitativa de RNA de VIH).
  1. Preguntas de pruebas diagnósticas

El formato de la pregunta formulada por los autores de revisiones sistemáticas o desarrolladores de guías siguen los mismos principios del formato para las preguntas de manejo:

  1. Establecer el propósito de una prueba

Los paneles de las guías deben ser explícitos acerca del propósito de la prueba en la pregunta. Los investigadores y los clínicos aplican pruebas médicas a las que nos referimos usualmente como “diagnósticas” – incluyendo signos y síntomas, imágenes, bioquímica, patología y pruebas psicológicas—para un número de propósitos. Estas aplicaciones incluyen identificar alteraciones fisiológicas, establecer pronóstico, monitorizar la enfermedad y la respuesta al tratamiento, tamizaje y diagnóstico.

  1. Establecer el rol de una prueba

Los paneles de las guías y los autores de revisiones sistemáticas también deben establecer claramente el rol de una prueba o estrategia diagnóstica. Este proceso debe iniciar determinando la vía de diagnóstico estándar – o las vías—para la presentación del paciente blanco e identificar las limitaciones asociadas. Conociendo esas limitaciones, se pueden identificar las deficiencias particulares para las cuales la prueba o estrategia diagnóstica alternativa ofrece un remedio alterno. El propósito de una prueba bajo consideración puede ser para (i) reemplazo (p.ej. de pruebas con mayor carga, pruebas invasivas, costo o menor precisión, (ii) triaje/clasificación (p.ej. minimizar el uso de una prueba invasiva o costosa) o (iii) adición (p.ej. para optimizar la precisión diagnóstica más allá de la vía diagnóstica existente) (tabla 7.1) (Bossuyt 2006).

Tabla 7.1. Roles posibles de nuevas pruebas diagnósticas

Reemplazo

Una nueva prueba puede sustituir una prueba anterior, porque es más precisa, menos invasiva, menos riesgosa o menos incómoda para los pacientes, menos desafiante organizacionalmente o técnicamente, con resultados más rápidos o más fáciles de interpretar, o menos costosa.

Triaje/clasificación

Una nueva prueba se incluye antes de la vía diagnóstica existente, y solo los pacientes con un resultado particular en la prueba del triaje continúan la vía de evaluación; las pruebas de triaje no necesariamente son las más precisas, pero usualmente son las más simples y menos costosas.

Adición

Una nueva prueba se adiciona a la vía diagnóstica existente, y se puede usar para limitar tanto el número de los resultados falsos positivos como de los falsos negativos que resultan de la vía diagnóstica existente; las pruebas que se adicionan usualmente son más precisas, pero por lo demás menos atractivas que aquellas existentes.

  1. Preguntas clínicas claras

Establecer claramente el rol o propósito de una prueba o una estrategia de prueba conducirá a la identificación de preguntas clínicas sensibles, que, de forma similar a otros problemas de manejo, tiene cuatro componentes: pacientes, intervención diagnóstica (estrategia), intervención diagnóstica de comparación (estrategia), y los desenlaces de interés.

Ejemplo 7.2

¿En pacientes con sospecha de enfermedad arterial coronaria (pacientes) se debería usar tomografía computarizada espiral multi-corte (TC) de las arterias coronarias (intervención), como reemplazo de la angiografía coronaria invasiva convencional(comparación), para disminuir las complicaciones con tasas aceptables de falsos negativos asociados con eventos coronarios y falsos positivos que llevarían a tratamiento innecesario y complicaciones (desenlaces)?

Este ejemplo ilustra una razón común para una nueva prueba – prueba reemplazo (TC coronaria en lugar de angiografía convencional) para evitar complicaciones asociadas a una alternativa más invasiva y costosa para una condición que puede ser tratada efectivamente. En esta situación, la nueva prueba solo necesitará replicar los resultados de la prueba existente para demostrar un beneficio neto mayor para el paciente. Esto asume que la nueva prueba categoriza de forma similar los pacientes en la misma fase de la enfermedad y que las consecuencias del resultado de la prueba son similares, p.ej. decisiones de manejo y desenlaces.

Ejemplo 7.3

En pacientes con sospecha de alergia a la leche de vaca (ALV), se debería usar prueba de parche cutánea en lugar de una prueba oral con leche de vaca para el diagnóstico y manejo de ALV mediada por IgE.

En adultos atendidos en un escenario clínico no especializado, se debería usar cystatina C sérica o plasmática en lugar de la concentración de sérica de la creatinina para el diagnóstico y manejo de insuficiencia renal.

  1. Patrón de oro y prueba de referencia

El concepto de precisión diagnóstica recae en la presencia del llamado “patrón de oro”, p.ej. definición claramente establecida de la enfermedad blanco (p.ej. constructo de una enfermedad). Sin embargo, el término “patrón de oro” es ambiguo y no está definido de forma consistente. Adicionalmente los constructos de las enfermedades cambian constantemente con el progreso en la comprensión de la biología (p.ej. en oncología, con una mayor comprensión molecular de las patologías subyacentes o la demencia tipo Alzheimer). Aquí utilizaremos el término “patrón de oro” representando el abordaje “perfecto” para definir o diagnosticar la enfermedad o condición de interés, aún si el abordaje es teórico y basado en convención. Siguiendo esta definición, la precisión de la prueba diagnóstica (p.ej. sensibilidad y especificidad) como una propiedad de medición no se asocia con el “patrón de oro”. Se utilizará el término “estándar de referencia” o prueba de referencia para la prueba o estrategia de prueba que es actualmente la mejor estrategia y la más aceptada para realizar el diagnostico contra la cual se puede hacer la comparación (con una prueba índice).

  1. Estimación del impacto en los pacientes

Resulta que las recomendaciones acerca del uso de pruebas médicas requieren inferencias acerca de las consecuencias de identificar erróneamente si los pacientes padecen o no la enfermedad. Si una prueba falla en mejorar los desenlaces importantes para los pacientes, no hay razón para su uso, sin importar su precisión. Dada la incertidumbre acerca de la prueba de referencia y el estándar de oro y la relación entre el diagnóstico y las consecuencias para el paciente y la población, la mejor forma para evaluar una estrategia o prueba diagnóstica sería un ensayo clínico aleatorizado controlado de prueba-tratamiento, en el cual los investigadores asignan los pacientes a las estrategias diagnósticas experimentales o de control, y miden los desenlaces importantes para los pacientes (mortalidad, morbilidad, síntomas, calidad de vida y uso de los recursos).

La figura 7.1 muestra dos formas genéricas en las cuales uno puede evaluar una estrategia o prueba diagnóstica: a) los pacientes son aleatorizados a una nueva prueba o estrategia, o alternativamente a una estrategia o prueba antigua. Aquellos con una prueba positiva (casos detectados) son aleatorizados (o fueron aleatorizados previamente) a recibir la mejor alternativa de manejo disponible (Segundo paso de aleatorización para manejo no se muestra en esta figura). Los investigadores evalúan y comparan los desenlaces importantes en todos los pacientes en ambos grupos. b) los pacientes reciben ambas pruebas, la prueba nueva y una prueba referencia (ésta es, sin embargo, por lo general el comparador antiguo o una prueba o estrategia comparadora). Los investigadores pueden entonces calcular la precisión de la prueba comparada con la prueba de referencia (primer paso). Para hacer juicios acerca de la importancia para el paciente de esta información, los pacientes con una prueba positiva (o estrategia) en cualquiera de los grupos son (o han sido en cualquier estudio previo) sometidos a tratamiento o no tratamiento; los investigadores seguidamente evalúan y comparan los desenlaces importantes en todos los pacientes de ambos grupos (segundo paso).

Recorte de pantalla

Figura 7.1. Diseños de estudios genéricos que los desarrolladores de guías pueden usar para evaluar el impacto de las pruebas.

 Ejemplo 7.3. Diseños usados en la evaluación de las pruebas diagnósticas

ECAs- Observacionales analíticos

Estudios de concordancia

Ensayos clínicos aleatorizados (ECAs) que exploraron una estrategia diagnóstica guiada por el uso de péptido natriurético tipo B (BNP) – diseñado para ayudar en el diagnóstico de falla cardíaca—comparado con el no uso del BNP en pacientes que se presentan al departamento de urgencias con disnea aguda. Al final resultó que, el grupo aleatorizado a recibir BNP tuvo una estadía más corta en el hospital, con más bajo costo, sin incremento en la mortalidad o morbilidad.

Evidencia consistente de estudios bien diseñados demostraron menos resultados falsos negativos con TC helicoidal no contrastada que con pielografía intravenosa (PIV) en la sospecha diagnóstica de urolitiasis aguda. Sin embargo, los cálculos en el uréter que una TC detecta pero que la PIV “omite” son más pequeños, y por tanto más probable que pasen con facilidad. Considerando que no hay ECAs disponibles que evalúan los desenlaces de pacientes tratados con cálculos pequeños, el grado en el cual la reducción de casos que no se detectan (falsos negativos) y si el seguimiento de hallazgos de cálculos renales incidentales por medio de TC tiene beneficios importantes para la salud continúan siendo inciertos.

Cuando se encuentra disponibles estudios de intervención diagnóstica (ECAs o estudios observacionales) que comparan alternativas de estrategias diagnósticas con la evaluación de desenlaces directos importantes para el paciente, los paneles de las guías pueden usar la aproximación GRADE para otras intervenciones.

Si los estudios que miden el impacto de la prueba en los desenlaces importantes para el paciente o la población no se encuentran disponibles, los paneles de las guías deben concentrarse en otros estudios, tales como estudios de precisión de pruebas diagnósticas, y hacer inferencias acerca del probable impacto de utilizar pruebas alternativas en desenlaces importantes para los pacientes. En este último caso, la precisión diagnóstica se puede considerar como un desenlace subrogado de los beneficios y riesgos importantes para los pacientes.

Preguntas clave al momento de usar la precisión como un subrogado:

  1. Evidencia indirecta y el impacto en los desenlaces importantes para los pacientes

Una recomendación asociada a la pregunta diagnóstica se deriva de la evaluación del balance entre consecuencias deseables e indeseables de una estrategia o prueba diagnóstica. Se debería basar en una revisión sistemática que evalúe la pregunta clínica, así como de información acerca del manejo después de aplicada la prueba diagnóstica.

Inferir que los datos de precisión de una prueba o estrategia diagnóstica mejoran los desenlaces importantes para los pacientes, requieren de acceso a las terapias de manejo efectivas. De igual forma, aún cuando no existe un tratamiento efectivo disponible, utilizar una prueba precisa puede resultar beneficioso, si esta reduce los efectos adversos, costos o la ansiedad, excluyendo un diagnóstico ominoso, o si confirmando el diagnóstico se mejora el bienestar del paciente derivado de la información pronostica que imparte. Antes de llegar a tales inferencias, se requiere que se hagan juicios acerca de la confianza en la información de la precisión diagnóstica.

  1. Juicio acerca de la calidad de la evidencia subyacente

Como se describió previamente, cuando existen estudios disponibles como los descritos en la figura 7.1, se debería usar la estrategia para evaluar la confianza en el estimativo del efecto (calidad de la evidencia) descrita previamente para otras intervenciones en artículos previos en esta serie. El resto del artículo actual, se concentra en el caso en el que tales datos directos de desenlaces importantes para el paciente no se encuentran disponibles, y el cuerpo de la evidencia se deriva de estudios de precisión de pruebas diagnósticas (PPD) (DTA por sus siglas en inglés Diagnostic Test Accuracy). Por tanto, en este manual, se proporcionará una guía para evaluar la confianza en los estimativos para aquellos que sintetizan la información de estudios de PPD, p.ej. autores de revisiones sistemáticas. Las tablas de resumen de hallazgos y los perfiles de evidencia GRADE proporcionan cuentas transparentes de esta información, un resumen de la información numérica y la calificación de la confianza en esos estimativos.

La tabla 7.2. presenta los factores que determinan y pueden disminuir la calidad de la evidencia

Tabla 7.2. Factores que disminuyen la calidad de la evidencia para los estudios de precisión diagnóstica y cómo ellos difieren de la evidencia para otras intervenciones

Factores que determinan y pueden disminuir la calidad de la evidencia

Explicaciones y cómo el factor puede diferir de la calidad de la evidencia para otras intervenciones

Diseño del estudio

Criterios diferentes para estudios de precisión

Estudios de corte transversal o estudios de cohorte en pacientes con incertidumbre diagnóstica y comparación directa de los resultados de las pruebas con un estándar de referencia apropiado (mejor estrategia de prueba posible) se consideran alta calidad y pueden cambiar a moderada, calidad baja o muy baja dependiendo de otros factores.

Riesgo de sesgo (limitaciones en el diseño y ejecución del estudio)

  1. Criterios diferentes para estudios de precisión
  2. Representatividad de la población que estaba destinada a ser muestreada.
  3. Comparación independiente con la mejor estrategia de prueba.
  4. Todos los pacientes incluidos deberían recibir la nueva prueba y la mejor estrategia de prueba alternativa.
  5. La incertidumbre diagnóstica debe ser suministrada.
  6. ¿Es probable que el estándar de referencia clasifique correctamente la condición blanco?

Evidencia indirecta

Población de pacientes, prueba diagnóstica, prueba comparadora y pruebas de comparación indirectas

Criterios similares

La calidad de la evidencia se puede disminuir si hay diferencias importantes entre las poblaciones estudiadas y aquellos para quienes esta destinadas las recomendaciones (en pruebas previas, el espectro de enfermedad o comorbilidad); si hay diferencias importantes en las pruebas estudiadas y la experticia diagnóstica de aquellos que las aplican en los estudios comparados con los escenarios para los cuales están destinadas las recomendaciones; o si las pruebas comparadas se comparan cada una con una referencia estándar (oro) en diferentes estudios y no comparadas directamente en los mismos estudios.

Criterios similares

Los paneles que evalúan pruebas diagnósticas por lo general se ven enfrentados a la ausencia de evidencia directa sobre el impacto en los desenlaces importantes para los pacientes. Ellos deben hacer deducciones, a partir de los estudios de pruebas diagnósticas, acerca del balance entre las influencias presumidas en los desenlaces importantes de cualquier diferencia en verdaderos y falsos positivos, y los verdaderos y falsos negativos en relación a las complicaciones de las pruebas y los costos. Por tanto, los estudios de precisión típicamente proporcionan baja calidad de la evidencia para hacer recomendaciones, debido a la evidencia indirecta de los desenlaces, similares a los desenlaces subrogados para tratamientos.

Inconsistencia importante en los resultados de los estudios

Criterios similares

Para los estudios de precisión la inconsistencia inexplicada en sensibilidad, especificidad o razones de probabilidad (en vez de riesgos relativos o diferencias de promedios) pueden disminuir la calidad de la evidencia.

Evidencia imprecisa

Criterios similares

Para estudios de precisión, intervalos de confianza amplios para los estimativos de la precisión de la prueba, o para las tasas de verdaderos y falsos negativos y positivos, pueden disminuir la calidad de la evidencia.

Alta probabilidad de sesgo de publicación

Criterios similares

Un alto riesgo de sesgo de publicación (p.ej. evidencia solo de estudios pequeños que soportan una nueva prueba, o asimetría en el gráfico de embudo) pueden disminuir la calidad de la evidencia.

Subir por dosis-efecto, posible sesgo de grandes efectos residuales y factores de confusión

Criterios similares

Para todos estos factores, los métodos no se han desarrollado de forma apropiada. Sin embargo, determinar una dosis-efecto (p.ej. incrementar los niveles de anticoagulación medida con INR incrementa la probabilidad de deficiencia de vitamina K o antagonistas de vitamina K). Una muy alta probabilidad de enfermedad (no con desenlaces importantes para los pacientes) asociado a los resultados de la prueba puede incrementar la calidad de la evidencia. Sin embargo, existe alguna discusión de si la dosis-efecto juega un papel importante en la evaluación de la calidad de la evidencia en los estudios PPD, y de ser así cómo lo hace.

  1. Diseño inicial del estudio

En un estudio típico de precisión de la prueba, una serie consecutiva de pacientes con sospecha de una condición particular se someten a la prueba índice (la prueba que se está evaluando) y después todos los pacientes reciben una prueba de referencia o el estándar de oro (el mejor método disponible para establecer la presencia de la condición blanco). Mientras que en la aproximación GRADE los estudios de precisión apropiados (ver a continuación) comienzan como evidencia de alta calidad acerca de la precisión diagnóstica, estos estudios son vulnerables a limitaciones y con frecuencia llevan a evidencia  de baja calidad para soportar recomendaciones de la guía, sobre todo debido a la evidencia indirecta que se asocia al hecho que la precisión diagnóstica es únicamente un subrogado de los desenlaces de los pacientes.

  1. Riesgo de sesgo

Algunos instrumentos para la evaluación del riesgo de sesgo en estudios de PPD están disponibles. La Colaboración Cochrane sugiere una selección de los ítems de los instrumentos QUADAS [Whiting 2003; PMID 14606960] y QUADAS -2 [Whiting 2011; PMID 22007046]. Los autores de revisiones sistemáticas y paneles de las guías pueden usar los criterios de la lista QUADAS (tabla 7.3) para evaluar el riesgo de sesgo dentro y entre los estudios.

Las limitaciones serias en un cuerpo de la evidencia que indican riesgo de sesgo, si se encuentran, conducirá probablemente a bajar la calidad de la evidencia en uno o dos niveles.

Tabla 7.3. Criterios de calidad de estudios de precisión diagnóstica derivados de QUADAS (I) 

1.

¿El espectro de pacientes fue representativo de los pacientes que van a recibir la prueba en la práctica? (espectro representativo)

2.

¿El estándar de referencia probablemente clasificará la condición blanco correctamente? (estándar de referencia aceptable)

3.

¿El período de tiempo entre el estándar de referencia y la prueba índice es lo suficientemente corto para asegurar razonablemente que la condición blanco no cambió entre las dos pruebas? (retraso aceptable entre pruebas)

4.

¿Toda la muestra o una selección aleatoria de la muestra, recibió verificación usando el estándar de referencia destinado? (evitar la verificación parcial)

5.

¿los pacientes recibieron el mismo estándar de referencia independiente del resultado de la prueba índice? (evitar la verificación diferencial)

6.

¿El estándar de referencia fue independiente de la prueba índice? (incorporación evitada)

7.

¿Los resultados del estándar de referencia fueron interpretados sin conocimiento de los resultados de la prueba índice? (resultados de la prueba índice ocultos)

8.

¿Los resultados de la prueba índice fueron interpretados sin conocimiento de los resultados del estándar de referencia? (resultados del estándar de referencia ocultos)

9.

¿Se encontraba disponible la misma información clínica al momento de interpretar los resultados de las pruebas, como estaría disponible cuando la prueba sea utilizada en la práctica? (información clínica relevante)

10.

¿Se reportaron los resultados no interpretables/ intermedios? (reporte de resultados no interpretables)

11.

¿Los retiros/pérdidas del estudio fueron explicados? (explicación de los retiros)

Fuente [Reitsma 2009].

Tabla 7.4. Criterios de calidad de estudios de precisión diagnóstica derivados de QUADAS-2

Dominio

Selección de pacientes

Prueba índice

Estándar de referencia

Flujo y tiempos

Descripción

Describa los métodos de la selección de pacientes

Describa los pacientes incluidos (pruebas previas, presentación, uso destinado de la prueba índice, y escenario)

Describa la prueba índice y cómo se condujo y se interpretó

Describa el estándar de referencia y cómo se condujo y se interpretó

Describa cualquier paciente que no recibió las pruebas índice o estándar de referencia o que fue excluido de las tablas de 2x2 (ver diagrama de flujo)

Describa el intervalo y cualquier intervención entre las pruebas índice y el estándar de referencia

Señalización de preguntas (si, no o incierto)

¿Se incluyó una muestra de pacientes consecutiva o aleatoria?

¿Se evitó el diseño de casos y controles?

¿El estudio evitó exclusiones inapropiadas?

¿Los resultados de la prueba índice fueron interpretados sin conocimiento de los resultados del estándar de referencia?

¿Si se utilizó un umbral, se especificó previamente?

¿El estándar de referencia probablemente clasificó de forma correcta la condición blanco?

¿Los resultados del estándar de referencia se interpretaron sin conocimiento de los resultados de la prueba índice?

¿Existió un intervalo apropiado entre las pruebas índice y el estándar de referencia?

¿Todos los pacientes recibieron un estándar de referencia?

¿Todos los pacientes recibieron el mismo estándar de referencia?

¿Se incluyeron todos los pacientes en el análisis?

Riesgo de sesgo (alto, bajo o incierto)

¿La selección de pacientes pudo haber introducido sesgo?

¿Pudo la ejecución o la interpretación de la prueba índice haber introducido sesgo?

¿Pudo el estándar de referencia, su ejecución o su interpretación haber introducido sesgo?

¿Pudo el flujo de pacientes haber introducido sesgo?

  1. Evidencia indirecta

Juzgar si la evidencia es indirecta, representa un desafío adicional y probablemente mayor para los autores de revisiones sistemáticas de precisión de pruebas diagnósticas y para paneles de guías que formulan recomendaciones acerca de pruebas diagnósticas. En primer lugar, así como para intervenciones terapéuticas, la evidencia indirecta se debe evaluar en relación con la población, el escenario, la intervención (la prueba índice o la nueva prueba) y el comparador (otra prueba investigada o el estándar de referencia). Por ejemplo, un juicio de evidencia indirecta de la población puede resultar de usar diferentes escenarios de pruebas, así como los pacientes vistos en un departamento de emergencias pueden diferir de pacientes vistos en un consultorio de medicina general, los pacientes incluidos en los estudios de interés pueden diferir, o la condición blanco de la población no es la misma en los estudios comparados a la pregunta formulada.

Si la pregunta clínica es acerca de la elección entre dos pruebas, ninguna de las cuales es estándar de referencia, uno debe evaluar si las dos pruebas se compararon directamente la una con la otra y con el estándar de referencia en el mismo estudio, o en estudios separados en los cuales cada prueba se comparó con el estándar de referencia.

A diferencia de las preguntas de manejo, si solo hay disponible información de precisión diagnóstica, la evaluación de la evidencia indirecta requiere de juicios adicionales acerca de si la clasificación correcta o incorrecta de los sujetos de tener o no la condición blanco, se relaciona con los desenlaces importantes para los pacientes. Mientras que los autores de revisiones sistemáticas omitirán frecuentemente este paso, porque su interés puede relacionarse únicamente con la revisión de la precisión diagnóstica, los paneles de las guías deben siempre hacer estos juicios – bien sea implícitos, o mejor, de forma explícita y transparente.

Ejemplo 7.1.

Una revisión sistemática que compara la precisión diagnóstica de dos pruebas para insuficiencia renal – creatinina sérica y cistatina C sérica – identificó un número de estudios que realizaron pruebas séricas tanto de creatinina como de cistatina C y el estándar de referencia en los mismos pacientes. Tabla SoFt de precisión diagnóstica: cistatina versus creatinina en el diagnóstico de falla renal sería como sigue:

  1. Inconsistencia, imprecisión, sesgo de publicación y subir por dosis efecto, grandes estimativos de precisión y posibles factores de confusión residuales

Aunque estos criterios son aplicables al cuerpo de la evidencia de estudios de precisión de pruebas diagnósticas, los métodos para determinar si un criterio particular se cumple están menos establecidos, en comparación con la evidencia acerca de los efectos de intervenciones terapéuticas. Se requiere de más trabajo empírico y teórico a futuro para proveer una directriz de como evaluar dichos criterios.

  1. Confianza global en los estimativos de los efectos

Los ejemplos a continuación muestran la evaluación de la confianza en los estimativos y la tabla SoF de todos los desenlaces críticos para la comparación de la angiografía por tomografía computarizada (TC) con una angiografía invasiva (estándar de referencia) en pacientes con sospecha de enfermedad arterial coronaria.

En el ejemplo 7.3., la figura muestra la sensibilidad y especificidad de TC coronaria multicorte comparada con angiograma coronario. La heterogeneidad también existió para razones de probabilidad y razones de probabilidad diagnóstica.

Ejemplo 7.2. Evaluación de la calidad de los estudios de precisión diagnóstica

¿Se debería usar tomografía computarizada espiral multi-corte en lugar de angiografía coronaria convencional para el diagnóstico de enfermedad arterial coronaria?


Ejemplo 7.3. Resumen de hallazgos de todos los desenlaces críticos para la comparación de angiografía por tomografía computarizada (TC) con angiografía invasiva (estándar de referencia) en pacientes con sospecha de enfermedad coronaria.

Los estudios de precisión originales se planearon y ejecutaron de forma correcta, los resultados son precisos, y uno no sospecha sesgo relevante de publicación. Sin embargo, existen problemas de inconsistencia. Los revisores que evalúan los méritos relativos de TC versus angiografía invasiva para el diagnóstico de enfermedad coronaria, encontraron importante heterogeneidad en los resultados para la proporción de pacientes con angiografías invasivas negativas con un resultado positivo en la TC (especificidad), y en los resultados para la proporción de pacientes con angiografías positivas con resultados negativos en TC (sensibilidad) que no podían explicar (ver figura a continuación). Esta heterogeneidad también estaba presente para otras medidas de precisión de pruebas diagnósticas (p.ej. razones de probabilidad positivas y negativas y razones de probabilidades diagnósticas). La heterogeneidad inexplicada en los resultados entre los estudios reduce la calidad de la evidencia para todos los desenlaces.

     pic7.png


CAPÍTULO 8. Criterios para determinar si se utilizó la aproximación GRADE

Uno de los propósitos del grupo de trabajo GRADE es reducir la confusión innecesaria que surge de los múltiples sistemas para calificar la calidad de la evidencia y la fuerza de las recomendaciones. Para evitar agregar a esta confusión múltiples variaciones la aproximación GRADE, sugiere que los criterios a continuación se deben cumplir si se menciona que se utilizó la aproximación GRADE. También, incluso cuando los usuarios puedan creer que existen buenas razones para modificar la aproximación GRADE, desalentamos el uso de estrategias “modificadas” de GRADE que difieran sustancialmente de la aproximación descrita por el Grupo de trabajo GRADE. Sin embargo, se alienta y se reciben las críticas constructivas a la aproximación GRADE, sugerencias para su mejoramiento, y la participación en el Grupo de trabajo GRADE. Al igual que muchas estrategias científicas para mejoras de los sistemas de salud, la aproximación GRADE continuará evolucionando en respuesta a nueva investigación, y para satisfacer las necesidades de los autores de revisiones sistemáticas, desarrolladores de guías y otros usuarios.

Lista de chequeo: criterios sugeridos para afirmar que si se empleó la aproximación GRADE



REFERENCIAS

Bossuyt 2006. Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests against existing diagnostic pathways. BMJ. 2006 May 6;332(7549):1089-92. Review. Erratum in: BMJ. 2006 Jun 10;332(7554):1368.

Cohen 1977. Jacob Cohen. The Concepts of Power Analysis. En: Statistical Power Analysis for the Behavioral Sciences (Revised Edition). Chapter 1. Academic Press. 1977, Pages 1–17.

Higgins 2011. Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 [updated March 2011]. The Cochrane Collaboration, 2011. Available from http://handbook.cochrane.org.

Mustafa 2013. Mustafa RA, Santesso N, Brozek J, Akl EA, Walter SD, Norman G, Kulasegaram M, Christensen R, Guyatt GH, Falck-Ytter Y, Chang S, Murad MH, Vist GE, Lasserson T, Gartlehner G, Shukla V, Sun X, Whittington C, Post PN, Lang E, Thaler K, Kunnamo I, Alenius H, Meerpohl JJ, Alba AC, Nevis IF, Gentles S, Ethier MC,Carrasco-Labra A, Khatib R, Nesrallah G, Kroft J, Selk A, Brignardello-Petersen R, Schünemann HJ. The GRADE approach is reproducible in assessing the quality of evidence of quantitative evidence syntheses. J Clin Epidemiol. 2013 Jul;66(7):736-42; quiz 742.e1-5. doi: 10.1016/j.jclinepi.2013.02.004.

Petitti 2009. Petitti DB, Teutsch SM, Barton MB, Sawaya GF, Ockene JK, DeWitt T; U.S. Preventive Services Task Force.. Update on the methods of the U.S. Preventive Services Task Force: insufficient evidence. Ann Intern Med. 2009 Feb 3;150(3):199-205.

Reitsma 2009. Reitsma JB, Rutjes AW, Khan KS, Coomarasamy A, Bossuyt PM. A review of solutions for diagnostic accuracy studies with an imperfect or missing reference standard. J Clin Epidemiol. 2009 Aug;62(8):797-806. doi:10.1016/j.jclinepi.2009.02.005. Review. PubMed PMID: 19447581.

Santesso 2012. Santesso, N., Schünemann, H., Blumenthal, P., De Vuyst, H., Gage, J., Garcia, F., Jeronimo, J., Lu, R., Luciani, S., Quek, S. C., Awad, T., Broutet, N. and World Health Organization Steering Committee for the Recommendations on the Use of Cryotherapy for Cervical Cancer Prevention (2012), World Health Organization Guidelines: Use of cryotherapy for cervical intraepithelial neoplasia. International Journal of Gynecology & Obstetrics, 118: 97–102. doi:10.1016/j.ijgo.2012.01.029

Schünemann 2013. Schünemann HJ, Wiercioch W, Etxeandia I, Falavigna M, Santesso N, Mustafa R, Ventresca M, Brignardello-Petersen R, Laisaar KT, Kowalski S, Baldeh T, Zhang Y, Raid U, Neumann I, Norris SL, Thornton J, Harbour R, Treweek S, Guyatt G, Alonso-Coello P, Reinap M, Brozek J, Oxman A, Akl EA. Guidelines 2.0: systematic development of a comprehensive checklist for a successful guideline enterprise. CMAJ. 2014 Feb 18;186(3):E123-42. doi: 10.1503/cmaj.131237. PubMed PMID: 24344144; PubMed Central PMCID: PMC3928232.

Schünemann 2006. Schünemann HJ, Jaeschke R, Cook DJ, Bria WF, El-Solh AA, Ernst A, Fahy BF, Gould MK, Horan KL, Krishnan JA, Manthous CA, Maurer JR, McNicholas WT, Oxman AD, Rubenfeld G, Turino GM, Guyatt G; ATS Documents Development and Implementation Committee. An official ATS statement: grading the quality of evidence and strength of recommendations in ATS guidelines and recommendations. Am J Respir Crit Care Med. 2006 Sep 1;174(5):605-14.


Glosario de términos y conceptos (orden alfabético)

Este glosario se basa parcialmente y con permiso, en el glosario de la Colaboración Cochrane y las Guías de Usuarios para la Literatura Médica.

Análisis de intención de tratar (IT): una estrategia para analizar los datos de ensayos controlados aleatorizados. Todos los participantes se incluyen en el brazo al cual fueron asignados, así hayan o no recibido (o completado) la intervención administrada a dicho brazo. El análisis de intención de tratar previene el sesgo causado por la pérdida de participantes, que puede alterar el equilibrio de base establecido por la aleatorización, y que puede reflejar la no adherencia al protocolo. El término por lo general se utiliza de forma errónea en publicaciones de ensayos cuando algunos participantes se excluyen.

Calidad de la evidencia: el grado en el cual uno puede estar confiado que el efecto estimado es correcto.

Cargas: las cargas son las peticiones o solicitudes que no agradan a los pacientes o cuidadores (p.ej. familia), tales como tener que tomar los medicamentos o las incomodidades de tener que ir al consultorio de los doctores.

Cociente de riesgo/razón de riesgos (CR): una medida de efecto producida por un análisis de supervivencia y representando el incremento del riesgo con el cual un grupo es probable que experimente el desenlace de interés. Por ejemplo, si el cociente de riesgo de muerte por un tratamiento es 0,5, entonces se puede decir que los pacientes tratados es probable que mueran a la mitad de la tasa de los pacientes no tratados.

Comparación: una intervención frente a la cual una nueva intervención se compara, grupo control.

Consumidor (consumidor de atención de salud): alguien que utiliza, está afectado por, o quien tiene derechos a utilizar servicios de salud.

Contexto: las condiciones y circunstancias que son relevantes a la aplicación de una intervención, por ejemplo, el escenario (en el hospital, en la casa, en el aire); el tiempo (día laboral, festivo, tiempo nocturno); tipo de práctica/nivel de atención (primaria, secundaria, terciaria; práctica privada, práctica por seguro, caridad); si de rutina o emergencia. También llamada situación clínica.

Control: en un ensayo controlado, un control es un participante en el brazo que actúa como comparador para una o más intervenciones experimentales. Los controles pueden recibir placebo, ningún tratamiento, tratamiento estándar o una intervención activa, tal como un medicamento estándar. En un estudio observacional un control es la persona en el grupo sin la enfermedad o el desenlace de interés.

Datos categóricos: datos que son clasificados en dos o más categorías que no se superponen. Género y tipo de medicamentos (aspirina, acetaminofén, etc.) son ejemplos de variables categóricas.

Datos continuos: datos con un número potencial infinito de posibles valores dentro de un rango establecido. Altura, peso, presión sanguínea son ejemplos de variables continuas.

Desenlace: un componente del estado clínico o funcional de un participante después de que se ha aplicado una intervención, que se utiliza para evaluar la efectividad de una intervención.

Desenlaces subrogados/alternativos: desenlace medido que no tiene importancia directa, pero que se cree reflejan un desenlace que es importante; por ejemplo, la presión arterial no es directamente importante para los pacientes, pero se utiliza como un desenlace en los ensayos clínicos porque es un factor de riesgo para los eventos cerebrovasculares y los ataques cardíacos. Los desenlaces subrogados son por lo general marcadores fisiológicos o bioquímicos que pueden medirse relativamente rápido y fácilmente, y que se toman porque predicen desenlaces clínicos importantes. Se utilizan por lo general cuando la observación de los desenlaces clínicos requiere un seguimiento extenso. También llamados: desenlaces intermediarios o finales subrogados.

Diferencia de medias (DM): la “diferencia en medias” es un estadístico estándar que mide la diferencia absoluta entre el valor del promedio en los dos grupos en un ensayo clínico. Estima la cantidad en la que el tratamiento modifica el desenlace en promedio. Se puede utilizar como un estadístico de resumen en metanálisis cuando la medida de los desenlaces en todos los estudios se hace en la misma escala. Previamente se conocía como diferencia de medias ponderada (DMP).

Diferencia estandarizada de medias (DEM): la diferencia entre dos medias estimadas dividida por una desviación estándar estimada. Se utiliza para combinar los resultados de estudios que utilizan diferentes formas de medir la misma variable continua, p.ej. Dolor. Expresando los efectos como un valor estandarizado, los resultados se pueden combinar puesto que no tienen unidades. La diferencia estandarizada de medias es referida en ocasiones como d índice.

Diferencia mínimamente importante (DMI): la menor diferencia en puntuación en el desenlace de interés que los pacientes informaron o los apoderados de los pacientes percibieron como importantes, bien sea beneficioso o perjudicial, y que llevaría a un paciente o clínico a considerar un cambio en el manejo.

Efectividad: el grado en el cual una intervención produce un resultado beneficioso en condiciones ideales. Los ensayos clínicos que evalúan la efectividad también se llaman en ocasiones ensayos pragmáticos o de manejo.

Efecto deseable: un efecto deseable de adherencia a una recomendación puede incluir desenlaces beneficiosos en salud, menos carga y ahorro.

Efectos indeseables: un efecto indeseable de adherencia a una recomendación puede incluir daños/riesgos, mayor carga y costos.

Eficacia: el grado en el cual una intervención produce un resultado beneficioso en condiciones ideales. Los ensayos clínicos que evalúan la eficacia se llaman en ocasiones ensayos explicativos.

Ensayo controlado aleatorizado (ECA): un estudio experimental en el cual dos o más intervenciones se comparan siendo asignadas de forma aleatoria a los participantes. En la mayoría de ensayos una intervención se asigna a cada individuo, pero en algunos casos la asignación es para grupos definidos de individuos (por ejemplo, en un hogar) o intervenciones son asignadas entre individuos (por ejemplo, en diferentes órdenes o a diferentes partes del cuerpo).

Estimativo del efecto: la relación observada entre una intervención y un desenlace, expresado como, por ejemplo, número necesario a tratar, razón de probabilidad, diferencia del riesgo, razón de riesgo, reducción relativa del riesgo, diferencia de medias estandarizada o diferencia de medias ponderada.

Estimativo puntual: los resultados (p.ej. media, diferencia de medias ponderada, razón de probabilidades, razón de riesgo o diferencia de riesgo) obtenidos en una muestra (un estudio o metanálisis) que se utiliza como el mejor estimado de lo que es verdadero para la población relevante de la cual se toma la muestra.

Estudio de casos y controles: un estudio observacional que compara personas con una enfermedad específica o desenlace de interés (casos) con personas de la misma población sin esa enfermedad o desenlace (controles), y que busca encontrar asociaciones entre el desenlace y la exposición previa a factores de riesgo particulares. Este diseño es particularmente útil cuando los desenlaces son raros y la exposición pasada se puede medir de forma confiable. Los estudios de casos y controles son usualmente retrospectivos, pero no en todos los casos.

Estudio de cohorte: un estudio observacional en el cual un grupo definido de personas (la cohorte) se sigue por un periodo de tiempo. Los desenlaces de las personas en los subconjuntos de esta cohorte se comparan, para examinar quienes estuvieron y no estuvieron expuestos (o expuestos en diferentes niveles) a una intervención particular o a otros factores de interés. Un estudio de cohorte prospectivo reúne los participantes y los sigue en el futuro. Un estudio de cohorte retrospectivo (o histórico) identifica los sujetos de registros pasados y los sigue desde el tiempo del registro hasta el presente.

Estudio observacional: un estudio en el cual los investigadores no pretenden intervenir, sino simplemente observar el curso de eventos. Cambios o diferencias en una característica (p.ej. si las personas recibieron o no la intervención de interés) se estudian en relación a cambios o diferencias en otra característica(s) (p.ej. si murieron o no), sin acción del investigador. Existe un mayor riesgo de sesgo de selección que en estudios experimentales.

Factor de confusión: un factor que está asociado tanto con una intervención (o exposición) y el desenlace de interés.  Por ejemplo, si las personas de un grupo experimental de un ensayo controlado son más jóvenes que las del grupo control, será difícil decidir si un riesgo menor de muerte en un grupo se debe a la intervención o a la diferencia de edades. La edad se dice entonces que es un factor de confusión, o una variable de confusión. La aleatorización se utiliza para minimizar desequilibrios en variables de confusión entre los grupos experimentales y control. Los factores de confusión son una preocupación importante en los estudios no aleatorizados.

Fuerza de la recomendación: el grado de confianza que los efectos deseables de adherencia a una recomendación sobrepasan los efectos indeseables.

Gradiente dosis respuesta: la relación entre la cantidad del tratamiento administrado y su efecto en el desenlace.

Guía de práctica clínica (GPC): una declaración sistemáticamente desarrollada para asistir en las decisiones del médico y pacientes acerca de la atención apropiada en salud para circunstancias clínicas específicas.

Intervalo de confianza (IC): una medida de la incertidumbre alrededor del principal hallazgo de un análisis estadístico. Estimativos de cantidades desconocidas, tales como RR que compara una intervención experimental con un control, se presentan usualmente como un estimativo puntual y un intervalo de confianza del 95%. Esto significa que si alguien fuese a repetir el estudio en otras muestras para la misma población, el 95% de los intervalos de confianza calculados de esos estudios incluirían el verdadero valor subyacente. Resulta más fácil conceptualmente pensar el IC como el rango en el cual la verdad se encuentra posiblemente. Intervalos más amplios indican menos precisión; intervalos menos amplios mayor precisión. Alternativas al 95%, tales como intervalos de confianza de 90% y 99%, se utilizan en ocasiones.

Intervención: el proceso de intervenir personas, grupos, entidades u objetos en un estudio experimental. En ensayos controlados, la palabra se utiliza en ocasiones para describir los regímenes en todos los grupos de comparación, incluyendo los brazos de placebo y de no tratamiento.

Metanálisis: la combinación estadística de resultados de dos o más estudios separados.

Número necesario a tratar (NNT): un estimado de cuantas personas necesitan recibir el tratamiento antes de que una persona experimente un desenlace beneficioso. Por ejemplo, si se necesita dar un medicamento para la prevención de evento cerebrovascular a 20 personas antes de prevenir un evento, entones el número necesario a tratar para beneficiarse de ese medicamento de prevención del evento cerebrovascular es 20. Se estima como el recíproco de la diferencia de riesgo.

Número necesario para dañar (NND): un número necesario a tratar para beneficiar asociado a un efecto dañino/nocivo. Es un estimado de cuantas personas necesitan recibir el tratamiento antes de que una o más personas experimenten un desenlace dañino/nocivo o una persona menos experimente un desenlace beneficioso.

Población: el grupo de personas en estudio, usualmente tomando muestras de dicha población. Las poblaciones se pueden definir por cualquier característica p.ej. Geografía, grupo etario, ciertas enfermedades.

Precisión: una medida de la probabilidad de errores aleatorios en los resultados de un estudio, metanálisis o medida. A menor error aleatorio mayor la precisión. Intervalos de confianza alrededor del estimativo del efecto de cada estudio, son una forma de expresar la precisión, un intervalo de confianza más angosto significa más precisión.

Razón de probabilidades (OR): la razón de probabilidades de un evento en un grupo a la probabilidad de un evento en otro grupo. En estudios de efecto de tratamiento, las probabilidades en el grupo de tratamiento se dividen usualmente en las probabilidades en el grupo control. Una razón de probabilidades de uno indica que no hay diferencias entre los grupos en comparación. Para desenlaces poco deseados un OR menor de uno indica que la intervención fue efectiva en reducir el riesgo de ese desenlace. Cuando el riesgo es pequeño, el valor de la razón de probabilidades es similar a la razón del riego. Cuando los eventos en el grupo control no son frecuentes, OR y CR se pueden asumir iguales al RR para la aplicación de este criterio.

Reducción absoluta del riesgo (RAR): sinónimo de diferencia del riesgo (DR). La diferencia en el riesgo entre dos grupos. Por ejemplo, si un grupo tiene un riesgo del 15% de contraer una enfermedad particular, y el otro tiene un riesgo de 10% de contraer la enfermedad, la diferencia del riesgo es 5 puntos porcentuales.

Reducción relativa del riesgo (RRR): la reducción proporcional en el riesgo en un grupo de tratamiento comparado con otro. Es uno menos la razón de riesgo. Si la razón de riesgo es 0,25, entonces la reducción relativa del riesgo es 1-0,25=0,75 o 75%.

Reporte de caso: un estudio reportando observaciones de un único individuo. También llamado: anécdota, historia de caso, o estudio de caso.

Review Manager (RevMan): es el software utilizado para preparar y mantener las revisiones sistemáticas de Cochrane. Revman permite escribir y manejar los protocolos de las revisiones sistemáticas, así como completar las revisiones, incluir texto, tablas y datos del estudio. Puede elaborar metanálisis de los datos ingresados y presentar los resultados gráficamente.

Revisión sistemática: una revisión de una pregunta claramente formulada que utiliza métodos sistemáticos y explícitos para identificar, seleccionar y evaluar críticamente investigación relevante, y para recolectar y analizar datos de estudios que se incluyen en la revisión. Métodos estadísticos (metanálisis) se pueden o no emplear para analizar y resumir los resultados de los estudios incluidos.

Riesgo basal: sinónimo del riesgo del grupo control.

Riesgo del grupo control: riesgo observado del evento en el grupo control. Sinónimo de riesgo basal. El riesgo del grupo control para un desenlace se calcula dividiendo el número de personas con un desenlace en el grupo control en el número total de participantes del grupo control.

Riesgo relativo (RR): sinónimo de razón de riesgo. La razón de riesgos en dos grupos. En estudios de intervención, es la razón del riesgo en el grupo de intervención al riesgo en el grupo control. Una razón de riesgo de uno indica no diferencia entre los grupos comparados. Para desenlaces indeseables, una razón de riesgo que es menor de uno indica que la intervención fue efectiva en reducir el riesgo de ese desenlace.

Riesgo: la proporción de participantes que experimentan el evento de interés. Por tanto, si de 100 participantes, el evento (p.ej. evento cerebrovascular) se observa en 32, el riesgo es 0,32. El riesgo del grupo control es el riesgo en el grupo control. El riesgo algunas veces es referido como la tasa de eventos.

Seguimiento: la observación en un período de tiempo del estudio/ensayo de los pacientes para medir los desenlaces que se encuentran en investigación.

Series de casos: un estudio reportando observaciones en una serie de individuos, usualmente todos recibiendo las mismas intervenciones, sin grupo control.

Sesgo: un error sistemático o desviación en los resultados o inferencias de la verdad. En los estudios de los efectos de la atención en salud, los principales tipos de sesgo se originan de diferencias sistemáticas en los grupos que se comparan (sesgo de selección), la atención provista, exposición a otros factores aparte de la intervención de interés (sesgo de desempeño), retiros/pérdidas o exclusiones de personas incluidas en un estudio (sesgo de deserción) o cómo se están evaluando los desenlaces (sesgo de detección). Las revisiones sistemáticas de estudios se pueden ver afectadas también particularmente por el sesgo de reporte, donde un subconjunto sesgado de todos los datos relevantes se encuentra disponible.

Significancia estadística: un resultado que es poco probable que suceda por el azar. El umbral usual para estos juicios es que los resultados, o los resultados más extremos, ocurrirían por el azar con una probabilidad menor de 0,05 si la hipótesis nula fuese cierta. Las pruebas estadísticas producen un valor p utilizado para evaluar esto.

Tamaño del efecto (TE): un término genérico para el estimado del efecto de tratamiento para un estudio. Algunas veces el término es utilizado para referirse a diferencia de medias estandarizada. Para facilitar la comprensión se sugiere interpretar el tamaño del efecto de acuerdo a lo ofrecido por Cohen (Cohen 1977). De acuerdo a esta interpretación, un tamaño de efecto o diferencia de media estandarizada de alrededor de:

Tamaño óptimo de información (TOI): número de pacientes generados por el cálculo del tamaño de muestra convencional para un único ensayo.

Validez externa: el grado en el cual los resultados proporcionan una base correcta para generalizar a otras circunstancias. Por ejemplo, un metanálisis de ensayos de pacientes mayores no se puede generalizar a niños. También se puede llamar generalización o aplicabilidad.

Validez interna: el grado en el cual el diseño y la conducción de un estudio son propensos de haber prevenido el sesgo. Variación en la calidad metodológica puede explicar variación en los resultados de los estudios. Ensayos diseñados con más rigor (mejor calidad) es más probable que produzcan resultados más cercanos a la verdad.

Valoración/Apreciación crítica: el proceso de evaluación e interpretación de la evidencia considerando de forma sistemática su validez, resultados y relevancia.


Recursos adicionales

Recursos para autores de revisiones sistemáticas

El manual Cochrane (The Cochrane Handbook) incluye dos capítulos principales que proporcionan información de cómo crear tablas de resúmenes de hallazgos usando la información de las revisiones sistemáticas Cochrane y GRADEing la evidencia.

Parte 2 Capítulo 11: presentando los resultados y tablas “resúmenes de hallazgos”

Parte 2 Capítulo 12: interpretando los resultados y sacando conclusiones

Recursos generales de medicina basada en la evidencia

La biblioteca Cochrane

La biblioteca Cochrane (The Cochrane Library ) contiene evidencia independiente de alta calidad, para informar las decisiones de atención en salud. Incluye evidencia confiable de revisiones sistemáticas Cochrane y otras revisiones, ensayos clínicos entre otros. Las revisiones Cochrane proveen los resultados combinados de los mejores estudios médicos del mundo, y son reconocidos como el estándar de oro en la atención en salud basada en evidencia.

El manual Cochrane

El manual Cochrane (The Cochrane Handbook ) para revisiones sistemáticas de intervenciones (el manual) provee directrices para los autores al momento de preparar revisiones de intervenciones Cochrane (incluyendo Resumen de las revisiones Cochrane). El manual se actualiza regularmente para reflejar los avances en la metodología de las revisiones sistemáticas y en respuesta a la retroalimentación de los usuarios.

Guía de usuarios de literatura médica (Users´Guides to the Medical Literature)

Un set completo de usuario para encontrar, evaluar y utilizar literatura médica que fue publicado originalmente como series en la revista de la Asociación Médica Americana (JAMA).

Guías de usuario de literatura médica: un manual de práctica clínica basada en la evidencia (interactivo disponible en inglés) (Users' Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice (Interactive)), presenta los conceptos sofisticados de medicina basada en evidencia (MBE) en formas únicas que se pueden utilizar para determinar diagnósticos, decidir terapias óptimas y predecir pronóstico. También ofrece una expansión a fondo de la metodología, estadística y cuestiones de costo que emergen en la investigación médica.

Recursos específicos de guías

Mejora del uso de la evidencia de la investigación en el desarrollo de guías (SERIES)

Una serie de 16 trabajos publicados en Health Research Policy and Systems (disponible en inglés) en 2006, Volumen 4, secciones 12 a 28 acerca del desarrollo de guías. Los temas son Guías para guías, escenarios prioritarios, composición de Grupos y procesos de consultoría, Manejo de conflictos de interés, Procesos de grupo, Decidiendo cuáles desenlaces son importantes, Decidiendo qué evidencia incluir, Síntesis y presentación de la evidencia, Calificando la evidencia y las recomendaciones, Integrando los valores del consumidor, Incorporando consideraciones de costo-efectividad, asequibilidad e implicaciones de recursos, Incorporando consideraciones de equidad, Adaptación, aplicabilidad y transferibilidad, Reportando guías, Diseminando e implementando guías, y Evaluación.

El instrumento AGREE

El propósito del instrumento AGREE (Appraisal of Guidelines Research & Evaluation (AGREE) Instrument) es proveer un marco para evaluar la calidad de las guías de práctica clínica

Comité asesor de guías

Comité asesor de guías: (GuidelinesAdvisoryCommittee) (CAG) es una asociación independiente de la Asociación Médica de Ontario y el Ministerio de Salud y Cuidado a Largo Plazo de Ontario (MOHLTC por sus siglas en inglés). La misión es promover una mejor salud para las personas de Ontario alentando a los médicos y otros involucrados en la atención de pacientes, a utilizar guías de práctica clínica basadas en evidencia y prácticas clínicas basadas en la mejor evidencia disponible. Nosotros identificamos, evaluamos, avalamos y resumimos las guías para el uso en Ontario.

National Guideline Clearinghouse 

La National Guideline Clearinghouse (NGC por sus siglas en inglés), es una base de datos comprensiva de guías de práctica clínica basadas en la evidencia y documentos relacionados. NGC es una iniciativa de la Agencia para la investigación en salud y calidad (AHRQ por sus siglas en inglés), del departamento de Salud y servicios humanos de los Estados Unidos.

Biblioteca nacional de guías

Biblioteca nacional de guías: National Library of Guidelines es una colección de guías para el Servicio Nacional de Salud (NHS). Se basa en guías producidas por NICE y otras agencias nacionales. La aproximación principal de la biblioteca son las guías producidas en el Reino Unido, pero de no haber guía producida en el Reino Unido disponible, guías de otros países son incluidas en la colección.


Acerca del Grupo de trabajo GRADE

Grupo de trabajo GRADE: (Grading of Recommendations Assessment, Development and Evaluation (short GRADE) Working Group). El Grupo de trabajo GRADE comenzó en el año 2000 como una colaboración informal de más de 60 metodólogos, clínicos, revisores sistemáticos y desarrolladores de guías representando varias organizaciones con el propósito de abordar las dificultades de los sistemas de calificación de la atención de salud actuales. El propósito fue desarrollar un enfoque común, sensible para calificar la calidad de la evidencia y la fuerza de la recomendación. Basados en la experiencia común, la revisión crítica de otros sistemas, trabajando por medio de ejemplos y aplicando el sistema en guías, el grupo de trabajo ha desarrollado la aproximación GRADE como un método común, transparente y aplicable para calificar la calidad de la evidencia y la fuerza de las recomendaciones.

El grupo interactúa a través de reuniones bianuales produciendo directrices metodológicas, desarrollando resúmenes de la evidencia y guías de aplicación. Los miembros colaboran en proyectos de investigación como el proyecto DECIDE (www.decide-collaboration.eu) junto con otros miembros y científicos u organizaciones (p.ej. www.rarebestpractices.eu). La membrecía es abierta y gratuita. Para más información acerca del Grupo de Trabajo y la lista de las organizaciones que han avalado y adoptado la aproximación GRADE, visite www.gradeworkinggroup.org.

Actualmente existen centros académicos y de investigación que se han dedicado a apoyar la iniciativa GRADE y varios países han creado Redes Nacionales que unen los Centros GRADE. Un centro o red de GRADE sirve como el centro principal dentro de la región para las preguntas relacionadas con la aproximación GRADE y para oportunidades de apoyo y colaboración. La misión de los centros / redes de GRADE es ayudar al grupo de trabajo GRADE en la capacitación, promoción, difusión e implementación de GRADE. Los centros y redes de GRADE desarrollan acciones efectivas para difundir el uso de la aproximación GRADE en las directrices de salud y revisiones sistemáticas a través de la promoción, capacitación y apoyo de los desarrolladores de las directrices y los autores de la revisión; para proporcionar apoyo metodológico a organizaciones nacionales, regionales o profesionales y programas de desarrollo de guías de práctica clínica; y realizar talleres y cursos de posgrado en la aplicación GRADE, por ejemplo, para estudiantes de ciencias de la salud, aprendices y miembros de la facultad.

A continuación, se listan los centros y redes formalmente inscritos al cierre de la edición de éste manual:

GRADE centers

GRADE networks

Adicionalmente, el Grupo de trabajo GRADE ha conformado diferentes grupos a su interior, caracterizados por compartir un interés temático común o un proyecto. Actualmente los grupos de trabajo registrados son:

Environmental health

  • Prognosis
  • Outcomes valuation
  • GRADE-CERQual
  • Diagnosis
  • Network meta-analysis
  • Observational studies
  1. GRADE training and credentialing
  • Public health
  • Rare diseases
  • Evidence to decision
  • Equity
  • Algorithms and pathways
  • Modeling
  • Biosimilars
  • Animal studies
  • Complex intervent

Si desea más información sobre las actividades, publicaciones y proyectos del grupo de trabajo GRADE puede visitar la web del grupo GRADE http://gradeworkinggroup.org

Usted puede ser parte del GRADE wg si es de su interes, visite la sección “GET INVOLVE”.

Para apoyo, asesoría y solución de dudas en la aplicación de éste manual version en español, y la aproximación GRADE en general, puede dirigirse al Javeriana GRADE center- Departamento de Epidemiología Clínica y Bioestadisca de la PUJ http://medicina.javeriana.edu.co/departamentos-institutos/epidemiologia-clinica-bioestadistica


[1]Cursos y módulos de entrenamiento:

http://cebgrade.mcmaster.ca/QuestionsAndOutcomes/index.html

[2]Para generar los perfiles de evidencia puede consultar los tutoriales en línea disponibles en: cebgrade.mcmaster.ca