Uno de los mensajes más reiterativos que recibo es cuando me envían una foto de un profesional de la salud, recomendando un producto lleno de antinutrientes, que incluye un "paper" que lo respalda (con su respectivo DOI). Las personas me preguntan:
¿cómo es posible que él mienta, si tiene un paper que lo respalda?
La respuesta a esto es simple y fácil, pero no es breve. Hay que revisar varios temas antes.
Lo primero que hay que entender es que tener un título (sea cuál sea) no te hace acreedor de la verdad absoluta. Hay muy pocas cosas que sabemos con certeza, sobre todo en el mundo de la biología. En física es distinto, ya que la ley de gravedad funciona igual para todos, sin excepciones. Es la responsable -de hecho- de que estemos pegados a la tierra y no andemos "flotando". Sin embargo, nuestro entendimiento de la biología no es tal. No porque algo lo diga un médico (que muchas veces no son doctores) es información real.
Recordemos que años atrás, los médicos utilizaban sanguijuelas como tratamiento de ciertas enfermedades (sin saber, que su efecto era perjudicial, lejos de ser benéfico). O que en los años '60, los médicos nos recomendaban "fumar" como un hábito saludable.
¿cómo puede ser que hayan hecho tales barbaridades?
Simple. Porque replicaron algo sin cuestionarse, sin reflexionar, sin pensar.

Tener un título, diploma, certificado o postgrado es únicamente un papel, y nada más que eso. No te confiere la verdad absoluta, y mucho menos la capacidad de reflexión/análisis necesario para emitir un juicio fundado.
En el mundo de la ciencia, primero vienen los hechos y luego las teorías (que explican o no los hechos), con las hipótesis (que confirman o-no las teorías). No al revés. No hay "teorías" y luego "hechos". Las teorías nacen de acuerdo a observaciones y posibles explicaciones que tenemos para explicar un fenómeno.
En la práctica, esto significa que si alguien sigue un protocolo A que genera un resultado llamemos "POSITIVO" (replicable el 90% de las veces); y otra persona sigue un protocolo B que genera un resultado llamemos "NEGATIVO" (replicable el 90% de las veces), es irrelevante "cuántos estudios existentes señalen que el protocolo B es "POSITIVO", ya que en la práctica, al replicarlo, el resultado es "NEGATIVO", por lo que parece prudente pensar que el Protocolo A (que no tiene ningún estudio que lo avale) no es descabellado. Me da lo mismo cuántas veces haya sido citado el artículo, o cuán "inteligente" sea la persona que lo escribió. Los hechos son mas fuertes, los hechos son primero, y lo más probable es que haya habido un error en la ejecución o la interpretación de la data, porque claramente el documento teórico no explica el resultado práctico real.
Dicho esto, es importante saber que existen estudios de todo tipo, y pasa lo siguiente:
Menos del 1% de los estudios publicados al mes, son los que realmente vale la pena estudiar por utilizar buen método e interpetaciones correctas (el 99% restante, son estudios que no agregan valor, ya que no fueron correctamente realizados)
Es difícil identificar y analizar un buen estudio. Hay que tener conocimientos no sólo de método científico, sino que de matemáticas y estadística. Muchos profesionales no tienen este conocimiento (ingenieros incluidos), menos una persona "común y corriente".
Además del problema mencionado en el párrafo anterior, hay que tener la delicadeza de analizar con pinzas y mucho cuidado las publicaciones, revisar los nombres de los investigadores y asegurarnos que no tengan conflictos de intereses, ya que "usualmente" los tienen, dejando en evidencia sus conclusiones antes de leer la investigación incluso.
¿qué significa esto?
En palabras sencillas, significa que el 99% de los estudios no son suficientemente serios para considerarlos, y un científico pulcro, jamás mencionaría ni citaría un estudio de esas características. Pero, ni los propios científicos son capaces de criticar sus estudios mal-hechos (financiados por la industria de.... ), mucho menos lo hará el resto de la población que no tienen las herramientas ni conocimientos suficientes.
Imagínate un catador de vinos. Si te invitan y te dan a probar 10 copas para que puedas dar tu opinión respecto a los "mejores". ¿tienes los conocimientos?. No es fácil. Yo me declaro una ignorante y no entiendo en qué me debo fijar para definir un mejor/peor producto. Esto mismo ocurre con los papers "científicos". Una situación similar es cuando una empresa presenta su carpeta tributaria (balance, estados de resultados) y te piden tu opinión (si, la tuya) sobre la salud financiera de una empresa, tan solo viendo sus resultados. ¿estás en condiciones de poder emitir un juicio?. Para hacerlo se necesita experiencia, herramientas y conocimientos. Y el mundo de la literatura científica no es la excepción. (otro ejemplo es el concurso de la "mejor empanada de santiago", pero encontré que desperfilaba la publicación.. ya que la empanada es una comida chatarra, basura :))
Una cosa es ser un médico o profesional de la salud (que aprendió todo de memoria y respondió correctamente las preguntas de sus exámenes), y otra cosa 100% diferente es entender de estadística y matemática. Para analizar un resultado, y para ser responsable al momento de citarlo, debes tener un fuerte conocimiento en estas áreas. Y eso no ocurre. (yo misma me declaro incompetente en muchas de esas áreas de la estadística).
Volviendo al tema central, los profesionales que recomiendan:
Legumbres
Cereales
Azúcar
Antioxidantes en frutas y verduras, etc
y citan "estudios" para respaldar sus publicaciones. Sin embargo, los estudios escogidos son parte del 99% considerados como estudios "de bajo nivel de evidencia y de los cuáles no se pueden realizar generalizaciones ni menos determinar causalidad", con pobre poder estadístico y/o bajo nivel de evidencia (estudios epidemiológicos, tiempos no-significativos, tamaño pequeño de la muestra o conflicto de intereses). Estudios que no aislan factores confusos y tienen sesgo de usuario/interpretación. Entonces, cuando las conclusiones son basadas en estudio poco pulcros, las interpretaciones serán poco pulcras también. Erradas, confusas, que no representan ni explican la realidad.

(Dejando de lado la "opinión de expertos", los estudios epidemiológicos ocupan el mínimo nivel de evidencia. Y esos son los que se "Utilizan" para respaldar la información que se publica en RRSS).
Lamentablemente, para darnos cuenta de todo esto, tenemos que tener herramientas y conocimiento que nos permitan entender lo absurdo de la situación. Es fácil "sorprender" a personas que no tienen conocimiento para debatir o argumentar. Es como quitarle el dulce a un niño (o como prefiero verlo, quitarle el paté de hígado a un niño metabólicamente sano <3).
Cualquier persona aparentando ser intelectual, puede mencionar un par de papers, mostrar los títulos, algunos gráficos, un par de imágenes y es suficiente para que el resto de la gente (que no sabe) asuma como cierta la evidencia presentada. Esto mismo es lo que hace el documental "game changers", con sus estudios epidemiológicos que asumen causalidad, no respetan tamaño de muestra ni duración mínima del estudio, no aislan factores confusos, generalizan y no aislan sesgo de usuarios (entre otros detallitos).
Una persona del mundo de la ciencia que se auto-denomina como alguien serio:
Jamás confundiría ni insinuaría que correlación es causalidad
No utilizaría un estudio epidemiológico como un argumento serio para respaldar su punto (ni mucho menos sugerir causalidad)
Jamás creería que un paper, simplemente por ser un paper, es información que "aporta valor relevante".
Tendrá claro que en el mundo de la ciencia, primero están los hechos y luego las teorías/hipótesis y posibles interpretaciones.
Tiene buena memoria y recuerda que lo que enseñan en la universidad no es la verdad absoluta, y SIEMPRE está desafiando y experimentando, ya que la práctica (replicabilidad) es muchas veces más relevante que la teoría.
La literatura científica no miente. Lo que ocurre es que pobres estudios arrojan pobres resultados. Y profesionales sin una dura base de matemáticas, difícilmente podrán concluir (ni menos entender) qué dice un estudio o cómo se compara con otro de similares características. Entiendo que se equivoquen, porque incluso ingenieros (con mayor base estadística y matemática que un médico o similar) no entienden ni saben interpretar resultados de este tipo. El problema es que generan confusión en el resto, y esa confusión es parte del problema actual, en donde nos ubicamos en el primer lugar en índice de obesidad mundial, producto de las malas pautas y recomendaciones generales.
Si tuviera que aventurarme con indicar una segunda epidemia a nivel mundial aparte del síndrome metabólico, es el falta de hábito de cuestionar/reflexionar. Si no es por esta inquietud mental, no se habría logrado que en el año 2019 la Asociación de Diabetes Americana agregara el protocolo "LowCarb" como una terapia nutricional EFECTIVA para el tratamiento de diabetes 2. Un paso a la vez.
Arriba los inquietos mentales. Y que se extingan los zánganos intelectuales que no se atreven a pensar más allá de lo aprendido en sus aulas en los papers que han leído/contribuido.
¿De dónde saqué que el 99% de los estudios no agregan valor?
Simple. Cuando tienes experiencia aprendiendo a identificar un buen método de uno malo, luego puedes agrupar claramente cuáles son los que merecen la pena estudiar y cuáles no. Fuera de este grupo quedan todos los epidemiológicos, por supuesto. También quedan fuera aquellos que caen en conclusiones apresuradas extrapolando interpretaciones de largo plazo que fueron probadas en corto plazo (sabiendo a priori que se requiere un tiempo mínimo para que surja efecto el fenómeno estudiado). ¿Por qué alguien querría financiar un estudio mal hecho? No tengo esa respuesta.... pero se me ocurren varias opciones. No nos olvidemos que un estudio lo puede hacer cualquiera.
Esto era un estudio. Hubo recomendaciones de salud respecto a este estudio. Hubo "profesionales competentes" (investigadores, doctores y médicos) a cargo. Y el resultado fue manipulado. Es fácil manipular resultados cuando tienes el conocimiento, y es fácil engañar a la gente cuando no tienen las herramientas. Simplemente "creen", porque suena lindo.
Retomando la pregunta, ¿de dónde saqué el 99%?
Hay médicos de excelencia que se dedican a sus prácticas clínicas (Atender pacientes) y además a investigar, DÍA-A-DÍA, destinan tiempo y recursos para estos temas. Hay varios (aún no los suficientes), pero uno de ellos es Peter Attia, quien tiene en su práctica médica un grupo de +5 personas (médicos e investigadores) a quienes les paga, y su trabajo es revisar todos los papers "buenos" que salen mes-a-mes para estar en el tope de línea en los nuevos descubrimientos, actualizándose constantemente. Ese equipo médico revisa la nueva literatura científica disponible, y sus estimaciones son que cada mes aparecen 100.000 nuevos papers, de los cuales, el 99% de ellos es totalmente inútil. El doctor Attia es una excepción, ya que no solo es doctor, sino que previamente estudió Ingeniería Civil Mecánica, en Stanford. Su manejo de estadística y matemática es, evidentemente, superior al promedio. Esto le permite filtrar de forma eficiente la basura, del oro.

¿uds creen que los profesionales de salud que postean en RRSS e incorporan un par de papers para respaldar sus argumentos, corresponden al 1% de los BUENOS documentos disponibles?
No es necesario creer. Hay quienes ya han hecho este trabajo (y cualquiera de nosotros, con las herramientas y suficiente tiempo puede hacerlo), y acá en este link se puede observar un ejemplo de cómo los "papers utilizados para respaldar un protocolo que potencia cereales", al hacer un doble click, se desintegra el argumento. Esto requiere tiempo, dedicación, herramientas y conocimiento. Es mucho más fácil engañar a la gente haciéndola creer que "si lo dice un doctor, es correcto", que enseñarles, educarlos, invitarlos a pensar al respecto.
Paja mental matemática
Lo que viene a continuación es un esfuerzo por explicar y simplificar la complejidad que existe tras el lenguaje matemático de los "intervalos de confianza" para gente que no es del rubro "ingenieril".
En la literatura científica se habla de "papers", que no son más que publicaciones realizadas por uno o más investigadores que se publican en revistas especializadas y siguen un protocolo específico. Se comienza con la observación de una situación, se esboza una teoría y se prueba (o rechaza) la hipótesis con un método experimental. Este método experimental emplea lo que se llaman "muestras" de la población , que son grupos de "sujetos" (personas, animales, insectos, moho, u otros).
Por ejemplo, si tengo una ciudad donde el total de habitantes es de 10.000 personas, entonces una "muestra" de la ciudad pueden ser 5, 10, 100, 1000, etc, personas. (la cantidad de personas en la muestra no es independiente de las conclusiones a obtener de la misma)
Las muestras, todas y cualquiera, tienen lo que se llama un intervalo de probabilidad (o intervalo de confianza). Que no es más que un "par de números" (un intervalo) en donde se estima que se puede encontrar cierto valor específico con un determinado nivel de confianza y un margen de error.
Por ejemplo, en el caso específico donde el tamaño de la población es de 10.000 personas, con un intervalo de confianza de 95% y un margen de error del 5%, podemos decir que necesitamos considerar una muestra de 370 personas para asegurar con un 95% de probabilidad, que los resultados obtenidos de las características evaluadas corresponden al de la población.

Un nivel de confianza mayor, o un margen de error menor, implican necesariamente un tamaño de muestra más grande. El margen de error puede ser concebido como la "Imprecisión" que se comete al estimar una característica en la población de estudio (mientras menos, mejor).
En palabras cortas: necesito 370 personas al azar, para considerar mi muestra como "significativa", en una población de 10.000 personas. Por lo tanto, para probar "algo", si mi investigación contempla menos de esos individuos, el resultado no será muy significante (no con estos parámetros, al menos)
Sin embargo, acá viene la magia de la matemática: se debe hacer la distinción si lo que quiero es medir incrementos pequeños con cierta precisión (tamaño de muestra grande) o más bien un resultado binario (0-1, Si/No), en cuyo caso el tamaño de la muestra puede ser incluso menor a 370 personas (manteniendo el el tamaño de la población constante) y la matemática estará correcta y respaldará el resultado con un alto nivel de confianza.
Un ejemplo de incrementos pequeños podría ser conocer la "altura media" de una población (valores: 160 cms, 161, 162, 163.5 , 163.68, 189.9, etc) de 10k personas. Supongamos entonces que mi muestra de 370 personas arrojó como resultado que con un 95% de confianza la "media" se encuentra entre los 1.59 cms y 1.66 cms; luego podría ser aún más exacta ( not) y "disminuir" ese rango -con la misma cantidad de datos- entonces el intervalo de confianza disminuye (es decir, pierde precisión porque no tengo datos suficientes que avalen la matemática en ese intervalo más pequeño. En este caso, disminuye el rango, pero tmb disminuye la probabilidad de encontrar la media en ese rango). Esto significa que si quisiera ir al detalle, al menudeo y elaborar conclusiones en un rango específico entre 1.63 y 1.64 cms (muy muy preciso y angosto), debo aumentar demasiado la muestra y necesitaría, probablemente, casi todas las personas de la población. Porque a más precisión, mayor es el "n" muestral. La máxima precisión la darán todos los individuos de la muestra, si pudiera entrevistarlos a todos, y esos forman la población de control.
Hay otro caso que no es con incrementos tan pequeños, sino que con resultados binarios. Un ejemplo de resultados binarios es el siguiente: supongamos que tenemos dos grupos de 50 personas cada uno. Todas las personas están contagiadas con covid. Pero a un grupo se le trata con ivermectina, y al otro no. Entonces, del grupo tratado con ivermectina probamos lo siguiente:
"de las 50 personas contagiadas con covid que son tratadas con ivermectina desde el primer día. ¿Cuántas presentan síntomas graves?" Acá lo que se hace es primero identificar si presentó o-no síntomas graves, y agregarlos en el conteo. Es súper fácil. Se definen lo que son síntomas graves (ej: uso de ventilador artificial) y se ve si en alguno de los días presento (Si/No) el síntoma. Si en algunos de los días presentó, queda marcado como "Si". En caso contrario, como "No".
Para que la comparación sea válida, obviamente se comparan los resultados de ambos grupos y así poder comparar la incidencia y efecto del medicamento de la Ivermectina en pacientes contagiados con covid.
50 personas es un número "bajo", considerando el total de la población contagiada con covid. Es un número marginal de un universo ~pseudo infinito~ (digo "pseudo", ya que aún cuando el universo sea de 10.000 personas y sea finito, es tan marginal el tamaño de la muestra, que para el caso, es como si fuese infinito). Es menor a los 370 necesarios para que sea significativo. Sin embargo, acá pueden ocurrir dos cosas (bueno, varias cosas en realidad, pero ejemplificaré el punto únicamente con dos):
1) De las 50 personas, ninguna presente síntomas graves. Absolutamente ninguna
2) De las 50 personas, un 40% presente síntomas graves (es decir, 20 personas).
Para el caso 1, la "probabilidad" sobre si la Ivermectina es o-no efectiva, dependerá justamente del resultado. Si de 50 personas tratadas con el medicamento, ninguna experimentó síntomas, eso es suficiente. Eso basta para decir que la ivermectina es efectiva. No estoy midiendo un valor discreto, estoy midiendo un Si/No. Esto se justifica porque la probabilidad de que JUSTO los 50 hayan sido "los especiales", es imposible, muy muy baja. De hecho, con una muestra menor incluso de 10, ya es significativo (si los 10 no presentan síntomas). La pregunta que nos hacemos es ¿cuál es la probabilidad de que la ivermectina ayude? La respuesta (matemática) es = 1- (la probabilidad de que no ayude). Y la probabilidad de que no ayude es insignificante.
Pero en el caso 2, de un total de 50 personas, las que experimentan síntomas graves son un 40%, entonces acá en verdad la muestra de 50 "valen callampa y es insuficiente" y necesariamente necesitamos un número más robusto, porque no es significativo. Puede ser cualquier cosa. Acá si es importante hacer un muestreo mayor, RCT, placebo test, double blind, etc. (toda la challa)
Por cierto, este ejemplo no es tan lejano de la realidad. Ver acá el caso de 100% de efectividad con ivermectina.
En resumen, si quiero medir cosas muy muy pequeñas (como incrementos del 1%), entonces debo respetar la matemática (matemática que no todos saben). Sin embargo, cuando las variables son binarias y el 100% de una población menor al "n" muestral "matemático" da resultados absolutos, es irrelevante no haber tomado el "n" necesario, ya que la "probabilidad" de justo haber escogido al azar a todos los individuos que tienen otros factores que hicieron que no presentaran síntomas graves es tan baja, que se asume ( matemáticamente hablando) que la probabilidad de que algo si ocurra, es 1-(la probabilidad de que no ocurra), por lo que en este caso es matemáticamente correcto decir que la ivermectina tiene un efecto positivo en pacientes con covid, cuando es suministrada en el primer día de síntomas, si un grupo de 50 personas recibió el medicamento y ninguno experimentó síntomas graves.
Es lógico que un estudio (no epidemiológico, POR FAVOR) lleno de variables dará más info que uno con poca, pero depende QUÉ información es la que estoy evaluando para determinar la validez de la muestra. Si quiero probar que algo aumenta en 1 o 2%, necesito MÁS DATOS QUE LA CRESTA. Pero si lo que quiero probar es más absoluto/binario, no es necesario tanto.
Depende de los datos. Depende 100% de los datos.
Ojo: esto no sirve para aplicar a subgrupos binarios desde una muestra de 370 personas, ya que cada variable/característica se estudia por separado. Si ocupo n=370 para ver la cantidad de hombres vs mujeres, luego ver las "mujeres" rubias de las morenas de la sub-muestra obtenida, ya no es correcto, no da la matemática. No se pueden hacer subgrupos infinitos de una muestra de 370 personas.
Ustedes se preguntarán cómo es, entonces, que hay estudios de 10 pacientes? Y es porque yo puedo hacer la muestra que quiera. Pero la matemática es la que es. Por eso es "pintoresco" cuando hacen investigaciones sobre lo beneficioso de una dieta alta en xxxx (legumbres, por ejemplo), basadas en encuestas, sin muestra aleatorias ni un "n" suficientemente significativo.
Disculpen la paja matemática. Es sólo para ilustrar que no es sencillo, y por eso la mayor parte de la gente se equivoca y no sabe interpretar/Analizar y sus conclusiones son pobres.
Fuente:
https://informfitness.com/podcast/47-living-with-uncertainty/
https://podcastnotes.org/joe-rogan-experience/attia-2/