Datos que entran por los ojos

Si uno le pregunta a Google Images qué es un una gráfica, puede encontrarse con un esperpento como el siguiente:

[…]

Más allá de la fealdad generalizada y los colores estridentes, la web y los medios de comunicación están plagados de ejemplos de malas representaciones de datos. Ejemplos donde el artificio y la ornamentación pervierten la función de estas poderosas herramientas.

Sigue leyendo Datos que entran por los ojos, nuestra última colaboración en el Cuaderno de Cultura Científica.

Aprendiendo de las máquinas

La segunda mitad del siglo XX vio nacer la computación y el sueño de la inteligencia artificial—“la ciencia de conseguir que las máquinas hagan cosas que requerirían inteligencia si las hiciesen humanos”, en palabras de Marvin Minsky—, que hoy en día está despertando un renovado interés gracias a la rama del aprendizaje automático. Se trata de un conjunto de técnicas que se benefician de los avances tecnológicos en materia de computación de las últimas dos décadas, y se caracterizan por su capacidad de engullir enormes cantidades de datos para enfrentarse a problemas de gran complejidad.

Sigue leyendo Aprendiendo de las máquinas, mi última colaboración en el Cuaderno de Cultura Científica.

Experimentación y evidencia: dos visiones opuestas

Anteriormente, hablábamos de estándares de evidencia científica y del problema filosófico de la inferencia inductiva; de cómo Ronald Fisher, hace un siglo, promovió métodos —como los contrastes de hipótesis— que evaden el problema, y adelantábamos que dichos métodos suponen una aproximación frecuentista a la realidad. A continuación abundaremos en el problema metodológico que plantean la medida y la estimación estadística de la (in)certidumbre, y que tiene su raíz en el concepto mismo de probabilidad. Esto da lugar a dos visiones opuestas aunque, como veremos, estrechamente relacionadas, lo que en estadística se denomina frecuentismo vs. bayesianismo.

Sigue leyendo Experimentación y evidencia: dos visiones opuestas, mi última colaboración en el Cuaderno de Cultura Científica.

Cómo comprobar tus contraseñas

Ayer saltó la noticia de que circula una colección de 773 millones de pares email-contraseña denominada «Collection #1». Troy Hunt, creador del servicio Have I Been Pwned (HIBP), describía cómo, tras la oportuna limpieza y deduplicación de datos, esta colección añadía unas 20 millones de nuevas contraseñas a HIBP para hacer un total de algo más de 550 millones de contraseñas únicas entre todas las filtraciones que ha ido incorporando con el tiempo.

Al final, parece que esta filtración proviene de muchas fuentes distintas que tienen años de antigüedad, por lo que no habría de qué preocuparse en principio. No obstante, la alarma me ha servido para volver a pasarme por HIBP —un servicio en el que puedes registrar tu email para recibir un aviso si aparece en alguna filtración—, y he podido comprobar que han añadido la muy interesante funcionalidad de buscar contraseñas de manera segura para comprobar si están en su base de datos de filtraciones.

La cosa funciona de la siguiente manera. Cogemos una contraseña que queramos consultar (por ejemplo, 123456) y le pasamos la función hash SHA-1:

SHA1(123456) = 7c4a8d09ca3762af61e59520943dc26494f8941b

En principio, no podemos volver a «123456» a partir de ese churro, pero tampoco sería seguro que sepan que andamos preguntando por ese hash. Así que lo que hacemos es coger los primeros 5 caracteres y se los pasamos a la API de HIBP (así: 7c4a8), y la API nos devuelve todos los hashes que empiezan por esos 5 caracteres (que son muchos, típicamente cientos). Y en esa lista, ya manejable, nosotros podemos comprobar si el resto del hash (en definitiva, la contraseña que queremos consultar) está ahí.

Esto es exactamente lo que hace el formulario online (lo he comprobado), con el JavaScript que tiene detrás, de modo que es seguro utilizarlo.

123456, cómo no…

Si aun así no os fiais, en tres líneas de Bash se puede implementar lo mismo:

#!/bin/bash
read -s -p "Password: " PASS; echo
PASS=$(echo -n $PASS | sha1sum - | cut -d" " -f1)
wget "https://api.pwnedpasswords.com/range/${PASS:0:5}" -q -O - | grep -i "${PASS:5}"

Si ese grep saca algo… malo.

The difference that matters: Paul Romer sobre ciencia y software libre

Me permito dejar por aquí un extracto de este artículo de Paul Romer que resume perfectamente el valor del modelo de software libre y cómo se parece al de la ciencia:

This technical engineering dimension is not the only one we should use to compare the proprietary and open models. There is an independent social dimension, where the metrics assess the interactions between people. Does it increase trust? Does it increase the importance that people attach to a reputation for integrity?

It is along this social dimension that open source unambiguously dominates the proprietary model. Moreover, at a time when trust and truth are in retreat, the social dimension is the one that matters. […]

Membership in an open source community is like membership in the community of science. There is a straightforward process for finding a true answer to any question. People disagree in public conversations. They must explain clearly and listen to those who response with equal clarity. Members of the community pay more attention to those who have been right in the past, and to those who enhance their reputation for integrity by admitting in public when they are wrong. They shun those who mislead. There is no court of final appeal. The only recourse is to the facts.

It’s a messy process but it works, the only one in all of human history that ever has. No other has ever achieved consensus at scale without recourse to coercion.

In science, anyone can experiment. In open source, anyone can access the facts of the code. Linus Torvalds may supervise a hierarchy that decides what goes into the Linux kernel, but anyone can see what’s there. Because the communities of science and open source accept facts as the ultimate source of truth and use the same public system for resolving disagreements about the facts, they foster the same norms of trust grounded in individual integrity.