La paradoja de la información y la teoría de Shannon

El robo de un banco en 1907, un ladrón que huye a Londres y un problema gordo para atraparlo. Estos son los ingredientes para introducir animadamente la teoría de la información de Shannon y su fórmula de la entropía. * * * * Pequeño índice: 00:00 - Introducción 01:40 - La información se mide en bits 06:03 - La fórmula de la sorpresa 11:35 - ¿Y qué hacemos con esto? 13:35 - En el ADN * * * * Instagram: Twitter: * * * * Como has continuado la lectura hasta aquí, te cuento un poco más. Hay muchos artículos en blogs de Internet que afirman que el Quién es Quién se puede ganar con solo seis preguntas. Y le dedican largas parrafadas a demostrarlo. Si haces las cuentas con la fórmula de la información, verás que solo necesitas cinco preguntas para ganar (con un poco de suerte, solo cuatro). - Lemnismath - -------------- Bibliografía y referencias ---------------- [1] New York Times, 1907. [2] Me refiero a A Mathematical Theory of Communication, C. E. Shannon (1948). He cambiado el título por cuestiones estéticas. --------------------------------------- [3] Definición de bit. Deberíamos añadir que el bit es la respuesta ante una pregunta de sí/no solo cuando ambas opciones son equiprobables. Lo malo es que aún no hemos introducido la probabilidad en la teoría. [4] Plutón no es planeta (según la IAU, ejem, ejem): #1 [5] El logaritmo te dice el número de preguntas si la cantidad de opciones es una potencia de dos. En el resto de casos devuelve un valor con decimales. Es una generalización derivada de la potenciación en el caso continuo (pero si has entendido esta frase, entonces no creo que te resulte raro pensar en preguntas irracionales). [6] Sobre la cantidad de caracteres de un tuit, [7] No hago diferencias entre preguntas y respuestas, y quizá debería. Entiéndase que lo que da información es la respuesta, pero esta proviene de una pregunta contestada. [8] Telegraphing Pictures, T. Thorne Baker (1909). [9] Shannon no “detecta“ esta paradoja directamente en su trabajo original: deduce una fórmula que la evita, sin más circunloquios. ------------------------------------------ [10] No es la fórmula de Shannon. Se deduce de su teoría, pero él no la menciona en su trabajo original. Es una intepretación posterior, y un recurso pedagógico. [11] Las tres preguntas del ejemplo inicial. [12] En este vídeo, la interpretación de la probabilidad es de tipo frecuencial. [13] Esta debería ser la definición de bit, ahora que hemos introducido la interpretación probabilística. [14] The security of customer-chosen banking PINs. [15] Sobre la frecuencia de las letras del español: [16] Se considera que 0×log(1/0) es cero. La sorpresa de encontrar algo con probabilidad 0 es infinita, PERO nunca te encontrarás algo así. Y, si lo encuentras, que Dios te pille confesado. --------------------------------------------- [17] Este es un caso especial, donde p=1 y la información puede considerarse nula. [18] Este “mínima“ es peligroso: podrías adivinar el mensaje por casualidad con una sola pregunta. Si el código se crea en función de un mensaje particular, la fórmula de Shannon te da la cantidad mínima de preguntas con una seguridad del 100% (es decir, sin recurrir a la suerte o al azar). Si quieres usar un código genérico (por ej., el códgo morse) para una familia de mensajes (telegramas en español), el “mínima“ pierde sentido y la interpretación debe ser estadística, atendiendo a los teoremas de Shannon. [19] Se consigue la igualdad si y solo si todas las probabilidades son iguales, p=1/n. [20] Un análisis interesante sobre la información de cada letra en español (lo que se conoce como entropía del español). On the Entropy of Written Spanish, F. G. Guerrero (2012). [21] Tomado de Wheel Of Fortune (1997). Es obvio, pero Internet nunca deja de sorprenderme, así que lo aclaro: he adulterado las imágenes. NO es el panel original. [22] Lecture 6: Entropy. [23] Un resumen general y recomendable es el de Establishing the Triplet Nature of the Genetic Code, C. Yanofsky (2007)