Supongo que la entropía os sonara de la termodinámica y así es. Cuando Shannon desarrollo la teoría de la información llego a una formula similar a la que describe la entropía en los sistema físicos. He aquí la formula:
H(x) = – Σ p(xi) * log2(p(xi))
Es decir, si tenemos una variable x con distintos valores posibles, para cada valor (xi) cuya probabilidad es p(xi) la entropía de ese valor es:
p(xi) * log2(p(xi))
Y la entropía total es la suma de la entropía de cada valor. A veces a cada posible valor se le llama signo.
Por ejemplo supongamos un semáforo que se pasa el 45% del tiempo en rojo, el 45% en verde y el 10% restante en ambar. La entro pía de cada señal seria:
x | p(x) | Entropia | Formula |
---|---|---|---|
verde | 0,45 | -0.156 | log2(0,45)*0.45 |
rojo | 0.45 | -0.156 | log2(0,45)*0.45 |
ambar | 0.1 | -0.1 | log2(0.1)*0.1 |
Entropia = -0,412
¿Como se usa esto y qué mide?
Mide la cantidad de bits que «aporta» un dato o lo que es lo mismo, la cantidad de información que transmite. Para entenderlo mejor tomando el ejemplo más simple, un bit con dos valores (0,1) pero cambiando la probabilidad de cada uno, respetando que la suma de ambas siempre es 1 (P(1) = 1 – P(0)):
P(0) | P(1) | Entropia | Formula |
---|---|---|---|
0 | 1 | 0 | -(log2(0)*0 + log2(1)*1) |
0.1 | 0.9 | 0.46 | -(log2(0.1)*0.1 + log2(0.9)*0.9) |
0.2 | 0.8 | 0.72 | -(log2(0.2)*0.2 + log2(0.8)*0.8) |
0.3 | 0.7 | 0.88 | -(log2(0.3)*0.3 + log2(0.7)*0.7) |
0.4 | 0.6 | 0.97 | -(log2(0.4)*0.4 + log2(0.6)*0.6) |
0.5 | 0.5 | 1 | -(log2(0.5)*0.5 + log2(0.5)*0.5) |
Para el primer caso que es que el bit siempre sea 1 el valor aportado es 0. ya que no aporta ninguna información. en resumen si sabemos que un signo es más probable que otro aporta menos información que si ambos son equiprobables.
¿Para qué nos sirve todo esto?. De forma muy simple, cuando haya que elegir entre varias propiedades, la entropía puede ayudarnos a elegir que parámetro escoger