¿Cómo funcionan los algoritmos que ordenan la información en Internet?

datami

Cuando buscamos información en Google, comparamos diferentes objetos en plataformas de ventas o cuando nos tomamos un descanso para ver una película o una serie usamos lo que podríamos llamar los tres principios básicos de la época de Internet: puntuar, clasificar y recomendar.

Al igual que los tres principios básicos tradicionales de la educación – leer, escribir y contar– ninguna educación moderna es completa sin entender cómo los algoritmos de los sitios web combinan, procesan y sintetizan la información antes de presentárnosla.

Puntuar

Lo que los consumidores y los usuarios de Internet llaman a menudo “puntuar”, las empresas tecnológicas lo pueden llamar scoring [poner una nota]. Esto es fundamental, por ejemplo, en la manera en que el motor de búsqueda de Google sitúa los enlaces de alta calidad en los primeros resultados de sus búsquedas, en las que normalmente la información más relevante aparece en la primera página de las respuestas. Cuando una persona realiza una búsqueda, Google asigna dos notas principales a cada página en su base de datos de billones de páginas web y las usa para ordenar sus resultados.

La primera de estas notas es una “nota sobre la relevancia”, una combinación de múltiples factores que miden lo relacionados que están la página y su contenido con la búsqueda. Por ejemplo, tiene en cuenta si el lugar que ocupan las palabras clave de la búsqueda en la página de resultados es un lugar más o menos destacado. La segunda es una “nota sobre la importancia”, que refleja la manera en que la red de páginas web está conectada entre sí mediante hipervínculos para determinar la importancia de cada página.

La combinación de estas dos notas, junto a otra información, otorga una puntuación a cada página, y así se determina lo útil que podría resultarle al usuario final. Las puntuaciones más elevadas aparecerán entre los primeros resultados de la búsqueda. Estas son las páginas que Google recomienda implícitamente al usuario que visite.

Clasificar

Los tres principios básicos también existen en el comercio minorista en Internet. Amazon y otros sitios de comercio electrónico permiten que los clientes escriban comentarios sobre los productos que han adquirido. Las puntuaciones con estrellas que aparecen en estos comentarios normalmente se suman y se convierten en una sola cifra que representa la opinión generalizada de los clientes. El principio en el que se basa esto se llama “la sabiduría de las masas”, según el cual se presupone que la combinación de muchas opiniones independientes reflejará más la realidad que cualquier evaluación individual.

El principio fundamental de la sabiduría de las masas es que los comentarios reflejan de forma precisa las experiencias de los clientes y no están sesgados o influidos por, digamos, el hecho de que el fabricante añada una serie de evaluaciones positivas a sus propios productos. Amazon dispone de mecanismos para eliminar este tipo de comentarios, por ejemplo, exigiendo que la compra se haya hecho desde una determinada cuenta antes de poder escribir un comentario. Luego, Amazon calcula la media de las puntuaciones con estrellas de los comentarios que quedan.

Calcular la media de las puntuaciones es bastante sencillo, pero es más complicado saber cómo clasificar de forma eficaz los productos en función de esas puntuaciones. Por ejemplo, ¿es mejor un producto que tiene 4 estrellas según 200 comentarios que uno que tiene 4,5 estrellas pero con solo 20 comentarios? Hay que tener en cuenta en la nota de la clasificación tanto la puntuación media como el tamaño de la muestra.

Existen todavía más factores que hay que tener en cuenta, como la reputación del que hace el comentario (se puede confiar más en las puntuaciones basadas en comentarios de personas con mejor reputación) y la disparidad de las puntuaciones (a la hora de ordenar los productos se puede rebajar la categoría de los que tienen unas puntuaciones que varían mucho). Amazon también puede presentar productos a diferentes usuarios en un orden distinto según su historial de navegación y los registros de compras anteriores en el sitio web.

Recomendar

El ejemplo perfecto de un sistema de recomendación es el método de Netflix para determinar qué películas le gustarán a un usuario. Los algoritmos predicen qué nota le pondría cada usuario concreto a diferentes películas que todavía no ha visto analizando su historial anterior de puntuaciones y comparándolas con las de unos usuarios parecidos. Las películas con más probabilidades de gustarle a un usuario concreto son las que finalmente se le ofrecerán.

La calidad de estas recomendaciones depende mucho de la precisión del algoritmo y de su uso del aprendizaje automático, de la extracción de datos y de los propios datos. Cuántas más puntuaciones tengamos de cada usuario y de cada película, mejores serán las predicciones.

Un mecanismo sencillo para predecir las puntuaciones podría asignar un parámetro a cada usuario que determine lo poco severo o lo duro que suele ser en sus comentarios. Otro parámetro podría asignarse a cada película para determinar la aceptación de esa película con respecto a otras. Algunos modelos más complejos identifican las similitudes entre los usuarios y las películas, por tanto, si a las personas a las que les gusta el tipo de películas que a ti te gustan han dado una puntuación elevada a una película que no has visto, el sistema podría suponer que a ti también te gustarán.

Esto puede implicar que existan algunos aspectos ocultos en las preferencias de los usuarios y en las características de las películas. También puede hacer que haya que medir cómo han cambiado las puntuaciones de una película dada a lo largo del tiempo. Si una película que antes era desconocida se convierte en un clásico de culto, podría empezar a aparecer más en las listas de recomendaciones de la gente. Un aspecto fundamental cuando se usan varios modelos es que hay que combinarlos y ajustarlos bien: el algoritmo que ganó el Premio Netflix en el concurso para predecir las puntuaciones de películas en 2009, por ejemplo, fue una mezcla de cientos de algoritmos individuales.

Esta combinación de algoritmos de puntuación, clasificación y recomendación ha transformado nuestras actividades diarias en Internet, mucho más allá de las compras, las búsquedas y el entretenimiento. Su interconexión nos permite saber de una forma más clara – y a veces inesperada – lo que queremos y cómo conseguirlo.

Vía: The Conversation