La biodiversidad de esDebian

Enviado por pvaldes el 8 Agosto, 2011 - 16:25.

Aplicando algunos conceptos de ecología al análisis de las comunidades virtuales.

Hoy voy a dejar un poco de lado las cuestiones técnicas y trataré de abordar un problema cada vez más habitual con el creciente número de comunidades virtuales: cómo valorar la madurez y "estado de salud" de un foro de usuarios con respecto al de otros foros similares.

A lo largo de su vida los foros pasan por varias fases fácilmente reconocibles. El esfuerzo de crear un foro exige entusiasmo y cierta habilidad técnica, y al principio suele haber gente muy motivada e implicada. Más tarde, a medida que el foro se va poniendo de moda, aumenta el porcentaje de usuarios novatos que acuden con preguntas básicas o simplemente lo consultan como manual de referencia pero sin atreverse a escribir en él. También aparece un porcentaje de usuarios que directamente tratan de abusar del foro (ignorando las reglas, o esperando que les hagan sus deberes o que el foro sea su pringado/esclavo/servicio técnico gratuito particular) y para empeorar las cosas el foro empieza a atraer a los bots.

En ese momento es fácil morir de éxito, la repetición una y otra vez de preguntas triviales y la lucha contra el spam y los usuarios que incumplen sistemáticamente las normas, sobrecarga e irrita a la moderación. Eso lleva a discusiones que atraen a los trolls, y aumentan más el trabajo de los moderadores para evitar el previsible y típico desenlace: broncas entre grupos de usuarios alineados en diferentes bandos con las consiguientes escisiones, creación de foros paralelos o incluso la total desintegración de la comunidad.

Aparte del aumento de recursos técnicos para mantener el creciente foro en un estado razonablemente ordenado, el proceso suele implicar también la pérdida de recursos humanos cuando los expertos, desgastados por la ausencia de preguntas interesantes, o los moderadores, obligados a recordar una y otra vez las normas, deciden que sería mejor invertir su tiempo en otros asuntos y se trasladan progresivamente a comunidades más pequeñas y elitistas. Todo ello implica la pérdida de calidad en los contenidos del foro.

Lo que nos lleva a una segunda cuestión interesante: ¿cómo valorar la estabilidad de un foro?

Una posible aproximación al problema podría venir, desde mi punto de vista, de la ecología teórica. Un aliado no tan insospechado si pensamos en los foros como ecosistemas complejos en los que no faltan muestras de simbiosis, parasitismo, predación, competencia y territorialismo. Mi idea por tanto será aplicar varios conceptos clásicos de ecología y ver qué ocurre; más concretamente voy a comparar tres comunidades de foreros (esDebian, EsLinux y Ubuntu-hispano) mediante el cálculo de su "biodiversidad".

Material y métodos

Me serviré de un pequeño programa de Perl que he escrito y que calcula rápidamente varios índices clásicos de biodiversidad usados habitualmente en ecología*. Su documentación y modo de uso pueden consultarse mediante el comando habitual de Perl equivalente a man:

perldoc /ruta/a/biodiversidad.pl
  • Nota: El programa biodiversidad.pl no puede ser subido a esDebian por su tipo de extensión, de momento si alguien desea echarle un vistazo puede solicitarmelo simplemente por mensaje privado

    He tomado una muestra de 150 foreros de cada comunidad asegurándome de incluir a los usuarios destacados y completando el resto con foreros tomados más o menos al azar (admito que he dado preferencia a los que tenían un avatar chachi). Asumiremos que cada forero es una "especie" diferente y el número de posts que ha escrito es la "población" de esa especie. En cada comunidad habrá tipos que aparecen hasta en la sopa y también usuarios que raramente escriben (aquellos que tengan 0 posts recibirán graciosamente uno de regalo gracias a nuestro programa para la protección de foreros amenazados en peligro de extinción).

    Aplicamos el programa biodiversidad a la muestra de cada comunidad y obtenemos los siguientes:

    Resultados

                                                       esLinux   esDebian  Ubt-hisp

    Riqueza específica o Nº de usuarios (fijado)  S =     150        150        150
    Nº de ejemplares (posts) examinados           N =   24352     137673       4192
    Índice de biodiversidad de Simpson        (1-D) =    0.57       0.97       0.91
    Índice de biodiversidad Shannon-Wiener        H =    1.94       3.72       2.91
    Valor maximo posible de la muestra         Hmax =    5.01       5.01       5.01
    Porcentaje de diversidad alcanzado   H/Hmax*100 =    38.7%      74.2%      58%
    Índice de Margalef                            I =   14.75      12.59      17.86

    Diversidad

    Lo primero que vemos es la gran diferencia de contenidos (N). Sin entrar a valorar la calidad de las aportaciones de cada caso, esDebian ofrece a sus lectores entre 5 y 33 veces respectivamente más información que esLinux y Ubuntu-hispano. Esto está condicionado obviamente por el perfil de usuarios a los que aspira a atraer el foro (que no es un valor objetivo, imaginemos por ejemplo comparar a los fans de un grupo musical de moda con el de aficionados a la obra de un musico del siglo XVIII) y también por el mayor o menor tiempo que cada comunidad lleva funcionando, pero es un síntoma más que al unirlo al resto apoya la idea de diferencias entre las tres comunidades.

    Si examinamos el valor de diversidad obtenido mediante el índice de Shannon vemos que el obtenido para esLinux es similar al normal para ecosistemas terrestres de diversidad baja, el de Ubuntu-hispano entraría dentro de un ecosistema de diversidad media y el de esDebian encajaría con el de una comunidad madura con una diversidad razonablemente alta, que puede cuantificarse además en un 75% de la máxima posible (lo que no está nada mal para el planeta tierra). Sin pretender ofender a nadie, podemos decir que esLinux actualmente equivale a un ecosistema de zonas áridas y esDebian es una jungla tropical (probablemente en más de un sentido).

    Simpson por su parte es un índice que da poca importancia a los usuarios que apenas intervienen, presenta resultados similares entre esDebian y Ubuntu-hispano, es esperable que éste índice cambie menos que los otros aunque se vaya ampliando la muestra pero lo más interesante es que nos sugiere que ambas comunidades están creciendo de modo similar, U-H es una especie de esDebian más joven actualmente. También es destacable el alto valor obtenido por esDebian (0.97 de un máximo teórico de 1).

    El índice de Margalef plantea un panorama diferente, con una diversidad máxima para U-Hispano, seguido de esLinux y con esDebian al final. Lo cierto es que el índice del ecólogo catalán es algo especial porque depende mucho del número de posts y no valora la equitabilidad, de la que vamos a hablar seguidamente.

    Equitabilidad y Especie Dominante

    Estos dos conceptos están relacionados directamente con los recursos humanos con los que cuenta un foro. La especie dominante es simplemente la más abundante (traducido aquí, el forero que más posts aporta). La equitabilidad o Evenness (a la que voy a denominar aquí igualdad para simplificar) indica como está repartida la participación de los usuarios. Una comunidad activa, repleta de gente que aporta cosas tendrá mas igualdad que una comunidad en la que unos pocos expertos responden a las preguntas y el resto escucha. La gran ventaja del término está en que sería muy costoso (y conflictivo) valorar uno a uno la calidad de cada post, sin embargo si hacemos que igualdad equivalga a nivel de participación tenemos una aproximación sencilla y se simplifican mucho los cálculos. La igualdad máxima es un estado deseable de nirvana foreril en el que todo el mundo participa por igual, y su valor tiende a uno.

    La igualdad y dominancia para las tres comunidades son los siguientes:

                igualdad (min = 0, máx = 1)             esLinux  esDebian Ubt-hisp

    Coef. de igualdad (Evenness) segun Simpson        =   0.03     0.21       0.08
    Coef. de igualdad (Evenness) segun Shannon        =   0.39     0.74       0.57
    Índice de dominancia de Berger-Parker             =  42.79%    6.26%     19.98%

    La diferencia entre índices se debe a que Shannon se centra más en el efecto de las especies raras mientras que Simpson enfatiza el efecto de las especies comunes e ignora a las raras. Como nuestra muestra no incluye al 90% de los usuarios (en su mayoría foreros con muy pocos posts), esperamos que Simpson esté más cerca del resultado final (el otro índice cambiaría más al ampliar la muestra) pero en cualquier caso lo importante es la tendencia general que de nuevo sigue el patrón ya visto. Podríamos decir que la participación estimada de esDebian ronda el 21%, la de Ubuntú hispano el 8% y sólo el 3% participan activamente en esLinux (dentro de la muestra encontrada).

    La igualdad también nos permite aprender algo sobre la estabilidad de un foro. EsLinux sería la comunidad menos estable, dependiente en gran medida de una sola forera, Myrian, que aporta ella sola casi la mitad de los posts. La participación de esDebian es de nuevo la más alta y por tanto la desaparición del forero más prolífico supondría menos de un 6.3% del total (lo siento Minaya :-) )

    Como conclusión algunos conceptos y parámetros ecológicos son fácilmente extrapolables al estudio de comunidades virtuales y podrían usarse como herramienta "universal" para ayudar a valorar la calidad y participación de un foro, de un modo fácil, objetivo e independiente de sus contenidos o número de usuarios. El aumento de la diversidad de un foro debería ser además un objetivo a perseguir por parte de los administradores. A mayor diversidad más estabilidad para el foro y también más calidad (porque es más fácil que alguien sepa la respuesta correcta a una pregunta dada, al reducirse el tiempo que los usuarios tienen que esperar a que sus respuestas sean contestadas se crea una retroalimentación, atrayendo cada vez a más gente y haciendo que los que han entrado repitan).

  • Imagen de siddharta
    Enviado por siddharta el 8 Agosto, 2011 - 17:55.

    Vaya, qué artículo tan más interesante ... a mí me sucede que muchas veces aplico mis conocimientos técnicos en otros campos de la vida ... y me gustan las transportaciones o analogías porque se aprende mucho de los resultados obtenidos.

    No entro a discutir detalles técnicos u objeciones que seguramente otros encontrarán entre tus líneas, tus áreas de especialidad no son las mías, sólo puedo agradecer esta perspectiva que nos has mostrado :)

    Sidd.

    Imagen de pvaldes
    Enviado por pvaldes el 8 Agosto, 2011 - 18:26.

    Me alegro de que te haya gustado Sidd, también opino igual, siempre es bueno (y gratificante) encontrar conexiones y similitudes entre áreas distintas. En ese sentido es una gran ventaja participar en una comunidad tan heterogénea en la que todos aprendemos mucho a la vez que aportamos lo que podemos, claro

    ... lo mejor es no tener que aprender dos soluciones distintas para el mismo problema meparto

    Imagen de arctica
    Enviado por arctica el 9 Agosto, 2011 - 05:00.

    xDxD me ha encantado

    Imagen de quilloquepasa
    Enviado por quilloquepasa el 9 Agosto, 2011 - 05:35.

    Genial tongue

    Saludos wink

    Imagen de kinichi
    Enviado por kinichi el 9 Agosto, 2011 - 07:53.

    Excelente! Un buen análisis acerca de las comunidades y creo que no me sorprende el resultado. Aunque por ahora soy un parásito que se alimenta de los demás, pronto evolucionaré con los post de Ciencia en Linux: Física.

    Imagen de Debish
    Enviado por Debish el 9 Agosto, 2011 - 14:01.

    Qué chulo. Seguramente sea mejorable en cuanto a las aproximaciones realizadas, pero de lo que no cabe ninguna duda es que es una idea cojonuda clap

    Imagen de pvaldes
    Enviado por pvaldes el 9 Agosto, 2011 - 17:54.

    Gracias a todos por los comentarios,

    Siiii... Sin duda es mejorable meparto , desde luego. De entrada el valor real de igualdad y dominancia será menor a medida que ampliemos la muestra (Hay que tener en cuenta que es una extrapolación de... ni sé cuantos usuarios registrados tendrá ahora mismo cada comunidad, pero muchos más de 150 desde luego); pero lo interesante es la comparación (y los usuarios inactivos realmente tienen poca influencia sobre la comunidad, así que con pillar el núcleo duro se puede hacer uno una idea bastante precisa...)

    Un tema interesante sería incluir el tiempo en la ecuación, una comunidad que fue muy grande pero en la que nadie postea desde hace años no puede ser igual que otra mucho menor pero más activa, pero esa ya es otra historia

    Imagen de zinabrio
    Enviado por zinabrio el 9 Agosto, 2011 - 21:12.

    Interesante, gracias por ilustrarnos.

    ¿Los datos a que época pertenecen?

    Imagen de pvaldes
    Enviado por pvaldes el 9 Agosto, 2011 - 22:58.

    agosto 2011

    Imagen de artalsl39
    Enviado por artalsl39 el 25 Agosto, 2011 - 05:53.

    Que buen post, me gustó, es muy interesante ver como se configura la diversidad y la participación en cada una de las comunidades referidas y lo que nos muestra esta analogía de ecosistemas y comunidades virtuales, así como lo que implica que se den unas u otras condiciones de interacción en ellas. Rifado. Arriba esDebian clap