Aplicando algunos conceptos de ecología al análisis de las comunidades virtuales.
Hoy voy a dejar un poco de lado las cuestiones técnicas y trataré de abordar un problema cada vez más habitual con el creciente número de comunidades virtuales: cómo valorar la madurez y "estado de salud" de un foro de usuarios con respecto al de otros foros similares.
A lo largo de su vida los foros pasan por varias fases fácilmente reconocibles. El esfuerzo de crear un foro exige entusiasmo y cierta habilidad técnica, y al principio suele haber gente muy motivada e implicada. Más tarde, a medida que el foro se va poniendo de moda, aumenta el porcentaje de usuarios novatos que acuden con preguntas básicas o simplemente lo consultan como manual de referencia pero sin atreverse a escribir en él. También aparece un porcentaje de usuarios que directamente tratan de abusar del foro (ignorando las reglas, o esperando que les hagan sus deberes o que el foro sea su pringado/esclavo/servicio técnico gratuito particular) y para empeorar las cosas el foro empieza a atraer a los bots.
En ese momento es fácil morir de éxito, la repetición una y otra vez de preguntas triviales y la lucha contra el spam y los usuarios que incumplen sistemáticamente las normas, sobrecarga e irrita a la moderación. Eso lleva a discusiones que atraen a los trolls, y aumentan más el trabajo de los moderadores para evitar el previsible y típico desenlace: broncas entre grupos de usuarios alineados en diferentes bandos con las consiguientes escisiones, creación de foros paralelos o incluso la total desintegración de la comunidad.
Aparte del aumento de recursos técnicos para mantener el creciente foro en un estado razonablemente ordenado, el proceso suele implicar también la pérdida de recursos humanos cuando los expertos, desgastados por la ausencia de preguntas interesantes, o los moderadores, obligados a recordar una y otra vez las normas, deciden que sería mejor invertir su tiempo en otros asuntos y se trasladan progresivamente a comunidades más pequeñas y elitistas. Todo ello implica la pérdida de calidad en los contenidos del foro.
Lo que nos lleva a una segunda cuestión interesante: ¿cómo valorar la estabilidad de un foro?
Una posible aproximación al problema podría venir, desde mi punto de vista, de la ecología teórica. Un aliado no tan insospechado si pensamos en los foros como ecosistemas complejos en los que no faltan muestras de simbiosis, parasitismo, predación, competencia y territorialismo. Mi idea por tanto será aplicar varios conceptos clásicos de ecología y ver qué ocurre; más concretamente voy a comparar tres comunidades de foreros (esDebian, EsLinux y Ubuntu-hispano) mediante el cálculo de su "biodiversidad".
Material y métodos
Me serviré de un pequeño programa de Perl que he escrito y que calcula rápidamente varios índices clásicos de biodiversidad usados habitualmente en ecología*. Su documentación y modo de uso pueden consultarse mediante el comando habitual de Perl equivalente a man:
perldoc /ruta/a/biodiversidad.plHe tomado una muestra de 150 foreros de cada comunidad asegurándome de incluir a los usuarios destacados y completando el resto con foreros tomados más o menos al azar (admito que he dado preferencia a los que tenían un avatar chachi). Asumiremos que cada forero es una "especie" diferente y el número de posts que ha escrito es la "población" de esa especie. En cada comunidad habrá tipos que aparecen hasta en la sopa y también usuarios que raramente escriben (aquellos que tengan 0 posts recibirán graciosamente uno de regalo gracias a nuestro programa para la protección de foreros amenazados en peligro de extinción).
Aplicamos el programa biodiversidad a la muestra de cada comunidad y obtenemos los siguientes:
Resultados
esLinux esDebian Ubt-hisp Riqueza específica o Nº de usuarios (fijado) S = 150 150 150
Nº de ejemplares (posts) examinados N = 24352 137673 4192
Índice de biodiversidad de Simpson (1-D) = 0.57 0.97 0.91
Índice de biodiversidad Shannon-Wiener H = 1.94 3.72 2.91
Valor maximo posible de la muestra Hmax = 5.01 5.01 5.01
Porcentaje de diversidad alcanzado H/Hmax*100 = 38.7% 74.2% 58%
Índice de Margalef I = 14.75 12.59 17.86Diversidad
Lo primero que vemos es la gran diferencia de contenidos (N). Sin entrar a valorar la calidad de las aportaciones de cada caso, esDebian ofrece a sus lectores entre 5 y 33 veces respectivamente más información que esLinux y Ubuntu-hispano. Esto está condicionado obviamente por el perfil de usuarios a los que aspira a atraer el foro (que no es un valor objetivo, imaginemos por ejemplo comparar a los fans de un grupo musical de moda con el de aficionados a la obra de un musico del siglo XVIII) y también por el mayor o menor tiempo que cada comunidad lleva funcionando, pero es un síntoma más que al unirlo al resto apoya la idea de diferencias entre las tres comunidades.
Si examinamos el valor de diversidad obtenido mediante el índice de Shannon vemos que el obtenido para esLinux es similar al normal para ecosistemas terrestres de diversidad baja, el de Ubuntu-hispano entraría dentro de un ecosistema de diversidad media y el de esDebian encajaría con el de una comunidad madura con una diversidad razonablemente alta, que puede cuantificarse además en un 75% de la máxima posible (lo que no está nada mal para el planeta tierra). Sin pretender ofender a nadie, podemos decir que esLinux actualmente equivale a un ecosistema de zonas áridas y esDebian es una jungla tropical (probablemente en más de un sentido).
Simpson por su parte es un índice que da poca importancia a los usuarios que apenas intervienen, presenta resultados similares entre esDebian y Ubuntu-hispano, es esperable que éste índice cambie menos que los otros aunque se vaya ampliando la muestra pero lo más interesante es que nos sugiere que ambas comunidades están creciendo de modo similar, U-H es una especie de esDebian más joven actualmente. También es destacable el alto valor obtenido por esDebian (0.97 de un máximo teórico de 1).
El índice de Margalef plantea un panorama diferente, con una diversidad máxima para U-Hispano, seguido de esLinux y con esDebian al final. Lo cierto es que el índice del ecólogo catalán es algo especial porque depende mucho del número de posts y no valora la equitabilidad, de la que vamos a hablar seguidamente.
Equitabilidad y Especie Dominante
Estos dos conceptos están relacionados directamente con los recursos humanos con los que cuenta un foro. La especie dominante es simplemente la más abundante (traducido aquí, el forero que más posts aporta). La equitabilidad o Evenness (a la que voy a denominar aquí igualdad para simplificar) indica como está repartida la participación de los usuarios. Una comunidad activa, repleta de gente que aporta cosas tendrá mas igualdad que una comunidad en la que unos pocos expertos responden a las preguntas y el resto escucha. La gran ventaja del término está en que sería muy costoso (y conflictivo) valorar uno a uno la calidad de cada post, sin embargo si hacemos que igualdad equivalga a nivel de participación tenemos una aproximación sencilla y se simplifican mucho los cálculos. La igualdad máxima es un estado deseable de nirvana foreril en el que todo el mundo participa por igual, y su valor tiende a uno.
La igualdad y dominancia para las tres comunidades son los siguientes:
igualdad (min = 0, máx = 1) esLinux esDebian Ubt-hispCoef. de igualdad (Evenness) segun Simpson = 0.03 0.21 0.08
Coef. de igualdad (Evenness) segun Shannon = 0.39 0.74 0.57
Índice de dominancia de Berger-Parker = 42.79% 6.26% 19.98%La diferencia entre índices se debe a que Shannon se centra más en el efecto de las especies raras mientras que Simpson enfatiza el efecto de las especies comunes e ignora a las raras. Como nuestra muestra no incluye al 90% de los usuarios (en su mayoría foreros con muy pocos posts), esperamos que Simpson esté más cerca del resultado final (el otro índice cambiaría más al ampliar la muestra) pero en cualquier caso lo importante es la tendencia general que de nuevo sigue el patrón ya visto. Podríamos decir que la participación estimada de esDebian ronda el 21%, la de Ubuntú hispano el 8% y sólo el 3% participan activamente en esLinux (dentro de la muestra encontrada).
La igualdad también nos permite aprender algo sobre la estabilidad de un foro. EsLinux sería la comunidad menos estable, dependiente en gran medida de una sola forera, Myrian, que aporta ella sola casi la mitad de los posts. La participación de esDebian es de nuevo la más alta y por tanto la desaparición del forero más prolífico supondría menos de un 6.3% del total (lo siento Minaya :-) )
Como conclusión algunos conceptos y parámetros ecológicos son fácilmente extrapolables al estudio de comunidades virtuales y podrían usarse como herramienta "universal" para ayudar a valorar la calidad y participación de un foro, de un modo fácil, objetivo e independiente de sus contenidos o número de usuarios. El aumento de la diversidad de un foro debería ser además un objetivo a perseguir por parte de los administradores. A mayor diversidad más estabilidad para el foro y también más calidad (porque es más fácil que alguien sepa la respuesta correcta a una pregunta dada, al reducirse el tiempo que los usuarios tienen que esperar a que sus respuestas sean contestadas se crea una retroalimentación, atrayendo cada vez a más gente y haciendo que los que han entrado repitan).
Vaya, qué artículo tan más interesante ... a mí me sucede que muchas veces aplico mis conocimientos técnicos en otros campos de la vida ... y me gustan las transportaciones o analogías porque se aprende mucho de los resultados obtenidos.
No entro a discutir detalles técnicos u objeciones que seguramente otros encontrarán entre tus líneas, tus áreas de especialidad no son las mías, sólo puedo agradecer esta perspectiva que nos has mostrado :)
Sidd.
Me alegro de que te haya gustado Sidd, también opino igual, siempre es bueno (y gratificante) encontrar conexiones y similitudes entre áreas distintas. En ese sentido es una gran ventaja participar en una comunidad tan heterogénea en la que todos aprendemos mucho a la vez que aportamos lo que podemos, claro
... lo mejor es no tener que aprender dos soluciones distintas para el mismo problema
xDxD me ha encantado
Genial
Saludos
Excelente! Un buen análisis acerca de las comunidades y creo que no me sorprende el resultado. Aunque por ahora soy un parásito que se alimenta de los demás, pronto evolucionaré con los post de Ciencia en Linux: Física.
Qué chulo. Seguramente sea mejorable en cuanto a las aproximaciones realizadas, pero de lo que no cabe ninguna duda es que es una idea cojonuda
Gracias a todos por los comentarios,
Siiii... Sin duda es mejorable
, desde luego. De entrada el valor real de igualdad y dominancia será menor a medida que ampliemos la muestra (Hay que tener en cuenta que es una extrapolación de... ni sé cuantos usuarios registrados tendrá ahora mismo cada comunidad, pero muchos más de 150 desde luego); pero lo interesante es la comparación (y los usuarios inactivos realmente tienen poca influencia sobre la comunidad, así que con pillar el núcleo duro se puede hacer uno una idea bastante precisa...)
Un tema interesante sería incluir el tiempo en la ecuación, una comunidad que fue muy grande pero en la que nadie postea desde hace años no puede ser igual que otra mucho menor pero más activa, pero esa ya es otra historia
Interesante, gracias por ilustrarnos.
¿Los datos a que época pertenecen?
agosto 2011
Que buen post, me gustó, es muy interesante ver como se configura la diversidad y la participación en cada una de las comunidades referidas y lo que nos muestra esta analogía de ecosistemas y comunidades virtuales, así como lo que implica que se den unas u otras condiciones de interacción en ellas. Rifado. Arriba esDebian