(O mi modesta post-aportación asíncrona a la desconferencia)
Tras leer el estupendo post-resumen de la desponencia de ana (y los comentarios de las deakilleras), he decidido realizar una aportación perpendicular (o quizá tangencial) al tema que expone, motivado a partir de la frase:
yo ... alegué, que estábamos sacrificando exhaustividad y precisión en la recuperación de información desde la primera letra de t-a-g.
Como sabemos, además, la exhaustividad y la precisión se afectan entre sí: a mayor exhaustividad menor precisión, y viceversa. La primera cuestión es: ¿cuál se ve más afectada de las dos en los sistemas basados en tagging?
La precisión. Esto se debe a qué ambos parámetros están condicionados por la especificidad de los tags, y la exhaustividad del tagging. Todos los datos parecen indicar que los tags son más generales que específicos, y el tagging un proceso poco exhaustivo. O en otras palabras, si los tags son el eslabón perdido entre las categorías y las palabras clave, se acercan un poquito más a sus primas las cateogrías que a sus primos los keywords.
Otro problema es la ambigüedad en los tags, que afecta tanto a la precisión (polisemia) como a la exhaustividad (sinonimia). El problema de la ambiguedad es inherente al lenguaje natural, pero en el tagging además se encuentra acentuado. La razón la resumen muy bien Guy and Tonkin (2006) con la siguiente frase:
Possibly the real problem with folksonomies is not their chaotic tags but that they are trying to serve two masters at once; the personal collection, and the collective collection. Is it possible to have the best of both worlds?
Si bien el problema de la falta de especificidad de los tags es difícilmente solucionable (bueno, siempre se puede increpar al usuario con mensajes-popup del tipo "Sé más específico al taggear ¡alma de cántaro!"), el problema de la ambigüedad puede ser más "fácil" de solucionar.
Y aquí es cuando recomiendo el que para mi es uno de los mejores papers escritos sobre el tema, el trabajo de Wu, Zhang and Yu (2006): Exploring Social Annotations for the Semantic Web.
Aunque el título despista (realmente el tema de la web semántica sólo lo utilizan para contextualizar la investigación), y reconozco que puede ser pesadito de leer, me parece una de las aportaciones más serias al tema. Como resumen: los autores, inspirados en el modelo de indización de semántica latente y el modelo probabilístico de recuperación de información, ofrecen una buena solución para el problema de la sinonimia, polisemia y ausencia de significación de algunos tags. La semántica se puede inferir a partir de la propia folksonomía, o al menos en parte. O como decía Mika: Las ontologías somos nosotros.
--> ¡alma de cántaro!
Impresionante.
--> muchos tags sólo tienen sentido para su autor.
Tengo una pregunta que no sé si es buena, mala o regular. Pongo Flickr, por ejemplo, y mi caso:
- Hasta hoy he subido, entre públicas y privadas, 3500 fotos.
- Cada foto con sus etiquetas.
- En la mayoría de las fotos pongo las etiquetas pensando en cuando las busque yo, y sólo en casos muy concretos las pongo pensando en ayudar a encontrarlas.
En ese contexto, y aunque si las analizamos pensando en la recuperación universal y blablabla seguro que resultarán ser una mierda, son buenísimas. Ojo, esto es hablar por hablar, se me acaba de ocurrir ahora y no sé si lleva a algún sitio.
Bueno, la pregunta era: ¿alguien ha pensado en esto?
Soy consciente de que estoy en otra frecuencia, pero ahora ya lo he escrito. Aprovecho para felicitarte por lo que dices, seguro que está bien dicho.
Enviado por Javier. Julio 6, 2006 07:05 PM
Gracias por las felicitaciones, sea lo que sea lo que haya dicho :)
Respecto a eso que comentas, no lo diferencié claramente en el post. Está claro que, como sistema de recuperación de información personal (y en este contexto el término 'recuperación' es realmente el más adecuado), los sistemas basados en tagging son geniales. Quién mejor que tú mismo para saber con qué tag describiste tal recurso.
Yo lo enfocaba más a la RI social, o a cómo de bueno es el tagging para que otros usuarios encuentren lo que buscan por medio de tus tags. En principio uno puede pensar que inevitablemente no es útil, porque uno piensa en sí mismo cuando asigna un tag, y por tanto no tienen por qué ser útiles para el resto. Pero si algo hemos comprobado desde que surgió el tagging social es que para intereses personales (volver a localizar un recurso X) los usuarios asignan muchos tags temáticos, y éstos son útiles también para el resto de usuarios.
Y ahora, lo que se está descubriendo y sobre lo que se investiga es en cómo diferenciar entre aquellos tags útiles para todos, y aquellos que sólo lo son para sus creadores.
En este sentido, entre otros, el trabajo de Wu et al. aporta una buena solución.
En realidad lo que se está haciendo es recuperar modelos clásicos de RI, y aplicarlos sobre los sistemas basados en tagging, es decir: modelo espacio-vectorial, indización semántica latente, modelo probabilístico, etc etc.
Enviado por yusef. Julio 6, 2006 07:58 PM
Gracias. Que bien hablas, coño!
Enviado por Javier. Julio 6, 2006 08:19 PM
mslgr. de nada tio.
Enviado por yusef. Julio 6, 2006 11:32 PM
el siguiente post de la desconferencia...sobre los modelos clásicos de la RI aplicados al tagging please :P
En cuanto a este tema, sólo una cosa. Yo como no tengo mucha idea de esos modelos siempre he creido que el hecho de que el tagging social sea util no es por tanta paja mental (perdón), sino que es util porque cuando el usuario hace una query se localizan documentos pertinentes. Es decir, nunca se hace una búsqueda por "toread". Y en ese sentido, el tagging da mayor especificidad que una busqueda lanzada al vuelo sobre un conjunto documental de lenguaje natural sin describir o sobre un conjunto de documentos categorizados (sigo debatiendo tu idea de q se clasifica más que se indiza)
En cuanto al browsing, seria la misma idea. Si estas navegando y quieres pasearte por el toread, pues "problema tuyo". Se supone que el browsing es una solución, entre otras cosas, para ir descubriendo contenidos, no? Si t paseas por un "Ajax" seguramente tenga contenidos de ajax.
La suma de los individuales es lo que hace lo social en todos los sentidos. En cuanto al comentario de javi añado q yo nunca taggeo para los demas, pero sí q creo que algunas cosas les puede servir y que sólo esas podrán ser recuperadas. Así que aunque un 20% solamente, ese 20% estará bien. la suma de ese 20% individual dara la utilidad al ambito social. Aunque estaría chulo inducir una descripcion más correcta, of course :)
ya m caaallo, saludines
Enviado por vane. Julio 7, 2006 09:49 AM
Hola Vane,
Las palabras vacías deben ser eliminadas, o ponderadas a la baja, para no añadir ruido a la recuperación.
Quizá nadie busque por toread, pero cuando se navega, la etiqueta toread aumenta el ruido visual (es una etiqueta vacía de significado).
Además, si no se ponderan los términos, una búsqueda combinada de un término no significativo con otro significativo, devolvería ruido, pues los consideraría igualmente importantes.
Respecto al tema de la especificidad de los tags, un trabajo interesante es el de Brooks y Montanez (2006). Aunque no está llevado a cabo sobre una folksonomía "realmente folk" (Broad folksonomy: donde todos taggean todo), sino sobre los 'tags' con los que los bloggers anotan sus posts; como muestra el trabajo, extraer de forma automatizada los términos que aparecen en el cuerpo del post (indización automática) ofrece resultados más relevantes. Esto es porque los tags asignados son muy genéricos, y la indización automática ofrece más variabilidad y por tanto especificidad en los términos. De hecho los autores proponen incluso el uso autotagging.
Las folksonomías, aún así, realmente creo que son una buena fuente de conocimiento para la recuperación de información, pero no tanto por la relación directa que ofrecen entre tag-recurso, sino por la semántica subyacente a las relaciones de co-ocurrencia.
saludos :)
Enviado por yusef. Julio 7, 2006 01:16 PM
Se me olvidó la referencia:
Brooks and Montanez (2006).
"Improved Annotation of the Blogosphere via Autotagging and Hierarchical Clustering"
http://www2006.org/programme/item.php?id=583
Enviado por yusef. Julio 7, 2006 01:17 PM
jue, eres la caña. vas a sacar articulo o algo de esto?
a ver si leo las referencias, pero desde ya me entran dos dudas.
1. en el estudio, ¿los bloggers que describian tenian tambien un sistema de categorias o sólo tenian sistemas de tagging? (q a nivel tecnico es lo mismo, m refiero a si tenian los dos tipos a la vez). Lo digo porque un sistema de tagging como es tecnicamente igual q un sistema de clasificacion lo utilicen para clasificar. Ya te digo que desde mi perpectiva las tags no se acercan a la clasificacion si no q es un complemento.
En lo que comentas de la visualizacion y el ruido en las tags... hay algun estudio que diga desde donde navegas? es decir, ¿se accede al browsing desde el mismo browsing o desde el search a partir de uno o varios resultados? cuantos enlaces clickeas en un sistema de tags tipo flickr? 1? 2?
realmente provoca ruido en un primer nivel folksonomico más tags que no sean toread? Más que metodos matematicos a mi me aprece buena solución facetar. No es darle más importancia, sino que los"articulos" "libros" "foto" vayan a la faceta "tipo" y el toread...bueno... en ese reconozco q estoy un aprieto :D
saludines
Enviado por vane. Julio 7, 2006 03:57 PM
hola vane, me has pillado escribiendo otro post sobre el tema :)
Respecto al estudio, efectivamente, los bloggers utilizan esos tags como categorías, y de ahí su carácter más genérico. Aún así los posts (como documentos) son pequeños, por lo que los tags asignados presumiblemente podrían ser más específicos de lo que después se observa. El estudio lo que viene a decir es que el querying en technorati (por ejemplo) será más adecuado realizarlo sobre el cuerpo del texto que sobre los tags (de hecho, en technorati la primera caja de búsqueda ofrecida en home es sobre el cuerpo de los posts, y para consultar por tags hay que ir a la pestaña correspondiente).
Respecto al punto dos...planteas un montón de cuestiones interesantes, la mayoría no estudiadas, y para las que únicamente se puede tener respuesta teórica. Mi opinión es que las nubes de tags son poco utilizadas, por ser poco útiles. Esto no sólo es porque los usuarios en mayor número de casos prefieren el querying al browsing, sino por el mismo método de ofrecer esas interfaces (ahí es donde me encuentro haciendo algún que otro modesto trabajo).
Después de escuchar el podcast de anika, veo que ambas vais en la misma dirección: mejorar el taggin mediante la asistencia al usuario, como por ejemplo facetándolo (el método alma-de-cántaro ;).
Yo soy más algorítmico o matemático, y creo que ese tipo de información se puede extraer de tagging libre. Además, creo que para entornos distribuidos y potencialmente enormes los únicos sistemas que funcionan son los algorítmicos y los que ofrezcan total libertad al usuario.
gracias por comentar :)
Enviado por yusef. Julio 7, 2006 04:51 PM
yo no voy en la linea de orientar al usuario. A ver si un dia m pongo y me explico mejor.
gracias por tus answers¡ ;)
Enviado por vane. Julio 7, 2006 05:10 PM
Te entendí mal entonces :)
Enviado por yusef. Julio 7, 2006 05:36 PM
Madre mía: estáis locos.
Enviado por Javier. Julio 7, 2006 05:38 PM
Vane, y el toread? una faceta de ¿función? como puede ser "para consultar" (para recursos básicos del tipo bibliografía sobre...) "para utilizar" (para recursos como programas informaticos, herramientas varias), etc
Joer que interesante vuestra discusión, llego tarde pero lo sigo disfrutando, sois la caña almas de cantaro
Enviado por Catuxa. Julio 8, 2006 03:24 PM
ya m estoy convirtiendo en la visita pesada :D
yo pasaria del Toread porque es un tag individual y no colectivo
Enviado por vane. Julio 10, 2006 01:03 PM
yo estoy con yusufo, intevención 0 ¿es eso?
Enviado por bocadillo de jamón. Julio 10, 2006 10:54 PM
http://flickr.com/search/?w=all&q=tosee&m=tags
Enviado por javier. Julio 10, 2006 11:13 PM
sí, es más o menos eso bocata.
Enviado por yusef. Julio 10, 2006 11:56 PM
me das la razón como a los tontos, volveré a leerte.
Enviado por bocata. Julio 11, 2006 09:57 AM
Que va, en serio, es que es más o menos eso.
Enviado por yusef. Julio 11, 2006 11:11 AM
en españa se comerá mucho chopped!! temblad!!
Enviado por os amenzo. Julio 11, 2006 11:16 AM