La Red está a reventar de información, pero seguimos sin sacarle todo el partido posible. Los buscadores son todavía herramientas burdas que matan mosquitos a cañonazos. Sin embargo, la Web Semántica podría cambiar las cosas.
Cuando uno intenta entender qué es eso de la Web Semántica, un término acuñado por Tim Berners-Lee, uno de los padres de Internet, corre el peligro de perderse en un debate de académicos y visionarios trufado de siglas y estándares. La Web Semántica es una propuesta de futuro, que no existe o que está en pañales, con lo que cuesta mucho identificarla, y sigue circunscrita a entornos de desarrollo de universidades, start-ups e ingenierías muy especializadas. Sin embargo, es una tecnología que, si llega realmente a materializarse, propone una experiencia mucho más rica que la que tiene un internauta hoy en día ante un ordenador.
Tim Berners-Lee dirige el W3C, que genera todo tipo de recomendaciones técnicas y sobre estándares para Internet.
Para intentar arrojar algo de luz, hemos preguntado a varios expertos en qué consiste esto de laWeb Semántica. Lluís Codina, profesor en la Universidad Pompeu Fabra y que ha escrito un libro específico sobre la materia junto a varios autores (Web Semántica y sistemas de información documental), habla de un «conjunto de normas y especificaciones técnicasdestinadas a tratar la información, de manera que sea más fácil de interpretar por parte de los programas de ordenador». «Aunque la mayoría de páginas web son generadas a partir de bases de datos donde la información está bien estructurada (por ejemplo, en tablas con filas y columnas), después esta estructura se pierde bajo distintas capas de estilo y formato. Por lo tanto, extraer información de estas páginas e interpretarla automáticamente es difícil. La Web Semántica resuelve este problema», explica Ricardo Baeza Yates, vicepresidente de Yahoo! Labs en Europa. Es decir, sería como enseñar a la propia Internet a interpretar y vincular la gigantesca cantidad de información que atesora, permitiéndole así comunicarla de la manera más útil e intuitiva posible.
Uno de los objetivos es permitir a los usuarios comunicar con Internet usando el lenguaje natural, escrito o hablado. La idea es que preguntemos a un buscador del mismo modo que lo hacemos a un amigo o a un colega del trabajo. Para facilitar este aprendizaje a las máquinas, los programadores utilizan marcadores o tags (que técnicamente se conocen como metadatos), que hacen reconocible la información a los motores de búsqueda y otros programas de extracción. Además, se ayudan de lenguajes que jerarquizan estos datos y articulan las preguntas que podemos hacer.
Aplicaciones
Una de las aplicaciones más claras de la Web Semántica está asociada a los buscadores. Gracias a las etiquetas adicionales y al trabajo del software que la hace posible, esta clase de herramientas podrán contestar directamente a las preguntas de los usuarios, en vez de vomitar una pila de enlaces donde somos nosotros los que tenemos que bucear para encontrar la información deseada. Idealmente, los buscadores nos darán la información debidamente confeccionada con aportaciones de múltiples páginas. Digamos que nos interesamos por el actor Matt Damon. Pues bien, una Internet inteligente nos respondería con un documento formado por su perfil (sacado, por ejemplo, de Wikipedia), fotos y comentarios de su blog personal, vídeos con escenas de sus películas (de Youtube) y críticas de sus películas publicadas por diversos medios.
Pero no queda ahí la cosa. «Si la Web Semántica fuera una realidad, deberíamos disponer deagentes inteligentes, una especie de buscadores/gestores personalizados, capaces de satisfacer todas nuestras necesidades de información», dice Rafael Pedraza-Jiménez, profesor de la Pompeu Fabra. Y es que si se cumplen los vaticinios en torno a la Web Semántica, Internet debería hacer, por sí sola, todo el trabajo. Es decir, que si le preguntáramos por un viaje a Nueva York, nos daría información de la ciudad, del tiempo y de las conexiones de transporte, pero también sería capaz de comprarnos los billetes de avión, reservarnos un hotel en el SOHO y comprarnos unas entradas para un espectáculo en Broadway.
Sin ir tan lejos, la Web Semántica también posibilitará a una página reutilizar información que ya ha sido publicada en otra, pero que es pertinente. Como dice Xavier Uribe-Etxeberría, CEO de Anboto, una start-up vasca especializada en asistentes virtuales, podremos acceder a una página para comprar un coche cuyas características expuestas no provienen precisamente de esa página, y sí de otra donde la información se actualiza a cada minuto.
En todo caso, por el momento la cosa va más despacio y los logros son más modestos. Losagentes inteligentes que deben buscar y juntar por nosotros la información no han funcionado hasta la fecha. «La Web Semántica hoy se reduce básicamente a la creación de sistemas de búsqueda muy eficientes para entornos muy controlados», dice Rafael Pedraza-Jiménez. Ricardo Baeza habla de los últimos avances de Yahoo! «En Yahoo! Search, el resumen de las páginas de la Wikipedia contiene el primer párrafo del artículo, la foto principal y los enlaces directos a las distintas secciones del artículo. Esto es posible porque el buscador entiende dónde comienza el artículo, qué foto es relevante y dónde comienza cada sección».
Los proyectos más interesantes en el campo de la Web Semántica se pueden encontrar en el site del W3C, el consorcio que promueve estándares en el ámbito de Internet. A nivel mundial, son interesantes los trabajos realizados por la NASA y la BBC británica. En España, también encontramos iniciativas en ayuntamientos, fundaciones o bancos. El consistorio de Zaragozaimplantó una herramienta de búsqueda semántica para ayudar a sus ciudadanos a encontrar más fácilmente el servicio que necesitan. Antes las búsquedas eran tortuosas. La Fundación Marcelino Botín también incorporó esta tecnología para facilitar el acceso a la información que sobre el patrimonio y la historia de Cantabria atesora. Era una información que estaba muy dispersa. Por su parte, Bankinter también se vale de esta tecnología para ayudar a sus empleados a compartir nuevas ideas. Aquellos con sugerencias que hacer tienen una herramienta que les pone en contacto con otros que han hecho aportaciones en el mismo campo.
Queda mucho por hacer
Añadir leyenda |
En cualquier caso, la Web Semántica está en ciernes, muy lejos de llegar a su madurez tecnológica y también de popularizarse. El listado de proyectos referenciados por la W3Ces solo de 32, y eso en toda una década de desarrollos. «La Web Semántica no se espera para mañana, ni para pasado mañana. Siempre que se ha dado una fecha, aunque haya sido a muchos años vista, se ha incumplido», asegura Lluís Codina. Codina también dice que la confianza en las posibilidades de la Web Semántica que mostraron Tim Berners-Lee (que escribió un artículo muy celebrado titulado precisamente The semantic web, -clic para descargar-) y otros gurús en 2000 y 2001 se ha ido evaporando con los años, y ahora las expectativas son más conservadoras.
Por otra parte, según algunas fuentes, solo un 5% de las páginas han adoptado RDF, el lenguaje que permite añadir datos semánticos (metadatos) a los contenidos de Internet. Pero cuidado, porque algunos consideran este dato bastante optimista. Juan Antonio Pastor Sánchez, experto de la Facultad de Comunicación y Documentación de laUniversidad de Murcia y autor del libroTecnologías de la Web Semántica, no cree que sea muy indicativo del desarrollo de esta tecnología el porcentaje de páginas web con RDF, toda vez que no es un formato pensado para su uso en páginas convencionales, que seguirán utilizando XHTML y HTML5. Además, dice el profesor de la Universidad de Murcia, un 5% puede, en realidad, no ser tan poco como parece, porque en Internet hay mucha información redundante y muchos datos tienen muy escaso interés.
En este sentido, también se expresa Ricardo Baeza Yates, de Yahoo! Labs, que aclara que no vamos a necesitar que la totalidad de páginas web usen RDF, ya que no todas contieneninformación estructurada y en muchas predominan archivos de otro tipo, como vídeos, imágenes o sonido, que requieren otros tipos de tecnologías. En cualquier caso, en unaentrevista concedida al diario El Mundo el pasado verano, Jeff Jaffe, presidente ejecutivo del W3C decía que estamos en un punto de inflexión y que la gente está por fin aprendiendo a usar e implantar estos desarrollos. Nos obstante, otros consultados no son tan optimistas.
Hay estándares, pero…
Los obstáculos para el desarrollo de la Web Semántica no están en la falta de estándares, como muchas veces pasa con las tecnologías que intentan abrirse hueco. Que eso sea así es culpa del trabajo del World Wide Web Consortium (W3C), que dirige el mítico Tim Berners-Lee. Según Lluís Codina, hay estándares suficientes, aunque estar al día de los mismos se haya convertido en «un trabajo a tiempo completo porque les encanta hacerlos muy abstractos y crípticos». No obstante, Juan Antonio Sánchez Pastor asegura que todavía no se ha solventado el riesgo de que aparezcan otras tecnologías semánticas que se aparten de los estándares de la W3C, lo que podría crear mucha confusión entre los desarrolladores.
Para el experto de la universidad de Murcia, el gran problema, sin embargo, está en que al día de hoy no hay un volumen importante de datos debidamente estructurados. El empresario Xavier Uribe-Etxeberría coincide en que los estándares ya están, pero duda de que vaya a haberinversión. «El problema fundamental es que para construir una Web Semántica hay que trabajar manualmente, y eso lleva muchísimo tiempo», añade. Configurar un CMS o gestor de contenidos para la Web Semántica no debería ser más caro, pero reconvertir sitios con miles o decenas de miles de páginas «puede tener un precio prohibitivo», recuerda Lluís Codina.
Jeff Jaffe reconocía en su visita a Bilbao en junio que, mientras haya poca adopción, no habrá motivación para crear herramientas, y mientras no haya herramientas, no se incrementará la adopción. Rafael Pedraza-Jiménez, de la Universidad Pompeu Fabra, también habla del coste económico y de la complejidad técnica como los grandes inhibidores. Además, dice que ayuda poco el hecho de que los grandes buscadores no puedan interpretar la indexación que conlleva la Web Semántica. El experto entiende el desinterés de los grandes buscadores por esta tecnología. «No tiene sentido que los buscadores adapten sus algoritmos de rastreo y su software de relevancia a unos contenidos prácticamente inexistentes». Desde Yahoo!, el único buscador que ha participado en este reportaje, creen vital que los autores de páginas web, los diseñadores o los especialistas en SEO conozcan y usen los formatos de la Web Semántica. Ricardo Baeza Yates dice, con cierta resignación, que en el futuro tendremos «una Web híbrida, solo parcialmente organizada», solo parcialmente inteligente.
La iniciativa Open Data
Todo indica que la Web Semántica florecerá en el ámbito institucional y de la Administración, y no en la empresa privada. «Una empresa tiene pocos o ningún incentivo a corto plazo para poner contenidos codificados con metadatos RDF. Todavía no ha llegado ninguna tecnología rompedora, como las redes sociales en su momento, que animen la inversión en este terreno», dice Lluís Codina.
Con los años, las ambiciones de los que anunciaron a bombo y platillo la llegada de la Web 3.0 y de una Internet inteligente han disminuido, y hoy las previsiones son más realistas. En los próximos años, el foco estará puesto en el Linked Open Data (LOP), una iniciativa del W3C que tiene como objetivo crear los estándares para que los datos de las empresas y organismos que lo deseen puedan residir en repositorios con un formato interoperable y aprovechable por las aplicaciones de terceros. En palabras de Codina, el desarrollo de este concepto de datos abiertos es lo mejor que ha dado de sí el proyecto de la Web Semántica, que tuvo su momento caliente entre 2000 y 2005. De hecho, LOP incluye más de 300 proyectos, que van desde organizaciones gubernamentales a medios de comunicación como la BBC o The New York Times. Ahora solo resta que sus bondades se extiendan a todos los internautas.
Los internautas vamos a poder:
Buscar en Internet usando el lenguaje natural, formulando preguntas como se las haríamos a un amigo o a un conocido.
Interactuar con la voz, sin necesidad de tener que introducir la información mediante formularios o casillas.
Tener respuestas más precisas y completas en los buscadores. Adiós a las listas de documentos donde hay que bucear para encontrar lo que queremos. En su lugar, tendremos un documento único con información relevante sacada de diferentes webs.
Contar con un verdadero asistente. Al decirle a la Web que queremos viajar a Roma, nos dirá por dónde hay que ir, pero también nos sacará los billetes y nos reservará las noches de hotel necesarias. Suena a ciencia-ficción, pero algunos lo contemplan.
Buscadores de preguntas
Entre la Web 2.0 y la Web 3.0, un concepto que engloba a la Web Semántica, el 3D, la geolocalización o la inteligencia artificial, están surgiendo iniciativas interesantes que dan idea de por dónde pueden ir las cosas en los próximos años. Hablamos de los buscadores de preguntas, como Ask.com o Yahoo Answers. En estos sites el usuario puede formular preguntas con un lenguaje muy natural. También, si el resultado es bueno, ahorran al internauta tener que bucear entre los resultados para encontrar lo que quiere. En definitiva, son más directos. Ask.com, operativo desde hace muchos años y que ha resistido el embate de los grandes buscadores (sigue siendo el cuarto más utilizado en EE UU y Reino Unido), da la respuesta adecuada en el 60% de las ocasiones.
Pero quizá el ejemplo más genuino de Web Semántica es el de Wolfram Alpha, un buscador de respuestas que responde a las preguntas directamente mediante el procesamiento de larespuesta extraída de una base de datos estructurados, en lugar de proporcionar una lista de documentos o webs que podrían contener tal respuesta, como hace Google. Así, si preguntamos quién es Bill Clinton o Benedicto XVI, la página nos ofrece, con una presentación muy limpia y ordenada, datos de nacimiento, fotos y los hechos más relevantes de sus carreras. Eso sí, no hay información de Rodríguez Zapatero o Mariano Rajoy, lo que hace pensar que su alcance es limitado.
Y no queda ahí la cosa. Facebook, Wikipedia y LinkedIn tienen también secciones de preguntas. Otros no son tan conocidos. Quora es una red social también dedicada a contestar cuestiones concretas, mientras que Stack OverFlow tiene una potente base informativa de millones de respuestas con la que contesta cualquier cuestión sobre informática. La mayoría combina la participación de la gente con algoritmos pensados para la Web Semántica.
Un mar de siglas
LOP: La Linked Open Data es una iniciativa del Consorcio de Internet destinada a crear estándares para que organismos y empresas puedan intercambiar información y que esa información sea aprovechada por aplicaciones de terceros. Hay más de 300 proyectos puestos en marcha.
OWL: Lenguaje que utiliza la Web Semántica para establecer relaciones y jerarquizar los recursos. Establece clases, subclases, restricciones, propiedades, etc. RDF Schema también tiene esta finalidad.
RDF: Lenguaje con el que se añaden datos semánticos (tags o metadatos) a la Web para que pueda haber interconexiones sin intervención humana y los programas puedan hacerpreguntas y éstas sean respondidas. Es el corazón de la Web Semántica.
W3C: El World Wide Web Consortium reúne a más de 300 miembros, entre empresas, instituciones educativas y gobiernos de todo el mundo, y se encarga de promover estándares en áreas como la Web 3.0 y la Web Semántica.
XML: Lenguaje de etiquetado que permite definir los tipos de documentos de Internet y las etiquetas que los identifican. Resulta muy cómodo para interactuar con las bases de datos.
0 comentarios :
Publicar un comentario