El 13 de novembre es va celebrar la primera edició del Dimecres de Datafília, una jornada de formació i treball centrada en les dades obertes i les seves possibilitats d’explotació. L’esdeveniment fou organitzat conjuntament entre l’Associació Amical Wikimedia i la Secretaria de Transparència i Govern Obert de la Generalitat de Catalunya amb els objectius principals de donar a conèixer el repositori institucional de dades obertes de la Generalitat de Catalunya i Wikidata, així com presentar les possibilitats que ambdues plataformes ofereixen pel que fa a accions d’anàlisi i visualització de dades. A més a més, aquest esdeveniment s’emmarca en el conveni institucional de col·laboració signat entre la Generalitat de Catalunya i Amical Wikimedia des del juliol de 2013.
La jornada: píndoles formatives
Una cinquantena de persones van omplir la sala d’actes del Departament d’Acció Exterior, Relacions Institucionals i Transparència per assistir a la primera part de l’esdeveniment. Aquesta consistí en quatre càpsules de caràcter divulgatiu i formatiu sobre diversos aspectes relacionats amb el programa de dades obertes de la Generalitat de Catalunya i Wikidata, la base de coneixement que forma part dels projectes Wikimedia.
Àngels Vidal, Responsable de Dades Obertes de la Generalitat de Catalunya, féu una presentació sobre l’estratègia de dades obertes que s’està desplegant des de l’administració pública, presentant diversos exemples de casos d’èxit d’ús dels conjunts de dades recollits al catàleg de dades obertes que s’ha posat a disposició de la ciutadania, com l’aplicació per a mòbils «El meu tren» o el portal informatiu desprotegides.cat, dues propostes sorgides d’iniciatives privades. En aquest sentit, es va subratllar la gran diversitat dels conjunts de dades disponibles, els quals ofereixen informació sobre pràcticament qualsevol àmbit: des de transparència econòmica a serveis socials, passant per la salut o les infraestructures, de tal manera que el ventall de possibilitats d’aprofitament és d’una realment significatiu.
Toni Rubio, Cap de l’Oficina Tècnica de Dades Obertes de la Generalitat de Catalunya, va presentar l’enfocament que des de l’administració s’està proporcionant a les dades obertes, que són enteses com un servei a la ciutadania. Així doncs, per tal de facilitar l’accés ciutadà a les dades obertes s’ha apostat per Socrata, una plataforma que permet l’allotjament i gestió de grans volums de dades, així com la seva consulta via web, l’exportació en diversos formats i la interoperabilitat a través de diverses API, de les que se‘n va fer una ràpida introducció.
Amador Álvarez, soci d’Amical Wikimedia i voluntari de llarga trajectòria en projectes com la Viquipèdia, Wikimedia Commons i Wikidata, fou l’encarregat d’introduir als assistents a Wikidata, la seva filosofia i el seu model de dades. Després d’encoratjar els assistents a convertir-se en donants de dades, presentà diversos exemples d’aprofitament de la informació que ofereix aquesta base de coneixement cultivada i mantinguda de manera altruista per milers de voluntaris. Entre els casos mencionats destaquen eines com ara el visor de patrimoni «Monumental», l’eina per construir xarxes de relacions a partir d’ítems de Wikidata o una eina que situa en un mapa basat en la ubicació de l’usuari quins ítems amb geolocalització a Wikidata encara no disposen d’una fotografia que els il·lustri.
La última de les càpsules fou a càrrec de Toni Hermoso, president d’Amical Wikimedia, que oferí una ràpida introducció a l’extracció de dades de Wikidata. Presentà el servei de consultes de Wikidata (Wikidata Query Service), un espai web que combina la línia de comandes amb la interfície gràfica i permet executar cerques a Wikidata. Aquestes consultes es realitzen amb llenguatge SPARQL, i s’oferiren diverses demostracions pràctiques del seu funcionament i sintaxi abans de donar pas a la segona part de l’esdeveniment: la marató de dades.
La jornada: marató de dades
Un cop finalitzades les càpsules formatives, una vintena de participants protagonitzaren la segona part de la jornada, que consistí en una marató de dades de gairebé cinc hores de durada.
Des de l’organització es plantejaren un parell de reptes, formulats amb la intenció que els participants treballessin en equip i utilitzessin datasets provinents tant del portal de dades obertes de la Generalitat de Catalunya com de Wikidata. El primer repte consistia en el disseny d’un procés ETL (extract, transform, load) entre el repositori de dades obertes de la Generalitat i Wikidata; mentre que el segon requeria l’elaboració d’una visualització d’un conjunt de dades que fos fruit d’una combinació de datasets provinents d’ambdues fonts. No obstant això, la llista de reptes no era tancada, sinó que es va deixar total llibertat als participants per posar en pràctica i compartir els seus coneixements i habilitats en matèria de programació, anàlisi i visualització de dades.
Resultats
Els participants s’organitzaren en diversos equips i, després de més de quatre hores de treball col·lectiu, arribà el moment de presentar els resultats de la marató. Com a bona notícia, malgrat el poc temps implicat, els equips van poder preparar diferents prototips funcionals i proves de concepte que van compartir amb la resta de participants.
Per una banda, es presentà el codi elaborat per executar un procés ETL a un conjunt de dades sobre les fosses comunes de la Guerra Civil a Catalunya, comparant les dades disponibles al portal de dades obertes de la Generalitat de Catalunya i les que es poden trobar a Wikidata. En aquesta línia, també es presentà una visualització d’aquestes dades sobre un mapa, acompanyat d’una comparativa de la informació que proporcionaven ambdues bases de dades.
D’altra banda, es presentà un projecte que tenia l’objectiu principal de combinar les dades obtingudes a partir d’una operació de web scraping de la documentació sobre contractació pública amb entitats de Wikidata. D’aquesta manera, els contractes presents a la documentació es podien vincular amb conceptes existents a Wikidata, permetent l’agregació dels resultats en categories d’abast divers, tot facilitant-ne una eventual consulta i navegació temàtica.
Finalment, es donà a conèixer un projecte que oferia una visualització de les dades dels accidents de trànsit amb resultat de mort esdevinguts a Catalunya des que se’n disposa de registres, combinada amb dades meteorològiques i dades de trucades operatives gestionades pel servei d’emergències 112. Aquesta visualització es complementava amb un projecte encaminat a generar dades d’intensitat de trànsit a partir de l’anàlisi de les imatges per aprenentatge automàtic (machine learning) que proporcionen les càmeres del Servei Català del Trànsit, de tal manera que s’obria la porta a una possibilitat d’anàlisi de dades ben atractiva.
La datafília no s’atura
La jornada fou tot un èxit, tant pel que fa a la participació com als resultats obtinguts. És crucial apropar l’univers de les dades obertes a la ciutadania en general i mostrar el seu potencial de reutilització i aprofitament no només en l’àmbit purament educatiu, científic o lúdic, sinó també i molt especialment cal apropar-lo a sectors com l’econòmic, el cultural o l’informatiu, amb l’eventual implicació directa d’òrgans governamentals i les seves bones pràctiques. Confiem que aquest nou model d’èxit, plantejat com un dimecres de datafília, sigui el precedent i la incubadora de nous esdeveniments de les mateixes característiques, una gran oportunitat per a que persones amb coneixements i habilitats diverses entrin en contacte, estableixin vincles i posin la primera pedra de sinergies prometedores en el context de les dades obertes.