Het idee van -big- data is natuurlijk dat je dingen gaat vinden die bij een kleinere dataset volledig in de ruis zouden opgaan. In die zin verwacht ik wel degelijk resultaat als we de genomen van een miljoen of meer mensen volledig sequencen en die linken aan hun medische historie en als het even kan levenswijze en dergelijke.
En een miljoen is nog maar een begin, in perspectief van big data is dat eigenlijk slechts een kleine dataset. Als je kijkt naar over hoeveel mensen bedrijven als google en facebook aanzienlijke hoeveelheden gegevens hebben is het minimaal, maar je moet ergens beginnen natuurlijk. Als het sequencen van het eerste miljoen ook maar 1 vermarktbaar geneesmiddel oplevert verwacht ik dat de volgende miljoenen snel volgen.
Uiteraard is dit allemaal extreem privacy gevoelig. Het is belangrijk de privacy te borgen, en alleen deelnemers te gebruiken die er zeer expliciet toestemming voor geven. Nu zal dat bij volledig-genoom sequencing wel goed zitten gezien mensen daarvoor toch wel een sample moeten komen afgeven voor een goed resultaat. Beetjes dna die een forensische match kunnen geven zijn voor zover ik weet niet geschikt voor volledige sequencing.
Ik denk dat search engine (Google) big data en het dataminen in (incomplete, beschadigde) genoomsets appels met peren vergelijken is.. De openingsvraag gaat meer om informatie in de vorm van tekst.
Het gaat bij dat soort technieken om multi-target search en het vinden van dingen in heel veel datasets tegelijk, die je in kleinere verzamelingen niet aantreft. Verbanden die je anders niet kunt vinden. Ik ben een fanatiek googelaar. Mijn grootste hobby is Romeinse munten determineren. Ik doe dat graag met behulp van Google. Ik kan via Google zelfs opzoeken, hoe zeldzaam een munt is en wat de varianten zijn. Binnen 4 seconden heb ik de gegevens van handelsaanbod wereldwijd voor één type munt. Klik voor een voorbeeld. Zoiets was vroeger een droom.. Dat was in 1996 nog voorbehouden aan een handvol deskundigen wereldwijd, die er 2-3 uur over deden om dezelfde Romeinse munt te vinden in de boeken.
Bij Google spider-tekst en ook bij de privacy-gevoelige big data van de overheid en NSA is er in feite alleen taalkundige ruis, die makkelijk gecorrigeerd kan worden indien nodig.. Alles wat "gemined" wordt, is concreet en duidelijk genoeg, bijvoorbeeld telefoonnummers, mail adressen en bepaalde keywords in de tekst die ik nu opschrijf. Deze bijdrage zit straks in de database, zodra de spider is langs geweest, gekoppeld aan al mijn bijdragen op allerlei andere forums.. en eventueel mijn blog, de gegevens over mij, mijn bankrekening, mijn woonplaats en andere risicofactoren.
Maar ook andere zaken zijn met Google-achtige search te vinden, in overheidsbestanden. Bijvoorbeeld, wanneer je vrouw een snelkookpan bestelt en jij bestelt een rugzak.. dat kan snel worden gelabeld als verdacht. Wanneer geactiveerd, komt de data mining procedure met alle namen van mensen, die deze combinatie van artikelen het laatste half jaar heeft besteld bij elke leverancier die dergelijke gegevens wettelijk moet afstaan.
Historie ? Ja hoor, het Vaticaan heeft een lijst van verboden boeken en die wordt al sinds 1560 netjes bijgehouden. Blijkbaar lezen ze alles. Bekijk bijvoorbeeld de gewoonten die de Stasi had, om op school geschreven scripties door leerlingen te controleren en te administreren op steekwoorden. Dat waren heel wat "ordners" in die tijd. Nu past het alles makkelijk op een stickje van 32GB. De meeste big data is niet zo "big" meer.
Veranderd door Lx, 31 december 2016 - 03:19