Springen naar inhoud

Bigdata, is er iets vergelijkbaars in de historie?


  • Log in om te kunnen reageren

#1

rienk1908

    rienk1908


  • 0 - 25 berichten
  • 1 berichten
  • Gebruiker

Geplaatst op 24 november 2016 - 21:33

Steeds vaker komt in het nieuws naar voren wat giganten als Google en Facebook met verzamelde data doen, maar ook wat de potentie van deze data is. Dit heeft mij aan het denken gezet en hierdoor ben ik mij gaan afvragen of in de historie dingen zijn voorgevallen die een vergelijkbare potentie hebben gehad, een vergelijkbare ontwikkeling hebben meegemaakt of op een andere manier hier aan gecorreleerd kunnen worden.

 

Daar mijn geschiedkundige kennis behoorlijk beperkt is hoop ik dat andere mensen zo vriendelijk zouden willen zijn te helpen zoeken naar voorvallen die te vergelijken zijn.


Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

Benm

    Benm


  • >5k berichten
  • 9097 berichten
  • VIP

Geplaatst op 25 november 2016 - 02:41

Echt vergelijkbaar is denk ik niet te vinden. 

 

Vergelijkbaar in ze in van 'impact' misschien wel, bijvoorbeeld het onstaan van accurate bevolkingsregisters. Er is lang niet altijd een systeem geweest waarmee waterdicht werd bijgehouden wie waar woonde en dergelijke, en gegevens over een nieuw geboren kind kwamen dan wellicht wel bij de kerk te terecht in een doopregister, maar niet bij de staat. 

 

Het is al een tijdje mogelijk om bijvoorbeeld de exacte bevolking van nederland te tellen, afgezien van kinderen die ergens gedurende de laatste 5 dagen geboren zijn. 

 

Overigens klopt het getal natuurlijk niet gezien er talloze mensen ongeregistreerd, veelal illegaal, permanent in nederland verblijven en daarmee feitelijk wel geteld zouden moeten worden als (ongewenste?) inwoners. 

 

 

 

Maar iets als 'big data' waarbij zoveel eigenschappen van een persoon worden bijgehouden is denk ik geheel nieuw, evenals de algorithmes om hier wat nuttigs mee te kunnen. Feitelijk hebben we nu meer data dan we kunnen analyseren, al blijven ook de analysemogelijkheden groeien. 

Victory through technology

#3

xansid

    xansid


  • >100 berichten
  • 246 berichten
  • Ervaren gebruiker

Geplaatst op 25 november 2016 - 10:00

Of bedoel je met potentie een economische potentie?

 

In het verleden werden veel internet bedrijfjes een te grote toekomst toegedicht waardoor ze enorm in waarde stegen: https://nl.wikipedia...Internetzeepbel

Of de 'big data' ook echt miljarden waard is moet nog blijken. In het verleden zijn er meerdere voorvallen geweest waar werd gedacht dat een nieuw fenomeen een grote potentie had, maar uiteindelijk tot een economische zeepbel leidde.

Help wetenschappers aan rekenkracht: Verbindt jouw PC binnen 10 minuten met de meest krachtige supercomputer op aarde!
Sluit je aan bij het Wetenschapsforum team (nr: 48658) en steun onderzoek naar alzheimer, kanker en andere ziektes. Meer info: folding.standford.edu


#4

megabon

    megabon


  • >25 berichten
  • 90 berichten
  • Ervaren gebruiker

Geplaatst op 25 november 2016 - 12:43

De drukpers van Gutenberg voor deze uitvinding gebeurde alles met de hand. Na  deze uitvinding kon er aan massaproductie gedaan worden (van boeken) en zo veel data laten rondgaan.

https://nl.wikipedia.org/wiki/Drukpers

Veranderd door megabon, 25 november 2016 - 12:43

Reality is merely an illusion,albeit a very persistent one
A.Einstein

#5

Benm

    Benm


  • >5k berichten
  • 9097 berichten
  • VIP

Geplaatst op 25 november 2016 - 14:27

Ik denk dat je de beschikbaarheid van internet voor consumenten kunt vergelijken met de drukpers: het geeft vooral toegang tot informatie. Het is wellicht groter dan dat, feitelijk heeft het ons leven compleet veranderd in een periode van (tot dusver) 20-30 jaar. 

 

Big data is iets heel anders, al is het slechts beschikbaar dankzij breed internetgebruik. 

Victory through technology

#6

Wouter_Masselink

    Wouter_Masselink


  • >5k berichten
  • 8312 berichten
  • VIP

Geplaatst op 25 november 2016 - 18:46

Big data is ook in de context van biologisch onderzoek steeds meer op de voorgrond aan het treden. Denk aan enorme '-omics' projecten waarbij grote hoeveelheden data worden gegenereerd.

 

De industrieële revolutie, domesticatie van dieren, landbouw etc. kunnen allemaal worden gezien als dingen die grote veranderingen voor de mensheid teweeg hebben gebracht. Of 'big-data' dit ook inderdaad zal doen, is nog maar de vraag.

"Meep meep meep." Beaker

#7

Benm

    Benm


  • >5k berichten
  • 9097 berichten
  • VIP

Geplaatst op 26 november 2016 - 02:25

Ergens denk ik dat je de internetdoorbraak wel kunt vergelijken met milestones als landbouw of industriele revolutie. 

 

Big data en ophelderen van genomen hebben wellicht wel wat verglijkbare eigenschappen. Voor genetica zal het nog wel even duren voor we een goede dataset hebben. Daarvoor zou je van ieder mens het volledige genoom moeten sequencen, en het dan vergelijken met andere data (bijvoorbeeld hun medisch dossier). Met een dergelijke dataset kun je mogelijk genetische oorzaken vinden voor bepaalde gezondheidsproblemen (of het gebrek eraan) die verlopen via een mechanisme dat je anders nooit had bedacht, of zelfs via een geheel onbekend mechnisme mits statistisch hard. 

 

Momenteel is het nog onpraktisch duur om van iedere persoon het complete genoom te sequencen. Het is echter niet gezegd dat dat zo zal blijven. Er zijn suggesties gedaan dat je een compleet menselijk genoom kunt sequencen voor $1000 a $2000. If dit waar is weet ik helaas niet. 

 

Maar mocht het zo zijn dan is dat wel een mooi nieuw big data project: Je zou bijvoorbeeld de genomen van een miljoen mensen kunnen sequencen en hun medische geschiedenis daarnaast houden. Ergens denk ik dat je met een dergelijk aantal al genen kunt dataminen die we nu nog helemaal niet in beeld hebben maar wel belangrijk zijn voor bepaalde ziektebeelden, of bijvoorbeeld voor langlevendheid. Zoiets kost een paar miljard, maar dat is voor farmaconcerns een prima op te brengen bedrag als ze ook maar 1 topgeneesmiddel ontwikkelen uit het resultaat. 

Victory through technology

#8

Wouter_Masselink

    Wouter_Masselink


  • >5k berichten
  • 8312 berichten
  • VIP

Geplaatst op 29 november 2016 - 10:36

Big data en ophelderen van genomen hebben wellicht wel wat verglijkbare eigenschappen.

Deep-sequencing [b]is[/ib] wat mij betreft een typisch voorbeeld van Big data. Alle '-omics' passen prima in de big data categorie. We kunnen in de biologie nog iets verder terug gaan en naar GWAS studies kijken voor een ander voorbeeld van Big data.

Met een dergelijke dataset kun je mogelijk genetische oorzaken vinden voor bepaalde gezondheidsproblemen (of het gebrek eraan) die verlopen via een mechanisme dat je anders nooit had bedacht, of zelfs via een geheel onbekend mechnisme mits statistisch hard. 


Dat is op andere manieren al gedaan. Telkens met vrij beperkt resultaat. Vrij recent zijn de kosten van exome sequencing laag genoeg geraakt. Nog verder terug zijn SNP analysis en GWAS studies te vinden. De resultaten van deze soort onderzoeken zijn altijd een beetje tegengevallen. Dit komt doordat de meeste ziektes multi-factorieel zijn, er niet voldoende statistische kracht is om de ruis inherent aan biologische data heen te komen.

 

 

Maar mocht het zo zijn dan is dat wel een mooi nieuw big data project: Je zou bijvoorbeeld de genomen van een miljoen mensen kunnen sequencen en hun medische geschiedenis daarnaast houden. Ergens denk ik dat je met een dergelijk aantal al genen kunt dataminen die we nu nog helemaal niet in beeld hebben maar wel belangrijk zijn voor bepaalde ziektebeelden, of bijvoorbeeld voor langlevendheid. Zoiets kost een paar miljard, maar dat is voor farmaconcerns een prima op te brengen bedrag als ze ook maar 1 topgeneesmiddel ontwikkelen uit het resultaat. 

Er zijn al landen waarbij de medische geschiedenis van een groot deel van de populatie gebruikt kan worden om ziektebeelden in kaart te brengen, Finland bijvoorbeeld. Dergelijke projecten zijn voor farmaconcerns dusdanig grootschalig, lange-termijn en blue-sky dat ik ze dat nog niet zo snel zie doen. Daar komt natuurlijk nog de hele privacy gevoeligheid bij.

Veranderd door Wouter_Masselink, 29 november 2016 - 10:38

"Meep meep meep." Beaker

#9

Benm

    Benm


  • >5k berichten
  • 9097 berichten
  • VIP

Geplaatst op 29 november 2016 - 13:30

Het idee van -big- data is natuurlijk dat je dingen gaat vinden die bij een kleinere dataset volledig in de ruis zouden opgaan. In die zin verwacht ik wel degelijk resultaat als we de genomen van een miljoen of meer mensen volledig sequencen en die linken aan hun medische historie en als het even kan levenswijze en dergelijke. 

 

En een miljoen is nog maar een begin, in perspectief van big data is dat eigenlijk slechts een kleine dataset. Als je kijkt naar over hoeveel mensen bedrijven als google en facebook aanzienlijke hoeveelheden gegevens hebben is het minimaal, maar je moet ergens beginnen natuurlijk. Als het sequencen van het eerste miljoen ook maar 1 vermarktbaar geneesmiddel oplevert verwacht ik dat de volgende miljoenen snel volgen. 

 

Uiteraard is dit allemaal extreem privacy gevoelig. Het is belangrijk de privacy te borgen, en alleen deelnemers te gebruiken die er zeer expliciet toestemming voor geven. Nu zal dat bij volledig-genoom sequencing wel goed zitten gezien mensen daarvoor toch wel een sample moeten komen afgeven voor een goed resultaat. Beetjes dna die een forensische match kunnen geven zijn voor zover ik weet niet geschikt voor volledige sequencing. 

Victory through technology

#10

Lx

    Lx


  • >25 berichten
  • 53 berichten
  • Ervaren gebruiker

Geplaatst op 31 december 2016 - 03:16



Het idee van -big- data is natuurlijk dat je dingen gaat vinden die bij een kleinere dataset volledig in de ruis zouden opgaan. In die zin verwacht ik wel degelijk resultaat als we de genomen van een miljoen of meer mensen volledig sequencen en die linken aan hun medische historie en als het even kan levenswijze en dergelijke. 

 

En een miljoen is nog maar een begin, in perspectief van big data is dat eigenlijk slechts een kleine dataset. Als je kijkt naar over hoeveel mensen bedrijven als google en facebook aanzienlijke hoeveelheden gegevens hebben is het minimaal, maar je moet ergens beginnen natuurlijk. Als het sequencen van het eerste miljoen ook maar 1 vermarktbaar geneesmiddel oplevert verwacht ik dat de volgende miljoenen snel volgen. 

 

Uiteraard is dit allemaal extreem privacy gevoelig. Het is belangrijk de privacy te borgen, en alleen deelnemers te gebruiken die er zeer expliciet toestemming voor geven. Nu zal dat bij volledig-genoom sequencing wel goed zitten gezien mensen daarvoor toch wel een sample moeten komen afgeven voor een goed resultaat. Beetjes dna die een forensische match kunnen geven zijn voor zover ik weet niet geschikt voor volledige sequencing. 

 

Ik denk dat search engine (Google) big data en het dataminen in (incomplete, beschadigde) genoomsets appels met peren vergelijken is.. De openingsvraag gaat meer om informatie in de vorm van tekst.

 

Het gaat bij dat soort technieken om multi-target search en het vinden van dingen in heel veel datasets tegelijk, die je in kleinere verzamelingen niet aantreft. Verbanden die je anders niet kunt vinden. Ik ben een fanatiek googelaar. Mijn grootste hobby is Romeinse munten determineren. Ik doe dat graag met behulp van Google. Ik kan via Google zelfs opzoeken, hoe zeldzaam een munt is en wat de varianten zijn. Binnen 4 seconden heb ik de gegevens van handelsaanbod wereldwijd voor één type munt. Klik voor een voorbeeld. Zoiets was vroeger een droom.. Dat was in 1996 nog voorbehouden aan een handvol deskundigen wereldwijd, die er 2-3 uur over deden om dezelfde Romeinse munt te vinden in de boeken.

 

Bij Google spider-tekst en ook bij de privacy-gevoelige big data van de overheid en NSA is er in feite alleen taalkundige ruis, die makkelijk gecorrigeerd kan worden indien nodig.. Alles wat "gemined" wordt, is concreet en duidelijk genoeg, bijvoorbeeld telefoonnummers, mail adressen en bepaalde keywords in de tekst die ik nu opschrijf. Deze bijdrage zit straks in de database, zodra de spider is langs geweest, gekoppeld aan al mijn bijdragen op allerlei andere forums.. en eventueel mijn blog, de gegevens over mij, mijn bankrekening,  mijn woonplaats en andere risicofactoren.

 

Maar ook andere zaken zijn met Google-achtige search te vinden, in overheidsbestanden. Bijvoorbeeld, wanneer je vrouw een snelkookpan bestelt en jij bestelt een rugzak.. dat kan  snel worden gelabeld als verdacht. Wanneer geactiveerd, komt de data mining  procedure met alle namen van mensen, die deze combinatie van artikelen het laatste half jaar heeft besteld bij elke leverancier die dergelijke gegevens wettelijk moet afstaan.

 

Historie ? Ja hoor, het Vaticaan heeft een lijst van verboden boeken en die wordt al sinds 1560 netjes bijgehouden. Blijkbaar lezen ze alles.  Bekijk bijvoorbeeld de gewoonten die de Stasi had, om op school geschreven scripties door leerlingen te controleren en te administreren op steekwoorden. Dat waren heel wat "ordners" in die tijd. Nu past het alles makkelijk op een stickje van 32GB. De meeste big data is niet zo "big" meer.

Veranderd door Lx, 31 december 2016 - 03:19






0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures