Search
Close this search box.

Die gevegskuns van datawetenskap

Gepubliseer op: 31 Januarie 2023

Geskryf deur Delene van Wyk de Ridder, dosent in Statistiek by Akademia

Data is die swaard van die 21ste eeu en dié wat dit vaardig hanteer, die samoerai. Jonathan Rosenberg, die voormalige senior visepresident van produkte by Google het hierdie uitlating in 2009 gemaak. Nie eers hyself het seker op daardie stadium besef hoeveel waarheid daar in sy stelling steek nie. Mense oor die wêreld heen genereer daagliks minstens 2,5 triljoen grepe data, ʼn getal met 18 nulle, waarvan slegs 0,5% daarvan ooit verwerk word.

Datawetenskap is tans ʼn gonswoord wat in die meeste industrieë aangetref word. Die konsep kan beskryf word as ʼn samesmelting van Wiskunde, Statistiek en Rekenaarwetenskappe om sinvolle weerspieëlings van en voorspellings oor patrone in die natuurlike en kunsmatige wêreld weer te gee. Gesondheidsorg, landbou, kleinhandel, telekommunikasie, versekering en kubersekuriteit is enkele van die velde wat daagliks staat maak op die insameling en analise van groot trosse data.

Die belangrikste taak van ʼn datawetenskaplike is om uit reuse-hoeveelhede ingesamelde data te kan onderskei tussen ‘nuttige’ en ‘onbelangrike’ inligting. Sodra die siftingsproses voltooi is, moet die data skoongemaak word – ʼn uitmergelende taak wat byna 80% van ʼn datawetenskaplike se tyd in beslag neem. Die skoonmaakproses behels die verwydering of verandering van waardes wat verkeerd vasgevang is, spelfoute wat in tekste gekorrigeer moet word, duplikasies wat verwyder moet word, herklassifikasies en onvolledige datastelle wat hanteer moet word. Eers hierna kan patrone en tendense vanuit analises bepaal word sodat werkbare oplossings en nuwe velde vir navorsing en ontwikkeling identifiseer kan word.

Datawetenskaplikes se werk kan op papier nogal vervelig klink, maar in werklikheid is dit dikwels baie uitdagend en vol innoverende benaderings om wesenlike wêreldprobleme te probeer oplos. Een projek wat die afgelope paar jaar aandag geniet, is die gebruik van dataontginningsmetodes om fopnuus te bespeur. Nuuslewering op sosiale media is ʼn tweesnydende swaard wat op ʼn vinnige en goedkoop manier waar én onwaar inligting oordra. Die onwaar inligting het die potensiaal om ʼn geweldige negatiewe invloed op individue sowel as die samelewing in geheel te hê. Ná aanleiding van hierdie immergroeiende probleem, het ʼn hele nuwe tak in masjienleer en taalprosessering gespruit. Vele navorsers en datawetenskaplikes het al praktiese modelle voorgestel vir die verwerking van groot hoeveelhede teksdata waar die model vanuit bestaande fopnuusbronne ‘geleer’ word hoe om fopnuus in nuwe bronne te identifiseer.

Nog ʼn interessante tak van datawetenskap is die saamstel en groepering van gebruikersprofiele. Internetgebruikers word dikwels met klik-aas (clickbait) in die lokval van fopnuus ingelei, maar waar kom hierdie klik-aas vandaan en hoe word daar bepaal watter soort skakels na watter gebruikers gestuur moet word? Deur ʼn groot aantal data oor individue in te samel en te verwerk, kan daar vir elke betrokke individu ʼn profiel saamgestel word. Vanuit die profiele van bestaande gebruikers, kan vooruitskattings ook oor nuwe gebruikers gemaak word deur spesifieke groeperings van gebruikers saam te stel.

As een gebruiker gedink het dat Ghostbusters ʼn uitmuntende film was en daarna ook na Avatar gekyk het, kan ʼn stroomdiens soos Netflix voorspel dat ander Ghostbuster-aanhangers ook van Avatar sal hou. Aanbevelingsisteme soos dié maak verder staat op strategieë soos ewekansigheid, algemene gewildheid van produkte, entropie en ʼn mengsel van die voorafgaande. Statistiese modelle kan geleer word om hierdie strategieë toe te pas op nuwe data wat ingewin word, gebaseer op vorige inligting wat hulle help om tussen gebruikers te onderskei.

Individue is egter nie noodwendig daarvan bewus dat hul data ingesamel word vir marknavorsing wanneer hulle selfs net klik op “Accept Cookies” nie. ʼn Groot en relevante bron van persoonlike inligting, is maatsoek-toeps soos Tinder, OK Cupid en die Afrikaanse Koer. Wanneer gebruikers inskryf vir hierdie soort dienste word hul geografiese inligting, voorkeure en vooroordele heel gewillig verskaf. In teorie sal die profiele wat geskep word met die mees ‘gepaste’ maats op die toep verbind word. Christian Rudder, medestigter van OK Cupid, het van 2009 tot 2011 genoeg data ingesamel om algemene statistiese waarnemings uit gebruikers se voorkeure en konneksies saam te stel en te publiseer.

Vanuit hierdie inligting was dit vir datawetenskaplikes moontlik om masjienleer te gebruik om OK Cupid te ‘wen’ deur superprofiele te skep wat die toep se normale algoritme ontduik. Hul profiele is so optimeer om die meeste aandag te trek en die berugte lae reaksiekoers van ander gebruikers drasties te laat toeneem en sodoende hul kanse op ware liefde te vergroot. Rudder staan egter tot vandag toe bont om te probeer bewys dat die verwerking en publikasie van gebruikers se persoonlike inligting en waargenome tendense nie bloot spioenasie en monitering was nie, maar iets insiggewend tot die groter prentjie van sosiale interaksie bygedra het.

Elke individu en elke maatskappy op aarde genereer data. Die verskeidenheid van kwessies waarmee datawetenskaplikes te doen kry, is legio en met elke projek moet nuwe ontledingstrategieë ingespan word om by antwoorde uit te kom. Datawetenskaplikes moet ook daagliks deur die slagveld van etiek worstel om seker te maak dat hul praktyke nie skade aanrig nie. Die samoerais van die 21ste eeu dra nie noodwendig oorlogsmonderings nie (al is hul hare dikwels net so lank soos hul naamgenote van die vorige millennium), maar hul swaarde is vlymskerp en sekuur vir Groot Data-gevegte.

Akademia se Statistiek-module wat deel vorm van BSc (Wiskundige Wetenskappe) en BSc (Rekenaarwetenskappe) dien as die basis van datawetenskappe en studente word voorberei met programmering om ervaring vir ʼn datawetenskap-omgewing op te doen. Besoek gerus Akademia se webblad op meer uit te vind oor die BSc-kwalifikasies.

Delene van Wyk is ʼn passievolle dosent in Statistiek by Akademia.