Aktuelles

anacision | Generierung synthetischer Daten

Geschrieben von anacision GmbH | 17.11.2021 23:00:00

Die Fort­schrit­te auf dem Ge­biet der Künst­li­chen In­tel­li­genz bie­ten na­he­zu un­be­grenz­te Mög­lich­kei­ten bei der Da­ten­ana­ly­se. Doch be­son­ders bei An­wen­dungs­fäl­len auf Ba­sis sen­si­bler per­so­nen­be­zo­ge­ner Da­ten geht es oft­mals nicht dar­um, was mit ei­ner KI mög­lich wäre. Viel mehr steht die Fra­ge im Vor­der­grund, was über­haupt aus Sicht des Da­ten­schut­zes und un­ter mo­ra­li­schen Ge­sichts­punk­ten er­laubt ist. Als Kon­se­quenz wer­den enor­me Gren­zen an das viel­fäl­ti­ge Po­ten­zi­al von KI ge­setzt. Ein An­satz, der die­se Hür­den ver­sucht zu über­win­den, ist die Ge­ne­rie­rung von neu­en, syn­the­ti­schen Da­ten, wel­che die Ver­tei­lung der ech­ten Da­ten ap­pro­xi­mie­ren. Durch das Ver­wen­den aus­schließ­lich künst­lich ge­ne­rier­ter Da­ten wird si­cher­ge­stellt, dass der Da­ten­schutz ge­wahrt und die Pri­vat­sphä­re je­der­zeit ge­schützt ist. So­mit wer­den Ana­ly­sen mög­lich, die an­de­ren­falls un­denk­bar sind.

Wei­te­re Vor­tei­le sind die Op­tio­nen, zum ei­nen syn­the­ti­sche Da­ten ohne Be­den­ken ex­ter­nen Ana­lys­ten zur Ver­fü­gung zu stel­len und zum an­de­ren die ge­winn­brin­gen­de Ko­ope­ra­ti­on zwi­schen Un­ter­neh­men. Prä­des­ti­niert für der­ar­ti­ge An­wen­dungs­fäl­le sind Un­ter­neh­men und Or­ga­ni­sa­tio­nen, die ähn­li­che Da­ten­haus­hal­te auf­wei­sen, selbst wenn sie in Kon­kur­renz ste­hen. So sind bei­spiels­wei­se auch Ab­neh­mer-Zu­lie­fe­rer oder Pro­du­zen­ten-Kun­den Be­zie­hun­gen idea­le Aus­gangs­punk­te für Da­ten­ana­ly­sen, die die Wett­be­werbs­fä­hig­keit al­ler Be­tei­lig­ten stei­gern.

 

Die Vorteile auf einen Blick

Wahrung der Privatsphäre

Gewinn neuer Erkenntnisse

Keine Nutzung sensibler Daten

Die Wahrung der Privatsphäre bleibt durchgehend garantiert.

Ge­winn neu­er Er­kennt­nis­se durch zu­vor nicht durch­führ­ba­re Aus­wer­tun­gen.

Es werden ausschließlich künstliche Daten verwendet.

 

Informationsmangel durch regulatorische Hürden

Sen­si­ble Da­ten wie bei­spiels­wei­se In­for­ma­tio­nen zu Kun­den oder Ge­schäfts­part­nern, aber auch Da­ten zum ei­ge­nen Un­ter­neh­men sind auf­grund ge­setz­li­cher Vor­ga­be oder im In­ter­es­se des Ge­schäfts­ge­heim­nis­ses best­mög­lich zu schüt­zen. Dar­aus folgt je­doch, dass das Ge­win­nen von Er­kennt­nis­sen zu ei­ge­nen Pro­zes­sen oder Kun­den bis­her sehr auf­wän­dig bis un­mög­lich sind. In­ter­ne Ana­ly­sen von sen­si­blen Da­ten, wel­che aus Sicht des Da­ten­schut­zes zwar er­laubt sind, set­zen qua­li­fi­zier­tes Per­so­nal vor­aus. An­dern­falls müs­sen Ver­trä­ge mit ex­ter­nen Dienst­leis­tern ge­schlos­sen und dar­auf ver­traut wer­den, dass die­se die Da­ten sorg­fäl­tig aus­wer­ten und im An­schluss auch si­cher ar­chi­vie­ren bzw. lö­schen. Kön­nen der­ar­ti­ge Ka­pa­zi­tä­ten nicht auf­ge­baut, Da­ten nicht in aus­rei­chen­der Men­ge oder Qua­li­tät zur Ver­fü­gung ge­stellt wer­den oder soll ex­ter­nen Ana­lys­ten kein Zu­griff ge­ge­ben wer­den, bleibt oft­mals kei­ne Mög­lich­keit, In­for­ma­tio­nen aus den ei­ge­nen Da­ten zu ge­ne­rie­ren.

Analysen und Kooperationen auf Basis synthetischer Daten

Eine Mög­lich­keit die­ses Di­lem­ma zu um­ge­hen, ist die Syn­the­ti­sie­rung der ei­ge­nen Da­ten, be­vor die­se aus­ge­wer­tet wer­den. Mit Hil­fe von spe­zi­el­len künst­li­chen neu­ro­na­len Net­zen, Generative Adversarial Networks, ist es in­zwi­schen mög­lich, die für Mo­del­le re­le­van­ten sta­tis­ti­schen Ei­gen­schaf­ten von Da­ten künst­lich ab­zu­bil­den. Eine Syn­the­ti­sie­rung bie­tet zu­dem be­reits ei­nen deut­lich bes­se­ren Schutz als bei­spiels­wei­se eine ein­fa­che Pseud­ony­mi­sie­rung (also das Er­set­zen von Merk­ma­len wie bei­spiels­wei­se Name oder Al­ter). Ge­ra­de bei sehr sen­si­blen Da­ten und po­ten­zi­ell star­ken An­grif­fen wie den so­ge­nann­ten Membership Inference Attacks ist die­ser Schutz je­doch noch nicht aus­rei­chend. Um si­cher­zu­stel­len, dass den­noch kein Rück­schluss auf ein­zel­ne Da­ten­punk­te mög­lich ist, wird da­her bei der Syn­the­ti­sie­rung das Kon­zept der Differential Privacy an­ge­wandt. Die­ses ga­ran­tiert eine Ober­gren­ze für das Ri­si­ko, dass bei­spiels­wei­se eine ein­zel­ne Per­son im Da­ten­satz iden­ti­fi­ziert wer­den kann.

Da­ten­syn­the­ti­sie­rung bie­tet An­wen­dern viel­fäl­ti­ge Mög­lich­kei­ten. Zum ei­nen kön­nen die An­for­de­run­gen des Da­ten­schut­zes bei der Aus­wer­tung von Da­ten durch Ex­ter­ne ge­wahrt wer­den. Zum an­de­ren wird die Ko­ope­ra­ti­on und der Da­ten­aus­tausch zwi­schen Un­ter­neh­men mit ähn­li­chen oder sich er­gän­zen­den Da­ten ge­för­dert. Dazu wer­den die Da­ten zu­nächst bei den ein­zel­nen Part­nern syn­the­ti­siert, um sie an­schlie­ßend zu­sam­men­zu­fü­gen und im Kol­lek­tiv aus­zu­wer­ten. In bei­den Fäl­len ist ent­schei­dend, dass die ei­gent­li­chen Da­ten das ei­ge­ne Un­ter­neh­men zu kei­nem Zeit­punkt ver­las­sen. Le­dig­lich das syn­the­ti­sche Ab­bild, wel­ches kei­nen Rück­schluss auf die Ori­gi­nal­da­ten zu­lässt, wird ge­teilt.

Bessere Ergebnisse zu geringeren Kosten

Die Ge­ne­rie­rung syn­the­ti­scher Da­ten bie­tet Si­cher­heit, da die Da­ten das ei­ge­ne Un­ter­neh­men nie ver­las­sen. Den­noch ent­steht die Mög­lich­keit der Ana­ly­se, was es er­laubt neue Er­kennt­nis­se zu er­lan­gen. Zu­dem wird die Ko­ope­ra­ti­on ge­för­dert, denn je­des teil­neh­men­de Un­ter­neh­men pro­fi­tiert über die ei­ge­nen Da­ten hin­aus von bes­se­ren Er­geb­nis­sen auf­grund ei­ner um­fang­rei­che­ren Da­ten­grund­la­ge. Letzt­lich wer­den auch die Kos­ten für die ei­gent­li­che Aus­wer­tung und Ana­ly­se der Da­ten ge­mein­sam ge­tra­gen.

Die auf Ba­sis von syn­the­ti­schen Da­ten durch­ge­führ­ten Ana­ly­sen lie­fern im Ver­gleich zum Ori­gi­nal­da­ten­satz an­nä­hernd gleich­wer­ti­ge Er­geb­nis­se.