Visualisatie van Causaliteit

Wiskunde zonder getallen

Gerichte analytische grafen worden in dit concept gebruikt als een wiskunde zonder getallen. Dit wil niet zeggen dat het niet met getallen kan gebruikt worden. In verschillende onderzoek domeinen worden gewogen gerichte grafen (weighted directed graphs) gebruikt als analyse methode van datasets, op zoek naar causale verbanden, 'causal discovery'. De causale verbanden die in dit concept weergegeven worden vertrekken echter van bewezen wetenschappelijke kennis. De grafen op zich zijn echter geen bewijs maar een tool om bewijzen voor te stellen. Het kan ook gebruikt worden om hypothesen voor te stellen, maar dan moet dat wel uitdrukkelijk vermeld worden.

Het voorstel is enkel te gebruiken voor discrete processen. De overgang van de ene toestand in de andere moet meetbaar zijn en er moet minstens een drempel waarde kunnen gemeten worden die de overgang van de ene toestand in de andere verklaart.

Het gebruik van gerichte grafen als visualisatie van wetenschappelijke bewijzen is niet nieuw, daar zijn talloze toepassingen van. Bijvoorbeeld in de biologie, in de antropologie, de medische wetenschappen en de ongevallen analyse.

Wat nieuw is in dit concept is:
(1) het gebruik van SVG dat toelaat om
(2) beeld en tekst samen te gebruiken in een XML bestand met een unieke URL en
(3) de tekst daarin direct te verbinden met links naar het analytisch bewijs .

De gerichte grafen in het SVG beeld geven de structuur van het bewijs weer, gebaseerd op de modale logica en gebruik makend van disjunctieve Horn Clauses. Deze grammatica is “context free” dus onafhankelijk van de betekenis van de gebruikte tekst of termen in die Horn Clauses. Om die termen te verbinden met hun betekenis en de context ervan moeten ze gelinkt zijn met hun context in natuurlijke taal.

Waar schema's normaal gebruikt worden als illustratie van een tekst, gaan we hier in feite net omgekeerd te werk. Het schema staat centraal als samenvatting van de te verwerven kennis, en de geldigheid van elk onderdeel van die samenvatting wordt geillustreerd met textueel bewijs.

De onderdelen van een gerichte graaf zijn minimaal twee nodes (knopen), verbonden met een gerichte pijl (gepunte lijn). De eenvoudigste toepassing is het verbinden van twee feiten, toestanden (de nodes) met een causaal proces (de pijl). Dit noemen we een causaal triplet. Zie voor de ondersteuning door de modale logica hier.

Elke node bestaat uit minimaal twee delen: (1) in de hoofding de definitie van een feit, toestand of van een proces en (2) De formulering van de voorwaard(en) die aan de basis liggen voor het voorkomen van dit feit, deze toestand of dat proces. Deze voorwaarden moeten altijd het resultaat zijn van metingen of van observatie of van beide.

Voor de weergave van alle onderdelen van de graaf kunnen zowel prolog termen of datalogtermen als platte tekst gebruikt worden. De prolog of datalogtermen hebben als voordeel dat ze kunnen gebruikt worden voor queries, maar het is uiteindelijk de logische structuur van de declaraties die het mogelijk maakt ze om te zetten in een gerichte graaf. Punten en komma’s zijn wel essentieel.

Hier onder van een simpel voorbeeld, een excerpt in platte tekst van zo'n declaratie die door een parser is omgezet in een gerichte analytische graaf. Punten en komma’s in het rood. Het volstaat om de positieve litteralen toe te voegen om het ook te bewijzen met Horn clausules. Als de declaratie solide is maakt de parser ook een Prolog bestand aan. De volledige en solide declaratie vind je in dit tekst bestand. Er is momenteel een parser geschreven in Java beschikbaar in beta test.

Aangezien deze applicatie dubbel controlleert op tautologie en structuurfouten met Prolog en met Java, is het gebruik van platte tekst beperkt tot de condities. De processen zelf en de toestanden moeten eenduidig formeel weergegeven worden en met platte tekst vergt het teveel rekenkracht om eenduidigheid te garanderen. Dat blijkt uit de testen momenteel. Twee eenvoudige voorbeelden hier onder.

Tekst bewijs voor Prolog.

Bij het formuleren van de voorwaarden worden wel weer getallen binnengehaald in het causaal logisch concept, maar ingekapseld als "text", niet om mee te rekenen. Ze zijn onmisbaar natuurlijk om de condities te formuleren. Het is wel een aanbevolen praktijk om bij de korte formele definities in de grafen uitgebreide definities in natuurlijke taal te geven, zoals bij deze twee voorbeelden. Klik op het label onderaan de graaf en dan komt u terecht op de pagina met definities. Die pagina kan ook gebruikt worden voor certificatie.

Tekst bewijs voor Prolog. Zie hier voor de uitgebreide definities .

In de nodes van de grafen vind je de definities van begintoestand en eindtoestand, bij de pijlen de definitie van het proces. Onder de definities van de begintoestand en eindtoestand zijn de voorwaarden opgelijst om tot die toestand te komen. Hier wordt het principe van de “conditio sine qua non” gebruikt zoals voorgesteld door Alexander Stepanov (Stepanov, 1985) . Daar moet bij opgemerkt worden dat een statistishe correlatie geen noodzakelijke en voldoende voorwaarde is (Jacques Tacq, 1982; Ines Lee, 2021).

De aangegeven voorwaarden bij een gegeven feit of toestand moeten altijd tezelfdertijd waar zijn. Ze zijn dus verbonden door de logische “EN”. In de node van de graaf staan ze onder elkaar in een tabel.

Bij de processen ingesloten tussen twee toestanden worden geen condities aangegeven. In principe worden die gedefinieerd door de condities geformuleerd in de parameters van begin_toestand en eindtoestand. Indien vereist kunnen er wel condities geformuleerd worden, in het geval dat het proces enkel kan bestaan onder die bepaalde condities, onafhankelijk van begin_toestand en eind_toestand. Een stabiele toestand van levende organismen is het resultaat van een cyclish proces.

[terug naar begin pagina]

Exclusieve disjunctie van processen

Een begintoestand kan afhankelijk van een bepaalde voorwaarde tot verschillende eindtoestanden leiden. In dat geval zullen er verschillende pijlen vertrekken van die begintoestand naar die eindtoestanden waarvan minstens een voorwaarde in beide eindtoestanden moet verschillen. Dit is een EXCLUSIEVE disjunctie van processen.In dit analytisch concept van causaliteit wordt de “INCLUSIEVE disjunctie” (of het een of het ander of allebei) NIET GEBRUIKT. Dit is een causale contradictie. Bijvoorbeeld kan men stellen dat het soms regent, of soms sneeuwt, maar nooit tezelfdertijd.

Zie hier voor de uitgebreide definities.

Zie ook de volledige wartercyclus in 8 hoofdprocessen en 24 subprocessen hier bijeen onder elkaar en uitgebreide definities.

Voorstellig van bodeminfiltratie met disjunctie.

Tekst bewijs voor Prolog.

[terug naar begin pagina] [terug naar begin pagina]

Conjunctie van processen

Een eenvoudig voorbeeld van CONJUNCTIE van processen kan je zien bij verdamping hier onder.

Tekst bewijs voor Prolog.

Een complex proces kan geanaliseerd worden als zijnde het resultaat van verschillende processen die samen tegelijkertijd noodzakelijk zijn voor een ander proces. Hier kan je spreken van een conjunctie van afzonderlijke processen die een nieuw proces aansturen, een interactieproces. Hier zullen dus verschillende pijlen toekomen bij dat nieuwe proces. Dit kan je duidelijk zien bij dit voorbeeld van het fotosynthese proces.

Men kan deze schematechniek voor causaliteit ook gebruiken voor een sequentie van acties en/of activiteiten zonder dat er strikt genomen sprake is van causaliteit. Dit kan je zien in dit voorbeeld van de dagelijkse activiteiten van de jagers-verzamelaars hier onder.

[terug naar begin pagina]

Ingebedde Hyperlinks

De visualisatie van Analytische Gerichte Grafen wordt geïmplementeerd met SVG dat gedefinieerd is in het Document Object Model (DOM) van XML . XML is een onderdeel van het goed gedefinieerde Semantische Web. Daar vind je ook de definitie van Xlink:href.

Xlink is gedefinieerd in XML door het W3C. Aangezien de grafen in afzonderlijke bestanden met extensie .svg opgeslagen worden, worden ze in de .html bestanden gecodeerd als object: <object data="uri" type="image/svg+xml" typemustmatch></object>. Daarom moet in de .svg bestanden bij de uri's het attribuut target gespecificeerd worden als: target="_blank" of target:="_parent", anders wordt het doel van de hyperlink geopend in de ruimte voorzien voor het object in de .html pagina, ook al is dat niet de bedoeling.

De xlink:href moet bewijs ondersteunende informatie aanbrengen. Die kan extern aangereikt worden in tekstueel formaat of een combinatie van textueel en grafisch formaat. Dit kan aangeduid worden in een HTML link met het attribuut "rel": rel="external" of rel="search".

Het tekstueel materiaal heeft een externe bron, bij voorkeur HTML of XML, een externe bestemming, dus wordt het buiten de grafische voorstelling weergegeven. Het mag vanuit alle elementen van de graaf geactiveerd worden, de visualisatie van de toestanden: status(type) en de visualisatie van de processen, process(type). De bron van dit tekstueel en/of grafisch materiaal moet gecertificeerd zijn komende van een encyclopedie (bvb de Englestalige Wikipedia), komende van een wetenschappelijk instituut (bvb het ESA klimaatbureau) of aangemaakt zijn door een docent/leraar. Een “measurement system analysis” is de meest strikte vorm van certificering.

[terug naar begin pagina]

Toepassing op feiten en toestanden

Feiten en toestanden worden structureel gelijk benaderd in dit concept, maar zijn inhoudelijk verschillend. Toestand wordt in dit concept gebruikt als een meetbare en/of observeerbare categorie van feiten die onderdeel zijn van dezelfde verzameling van gebeurtenissen. Een voorbeeld: regenbui, sneeuw, motregen, hagel zijn onderdeel van de zelfde verzameling neerslag. Aangezien neerslag observeerbaar en meetbaar is, kan het als overkoepelende categorie conditioneel benaderd worden. De dagenlange hoosbui waaruit tot 100 liter per vierkante meter viel in juli 2021 in het stroomgebied van de Vesder in België is een gebeurtenis. Dat was geen motregen. Strikt genomen behoort die ook tot de categorie neerslag, maar toch zal anders naar de oorzaken gekeken worden van dit afzonderlijke feit dan naar de algemene categorie neerslag. Intensiteit en duur zijn hier wel degelijk relevant.

Samengevat. Toestanden hebben gemeenschappelijke eigenschappen waarvan de drempels meetbaar en/of observeerbaar zijn. Bij de overgang van de ene naar de andere toestand is een proces de oorzaak van een overschrijding van minstens een van die drempels. De duur van dat proces kan een miliseconde zijn, maar bijvoorbeeld bij de vorming van regenwolken ook negen dagen. Het duurt gemiddeld negen dagen voor er regen uitvalt. In een histroische context kunnen die processen jaren en eeuwen in beslag nemen. De klimaatverandering is er niet op een dag, week of jaar gekomen. Het is een proces dat al 200 jaar bezig is.

Het gewenste niveau hangt af van het soort kennis men beoogt, algemene kennis over neerslag, of specifieke kennis over een specifieke neerslag op een bepaalde dag, een bepaald uur, op een wel bepaalde plaats. Het eerste is stof voor het secundair onderwijs, het tweede is kennis die meterologen en hydrologen moeten hebben. De algemene regels die van toepassing zijn op een categoriale status kunnen niet op afzonderlijke gebeurtenissen worden toegepast, maar kunnen structureel wel op dezelfde manier worden geanalyseerd. Deze algemene regels zijn wel van toepassing op die gebeurtenis, maar zijn onvoldoende om de specificiteit ervan te verklaren.

De modale logica heeft ondertussen aangetoond dat causaliteit perfect kan voorgesteld worden met gerichte acyclische grafen (van Benthem,IEP). Er wordt alleen nog gediscusieerd of die causaliteit nu invariant is of contextueel is. David Lewis koos voor invariantie. Ik kan daar mee leven op twee voorwaarden (1) dat men bij de analyse ook altijd de context analyseert, en nagaat of een regel algemeen blijft in alle contexten, indien niet moet men opsplitsen en (2) dat men moet aanvaarden dat de contexten in die mate kunnen veranderen dat men ook de regels moet veranderen. Dat laatste is tijdens de analyse van de klimaatverandering voldoende duidelijk geworden. In feite worden daar alle metereologische, hydrologische en ecologische systemen door elkaar gehaald dat opstellen van regels telkens opnieuw moet bekeken worden. Bij volstrekt nieuwe fenomenen komt dat regelmatig voor. In de periode van covid19 moest men uiteindelijk ook de regel verwerpen dat het virus enkel verspreid werd met druppeltjes, het zat wel degelijk ook in de aerosols.

[terug naar begin pagina]

Scope en beperkingen

Het voorstel kan alleen worden gebruikt voor discrete processen. De overgang van de ene toestand naar de andere moet meetbaar zijn. Er moet minstens één drempelwaarde meetbaar zijn, of tenminste ondubbelzinnig vaststelbaar, die de overgang van de ene toestand naar de andere verklaart.

Gebaseerd op de ervaring bij het ontwikkelen van de hele waterkringloop met grafen, kun je zeggen dat het lastig wordt bij het samenvoegen van complexe processen, dat wil zeggen wanneer een proces binnen een ander proces loopt. Niet dat het onmogelijk is om te implementeren, maar het wordt lastig. Voor nu stel ik voor om het alleen te gebruiken voor niet samengestelde complexe processen en hun aaneenschakeling.

De belangrijkste reden voor die moeilijkheid is dat de snelheden en tijdschalen van die processen van elkaar verschillen. We weten bijvoorbeeld dat klimaatwetenschap niet hetzelfde is als meteorologie. Maar ook de thermodynamica van wolken, bijvoorbeeld de meervoudige neerwaartse en opwaartse bewegingen van waterdruppels en ijskristallen van 20μm, hebben een ander tijdschaal dan de waarschijnlijkheid van het daadwerkelijke vallen van water door de wolkenbasis als ze 200μm groot zijn, wat we het weer noemen dat door de hydrologie wordt bestudeerd. In alle geval moet de eenheid van snelheid, tijdschaal en plaats gerespecteerd worden.

Bovendien kunnen we met dit format de chaostheorie ook niet visualiseren, ook al bevat ze misschien een grond van waarheid. Dat een de vleugelslag van een vlinder in het Amazone een onweer kan veroorzaken in Tanzanië is niet bewezen zolang niet elk proces in die keten aangetoond is. Dus is het ook belangrijk de eenheid van ruimte, snelheid en tijd te respecteren.

Wanneer Prolog wordt gebruikt voor evaluatie, moeten alle termen uniek zijn. Het verdient dan de voorkeur om Prolog-termen te gebruiken voor de headers.

Visie en Concept

Deze implementatie is gebaserd op de moderne modale logica en dan zijn ‘Scalable Vector Graphics’ (SVG) het ideale middel om causalitiet te visualiseren als gerichte acyclische grafen. Je zou je kunnen afvragen waarom je deze visualisatie zou gebruiken, terwijl je vandaag generatieve kunstmatige intelligentieprogramma's hebt zoals ChatGPT om antwoorden op alle vragen te krijgen. Allereerst moet de visualisatie die wordt voorgesteld direct gekoppeld worden aan bewezen wetenschappelijke onderzoeksresultaten en dat is niet het geval bij generatieve AI.

Generatieve AI is het resultaat van ‘deep learning’. En ‘deep learning’ is gebaseerd op probabilistische verbanden gefilterd uit massa’s data online. Het is dus geen resultaat van observatie en wetenschappelijk onderzoek. Het loopt dan ook regelmatig uit de hand met die antwoorden die generatieve AI produceert. Het kan heel gemakkelijk worden misbruikt om er desinformatie uit de halen en deze te verspreiden en dat gebeurt dan ook. YouTube-kanalen die AI gebruiken om video's te maken met valse "wetenschappelijke" informatie worden aan kinderen aanbevolen als "educatieve inhoud". Een team van onderzoeksjournalisten van de BBC, dat desinformatie op het Web analyseerde vond meer dan 50 kanalen in meer dan 20 talen waar desinformatie verspreid werd, vermomd als STEM [Science Technology Engineering Maths] content.

Ten tweede, deze visualisatie met gerichte anlytische grafen zijn bedoeld als een didactische tool voor leraars en docenten voor het onderwijs, naast verbale informatie en andere didactische tools. Hun eenvoud laat toe om ze te gebruiken zonder digitaal plarform maar ook op een digitaal platform. Het is een illusie dat iedereen overal altijd internet toegang heeft. De dual-coding theory van cognitie stelt dat de menselijke geest informatie verwerkt langs twee verschillende kanalen: verbaal en visueel. Er wordt aangenomen dat visuele informatie het onthouden verbetert (Reed, 2012). Generatieve AI biedt die nog niet tezelfdertijd aan. Leraren en docenten doen dat vloeiend. Dit concept visualiseert causaliteit. Het schema verwijst zelf naar de bronnen en het bewijs van die causaliteit.

Generatieve AI verbruikt massa's energie voor het bij elkaar schrapen van data, het ontwikkelen van de database, het trainen en onderhoud van de data. Daarmee wordt geen enkel probleem van klimaatverandering opgelost, maar wordt er een extra probleem geschapen. Onderzoekers berekenden dat het trainen van een middelgroot generatief AI-model met de techniek ‘neural architecture search’ een elektriciteits- en energieverbruik heeft gelijk aan 626.000 ton CO2-uitstoot. De datacenterindustrie is verantwoordelijk voor de uitstoot van 2–3% van de mondiale broeikasgassen.

Het visualisatie systeem dat hier voorgesteld wordt, heeft geen digitaal platform nodig om toegepast te worden. Het vereist ook geen bijzondere grafische vaardigheid enkele een vaste hand, pen en papier. Op een digitaal platform werkt het natuurlijk efficienter, maar het vraagt slechts een beperkte bandbreedte en opslag cappaciteit. Energieveslindende deep learning is compleet overbodig. Een gedecentraliseeerde databank is een mogelijke toevoeging.

Digitaal ‘savy’ zullen opmerken dat SVG een veiligheids-risico inhoudt voor uw website want ze kunnen code injecteren in uw webpagina en uiteindelijk je systeem besmetten om dingen te doen die aan uw controle ontsnappen. Dat klopt. SVG heeft alle faciliteiten van HTML. Als je op het web op een link klikt van een webpagina die kwaadaardige scripts bevat, kan hetzelfde gebeuren. Er is een simpele manier om dat te voorkomen, maak uw SVG beelden zelf. Als je toch SVG wil downloaden, gebruikt dan enkel SVG uit betrouwbare bronnen. Je kan ook controleren of er geen <script> of <foreignObject> tags inzitten. Dat zijn de secties die code kunnen injecteren. SVG code is gewoon tekst, dus moeilijk is dat niet. Meer in detail daarover op de Howto pagina.

[terug naar begin pagina]

Referenties

Dahlström, Erik et al, (2011) Scalable Vector Graphics (SVG) 1.1 (Second Edition), W3C Recommendation 16 August 2011, <https://www.w3.org/TR/2011/REC-SVG11-20110816/>

Lee, Ines (2021). 4 Reasons why Correlation does NOT imply Causation, Published in Towards Data Science"

Menzies, Peter, (2019), Counterfactual Theories of Causation, 29 October 2019, Stanford Encyclopedia of Pholosophy, <https://plato.stanford.edu/entries/causation-counterfactual/>

Reed, Stephen K. (2012). Cognition : theories and applications. Wadsworth, Cengage Learning, 12 April 2012, ISBN 978-1-133-49228-3. OCLC 1040947645, <https://www.worldcat.org/nl/title/1040947645>

Runge, Jakob, et al. , (2019), Detecting and quantifying causal associations in large non-linear time series datasets. Sci. Adv.5,eaau4996 (2019). DOI: <https://www.science.org/doi/10.1126/sciadv.aau4996>

Mubayi, Anuj, Christopher Kribs, Viswanathan Arunachalam, 2019, Studying Complexity and Risk Through Stochastic Population Dynamics: Persistence, Resonance, and Extinction in Ecosystems, January 2019, Handbook of Statistics, DOI:10.1016/bs.host.2018.11.001, <https://www.researchgate.net/publication/330251417_Studying_Complexity_and_Risk_Through_Stochastic_Population_Dynamics_Persistence_Resonance_and_Extinction_in_Ecosystems>.

Rottman BM, Hastie R. Reasoning about causal relationships: Inferences on causal networks. Psychol Bull. 2014 Jan;140(1):109-39. doi: 10.1037/a0031903. Epub 2013 Apr 1. PMID: 23544658; PMCID: PMC3988659. <https://pmc.ncbi.nlm.nih.gov/articles/PMC3988659/>.

Stepanov, Alexander (1985), Towards a Theory of Causal Implication, Department of Electrical Engineering and Computer Science, Polytechnic University of New York, 1985, <http://stepanovpapers.com/TOWARDS%20A%20THEORY%20OF%20CAUSAL%20IMPLICATION.pdf>

Tacq,Jacques (1982), Causaliteit in sociologisch onderzoek, Sociologische Gids, RUG, Groningen

van Benthem, Johan, (IEP), Modal Logic: A Contemporary View, University of Amsterdam, Stanford University, and Tsinghua University, The Netherlands, U. S. A., and China, <https://iep.utm.edu/modal-lo/>

[terug naar begin pagina]

Disclaimer

These examples of analytic directed graphs serve only to illustrate the possibilities of the concept. The explanatory texts are taken from the Wikipedia. In fact, the concept is only really workable if there is an interdisciplinary team working on and monitoring the consistency, completeness and precision of the causal relationships and the underlying explanations. The causal relationships represented by it must start from empirically proven scientific facts. The graphs themselves are not evidence but a tool to present scientifically assumed evidence.

Author: Daniel Verhoeven

motore di ricerca per la malattie