Antropofagi

torsdag 26 april 2018

Överfittning

Scott A. nämner ett antal användbara begrepp i en post nyligen. Antropofagi har redan rantat en del om motte and bailey, men det finns fler godbitar att missbruka i den här soppskålen.

Som alla känner till kan däggdjur delas upp i placentadäggdjur, pungdjur, och kloakdjur. En gång i tiden hette det att "däggdjur föder levande ungar" - dvs. defintionen av begreppet däggdjur inbegrep "att föda levande ungar", till skillnad från att t.ex. lägga ägg. Detta var ingen tillräcklig definition (många fiskar föder t.ex. levande ungar, om än inga fåglar - inga fåglar är vivipara), men en nödvändig definition. Föder du inte levande ungar, är du inget däggdjur. (Arnold Schwarzenegger klara sig således med en hårsmån, tack vare Junior.)

Men, så hittade man till Australien - vilket fö. också fuckade upp för definitionen av svanar som "vita fåglar", vilket lett till begreppet black swan och fått exemplifiera induktionsproblemet. I Australien - och andra delar av den "nya världen" såsom opossumens Nordamerika eller myrpiggsvinens Nya Guinea - sprang man på allsköns besynnerliga varelser. Exempel:


Näbbdjuret! Det har näbb, lägger ägg, och svettas mjölk från sin bröstvårtefria mage. Men, är ett däggdjur!

Kloakdjur som näbbdjuret och myrpiggsvinet, och pungdjur som kängurun och den tasmanska jävulen, får vara subgrupper av däggdjur. Övriga får vara det lite ad hoc-mässiga "högre däggdjur", eller placentadäggdjur. Men även placentadäggdjur är missvisande, eftersom det finns pungdjur som också har iaf. en rudimentär placenta/moderkaka.

Alla kategorier läcker; kategorierna skapades för människan och inte vice versa; kategorier finns för att vi ska kunna göra förutsägelser. Självklart kan "däggdjur" enligt definitionen "föder levande ungar" vara en bra kategori, så länge vi stöter på fall som funkar. Men, när vi stöter på fall som inte funkar får vi uppdatera eller förfina eller ompröva vår kategori. (Predictive Processing!)

Det intressanta begrepp som Scott A. nämner, och som jag vill lyfta i sammanhanget, är overfitting. Det är så vitt jag förstår det en statistisk term, men jag tror att den kan användas i överförd bemärkelse. (Vilket så klart kan bli fel - ack och ve, alla ni samhällsvetare som ägnar er åt "triangulering" och tror att det är bättre än vilken som helst spaning.)

Wikipedias figur, där den gröna gränsdragningen representerar overfitting. Även om den överfittade modellen är väldigt korrekt givet datapunkterna (inkluderar alla blåa punkter och inga röda), så är sannolikheten lägre för att den ska passa framtida observationer bättre, jämfört med den svarta gränsdragningen.
När vi definierar en kategori på ett sätt som väldigt precist inkluderar alla observerade fall, så finns det risk för att nya fall inte kommer att passa i vår kategori. Eller: Ju snävare vår definition, desto större risken att vi måste ompröva den.

Jag har varit inne på att generaliseringar är bra, när de är bra. Dvs., det kan vara nyttigt att använda lättobserverade egenskaper för att förutsäga svårobserverade egenskaper. T.ex. kan det vara bra att akta sig för creepiga män om man som kvinna vandrar hem ensam i natten. Inte för att det är väldigt sannolikt att just den man man observerar är en överfallsvåldtäktsman, men för att risken för att så är fallet multiplicerat med effekten av den realiserade risken är så mycket större än den ringa kostnaden som det innebär att ringa en kompis eller byta trottoar. Typ. Som Timbuktu säger: "Generellt sett är generaliseringar praktiska.../ men generellt sett felaktiga!"

Generalisering har dåligt rykte, med viss rätt. Begreppet overfitting får mig emellertid att tänka att det mer generella är bättre än det mycket specifika. Det mycket specifika ger oss färre förutsägelser om kommande fall, även om det är exakt rätt för de fall vi redan har observerat. Det mer generella kanske riskerar att ha fler marginalfenomen som ramlat på fela sida kategorigränsen - men det genererar i alla fall förutsägelser för fler möjliga observationer.

Jag trevar efter den här insikten känner jag, men någonstans verkar det finnas en trejdåff där modellens ökande korrekthet givet befintliga datapunkter innebär en kostnad för modellens prediktionskraft.

Det var ganska specifikt att säga att däggdjur föder levande ungar, även om det passade bra för alla observerade däggdjur. Nya observationer krånglade till det - vår modell förutsade icke näbbdjurets ägg.

Är dagens däggdjurskategori då mer överfittad? Nä, för modellen har uppdaterats för att hitta minsta gemensamma nämnare - inte ad hoc-korrigerats med näbbdjur och kängurur. Det hade varit att dra en grön linje i wiki-figuren ovan. Det vi har gjort är istället att dra en ny svart linje. Inte ad hoc-pysslat med kategorigränsen, utan ompröva den minsta gemensamma nämnaren för alla fall vi vill observera i kategorin. Och tydligen är det att alla däggdjur har tre hörselben i mellanörat. Det verkar så klart en smula random, och inte heller jätteviktig information i vardagen. Istället kan vi blicka åt det håll som stavas taxonomi. Dvs., vetenskapen om klassificering.

Oavsett taxonomi, dock, med sina klasser, ordningar, familjer, släkten och arter, så inser vi att universum består av en viss mängd partiklar (eller nåt) som bildar vissa mönster (eller nåt), och att alla högnivåbeskrivningar och generaliseringar av högnivå-fenomen riskerar att uppvisa läckage.

Exakt vart det här tar vägen vet jag inte riktigt. Preliminärt tänker jag mig att overfitting är lite samma sak som "det ad hoc-mässiga" - och ad hoc-mässigt konstruerade kategorier har lägre vetenskapligt värde, iom. lägre predictive power.

Inga kommentarer:

Skicka en kommentar