„Az adatforradalom az összekötő kapocs”

2014.03.05.
„Az adatforradalom az összekötő kapocs”
Részt vett a Világegyetem első térképének elkészítésében, a csillagászat mellett genetikai rák-markerek keresésével és a Twitterrel is foglalkozik. Átütő tudományos eredményeit kezdetben hitetlenkedés fogadta, mára azonban több ezren hivatkoznak publikációira. Csabai Istvánnal, a Komplex Rendszerek Fizikája Tanszék egyetemi tanárával beszélgettünk.

A gimnáziumban pszichológiai könyveket olvasott, szerette a kémiát – hogyan választotta végül a fizikát?
Igazából minden érdekelt fiatal koromban, sőt mondhatom azt, hogy ma is. Érdekelt, hogy hogyan működik az óra, a televízió, az emberi elme, hogyan működnek a csillagok és galaxisok. Gimnazista koromban nem is tudtam arról, hogy valakinek a foglalkozása lehet az, hogy „tudós”. Amikor a gimnáziumot elvégeztem, aki fizikából és matematikából jó volt, leginkább az orvosi egyetemeket, a BME Villamosmérnöki Karát vagy az akkor még jóval nagyobb presztízsnek örvendő matematika-fizika tanári szakot célozta meg. Én is villamosmérnöknek jelentkeztem volna, de kiderült, hogy színtévesztőket, márpedig én az vagyok, nem vesznek fel. Így bukkantam rá a felvételi tájékoztatót böngészve a fizikus szakra. Utólag megállapíthatom, hogy remek döntés volt, nem bántam meg. Túl a szakterületek közti rivalizáláson talán kijelenthetem, hogy ha nem is feltétlenül a fizika minden tudományok alapja, a fizikusok merészkednek át legvakmerőbben más területekre, legnagyobb lehetőségük van interdiszciplináris kutatásokat végezni.

Részt vett a Sloan Digital Sky Survey (SDSS) archívum tervezésében és megalkotásában is.
Meglepő módon az 1990-es években még nem létezett olyan térkép, amely legalább a közeli Univerzumban elhelyezkedő galaxisok 3 dimenziós elrendeződését leírta volna. Ha jobban belegondolunk, persze nem is annyira váratlan dolog ez, hiszen a távoli galaxisok csak hatalmas távcsövekkel, hosszú expozíciós időkkel figyelhetőek meg. A ’90-es évek közepe előtt ezek a megfigyelések fotolemezekre készültek, és többnyire szemmel értékelték ki őket. Sok millió galaxis esetén se az észlelés, se a kiértékelés nem volt lehetséges. A mikroelektronika napjainkban is zajló forradalma következtében ekkor vált lehetővé, hogy a fotolemezek helyett CCD chipeket használjunk. Ezek azok a digitális szenzorok, amelyek ma már szinte minden mobiltelefonban is benne vannak, de akkor az a 120 megapixel, ami a távcsövünkbe belekerült, a világon található összes jó minőségű CCD pixel felét tette ki. Az új technika lehetővé tette, hogy pár év alatt elkészítsük a Világegyetem térképének első vázlatát. A százmillió-számra készülő galaxis fényképek, és az azokból kinyerhető információhalmaz újabb kihívást hoztak felszínre: ennyi adat kezelésére nem volt felkészülve a tudomány. A kézi feldolgozás teljességgel kizárt volt, így fel kellett építeni egy akkor hatalmasnak számító, több terabájtos adatbázist, melynek kialakításában nekem is volt szerencsém részt venni Szalay Sándor csoportjában, a baltimore-i Johns Hopkins Egyetemen.

Egyik legkiemelkedőbb eredménye a fotometrikus vöröselto­lódás-becslő módszer kidolgozása. Hogyan magyarázná el a laikusoknak, hogy miről van szó?
Az SDSS égtérképezés kétféle észlelést végzett. Egyrészt 5 színszűrővel lefényképezte a csillagokat, galaxisokat, ez az úgynevezett fotometriai felmérés. Ahhoz lehet hasonlítani, mint ahogy szemünkkel a színes képeket látjuk, csak a szemünkben található 3 féle színérzékelőkön túl itt még két sáv, egy közeli ultraibolya és egy közeli infravörös is szerepel. A másik, úgynevezett spektroszkópiai felmérés színképeket vett fel. Ez sokkal részletesebb információt nyújt, a színképvonalak elemzésével megállapítható belőle a galaxisok kora, anyagi összetétele. Persze ennek ára van: míg egy-egy, akár sok ezer galaxist rögzítő fotometriai expozíció kevesebb mint egy percig tartott, addig – noha nagyon speciális, egyedülálló spektroszkópot építettek a kollégák – pár száz objektum színképének meghatározása közel háromnegyed órát vett igénybe. Emiatt, noha a távcsőidő 80%-át a spektroszkópiára használták, a 300 millió lefényképezett galaxis közül „csupán” egy millióról készült színkép. A színkép a fenn említetteken túl információt ad az úgynevezett vöröseltolódásról is. Edwin Hubble nevéhez fűződik annak felismerése, hogy a táguló Univerzumban a színképek vörös felé eltolódásának mértéke összefüggésbe hozható az objektumok tőlünk vett távolságával. A vöröseltolódás számunkra a „3. dimenzió”, hiszen a fotometriai észlelésekből csak a két égi koordinátát tudjuk meghatározni, a távolságot nem. A fotometrikus vöröseltolódás-becslő módszerünk, a gépi tanulás és egyéb adatbányászati és statisztikai módszerek segítségével lehetővé teszi, hogy az észlelések több mint 99%-ának esetében a fotometriai adatok felhasználásával, vöröseltolódás nélkül is tudjunk távolságot becsülni. Amikor a módszert leíró első tanulmányt közzé tettük, nagyrészt hitetlenkedés fogadta, azóta egy elfogadott, sokak által használt metodikává vált.

Hálózatokkal, csillagászattal, a Twitter-mikrobloggal is foglalkozik – a nagy mennyiségű adat kezelése mellett mi kapcsolja össze az egymástól látszólag eltérő témákat?
Sőt az internet hálózatának szerkezetével, a Bitcoin virtuális pénzügyi rendszerrel, valamint genetikai rák-markerek keresésével is foglalkozom. Valóban, az az adatforradalom az összekötő kapocs, melyet a kvantummechanika, a rá épülő szilárdtest-fizika, a tranzisztor megalkotása, majd a modern műszerek és számítógépek megjelenése tett lehetővé. Egyre bonyolultabb rendszerek megértéséhez, legyen az egy galaxis, egy élő sejt vagy akár az ember alkotta internet, sőt akár az emberek alkotta társadalom, egyre több adat kell, hogy modelleket alkothassunk, azokat verifikálhassuk. Számos területen hirtelen vált mindez lehetővé és olyan kérdések vizsgálhatóak „természettudományos” megközelítésből, melyekről előtte leginkább csak filozofálgatni lehetett. A sok adat feldolgozásához, statisztikai elemzéséhez, értelmezéséhez azonban hatékony módszerek kellenek, melyek rendkívül nagy kihívást jelentenek, és amelyek világszerte a kutatások élvonalában állnak. Szerencsémre a közös igények, a közös metodológia lehetővé teszi, hogy a tudomány egyébként egymástól távol eső területeibe is legyen lehetőségem belelátni, az ott folyó munkába bekapcsolódni.

Több ezer független hivatkozás érkezik publikációira, amelyek rangos lapokban jelennek meg. Milyen tulajdonságok szükségesek az elmélyült és sikeres kutatómunkához?
Az egyik legfontosabb összetevő a szerencse, de ezt nem könnyű befolyásolni. Emellett azt hiszem csak további – habár igaz – közhelyeket sorolhatok fel, melyet bármelyik kutatótársam is elmondhatna. Folyamatosan lelkesnek kell maradni, bízni abban, hogy valami érdekeset, valami újat fedezhetünk fel vagy hozhatunk létre. Dolgozni, küzdeni kell, hiszen a számos próbálkozás közül a legtöbb tévútnak bizonyul. Figyelni kell a szakirodalmat, az új eredményeket, a technikák fejlődését szélesebb körben, mint amit szűkebb szakterületünk megkövetelne, hogy ötleteket meríthessünk, gondolatokat, amiket alkalmazni lehet a mi problémánk esetében is. Kommunikálni kell a kollégákkal, a diákokkal, elmondani az ötleteket, problémákat, hátha valaki hibát fedez fel a gondolatmenetben, vagy éppen előrelendíti a munkát. Nekem szerencsém van, inkább arra kell rávenni, hogy néha valami mást is csináljak, ne csak a „tudományt” reggel fél héttől este fél egyig a hét hét napján. Ja, és még egy fontos dolog: valahogy el kell érni, hogy a család ezt tolerálja.

Hatalmas hálózatokba kötve éljük mindennapjainkat, az adatok elemzésével nagy távolságról is „jósolhatók” cselekedeteink. Mit gondol, milyen hatással van mindez ránk?
Ugyan nem vagyok a téma szakértője, de a természettudományos világkép alapján annyit megállapíthatok, hogy az ember is az anyagi világból, az evolúció során felépült „szerkezet”, nyilvánvalóan érvényesek rá annak törvényei, így bizonyos szempontból determinisztikus, jósolható. Persze azt is tudjuk, hogy már jóval egyszerűbb komplex rendszerek, akár egy kettős inga, vagy a holnapi időjárás se jósolható könnyedén előre. Mindazonáltal, mindennapi gondolkozásunk is nagymértékben arra alapoz, hogy az emberek viselkedése jósolható: nagyrészt tudjuk, mivel lehet örömet szerezni valakinek, illetve mivel bosszantható fel. A gépi információgyűjtés, a webes lekérdezések, e-mailek, telefonbeszélgetések, szociális hálózatok, hitel- és pontgyűjtő kártyák stb. figyelése olyan adathalmazt hozott létre, melyre egy-egy ember saját érzékszerveivel képtelen lenne begyűjteni. A számítógépek segítségével olyan elemzések végezhetőek, olyan összefüggések tárhatóak fel, melyek egy-egy „agy” képességét messze meghaladják. Mindez, sőt nem csak ez, hanem – hogy csak egyetlen másik példát említsek – a genetikai szekvenciák egyre olcsóbb feltárásának lehetősége teljesen új kihívások elé állítja nemcsak a jogrendszert, hanem általában az emberi társadalom alapvető értékrendszerét is.

Részt vett a Bolyai Kollégium alapításában, hosszú évekig oktatott is a tehetséggondozó intézményben. Szeret tanítani?
Az oktatás mindenképp fontos, öröm találkozni lelkes, értelmes fiatalokkal. Sajnálatos, hogy annak ellenére, hogy a modern kor vívmányai mennyire a természet- és műszaki tudományokra épülnek, kevéssé népszerűek ezek a szakok. A tehetséggondozás is – úgy a közoktatásban, mint a felsőoktatásban – háttérbe szorult, pedig az új kihívások rengeteg olyan szakembert igényelnének, akik mind az adott szaktudományokban, mind pedig a modern statisztikai módszerekben és információtechnológiában képzettek. Az információrobbanás nemcsak a kutatásban, hanem az oktatásban is új helyzetet teremtett, sok olyan információ, melyet csak az iskolai és egyetemi oktatás során sajátíthattak el a fiatalok, most pár billentyűnyomással elérhető. Nyilvánvaló, hogy az évszázados módszer, miszerint a professzor kiáll és magyaráz, a hallgatók pedig (többnyire sajnos csak) hallgatnak, idejétmúlt. (Javasolnám is, hogy az „egyetemi hallgató” kifejezést módosítsuk, valami aktívabb részvételt jelző kifejezésre.) Valahogy persze át kell adni az egyre bővülő alaptudást, hogy tudjuk, hogy miről gondolkozzunk, mihez hívjuk segítségül a világméretű elektronikus tudásbázist, és ez nem megy anélkül, hogy mind a diákok, mind pedig az oktatók rengeteg energiát belefektessenek.

fotó: Csanádi Márton