Arcok a virtuális könyvtárban
Aranybánya a kutatóknak, a családjuk története iránt érdeklődőknek, de azoknak is, akik szívesen merülnek el a régmúlt korok napi hírei között. Az idén harmincéves Arcanum tíz éve létrehozott Digitális Tudománytárának fő célja, hogy az elmúlt kétszázötven esztendő teljes magyar folyóirat-állománya digitalizálva legyen. Ma az egyéb iratokat, például rengeteg anyakönyvet is beleértve, ötvenmillió feldolgozott oldalnál és ezerötszáz címnél tartanak, miközben a világ legnagyobb történelmitérkép-adatbázisát is építik.A kultúránk akkor fejlődhet, ha a múltunkat, közös tudásunkat és identitásunkat hordozó emlékeinkből minél többet tudunk eljuttatni a lehető legtöbb emberhez; s mindezt úgy, hogy a befogadókban a továbbgondolkozás igényét is elősegítjük – ez a mottó fogadja az Arcanum Digitális Tudománytár (ADT) honlapjára látogatót. Az idézet Biszak Sándor vezérigazgatótól származik, aki harminc évvel ezelőtt alapította meg az azóta is családi tulajdonban lévő céget. Az eredetileg vegyész végzettségű férfi elméleti kémikusként került a nyolcvanas évek elején a Richter könyvtárába, és ez utólag sorszerűnek bizonyult.
A CD-től az internetig
A gyógyszergyárból már abban az időben hozzá lehetett férni telefonvonalon keresztül működő adathálózat-szerűséghez, Biszak Sándor pedig nem győzött betelni azzal a csodával, milyen gyorsan lekérhetők akár a világ másik feléből is a kutatók, diákok számára szükséges új információk. Nem meglepő, hogy hamarosan a frontvonal másik oldalán találta magát. Először a Richternek segített hatékonyabb szabadalmi adatbázist készíteni, az adatokat flopilemezen tárolva persze, majd egy kis kitérő után 1989-ben létrehozta az Arcanumot: ma már megmosolyogtató, de az akkori fő cél a flopit felváltó CD elterjesztése volt Magyarországon. A cég első nagy dobása a Károli-biblia CD-ROM-kiadása volt, majd egyre bővült a kör, verstárakat, klasszikus lexikonokat, népszerű irodalmi alkotásokat, sőt, Frank Júlia szakácskönyveit is megjelentették ilyen formában – az alkalmazottak akkoriban még kézzel begépeltek, korrektúráztak és újratördeltek minden egyes művet. Az internet ezredforduló utáni robbanásszerű elterjedése hamar véget vetett a CD-korszaknak, a terjedelmi korlát sem volt többé akadály, így Biszak Sándorék is változtatni kényszerültek. A Google Books ihletésére 2014-ben elindították az azóta is folyamatosan bővülő Arcanum Digitális Tudománytárat (ADT), amelynek lényege az elmúlt kétszázötven év teljes magyar folyóirat-állományának, határon innen és túl, digitalizálása és kereshetővé tétele: minden egyes szó és kifejezés kutatható, ami ebben az időszakban valaha nyomtatásban megjelent.
Mindennek eredményeként az Arcanumnál ma harmincmillió gépre vitt oldalnál és ezerötszáz címnél tartanak a Pesti Naplótól az Orvosi Hetilapon vagy a Pajtáson át az emigráns magyar újságokig – Biszak Sándor szerint az egyre kevesebb hiányzó anyag miatt ez a szám maximum ötvenmillióig tolható ki. A cég munkatársai minden hónapban egy-másfél millió oldalt digitalizálnak, ebből legalább félmillió kerül a többnyire könyvtárak, levéltárak, tudományos és felsőoktatási intézmények használta, előfizetéses ADT-be, a többi pedig az ingyenesen böngészhető Hungaricana közgyűjteményi portálba, illetve a Szaktárs nevű, a kiadókat összefogó adatbázisba megy. Egy hónapja egyébként a Demokrata összes évfolyama is olvasható-kereshető a felületen, annak az egy számnak a kivételével, amit a több költözést átélt, mégis nagyon precízen gondozott archívumunkban valamiért mégsem talál senki.
Szkennerszörnyetegek
Hihetetlen, de az óriási munka – a folyóiratok és könyvek mellett folyamatosan zajlik az elmúlt sok száz év okleveleinek, a levéltári iratoknak, közlönyöknek, anyakönyveknek, régi fogolytörzskönyveknek, nagy méretű térképeknek, képeslapoknak stb. feldolgozása is – oroszlánrésze egy budai családi házban zajlik. Ide érkezünk körbenézni, mint utólag kiderül, egy igen szemléletes pillanatban: az MTA Kisebbségkutató Intézetének történésze, Bárdi Nándor száll ki éppen autójából, csomagtartójában a marosvásárhelyi Népújság napilap kemény táblákba összekötött évfolyamainak egy részével. A garázsba belépve fegyelmezett összevisszaság fogad, előbb az Amerikai Magyar Népszava stószai mellett haladunk el, majd dobozokban Magyarország legnagyobb újságkivágat-gyűjteménye áll. A gondosan, név szerint felcímkézett tárolókban a magyar művészekről szóló cikkek egyesével összehajtogatott lapjai várnak a sorukra, a Művészettörténeti Kutatóintézet több mint ezerötszáz ilyen dobozából egyelőre kilencszáz lesz digitalizálva.
A házon belül is mindenütt könyvek és újságok tömegei sorakoznak, az egyik fiatal kolléga éppen a Gondolat Kiadó műveit szkenneli, a teljes állomány kilencvenkilenc százalékával már végzett. Az ő munkája a folyamat vége, először ugyanis a bekötött vagy kötetlen újságokat, folyóiratokat, könyveket elő kell készíteni. Ha az alapanyagot az adott könyvtár, intézmény vagy szerkesztőség nem kéri vissza, ami tárolási problémák miatt elég gyakori, akkor egy nagy teljesítményű papírvágó géppel kiszabadítják a lapokat a kötésből. Az automatikus szkennerek szempillantás alatt végeznek egy-egy oldal 300 dpi-s bevitelével, a nagyobb olvasófejűek esetében, amelyekbe a nagy alakú újságlapokat, például a már említett Pesti Naplót és a térképek egy részét teszik, persze lassul a dolog. Ha valamit nem lehet lapra szedni, akkor „robotszkennerek” dolgoznak, amikben két fényképezőgép két oldalról fotózza be a dokumentumot, akár A/3-as méretben is. A végeredmény minden esetben egy úgynevezett kétrétegű PDF, felül a kép, alatta a szöveg, aminek révén a keresés lehetővé válik.
Szőlőskert, majd lakótelep
Mindezt az emeleti szerverpark és Biszak Sándor programozó fia, Biszak Előd irányítja. Legfőképpen neki köszönhetőek azok a szoftverfejlesztések, amelyek révén az Arcanum újabb és újabb funkciókkal bővül. A legnagyobb újdonság az úgynevezett arcfelismerő rendszer. A mesterséges intelligencia eszközeit felhasználó program révén már nemcsak szöveg, hanem kép, sőt csoportkép alapján is rákereshetünk egy adott személyre. Hasonló archívumot eddig csak az Arcanum kapcsolt össze a gépi tanulással; nem csoda, hogy az alapprogramot kifejlesztő Amazon óriás techvállalat is felfigyelt rájuk, és most nyilvános esettanulmány készül a magyar cég ez irányú, saját kútfőből továbbgondolt tevékenységéről.
Ugyanilyen kuriózum a Mapire (Historical Maps of Habsburg Empire) nevű adatbázis, amely a Habsburg Birodalom XVIII. és XIX. századi részletes, sok szelvényből álló térképei mellett számos egyéb város (Moszkva, London, Bécs, Párizs stb.) és más európai állam (Olaszország, Franciaország) történelmi térképeit tartalmazza. Ezek 3D-ben és öt-tíz méteres pontossággal szinkronizáltan is megtekinthetők egymással összehasonlítva: én például beütöttem a szülővárosom, Szekszárd nevét, és a görgetősáv segítségével megtudtam, hogy a lakótelep helyén, ahol felnőttem, százötven évvel ezelőtt még szőlőskert volt, a nagynénémék telkén pedig bizonyos Tóth Sándor háza állt. A cél a világ legnagyobb történelmitérkép-honlapjának létrehozása, és hogy Biszakék jó úton haladnak efelé, mi sem bizonyítja jobban, mint hogy az USA legrégibb mappái szintén csak náluk találhatók meg digitalizálva az egész világon.
Az Arcanumon ezen belül még számos érdekes dologra rábukkanhatunk: meghallgathatjuk például az MTA BTK Zenetudományi Intézete Hangarchívumának tízezer órányi felvételét, a Budapest Időgép segítségével négy különböző metszetben tanulmányozhatjuk a főváros átalakulását, eljutva egészen az egyes telkek, házak történetéhez és a lakókra vonatkozó levéltári forrásokhoz. Az átlag felhasználó számára kétségkívül a korabeli napilapok böngészése a legizgalmasabb. A Tolna Megyei Népújság – a megyei lapok archívumához egy éve bárki hozzáférhet – 1977. március végi számából például arról értesültem, hogy nevelőapám első díjat nyert az országos ifjúsági kerékpárbajnokságon.