Keserű György Miklós (szerk.)

Gyógyszerkémia

4.6.1.4. Modellépítés

Az előző fejezetben bemutattuk a molekulaleírók legfontosabb típusait. A következő lépés a deszkriptorok és a biológiai hatás közötti összefüggés megtalálása/leírása – az SAR-modell felépítése. A modellépítéshez használt molekulaleírók számát több okból is érdemes alacsonyan tartani. Egyrészt így a számolások időigényét csökkenteni tudjuk. Másrészt minél több molekulaleírót használunk, annál nagyobb az esély arra, hogy ezek korrelálnak egymással, vagyis nem adnak hozzá új információt a modellünkhöz. Célszerű tehát az egymással korreláló deszkriptorok közül csak egyet megtartani. Harmadrészt, a molekulaleírók számának növekedésével a véletlen korreláció lehetősége is nő. A deszkriptorok számának csökkentése abból a szempontból is lényeges, hogy a szűrés során a tesztelendő molekuláktól ne követeljük meg, hogy a biológiai hatás szempontjából lényegtelen leíróikban is hasonlítsanak az aktív vegyületekre. Fontos tehát a hatás kiváltásában szerepet játszó deszkriptorok kiválogatása. Ezt a folyamatot alapvetően meghatározza a rendelkezésre álló referenciamolekulák készlete. Amennyiben a referenciamolekulák száma kicsi és nincs, vagy csak pontatlan aktivitásadat tartozik hozzájuk, akkor érdemesebb úgynevezett klasszifikációs modelleket készíteni, amelyek a szűrendő adatbázis molekuláit két (aktív, inaktív) vagy több (pl. nagy, közepes, kis aktivitású) csoportba sorolják. Ha sok referenciamolekulára pontos aktivitásérték áll rendelkezésre, akkor ún. regressziós modellekkel a biológiai aktivitás becslésére is lehetőség van. Aszerint, hogy a biológiai aktivitás és a deszkriptorok között milyen összefüggést állítunk fel, megkülönböztetünk lineáris és nemlineáris modelleket.

Ha a referenciakészlet kizárólag egy aktív molekulát tartalmaz, akkor a modell lényegében az aktív molekulához képesti globális hasonlóság számítására egyszerűsödik. Ilyenkor az is lényegtelen, hogy az adott molekulához tartozik-e mért aktivitási adat, ugyanis azt nincs mivel összevetni. Sajnos ilyenkor nincs lehetőségünk arra, hogy a deszkriptorokat a hatás kiváltásában betöltött szerepük szerint súlyozzuk. Ebben az esetben a modellt tehát maga az aktív molekula és annak leírói alkotják. A hasonlóság elvéből kiindulva azonban így is építhető hatékony modell. A virtuális szűrés során a szűrendő adatbázis molekuláinak rangsorát az határozza meg, hogy milyen távolságra vannak az aktív molekulától a kiválasztott deszkriptorok többdimenziós terében. Ezt a távolságot többféleképpen számíthatjuk. Egyik lehetőség a két molekula euklideszi távolságának meghatározása: ilyenkor az aktív és a tesztelt molekulát vektoroknak tekinthetjük a deszkriptorok által kifeszített térben, és az euklideszi távolság a két vektor távolsága. Amennyiben a deszkriptorok bináris formátumúak (pl. molekuláris ujjlenyomatok), a távolság meghatározására használhatunk ún. hasonlósági indexeket is. A leggyakrabban alkalmazott hasonlósági indexek közé tartozik a Tanimoto-koefficiens, amely a következő egyenlettel számolható:

ahol NA és NB az A és a B molekula bitkészletében levő 1-esek száma, NAB pedig a mindkét molekulában 1-est tartalmazó bitek száma. A Tanimoto-koefficiens általában jól jellemzi a két molekula hasonlóságát abban a tekintetben, hogy az egyik vagy mindkét molekulában meglevő biteket hasonlítja össze. A mindkét molekulából hiányzó bitek (fragmensek) ugyanis nincsenek közvetlen összefüggésben azzal, hogy két molekula hasonló-e vagy sem. A hasonlósági indexek alkalmazásának egyik hátránya, hogy bináris molekuláris ujjlenyomatokkal kombinálva csak azt veszik figyelembe, hogy egy adott szerkezeti elem előfordul-e a molekulában, vagy sem. Arról, hogy az adott fragmens hányszor fordul elő, sajnos nem szolgáltatnak információt. Az irodalomban a hasonlósági keresés (similarity search) kifejezés a molekuláris ujjlenyomatok hasonlósági indexekkel (leggyakrabban Tanimoto-koefficienssel) történő összehasonlítására terjedt el. Gyakran ezt a módszert használják a szűrendő adatbázis diverzitásának növelésére is, ebben az esetben egymástól szerkezetileg minél távolabbi molekulák kiválogatása a cél. Martin és munkatársai megmutatták, hogy MACCS-kulcsokat használva egymástól 0,85 Tanimoto-hasonlóság esetén ~30% annak az esélye, hogy két molekula hasonló biológiai hatással rendelkezik (Martin és mtsai, 2002). A molekuláris ujjlenyomatokhoz hasonlóan nem építhető igazán hatékony szűrési eljárás 1 db referenciamolekula alapján a CoMFA- vagy a 3D farmakofórmodellezési módszerekkel sem.

Ha több aktív ligandumunk is van (még ha nincs is aktivitásadatunk), már lehetséges az aktivitás szempontjából fontos deszkriptorok kiválogatása és azok súlyozása. A deszkriptor típusától függően ez alapvetően két dolgot jelenthet. Az egyszerű deszkriptorok esetében kiválasztjuk a hatás szempontjából lényegeseket, és elvetjük a lényegteleneket. A megmaradt leírókat pedig tovább súlyozhatjuk aszerint, hogy mennyire játszanak fontos szerepet a hatás kiváltásában. Az összetett deszkriptorok esetében általában azt vizsgáljuk, hogy az őket alkotó egyszerű deszkriptorok közül melyek relevánsak és melyek lényegtelenek. Jó példa erre, amikor minden egyes aktív molekulára kiszámoljuk a molekuláris ujjlenyomatot, majd ezeket összevetve meghatározzuk azokat a bineket, amik leggyakrabban fordulnak elő az aktívak között. A kiválasztást, súlyozást inaktív molekulákból származó információ is segítheti.

Több aktív molekula esetén a releváns deszkriptorok vagy deszkriptorkomponensek kiválasztására alkalmasak lehetnek az ún. felügyelt (supervised) gépi tanulási módszerek (machine learning). Idesorolhatók a mesterséges ideghálózatok (Artificial Neural Networks). Ezek, a természetes ideghálózatok mintájára, adaptációs („tanulási”) képességük által egy iteratív algoritmus alkalmazásával a deszkriptorok súlytényezőit úgy optimalizálják, hogy a hálózat minél jobban közelítsen egy célfüggvényt. A gyakorlatban a hálózat bemeneti oldalán megadjuk a referencialigandum deszkriptorvektorát, amelyből az idegsejtek súlyfaktoruknak megfelelő választ generálnak. Ez az összesített válasz jelenik meg a kimeneti oldalon. A felügyelt tanulás azt jelenti, hogy az ideghálózat válaszát összevetjük a referenciavegyületre várt helyes válasszal, és amennyiben a kettő nem egyezik, az ideghálózatot arra „kényszerítjük”, hogy adaptálódjon a problémához, vagyis súlyozza újra az egyes idegsejtjeit, amivel új választ generálunk. A folyamatot addig folytatjuk, amíg a válasz megfelel elvárásainknak. A folyamat által előáll a betanított ideghálózat, amelyet aztán predikcióra és virtuális szűrésre használhatunk.

A döntési fa (decision tree) egy másik felügyelt gépi tanulási módszer, amely képes a deszkriptorok súlyozására. Itt a tanító készletünk molekuláit egy fa törzséből indulva, döntési (elágazási) pontokat beiktatva, csoportokra (kisebb ágakra) osztjuk. Az utolsó döntési pont után jutunk el a fa leveleiig, amelyeken azonos aktivitású, kis tagszámú molekulacsoportokat (szélsőséges esetben 1-1 molekulát) találunk. A döntési fa valójában tehát egy hierarchikus szabályrendszer, amely alapján a molekulákat aktivitásuk szerint csoportosítani lehet. A döntési fák tanítási folyamata a csomópontok inkrementális hozzáadásán alapul. A fa elágazásaihoz tartozó szabályokat a tanítási folyamat során a törzstől indulva (ahol még az összes molekula egy csoportot alkot) választjuk ki. A jellemző kiválasztásának legfontosabb szempontja, hogy vizsgálatával a vegyületek halmaza a lehető legteljesebb mértékben aktivitási csoportokra legyen bontható.

A gépi tanulásra épülő eljárások általában hajlamosak a túlillesztésre, vagyis minél bonyolultabb a predikciós modell, annál kisebb az esély, hogy alkalmas lesz teljesen új, a tanító készlet molekuláitól jelentősen különböző molekulák aktivitásának becslésére.

Itt teszünk említést az ún. felügyelet nélküli (unsupervised) gépi tanulási módszerekről, amelyek tanulásra ugyan nem alkalmasak (nem súlyozzák a deszkriptorokat), de egyesesetekben modellépítésre alkalmas eljárások. Idesorolhatók az ún. csoportosító (klaszterező) módszerek. A k legközelebbi szomszéd (k nearest neighbour, kNN) eljárás során a többdimenziós deszkriptortérben kiszámítjuk a molekulák közti távolságot, majd megkeressük a csoportosítani kívánt ismeretlen aktivitású vegyület k legközelebbi szomszédját, és a vegyületet abba az aktivitási csoportba soroljuk, amelyikhez több szomszédja tartozik. A kNN módszer megbízhatósága a tanító készlet nagyságával skálázódik.

Alkalmasak lehetnek a modellépítésre speciális neurális ideghálózatok is, például az ún. Kohonen-térképek (Kohonen és mtsai, 2001), amelyek a többdimenziós deszkriptorteret úgy redukálják, hogy az alacsony dimenziójú térben is megőrzik a molekulák egymástól vett távolságát. A Kohonen-térképeken az aktív molekulák általában szigeteket képeznek, így főleg klasszifikációs szűrésre használhatjuk őket. Amennyiben a tesztelt vegyület az aktív vegyületek által benépesített szigeteken belülre kerül, akkor az aktív osztályba, azon kívül pedig az inaktív osztályba soroljuk. Tovább javíthatja a predikciót, hogyha bizonyítottan inaktív molekulákat is elhelyezünk a Kohonen-térképen. Ilyenkor a térkép azon területei diszkriminálnak a legjobban, amelyekre gyakran kerülnek aktívak és ritkán inaktívak (illetve fordítva). A Kohonen-térképeket fehérjecsaládra fókuszált könyvtárak előállítására is lehet használni, ebben az esetben a referenciavegyületek egy adott fehérjecsalád ligandumjai.

A harmadik eset, amikor több aktív ligandumunk van, és ezekhez affinitásadat is rendelkezésre áll. Ilyenkor, hasonlóan az előző esethez, lehetőség van – pl. gépi tanulási módszerek alkalmazásával – a deszkriptorok súlyozására. Az előzőekben felsorolt módszerek közös jellemzője, hogy a predikció végén a tesztelt vegyületeket valamilyen pontérték alapján (pl. aktívaktól való távolság) állítják sorba, vagy csoportokba sorolják őket. Amikor már aktivitásadatok is rendelkezésre állnak, akkor lehetőség nyílik ezek és a deszkriptorértékek korrelációjának vizsgálatára. Az ebből származó egyenlet (modell) segítségével aztán direkt módon becsülhetjük az aktivitást a virtuális szűrés során, és ezt használhatjuk a szűrt molekulák közötti rangsor felállítására.

A leggyakrabban alkalmazott lineáris modellépítési eljárás a többváltozós lineáris regresszió, amelynek célja, hogy a biológiai aktivitást a jellemzők lineáris kombinációjával fejezzük ki. A többváltozós lineáris regresszió azonban nem működik hatékonyan, hogyha a deszkriptorok között jelentős korreláció áll fenn, valamint hogyha a tanító készlet vegyületeihez képest nagyszámú deszkriptort vizsgálunk. Ezeket a hibákat hatékonyan küszöböli ki a parciális legkisebb négyzetek (Partial Least Squares, PLS) módszerén alapuló lineáris regresszió (Wold és mtsai, 2001). Ezt a módszert gyakran használjuk kvantitatív SAR (Quantitative Structure-Activity Relationship, QSAR) modellek felépítésére. A CoMFA-deszkriptorokon alapuló modellépítésnél a rácspontok nagy száma miatt az egy molekulára számított deszkriptorok száma óriási lehet, amelyet viszont a PLS módszerrel hatékonyan tudunk kezelni.

Tartalomjegyzék

Kiadó: Akadémiai Kiadó

Online megjelenés éve: 2026

ISBN: 978 963 664 145 0

Kémia

A kötet az Akadémiai Kiadónál 2011-ben Gyógyszerkutatás kémiája címen megjelent kézikönyv hagyományaira alapozva a kismolekulás gyógyszerkutatás eszköztárára és módszertanára fókuszál. Újdonságot jelent a magyar nyelvű szakirodalomban, hogy a modern gyógyszerkémiai felfogásnak megfelelően nem pusztán a meglévő gyógyszerkincs kémiáját mutatja be, hanem betekintést enged a kismolekulás gyógyszerek felfedezésének stratégiájába is.

Hivatkozás: https://mersz.hu/keseru-gyogyszerkemia//

BibTeX EndNote Mendeley Zotero