Centrum CERIT-SC, které je nedílnou součástí národní e-infrastruktury e-INFRA CZ, spustilo druhou generaci služby AlphaFind. Tento rychlý a spolehlivý nástroj pro objevování podobných proteinových struktur propojuje masivní datové sady s pokročilým strojovým učením a výkonnou výpočetní silou. Služba je plně a volně dostupná široké vědecké komunitě.
Zatímco první generace (AlphaFindv1) umožňovala strukturně založené vyhledávání napříč celou databází AlphaFold Protein Structure Database na základě zadání UniProt ID, PDB ID nebo genového symbolu, nová verze AlphaFindv2 na tento koncept navazuje a zásadně jej rozšiřuje. Změnami prošla nejen samotná architektura vyhledávacího jádra, ale především nástroje, které vědcům umožňují s výsledky dále efektivně pracovat.
Co nového AlphaFindv2 přináší?
- Embedding-based index. Každý protein (nebo doména) je převeden na krátký numerický vektor, tzv. embedding. Tyto vektory jsou uloženy ve vektorové databázi OpenSearch. Díky jejich uložení ve vektorové databázi OpenSearch lze k-NN dotaz provést v řádu milisekund, a to i nad stovkami milionů položek.
- Asynchronní přesná orientace. Po první rychlé úrovni vyhledávání se na pozadí spouští výpočet přesného zarovnání pomocí US-align a skóre TM-Score. Výsledky se do tabulky doplňují dynamicky formou „progressive loading“, uživatel tak nemusí čekat na dokončení celé výpočetní úlohy.
- Filtrace kvality. Před samotným zarovnáním je možné odfiltrovat méně spolehlivé části struktury podle prahu pLDDT (≥ 70 / 80 / 90), a soustředit tak analýzu jen na důvěryhodné regiony predikce.
- Multidoménová agregace. U proteinů s více doménami se shody jednotlivých domén slučují do jedné „bag-of-domains" metriky, která hodnotí, kolik domén je pokryto a jak kvalitně.
- Interaktivní 3D vizualizace. Vstupní i nalezené struktury se zobrazují v integrovaném prohlížeči Mol*, který nabízí plynulou rotaci, zoom a možnost upravit váhu jednotlivých domén při srovnání.
- Export a automatizace. Výsledky lze stáhnout ve formátu CSV, sdílet pomocí trvalého odkazu nebo přímo z tabulky spustit novou analýzu. To výrazně usnadňuje navazující zpracování a integraci do výzkumných pipeline.
Pro koho je služba určena
AlphaFind je k dispozici zdarma a bez nutnosti registrace. Ocení je široké spektrum uživatelů – od strukturních biologů přes bioinformatiky až po výzkumné týmy v oblasti vývoje léčiv.
Provoz služby zajišťuje CERIT-SC v rámci své dlouhodobé podpory vědeckých aplikací, které mají vysoké nároky na výpočetní výkon a datovou kapacitu. Kvalitu a přesnost metody navíc potvrzuje nedávná publikace v prestižním vědeckém časopise Nucleic Acids Research (https://doi.org/10.1093/nar/gkag372).
Více informací, dokumentace a samotné uživatelské rozhraní naleznete na portálu alphafind.ics.muni.cz, podrobný manuál pak na alphafind.ics.muni.cz/manual.
