Protein Data Bank (PDB) jest zbiorem informacji o trójwymiarowej (3‑D) strukturze dużych cząsteczek biologicznych, takich jak białka i kwasy nukleinowe. Biolodzy i biochemicy z całego świata przesyłają dane. Większość danych pochodzi z krystalografii rentgenowskiej lub spektroskopii NMR. Każdy może uzyskać dostęp do PDB za darmo online. PDB zarządzany jest przez Worldwide Protein Data Bank, wwPDB.

PDB jest nieocenionym narzędziem dla naukowców zajmujących się biologią strukturalną, biochemią, bioinformatyką oraz chemią medyczną. Setki tysięcy struktur (od prostych białek po wielkoskalowe kompleksy i kwasy nukleinowe) są udostępniane bezpłatnie i mogą być ponownie wykorzystywane w badaniach, nauczaniu i przemyśle. Wiele czasopism naukowych i agencji finansujących, w tym National Institutes of Health w Stanach Zjednoczonych, wymaga, by autorzy udostępniali dane strukturalne poprzez PDB jako warunek publikacji lub finansowania.

Co zawiera wpis w PDB

Typowy rekord PDB zawiera:

  • Współrzędne atomowe (pozycje atomów w układzie współrzędnych) wraz z informacjami o parzystości zajętości i temperaturach B,
  • Dane eksperymentalne niezbędne do weryfikacji modelu (np. dane struktury czynników dyfrakcyjnych, restrainty NMR, mapy EM),
  • Informacje o metodzie eksperymentalnej i warunkach próbki,
  • Opisy biologiczne: nazwy białek/komponentów, heteroatomy, ligandy, informacje o biologicznym złożeniu i funkcji,
  • Dane metadanych: autorzy depozytu, czasopisma powiązane z publikacją, unikalny ID PDB (czteroznakowy kod alfanumeryczny).

Formaty plików i standardy

Historycznie używany format PDB (tekstowy, z wierszami o stałej szerokości) został uzupełniony i w dużej mierze zastąpiony przez format PDBx/mmCIF, który obsługuje większe struktury i bardziej rozbudowane metadane. Dla danych krystalograficznych przechowywane są też pliki z faktorami struktury (structure factors), a dla struktur uzyskanych metodami NMR — pliki z restraintami i danymi chemicznymi. W przypadku map EM zwykle dostępne są skoordynowane pliki modelu w PDB oraz oddzielne zbiory map w EMDB.

Depozyt i walidacja

Naukowcy, którzy rozwiązują nową strukturę, składają depozyt do wwPDB przy użyciu narzędzi udostępnionych przez partnerów wwPDB. Depozyt obejmuje przesłanie współrzędnych, danych eksperymentalnych oraz metadanych. Po złożeniu depozyt przechodzi proces automatycznej walidacji — wwPDB generuje raport walidacyjny zawierający miary jakościowe, takie jak wartości R i Rfree (dla krystalografii), statystyki Ramachandrana, ugięcia geometryczne i inne wskaźniki pozwalające ocenić wiarygodność modelu. Raport walidacyjny jest udostępniany publicznie razem z wpisem.

Partnerzy i dostęp

wwPDB jest międzynarodową organizacją, której partnerami są m.in. RCSB PDB (USA), PDBe (Europa), PDBj (Japonia) oraz BMRB (dane NMR). Każdy z tych serwisów oferuje własne interfejsy wyszukiwania, narzędzia wizualizacji i API do pobierania danych. Dane można pobrać pojedynczo (plik współrzędnych, pliki pomocnicze) lub całe archiwum przez FTP/HTTP. Wiele przeglądarek i programów (np. PyMOL, UCSF Chimera, Mol*, NGL Viewer) potrafi bezpośrednio wczytywać pliki PDB i PDBx/mmCIF.

Zastosowania

Dane z PDB są wykorzystywane w licznych dziedzinach:

  • Projektowanie leków i modelowanie molekularne,
  • Zrozumienie mechanizmów enzymatycznych i oddziaływań białko–ligand,
  • Badania ewolucyjne i klasyfikacje struktur (np. bazy SCOP, CATH),
  • Analizy genomowe łączące sekwencje z trójwymiarową strukturą (ontologie genów i mapowania genów do struktur),
  • Nauczanie i popularyzacja wiedzy (modele 3D używane w kursach i materiałach edukacyjnych).

Jak cytować i korzystać z danych

Przy publikowaniu wyników opartych na strukturze z PDB należy podać identyfikator PDB (czteroznakowy kod) oraz, gdy to możliwe, cytować oryginalną publikację opisującą odkrytą strukturę. Wiele czasopism wymaga, aby struktury były zdeponowane w PDB przed przyjęciem artykułu do druku. Ze względu na otwartość zasobów PDB, dane mogą być używane w projektach akademickich i komercyjnych, jednak w przypadku komercyjnego wykorzystania może być konieczne dodatkowe sprawdzenie warunków licencyjnych narzędzi lub baz danych użytych do analizy.

Uwagi końcowe

PDB stanowi centralne repozytorium trójwymiarowych danych biomolekularnych, którego rola rośnie wraz z rozwojem technik eksperymentalnych (np. kriomikroskopii elektronowej) i metod obliczeniowych. Dzięki standaryzacji formatów, raportom walidacyjnym i globalnemu zarządzaniu przez wwPDB, użytkownicy mają dostęp do wiarygodnych i łatwo dostępnych informacji niezbędnych w nowoczesnych badaniach biologicznych i medycznych.