PC und WWW als Hilfsmittel zur Darstellung von (Molekül)-Strukturen
2. Datenformate
Es gibt eine Vielzahl verschiedenster Datenformate für Strukturen.
Entweder werden die Atomkoordinaten in einem
kartesischen System angegeben (XYZ, SYBYL?) oder es handelt sich um
kristallographische Formate (PDB, SHELX, CIF), in denen auch das jeweils
verwendete Koordinatensystem und die Symmetrieinformationen enthalten sind.
Zusätzlich gibt es noch die im
Modelling verwendeten Formate (MM2, MOPAC, Gaussian94, CHARMm, Amber4).
Der Konvertierer BABEL
ist in der Lage die meisten Formate
ineinander zu konvertieren, ist aber mit Vorsicht zu genießen (macht z.B. keine Symmetrieerkennung
bei den kristallographischen Formaten!)
Verbreitete Formate im Detail mit Beispielen:
2.1. Kristallographische Formate
enthalten meist die Gitterkonstanten der Elementarzelle (also das Koordinatensystem =
Achsen a,b,c und die eingeschlossenen Winkel),
eine Information über die Symmetrieelemente in
der Elementarzelle (meist das sog. Raumgruppensymbol)
und dann die fraktionalen
(in Längen der Gitterkonstanten angegebenen) Koordinaten
der Atome.
wichtigste Formate:
- PDB: Format der Brookhaven Protein Datenbank
(weit verbreitet, u.a. weil viel freie Software aus dem Bereich der
Biochemie kommt)
- SHELX: verbreitetes Format für kleineren für Moleküle
und anorganischen Strukturen
- CIF (Crystal Information File): sehr mächtig, aber ziemlich aufwendig
- GSAS, ...
Beispiel für PDB
HEADER CALCIUM BINDING PROTEIN 11-MAY-88 3CLN 3CLN 3
COMPND CALMODULIN 3CLN 4
SOURCE RAT (RATTUS $RATTUS) TESTIS 3CLN 5
AUTHOR Y.S.BABU,C.E.BUGG,W.J.COOK 3CLN 6
REVDAT 2 09-JAN-89 3CLNA 1 JRNL 3CLNA 1
REVDAT 1 16-JUL-88 3CLN 0 3CLN 7
SPRSDE 16-JUL-88 3CLN 1CLN 3CLN 8
JRNL AUTH Y.S.BABU,C.E.BUGG,W.J.COOK 3CLN 9
JRNL TITL STRUCTURE OF CALMODULIN REFINED AT 2.2 ANGSTROMS 3CLN 10
JRNL TITL 2 RESOLUTION 3CLN 11
JRNL REF J.MOL.BIOL. V. 204 191 1988 3CLNA 2
JRNL REFN ASTM JMOBAK UK ISSN 0022-2836 070 3CLNA 3
REMARK 1 3CLN 14
REMARK 1 REFERENCE 1 3CLN 15
REMARK 1 AUTH Y.S.BABU,J.S.SACK,T.J.GREENHOUGH,C.E.BUGG, 3CLN 16
REMARK 1 AUTH 2 A.R.MEANS,W.J.COOK 3CLN 17
REMARK 1 TITL THREE-DIMENSIONAL STRUCTURE OF CALMODULIN 3CLN 18
REMARK 1 REF NATURE V. 315 37 1985 3CLN 19
usw. usw. usw.
REMARK 6 CORRECTION. UPDATE JRNL REFERENCE TO REFLECT PUBLICATION. 3CLNA 5
REMARK 6 09-JAN-89. 3CLNA 6
SEQRES 1 148 ALA ASP GLN LEU THR GLU GLU GLN ILE ALA GLU PHE LYS 3CLN 77
SEQRES 2 148 GLU ALA PHE SER LEU PHE ASP LYS ASP GLY ASP GLY THR 3CLN 78
SEQRES 3 148 ILE THR THR LYS GLU LEU GLY THR VAL MET ARG SER LEU 3CLN 79
SEQRES 4 148 GLY GLN ASN PRO THR GLU ALA GLU LEU GLN ASP MET ILE 3CLN 80
SEQRES 5 148 ASN GLU VAL ASP ALA ASP GLY ASN GLY THR ILE ASP PHE 3CLN 81
SEQRES 6 148 PRO GLU PHE LEU THR MET MET ALA ARG LYS MET LYS ASP 3CLN 82
SEQRES 7 148 THR ASP SER GLU GLU GLU ILE ARG GLU ALA PHE ARG VAL 3CLN 83
SEQRES 8 148 PHE ASP LYS ASP GLY ASN GLY TYR ILE SER ALA ALA GLU 3CLN 84
SEQRES 9 148 LEU ARG HIS VAL MET THR ASN LEU GLY GLU LYS LEU THR 3CLN 85
SEQRES 10 148 ASP GLU GLU VAL ASP GLU MET ILE ARG GLU ALA ASN ILE 3CLN 86
SEQRES 11 148 ASP GLY ASP GLY GLN VAL ASN TYR GLU GLU PHE VAL GLN 3CLN 87
SEQRES 12 148 MET MET THR ALA LYS 3CLN 88
HET CA 1 1 CALCIUM ION 3CLN 89
HET CA 2 1 CALCIUM ION 3CLN 90
HET CA 3 1 CALCIUM ION 3CLN 91
HET CA 4 1 CALCIUM ION 3CLN 92
FORMUL 2 CA 4(CA1 ++) 3CLN 93
FORMUL 3 HOH *69(H2 O1) 3CLN 94
HELIX 1 H1 THR 5 PHE 19 1 3CLN 95
HELIX 2 H2 THR 29 SER 38 1 3CLN 96
HELIX 3 H3 GLU 45 VAL 55 1 3CLN 97
HELIX 4 H4 PHE 65 PHE 92 1 3CLN 98
HELIX 5 H5 ALA 102 ASN 111 1 3CLN 99
HELIX 6 H6 ASP 118 ALA 128 1 3CLN 100
HELIX 7 H7 TYR 138 ALA 147 1 3CLN 101
SHEET 1 B1 2 THR 26 THR 28 0 3CLN 102
SHEET 2 B1 2 THR 62 ASP 64 -1 3CLN 103
SHEET 1 B2 2 TYR 99 SER 101 0 3CLN 104
SHEET 2 B2 2 GLN 135 ASN 137 -1 3CLN 105
TURN 1 T1 ASP 20 GLY 23 3CLN 106
TURN 2 T2 ASP 56 GLY 59 3CLN 107
TURN 3 T3 ASP 93 GLY 96 3CLN 108
TURN 4 T4 ASN 129 GLY 132 3CLN 109
SITE 1 EF1 12 ASP 20 LYS 21 ASP 22 GLY 23 3CLN 110
SITE 2 EF1 12 ASP 24 GLY 25 THR 26 ILE 27 3CLN 111
SITE 2 EF1 12 THR 28 THR 29 LYS 30 GLU 31 3CLN 112
SITE 1 EF2 12 ASP 56 ALA 57 ASP 58 GLY 59 3CLN 113
SITE 2 EF2 12 ASN 60 GLY 61 THR 62 ILE 63 3CLN 114
SITE 3 EF2 12 ASP 64 PHE 65 PRO 66 GLU 67 3CLN 115
SITE 1 EF3 12 ASP 93 LYS 94 ASP 95 GLY 96 3CLN 116
SITE 2 EF3 12 ASN 97 GLY 98 TYR 99 ILE 100 3CLN 117
SITE 3 EF3 12 SER 101 ALA 102 ALA 103 GLU 104 3CLN 118
SITE 1 EF4 12 ASN 129 ILE 130 ASP 131 GLY 132 3CLN 119
SITE 2 EF4 12 ASP 133 GLY 134 GLN 135 VAL 136 3CLN 120
SITE 3 EF4 12 ASN 137 TYR 138 GLU 139 GLU 140 3CLN 121
CRYST1 29.710 53.790 24.990 94.13 97.57 89.46 P 1 1 3CLN 122
ORIGX1 1.000000 0.000000 0.000000 0.00000 3CLN 123
ORIGX2 0.000000 1.000000 0.000000 0.00000 3CLN 124
ORIGX3 0.000000 0.000000 1.000000 0.00000 3CLN 125
SCALE1 0.033660 -0.000320 0.004460 0.00000 3CLN 126
SCALE2 0.000000 0.018590 0.001330 0.00000 3CLN 127
SCALE3 0.000000 0.000000 0.040470 0.00000 3CLN 128
ATOM 31 N THR 5 -22.499 29.260 32.164 1.00 41.62 3CLN 129
ATOM 32 CA THR 5 -22.134 30.524 31.536 1.00 40.62 3CLN 130
ATOM 33 C THR 5 -22.164 31.628 32.593 1.00 39.94 3CLN 131
ATOM 34 O THR 5 -21.295 32.505 32.549 1.00 39.67 3CLN 132
ATOM 35 CB THR 5 -22.984 30.878 30.265 1.00 41.50 3CLN 133
ATOM 36 OG1 THR 5 -24.243 30.139 30.376 1.00 42.80 3CLN 134
ATOM 37 CG2 THR 5 -22.318 30.640 28.917 1.00 41.46 3CLN 135
usw. usw. usw.
ATOM 1154 C ALA 147 -1.250 23.827 5.799 1.00 62.64 3CLN1252
ATOM 1155 O ALA 147 -1.938 22.966 5.190 1.00 63.20 3CLN1253
ATOM 1156 CB ALA 147 -1.738 26.270 6.293 1.00 63.07 3CLN1254
HETATM 1168 CA CA 1 -13.638 53.352 31.500 1.00 12.29 3CLN1255
HETATM 1169 CA CA 2 -17.797 50.156 20.859 1.00 15.64 3CLN1256
usw. usw. usw.
CONECT 467 466 1169 3CLN1337
CONECT 512 511 1169 3CLN1338
CONECT 513 511 1169 3CLN1339
CONECT 734 732 1170 3CLN1340
usw. usw. usw.
MASTER 66 0 4 7 4 4 12 6 1199 0 36 12 3CLNA 7
END 3CLN1365
Beispiel für SHELX
TITL Was auch immer ..........
CELL 0.7107 24.664 24.664 24.664 90. 90. 90.
ZERR 8 0.009 0.009 0.009 0 0 0
LATT 4
SYMM X,.25-Y,.25-Z
SYMM .25-X, Y,.25-Z
SYMM .25-X,.25-Y, Z
SYMM Z, X, Y
usw. usw. usw.
SFAC BA BI O
UNIT 168 16 40
L.S. 5 1
ACTA
FMAP 2
omit -3 55
WGHT 0.0736 2740.0178
EXTI 0.000006
FVAR 0.00430
BA1 1 0.05692 0.05692 0.82593 10.50000 0.02565 0.02565 =
0.03678 -0.00556 -0.00556 -0.00070
BA2 1 0.99293 0.12500 0.12500 10.25000 0.01780 0.02035 =
0.02035 -0.00566 0.00000 0.00000
usw. usw. usw.
O3 3 0.18087 0.06913 0.88325 10.5 0.06796
hklf 4 1
END
2.2. kartesische (rechtwinklige) Koordinaten
wichtigste Formate:
- XYZ einfaches kartesisches xyz-Format (leider viele Varianten)
- MM2: Format des Allinger-Kraftfeldes (ein wichtiges Modelling-Format)
- MOPAC (bis Version 6 freeware) {\it http:kekule.osc.edu}
- Gaussian (ab initio, kommerziell, teuer!)
- CHarmm, Amber: Proteinkraftfelder bzw. Moleküldynamikprogramme
2.3. Formate mit internen Koordinaten
beinhalten Atomabstände, Winkel, Torsionswinkel usw. und sind im
Bereich der Spektroskopie und Modelling verbreitet.