SMILES

SMILES jest ponadprogramowe i absolutnie niewymagane w szkole, ale bardzo ciekawe, więc polecam lekturę. Znajduje głównie zastosowanie w chemii organicznej, ale spokojnie można w nim tworzyć prawie wszystkie związki nieorganiczne.

SMILES to skrót od ang. Simplified Molecular Input Line Entry Specification 'uproszczona specyfikacja liniowego wprowadzania informacji o cząsteczce'. Jest techniką, która pozwala, wykorzystując tylko znaki dostępne ze standardowej klawiatury, wyrażać wzory strukturalne w postaci ciągu znaków. SMILES umożliwił wykonywanie wielu operacji z wykorzystaniem komputerów bez konieczności opisywania każdej cząsteczki stosami liczb. SMILES może być podstawą do nadania nazwy, (choć nie zawsze), może być informacją wyjściową o składzie i sposobie połączenia atomów, a te można wykorzystać do wyliczania właściwości.

SMILES jest własnością firmy DayLight.

Zanim przejdziemy do szybkiego kursu tworzenia i odczytu SMILES - przykład. Pamiętasz wzór kwasu salicylowego? W zapisie SMILES jego wzór to: c1cccc(c1C(=O)O)O.

Choć jest to jedna z praktycznie nieskończonej ilości wzorów SMILES, które reprezentują tą cząsteczkę. Można napisać też: c1(C(=O)O)ccccc1O lub c1(C(=O)O)c(O)cccc1 i jeszcze inaczej... wynik zawsze będzie ten sam.

Wzory są automatycznie linkami do serwisu depic.

Atomy

Atomy należy przedstawiać za pomocą symboli takich, jakie figurują w układzie okresowym. Pierwsza litera jest wielka, kolejne powinny być małe, choć nie muszą. Jedynie atomy aromatyczne (w pierścieniu aromatycznym) należy zapisywać za pomocą małych liter. Atomami aromatycznymi mogą być: węgiel, tlen, siarka i azot.

O atomach wodoru należy zapomnieć - podczas odtwarzania wzoru strukturalnego wodór jest uzupełniany automatycznie.

Nazwa SMILES
metan C
etan C-C
1-bromo-3-chloropropan Br-C-C-C-Cl
Cl-C-C-C-Br

Praktycznie wszystkie symbole atomów poza C, O, N, S, F, Cl, Br, I muszą być zapisywane w ten sposób:

[ masa symbol wodór ładunek ]

Przy czym wszystko oprócz symbolu i nawiasów kwadratowych może być pominięte. Za symbol można podstawić także znak * jako atom nieznany, np.: [*]OS(=O)(=O)O[*], co oznacza pewien siarczan(VI).

Gdy chcemy podstawić do wzoru wody tryt (woda ciężka) możemy napisać tak: [3H]O[3H]. Inne przykłady (pamiętaj, że wzory to linki): [Na+].[Cl-], [Na]OC(=O)C.

Zauważ, jaka jest różnica we wzorach:

Tioformaldehyd: C=S

Siarczek węgla: [C]=S

Disiarczek węgla: S=[C]=S lub S=C=S

Przykładowy jon z atomem ze wszystkimi danymi: C[20SH2+]=C.

Wiązania

Najważniejsze trzy rodzaje wiązań to:

- - pojedyncze

= - podwójne

# - potrójne

Wiązania pojedyncze można pomijać i zamiast C-C-C=O można (czyt. należy) pisać CCC=O.

Nazwa SMILES
but-2-yn CC#CC
akrylonitryl C=CC#N
5-bromopent-1-en-3-yn BrCC#CC=C

Nawiasy

Za pomocą nawisów można zaznaczać rozgałęzienia w cząsteczce - można je zagnieżdżać. SMILES nie może zaczynać się nawiasem - jest wtedy nieprawidłowy. Przed nawiasem może znajdować się tylko symbol atomu, z którym połączony jest pierwszy element w nawiasie - typ wiązania zamieszczamy w środku, czyli CC(=O), a nie CC=(O)O. Dwa (lub więcej) nawiasy otwierające pod rząd nigdy nie są potrzebne do uzyskania prawidłowego wzoru. Tam gdzie nie są potrzebne, stosowanie nawiasów nie jest zabronione. Można pisać zarówno C(C(C(C))), ale lepiej, bo krócej jest CCCC.

Nazwa SMILES
propano-1,2,2-triol OCC(O)(O)C
kwas cytrynowy C(C(=O)O)C(C(=O)O)(O)C(C(=O)O)
3-izobutylopenta-1,3-dien CC=C(CC(C)C)C=C

Pierścienie

To jedna z najbardziej dokuczliwych części SMILES. Oto kilka reguł:

  1. Struktury cykliczne wymagają użycia cyfr określających początek i koniec pierścienia. Można wykorzystywać cyfry od 1 do 9.
  2. Do oznaczenia zarówno początku jak i końca pierścienia używa się tej samej cyfry. Atomy z tymi samymi cyframi są połączone ze sobą nawet, jeśli nie wynika to z kolejności atomów w SMILES.
  3. Każda cyfra, która się pojawia musi pojawić się dwa razy i ani mniej ani więcej. Jednak przy dużej ilości pierścieni dopuszczalne jest ponowne wykorzystanie już użytej cyfry, np.: c1ccccc1c1ccccc1, znaczy to samo, co c1ccccc1c2ccccc2.
  4. Cyfry mogą występować tylko po symbolach atomu rozpoczynającego i kończącego pierścień. Np. nie poprawny jest zapis: c1ccccc(Br)1. Bromobenzen można opisać jako c1ccccc1(Br) lub po prostu c1ccccc1Br. Symbol wiązania wielokrotnego można umieszczać pomiędzy symbolem pierwiastka a cyfrą, np.: C1CC#1 dla cyklopropynu.
  5. Przy jednym atomie może występować więcej cyfr rozpoczynających bądź kończących. Np. naftalen można zapisać jako c12ccccc1cccc2. Ciąg cyfr 12 nie oznacza liczby dwanaście, tylko jeden i dwa. Mówi o tym, że dany atom jest połączony zarówno z atomem końcowym nr 1 jak i nr 2.
Nazwa Ilustracja SMILES
benzen Ryc. 1 © chemmix C1=CC=CC=C1
c1ccccc1
naftalen Ryc. 2 © chemmix C12C=CC=CC2=CC=CC=1
c12ccccc2cccc1
kwas salicylowy Ryc. 3 © chemmix c1(C(=O)O)ccccc1O

Aromatyczność

Zamiast męczyć się i wstukiwać dla benzenu miejsca, w których występują wiązania podwójne: C1=CC=CC=C1, można napisać, że jest to pierścień aromatyczny. W tym celu nie stosuje się wiązań podwójnych, tylko symbole atomów aromatycznych (małe znaki): c1ccccc1. Podobnie było w przypadku naftalenu w poprzednim paragrafie. Istnieje jeszcze kilka atomów, które można zapisać w pierścieniu. Atomy te nazywane są aromatycznymi. Są to: węgiel, tlen, siarka i azot.

W zapisie wygląda to tak:

Nazwa SMILES (alifatyczny) SMILES (aromatyczny)
benzen C1=CC=CC=C1 c1ccccc1
pirydyna C1=CC=CC=N1 c1ccccn1
furan O1C=CC=C1 o1cccc1
tiofen S1C=CC=C1 s1cccc1

Widać, że przekształcenie: SMILES (alifatyczny) ↔ SMILES (aromatyczny), nie jest problematyczne.

"