您当前的位置:检测资讯 > 法规标准

医疗器械沥滤物与SMILES字符

嘉峪检测网        2021-12-22 13:16

药物研究过程中,有诸多的未知杂质;药物包装材料浸出后,也会有一些不确定的浸出物。自新版ISO10993-1:2018推出后,医疗器械沥滤物的研究也变得越发的重要,法规部门在多数情况下会要求提供沥滤物的定性及定量的研究。但是,沥滤物并非都是已知的小分子化合物,比如有相应的分子结构式、CAS号等,反而常常是新的小分子化合物,这时候就无CAS号可用,只有相应的分子结构式。在毒理数据库或者QSAR相应的软件中交互过程中,只能手绘分子结构式,这样就会繁琐很多,而且浪费时间又很容易造成手绘错误。因此,毒理数据库与QSAR软件允许用户以计算机的方式表示分子结构的SMILES方式,来与数据库/软件进行交互。SMILES(Simplified Molecular Input Line Entry System)是一种计算机交互语言,是专门设计的化学符号语言,它对于使用者来说很容易获得,且又足够灵活,是化学符号的解释和生成独立于使用的特定计算机系统(如QSAR软件、VEGA软件)字符串。

 

①获得SMILES的方法

 

1.1  有CAS号的化合物

 

可以从常用的搜索引擎查到化合物的相关信息,获得SMILES(以及其它诸如InChI Key还有IUPAC名称等信息),具体可使用以下网址:

 

PubChem:https://pubchem.ncbi.nlm.nih.gov

 

ChemIDplus:https://chem.nlm.nih.gov/chemidplus/

 

1.2  知道名称得到SMILES

 

使用Chemdraw输入名称,随后获得结构式。例:如果要得到“Phenylephrine Hydrochloride”的结构,则点击“Structure”→“Convert Name to Structure”→弹出窗口的文本框中输入“Phenylephrine Hydrochloride”→点击“OK”后,即出现Phenylephrine Hydrochloride的结构式;随后得到SMILES(见下)

 

1.3  仅有分子结构式得到SMILES

 

举例说明如何通过分子结构式得到SMILES。在Chemdraw软件中画出“Phenylephrine Hydrochloride”(盐酸去氧肾上腺素)的结构式,选中结构式,然后依次点击“Edit”→“Copy As”→“SMILES”,复制到Word文档中即可(同理可得到“Phenylephrine Hydrochloride”的InChI、InChI Key等)。值得一提的是,这种方法适合解析获得结构的全新物质,从而与毒理数据库中进行交互使用。

 

②SMILES 的基本规则

 

化学形式化的第一步是命名一种化合物。这需要一个明确的和从最简单的原子到最复杂的原子的可重现符号结构体——SMILES符号是以空格结尾的一系列字符,同时SMILES唯一使用的字母是原子符号,它们通常使用的是有机子集符号H、C、N、O、P、S、F、Cl、Br、I、(,)和数字。

 

基本遵循以下规则:(1)原子用原子符号表示;(2)双键和三键分别用 = 和 # 表示;(3)支链用括号表示;(4)环状化合物是由相对应的数字匹配(开环或闭环处)。具体要求,如下所述:

 

2.1  原子

 

每个非氢原子都由方括号内的原子符号独立指定,两个字符符号的第二个字母必须用小写字母输入。

 

普通碳原子用大写字母C表示,芳香环中的碳原子用小写字母表示;如果出现的原子不在上述有机子集中的,需加方括号描述。如:[Au]表示元素金。

 

通常情况下,默认方括号内的电荷数总数为零,如果有电荷数不同,电荷由符号+或-和数字表示。如:[NH4+]表示铵根离子;[Fe+2]或者是[Fe++]表示2价铁离子。

 

2.2  键

 

分为单键、双键、三键和芳香键分别用-、=、#和 : 表示,单键和芳香键通常可以省略。如:乙烷为CC;乙烯为C=C;乙炔为C#C

 

2.3  线性结构

 

CH2=CH-CH2-CH=CH-CH2-OH 

 

SMILES结构式为C=CCC=CCO或者C=C-C-C=C-C-O或者OCC=CCC=C

 

2.4  分支结构

 

医疗器械沥滤物与SMILES字符 SMILES结构式为CCN(CC)CC(括号内为分支原子)

 

2.5  环状化合物

 

在环结构中的把环上的键打开一个化学键按任意顺序编号,表示开环(或环闭合)键,在每个环闭合处的原子符号后面紧跟着一个数字。如环己烷的SMILES为C1CCCCC1

 

2.6  带有支链结构

 

医疗器械沥滤物与SMILES字符SMILES结构式为CC1=CC(Br)CCC1或者CC1=(CCC1)Br

 

2.7  对于芳香型化合物

 

医疗器械沥滤物与SMILES字符SMILES结构式为c1ccccc1C(=O)O

 

③总结与讨论

 

综上所述,根据上面规则,几乎所有的有机结构都可以用符号来描述。但美中不足的是,同一个分子结构式常常会从不同的资料中发现有不同SMILES——这取决于SMILES读取的起始点(具体见2.3节和2.6节),这时我们只需要确定不同的SMILES字符串所获得的化学结构式是否一样即可。

 

另一方面,在工作中也会遇到InChI、InChI Key来表达化学结构式,这里也顺便谈谈。其中InChI Key有时偶尔会表达两个或多个的InChI字符串。它是化学物质的文本标识符,标识符根据信息层来描述化学物质——原子及其键连接、互变异构信息、同位素信息、立体化学和电荷信息。与SMILES符号相比,它们可以表达更多的信息,不同之处在于每个结构都有一个唯一的InChI字符串。

 

参考文献:

 

Weininger. D, SMILES, a chemical language and information system.1. Introduction to methodology and encoding rules J. Chem. Inf. Comput. Sci. 1988, 28, 1, 31-36.

在维基百科中InChl Key的说明https://en.wikipedia.org/wiki/International_Chemical_Identifier

 

分享到:

来源:Internet