医药数据信息市场开始免费,哪些免费的医药数据库

dylinchen 83 2022-07-21

据IPO早知道消息,生物医药产业发展的不断升温,在政策的鼓励下,全国生物医药最新企业数已经近30万家,目前仍然以每月6万家左右的增速在发展。

在这一背景下,生物医药行业数据信息服务市场也孕育出全新的机会,科创情报信息服务商智慧芽日前接受记者采访时表示,面对这一市场传统的收费模式的竞争格局,公司推出生物医药领域的免费数据库产品和AI模式,成为行业的全新搅局者

image.png

在激烈的竞争面前,鲶鱼来了,市场竞争会有怎样的新看点?

市场到底有多大?

2022年5月10日,国家发改委印发《“十四五”生物经济发展规划》,这是我国首部生物经济五年规划,其中对生物医药产业高质量发展进行了详尽的部署:加强生物企业上市培育,进一步加大对生物企业在境内资本市场上市的支持力度,吸引优质生物企业在主板和科创板上市。

2022年4月和5月,生物医药行业月报显示,新增企业数分别6.3万和5.9万家;融资动作也在高位运行,2022年5月,全国生物医药领域共发生融资事件75起,累计金额71.42亿元。

智慧芽数据显示,A股医药生物上市公司共有443家,总营收2.26万亿元,整体研发投入达到1046亿元,研发人员19.8万人,专利申请总量7.88万件,有效专利量4.14万件。

数据信息化服务的市场到底有多大?业内人士表示,一般来说,研发信息化投入占整体研发投入的5%左右。按此推算,仅中国生物医药400多家A股上市公司的研发信息化预算就至少在50亿以上,整体市场空间必然超过100亿元

从全球信息化服务机构科睿唯安的财报数据来看,其含生命科学在内的科学业务,2021年收入超过9亿美元,与其知识产权业务9亿美元收入各占总收入的50%左右。科睿唯安是原汤森路透知识产权和科技事业部,目前独立上市。

“这个市场太大了,仅仅在中国一个月增长的生物医药企业有6万家,整体在30万家规模。这个行业目前是春秋时代,连战国还没有到。”张济徽在接受记者采访时表示。“智慧芽也不仅看中国市场,从智慧芽第一天开始就看全球市场,所以我们对这个市场非常有信心。”

免费到底是不是噱头?

被业内称为“中国版科睿唯安”的智慧芽宣布全力拓展生物医药数据信息服务领域,推出免费数据库,无疑成了这一市场的鲶鱼。

为什么智慧芽能推“免费”策略?张济徽的答案是,AI驱动的技术迭代使免费成为可能。“智慧芽有能力做到全球新药情报库免费,是在智慧芽数据能力和AI能力的基础上实现的,简单来说,传统数据情报信息大量需要人力来进行的数据分析洞察的部分,今天智慧芽通过算法和模型等人工智能的能力完成了,这种迭代一定是颠覆性的。”张济徽说。

更为重要的是,在张济徽看来,未来的数据信息服务行业,数据库的免费成本都会非常高,而服务商只有能提供洞察和预测的价值,才能够真正实现商业模式的闭环。张济徽强调说:“在数据信息服务行业,我们认为价值传导的递增模式是按照从数据到信息、洞察和预测,所以免费数据库是一个基础,而价值链的顶端是洞察和预测,实现了这些价值,信息服务的商业模式自然就有了。”

“当然,我们的这里所说的免费是指的全球新药情报库免费。智慧芽在生物医药产品矩阵中有丰富的产品可以提供给不同的企业需求,全球新药情报库是面对企业研发立项流程中重要数据模块。”张济徽还表示。

从阶段性的商业模式上来考虑,免费是其中的一部分,更多产品和解决方案的收费必然是商业模式的组成部分。

“鲶鱼”来了怎么打?

据透露,智慧芽在全球有超过12000家客户,生物医药客户占比为15%,已经有超过1800家的企业客户购买了智慧芽专利数据库等产品,而这些企业成为智慧芽生物医药数据库和解决方案拓展的基础客户。

而免费产品也会给企业带来巨大的“虹吸效应”。用免费数据库作为开放入口,从注册用户到付费用户的转化,这是互联网企业的常规玩法,如今这一方式也被用在了数据信息服务的专业领域。一旦有规模化的市场存在,这一方式也许将成为“鲶鱼”的新打法。

今年3月30日智慧芽全球新药情报库后,据了解已经有30000+注册用户和3000+企业。由此可以看到,免费数据库产品,成为未来数据信息服务的一个重要入口。

除了客户基础,可能AI才是“鲶鱼”的重要武器。

生物医药行业数据库和信息服务有非常大的难度。一是数据非常多,且很多数据非结构化,散落在各处,二是分析和洞察数据需要很强的专业能力,所以通常需要一个生物医药行业的博士,而且他(她)还需要有跨学科的能力在看懂这些数据。这里成本就非常高。

AI能力需要在对这个行业和技术问题深入了解的基础上,利用人工智能技术,进一步地帮助企业在研发阶段提高研发效率,AI能力已经成为行业提高研发效率的核心能力。“智慧芽拥有很强的AI和数据工厂能力,智慧芽十多年以来的投入都在于此。目前,我们在生物医药领域开始投入了200位技术人员和50位AI人员在这个行业。这是我们的基础投入。”张济徽说。

AI制药是不是很遥远?

相关数据显示,“AI+制药”成为2021年最受资本欢迎的赛道之一,全球融资77起,金额合计45.6亿美元(约合人民币307亿),其中中国市场融资12.4亿美元。

那么生物医药的免费AI数据库与如何为AI制药的趋势服务呢?

现阶段的AI并未真正打破传统制药的研发体系,甚至从研发流程来看,AI优化的部分还不到40%。“类似于像智慧芽的服务,正是服务于研发流程中AI部分能够提升,我们觉得这里面有非常大的空间。”智慧芽全球新药情报库负责人裴立东也表示,目前全球还没有由AI研发成功的药物顺利上市,国外有企业管线刚刚进入临床阶段的,相信这一进程会加速。

药理学研究用到的各种数据库和工具,包括中药数据库、药物靶标数据库等,所介绍的数据库和工具全部是公开、免费的。

中药数据库

1、TCMSP——中药系统药理学数据库与分析平台

https://old.tcmsp-e.com/tcmsp.php

TCMSP是独特的中草药系统药理平台,在这里我们可以得到药物、靶标和疾病之间的关系。该数据库平台提供的信息包括活性成分的鉴定、化合物和药物目标网络,以及相关药物靶标疾病的网络等等。TCMSP包括中国药典中的499种中药,共29384种成分,3311种靶点,837种相关疾病。药物靶点来自HIT数据库和预测算法SysDT,疾病信息来自TTD数据库和PharmGKB。这个数据库提供化合物的药代动力学信息,如药物相似性(DL)、口服生物利用度(OB)、人体肠吸收(HIA)、血脑屏障(BBB)、肠上皮通透性(Caco-2)、ALogP、FASA-和H-键供体/受体数量(Hdon/Hacc)。因此,使用者可以选择具有良好药物相似性和ADME(吸收、分布、代谢、排泄)特性的化合物,进行进一步的研究。

文献来源:Jinlong Ru; Peng Li; Jinan Wang; Wei Zhou; Bohui Li; Chao Huang; Pidong Li; Zihu Guo; Weiyang Tao; Yinfeng Yang; Xue Xu; Yan Li; Yonghua Wang; Ling Yang. TCMSP: a database of systems pharmacology for drug discovery from herbal medicines.J Cheminformatics. 2014 Apr 16;6(1):13.

2、TCMID

http://www.megabionet.org/tcmid/

TCMID提供有关中药复方、草药和草药化合物的信息,以及疾病和西药信息。这个数据库是通过集成以前的数据库和文本挖掘而构建的。其中,中药复方是通过文本挖掘收集的;中药是从TCM-ID数据库和文本挖掘获取的;中药成分是通过文本挖掘并结合其他中药数据库(包括TCM@Taiwan、TCM-ID和HIT)获得;疾病及其相关基因来自DrugBank和OMIM。

文献来源Xue R, Fang Z, Zhang M, Yi Z, Wen C, Shi T. TCMID: Traditional Chinese Medicine integrative database for herb molecular mechanism analysis. Nucleic Acids Res. 2013 Jan;41(Database issue):D1089-95. doi: 10.1093/nar/gks1100. Epub 2012 Nov 29.

3、TCM database@Taiwan

这个数据库是目前可供下载的最全面和最大的非商业性中医药数据库,提供的所有分子文件格式都可方便用于分子对接和分子动力学模拟。目前该数据库包含了来自352种不同草药、动物产品和矿物质的成分,这352种中药成分里面有37170种中药化合物。用户可根据化学名称、中药名称、分子性质和分子结构等不同标准进行检索。

文献来源:Chen CYC (2011) TCM Database@Taiwan: The World's Largest Traditional Chinese Medicine Database for Drug Screening In Silico. PLOS ONE 6(1): e15939. https://doi.org/10.1371/journal.pone.0015939

4、CancerHSP——系统药理学抗癌草药数据库

https://old.tcmsp-e.com/CancerHSP.php

CancerHSP包含2439种抗癌中草药,当中有3575种抗癌成分。这个数据库里面提供每种成分的分子结构以及9个重要的ADME参数信息,而且也提供了基于492种不同肿瘤细胞系的化合物抗癌活性。这里的832个化合物的靶标是用先进手段来预测或者从文献中收集的。所以CancerHSP数据库有助挖掘抗癌的天然产物的分子机制,也有助于抗癌药物的开发。

文献来源:Tao W, Li B, Gao S, Bai Y, Shar PA, Zhang W, Guo Z, Sun K, Fu Y, Huang C, Zheng C, Mu J, Pei T, Wang Y, Li Y, Wang Y. CancerHSP: anticancer herbs database of systems pharmacology. Sci Rep. 2015 Jun 15;5:11481. doi: 10.1038/srep11481.

5、NPACT

http://crdd.osdd.net/raghava/npact/

NPACT的全称是Naturally Occurring Plant-based Anti-Cancerous Compound-Activity-Target,它是一个人工注释的植物衍生化合物数据库,收集了从762篇论文中的具有抗癌活性的植物化合物。共含有对353个癌细胞系、284个癌症相关蛋白靶点具有作用的1574个化合物,以及1980个经实验验证的化合物-靶标相互作用。对于每种化合物,它提供了它的结构、性质、针对的癌症类型、细胞系、抑制值(IC50、ED50、EC50、GI50)、分子靶标、商业供应商、以及化合物的药物相似性的信息。

文献来源:Mangal M, Sagar P, Singh H, Raghava GP, Agarwal SM. NPACT: Naturally Occurring Plant-based Anti-cancer Compound-Activity-Target database. Nucleic Acids Res. 2013 Jan;41(Database issue):D1124-9. doi: 10.1093/nar/gks1047. Epub 2012 Nov 29.

6、Natural ProductActivity and Species Source / NPASS

http://bidd.group/NPASS/

NPASS提供了天然产物的物种来源和生物活性方面的详细信息。该数据库收录了35032种不同的天然产物(即化合物),它们来自25041个物种—其中植物16581种、细菌1675种、后生动物2503种、真菌2107种。数据库收录了这些化合物的靶标共5863个,其中2946个是蛋白靶标。它还包括其他种类的靶标,如有机体和细胞系。

文献来源:Zeng X, Zhang P, He W, Qin C, Chen S, Tao L, Wang Y, Tan Y, Gao D, Wang B, Chen Z, Chen W, Jiang YY, Chen YZ. NPASS: natural product activity and species source database for natural product research, discovery and tool development. Nucleic Acids Res. 2018 Jan 4;46(D1):D1217-D1222. doi: 10.1093/nar/gkx1026.

7、TCM-Mesh

TCM-Mesh数据库包含6200多种草药、38万以上化合物、14000以上个基因、6200多种疾病、14万以上基因与疾病的相互作用关系信息、344万对基因互作信息、16万以上副反应记录和71个毒性记录,有助在分子层面上了解中药的分子机制

文献来源:Zhang RZ, Yu SJ, Bai H, Ning K. TCM-Mesh: The database and analytical system for network pharmacology analysis for TCM preparations. Sci Rep. 2017 Jun 6;7(1):2821. doi: 10.1038/s41598-017-03039-7.

8、CHMIS-C

CHMIS-C,全称是A comprehensive herbal medicine information system for cancer,该数据库包含多余200种抗肿瘤草药配方、900种成分、8500个从草药里提取的有机小分子。而且基于web的搜索工具也集成到信息系统中,有助于更高效的数据挖掘。

文献来源:Fang X, Shao L, Zhang H, Wang S. CHMIS-C: a comprehensive herbal medicine information system for cancer. J Med Chem. 2005 Mar 10;48(5):1481-8. doi: 10.1021/jm049838d.

药物靶标数据库

1、TTD——Therapeutic Target Database

http://db.idrblab.net/ttd/

TTD数据库提供药物的主要靶标的相关信息,包含了这些信息:与靶标直接相互作用的蛋白、从专利和文献中检索到的专利治疗药物及其靶标、所有临床研究的COVID-19候选药物信息。

文献来源:Chen X, Ji ZL, Chen YZ. TTD: Therapeutic Target Database. Nucleic Acids Res. 2002 Jan 1;30(1):412-5. doi: 10.1093/nar/30.1.412.

2、DrugBank

DrugBank提供有关西药分子及其机制的全面信息—包括其化学、药理、ADME、相互作用信息以及靶标。第一版的DrugBank于2006年发布,它更新很勤。目前的DrugBank 5.0包含10971种药物和4900个蛋白质靶标的信息。这些药物包括2391种FDA批准的小分子药物、934种批准的生物制剂药物、109种保健品和5090多种实验药物。在中药药理研究中,西药的靶点信息可用于中药靶点的预测。此外,治疗同一疾病的西药可以作为中药的阳性对照。

文献来源:Wishart DS, Feunang YD, Guo AC, Lo EJ, Marcu A, Grant JR, Sajed T, Johnson D, Li C, Sayeeda Z, Assempour N, Iynkkaran I, Liu Y, Maciejewski A, Gale N, Wilson A, Chin L, Cummings R, Le D, Pon A, Knox C, Wilson M. DrugBank 5.0: a major update to the DrugBank database for 2018. Nucleic Acids Res. 2018 Jan 4;46(D1):D1074-D1082. doi: 10.1093/nar/gkx1037.

3、靶点与生物活性数据库ChEMBL

https://www.ebi.ac.uk/chembl/

ChEMBL数据库是欧洲生物信息研究所(European Bioinformatics Institute,EBI)开发的一个在线的免费数据库,它通过从大量文献中收集各种靶点及化合物的生物活性数据,为药物化学家们提供了一个非常便利的查询靶点或化合物的生物活性数据的平台。通过该数据库,用户可以快速查询到某个靶点目前以报道的化合物及其活性信息,也可以查询某个化合物在哪些靶点做个生物活性测试及其数据。这些数据都来源于各种已报道的文献,数据较为可靠,且能够溯源,查询到数据的出处。通过该数据库,用户可以节省大量查阅文献和收集化合物数据的时间,快速获取准确的化合物及其生物学数据,进一步加速药物设计和药物开发的速度。ChEMBL数据库的当前版本是2020年5月的第27版,包含了将近200万个不同化合物和13万个左右靶标。

文献来源:Gaulton A, Bellis LJ, Bento AP, Chambers J, Davies M, Hersey A, Light Y, McGlinchey S, Michalovich D, Al-Lazikani B, Overington JP. ChEMBL: a large-scale bioactivity database for drug discovery. Nucleic Acids Res. 2012 Jan;40(Database issue):D1100-7. doi: 10.1093/nar/gkr777. Epub 2011 Sep 23.

4、CVDSP——心血管疾病系统药理学数据库

https://old.tcmsp-e.com/cvdsp.php

CVDSP数据库提供了心血管药理学方面的信息,该数据库包含所有已知254种心血管药物、206种心血管治疗靶标、268个心血管疾病基因、98种心血管症状。而且,它可以互相地探索药物—靶标相互作用、基因—疾病关联和靶标—基因关系以及它们的派生网络,例如药物—药物和基因—基因网络。

文献来源:Li P, Fu Y, Ru J, Huang C, Du J, Zheng C, Chen X, Li P, Lu A, Yang L, Wang Y. Insights from systems pharmacology into cardiovascular drug discovery and therapy. BMC Syst Biol. 2014 Dec 24;8:141. doi: 10.1186/s12918-014-0141-z.

5、PreDC——Predict Drug Combination

https://old.tcmsp-e.com/predc.php

PreDC是一个预测和实验验证的药物组合数据库,收集了横跨951种药物的1571种已知药物组合,这些组合从这三个地方汇编而成:药物组合数据库DCDB、药物作用靶标数据库TTD和文献。这个数据库还包含8686个经分析后认为高可信度的预测药物。

文献来源:Peng Li, Chao Huang, Yingxue Fu, Jinan Wang, Ziyin Wu, Jinlong Ru, Chunli Zheng, Zihu Guo, Xuetong Chen, Wei Zhou, Wenjuan Zhang, Yan Li, Jianxin Chen, Aiping Lu, Yonghua Wang, Large-scale exploration and analysis of drug combinations, Bioinformatics, Volume 31, Issue 12, 15 June 2015, Pages 2007–2016,

6、PharmMapper

http://lilab-ecust.cn/pharmmapper/submitfile.html

PharmMapper是一个药效团匹配与潜在识别靶标在线平台,由华东理工大学开发和维护。PharmMapper服务器是免费访问的web服务器,用药效团映射方法设计的,用于识别已知探针小分子(药物、天然产物或其他新发现的靶标)的潜在靶标。PharmMapper具有高通量能力,可在数小时内从数据库内识别出潜在的候选靶标。PharmMapper服务器可存储和访问超过7000个基于受体的药效团模型信息,包括1627个药物靶点信息,其中459个人类蛋白靶点。

如果你想使用PharmMapper服务器,你可打开上面链接,进入当前页面后可上传分子文件。你提交的信息和分子结构是不公开的。

文献来源:Xiaofeng Liu, Sisheng Ouyang, Biao Yu, Yabo Liu, Kai Huang, Jiayu Gong, Siyuan Zheng, Zhihua Li, Honglin Li, Hualiang Jiang, PharmMapper server: a web server for potential drug target identification using pharmacophore mapping approach, Nucleic Acids Research, Volume 38, Issue suppl_2, 1 July 2010, Pages W609–W614,

7、潜在药物靶标库PDTD

http://www.dddc.ac.cn/pdtd/

PDTD数据库由中科院上海药物研究所与大连理工大学力学系合作开发,该数据库包含超过1100个蛋白条目。数据提取自文献和多个在线数据库(如TTD、DrugBank和Thomson Pharma)。PDTD数据库涵盖超过830种已知或潜在药物靶标的信息,包括PDB和mol2格式的蛋白和活性位点结构、相关疾病、生物学功能和相关信号调控通路,每个靶标根据疾病分类学和生化功能进行分类。PDTD支持关键词搜索功能,如用PDB ID、靶标名称和疾病名称进行搜索。在PDTD生成的数据集可轻易下载,并可用内嵌式分子可视化工具打开。

文献来源:Gao Z, Li H, Zhang H, Liu X, Kang L, Luo X, Zhu W, Chen K, Wang X, Jiang H. PDTD: a web-accessible protein database for drug target identification. BMC Bioinformatics. 2008 Feb 19;9:104.

8、Search Tool for Interacting Chemicals / STITCH

STITCH是一个化合物-蛋白相互作用的数据库,包含了已知的和预测的相互作用。当前版本涵盖了来自2031个物种的43万个小分子和9643763个蛋白之间的相互作用。STITCH与由同一团队开发的基因关联数据库STRING共享蛋白数据。STITCH收集的数据来自人工注释数据库—如DurgBank、GLIDA、Matador、TTD和CTD;通路数据库—如KEGG、PID、Reactome和BioCyc;以及实验结果数据库—如ChEMBL、PDSP Ki和PDB。数据库中的每个相互作用都分配了一个分值,以指示其相互作用的概率或结合亲和力。当通过数据库的web搜索一个化合物时,STITCH将列出它的相似化合物和相似性分数。此数据库也可用于化合物靶标预测。

文献来源:Szklarczyk D, Santos A, von Mering C, Jensen LJ, Bork P, Kuhn M. STITCH 5: augmenting protein-chemical interaction networks with tissue and affinity data. Nucleic Acids Res. 2016 Jan 4;44(D1):D380-4. doi: 10.1093/nar/gkv1277. Epub 2015 Nov 20.

化学数据库

1、CAS Scifinder

https://scifinder.cas.org/scifinder/login

SciFinder是由美国化学学会(ACS)旗下的化学文摘服务社(CAS)自主研发的,它的前身是CAS出版的《化学文摘》(简称CA)。CA是世界最大的化学文摘库,也是目前世界上应用最为广泛、最为重要的化学、化工及相关学科的检索工具。该数据库包含了药物的化学成分、结构、原文献和相关发表专利。

分子数据库

1、Pubchem

https://pubchem.ncbi.nlm.nih.gov/

Pubchem是有机小分子生物活性数据库,由NIH支持,NCBI负责维护。Pubchem数据库包含3个子数据库:Pubchem BioAssay库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献;Pubchem Compound库用于存储整理后的化合物化学结构信息;PubChem Substance 用于存储机构和个人上传的化合物原始数据。

2、Molecular Modeling Database (MMDB)

https://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml

MMDB是一个关于三维生物分子结构的数据库,中文名是分子模型数据库。分子结构来自于X射线晶体衍射和NMR色谱分析。MMDB来源于Brookhaven蛋白数据库PDB三维结构的一部分,排除了那些理论模型。MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。

文献来源:Chen J, Anderson JB, DeWeese-Scott C, Fedorova ND, Geer LY, He S, Hurwitz DI, Jackson JD, Jacobs AR, Lanczycki CJ, Liebert CA, Liu C, Madej T, Marchler-Bauer A, Marchler GH, Mazumder R, Nikolskaya AN, Rao BS, Panchenko AR, Shoemaker BA, Simonyan V, Song JS, Thiessen PA, Vasudevan S, Wang Y, Yamashita RA, Yin JJ, Bryant SH. MMDB: Entrez's 3D-structure database. Nucleic Acids Res. 2003 Jan 1;31(1):474-7.

3、Universal Protein Resource / UniProt

https://www.uniprot.org/

UniProt包含蛋白序列、功能信息、研究论文索引的蛋白数据库,整合了包括EBI(European Bioinformatics Institute)、SIB(Swiss Institute of Bioinformatics)、PIR(Protein Information Resource)的资源。

UniProt主要由这些子库构成:UniProtKB/Swiss-Prot(高质量、手工注释、非冗余的数据库);UniProtKB/TrEMBL(自动翻译蛋白序列、预测序列、未验证的数据库)、UniParc(非冗余蛋白序列数据库)、UniRef(聚类序列减小数据库,加快检索速度)、Proteomes(为全测序基因组物种提供蛋白组信息)。


 发表评论

暂时没有评论,来抢沙发吧~