开源的化学文献数据集
化学机器视觉
2023-10-16 11:07:44
0次
原标题:开源的化学文献数据集
以下一些开源的化学文献数据集:
- USPTO系列:这是一系列从美国专利数据库中自动提取的化学反应数据集,包括USPTO-50K, USPTO-MIT, USPTO-full等。这些数据集包含了反应物、产物、反应条件等信息,可以用于反应预测、合成规划等任务。
- Pistachio:这是一个由NextMove公司维护的化学反应数据集,也是基于美国专利数据库提取的,但是进行了更多的清洗和校验。这个数据集包含了超过200万条化学反应,可以用于反应分类、相似性搜索等任务 。
- ChemBL:这是一个由欧洲生物信息研究所(EMBL-EBI)提供的药物分子数据库,包含了超过200万种化合物和超过180万条生物活性数据。这个数据库可以用于药物发现、分子对接、生物标记等任务 。
- PubChem:这是一个由美国国家医学图书馆(NLM)提供的化学物质和生物信息数据库,包含了超过1亿种化合物和超过2.5亿条生物活性数据。这个数据库可以用于化合物鉴定、性质预测、毒理学分析等任务 。
相关内容