kk Blog —— 通用基础

MIMIC IV 3.0数据库

2024-09-14 09:37:00

https://blog.csdn.net/shx13141/article/details/137734949

7G多，解压后65G多，导入数据库占用空间快70G！

\i /var/www/mimic/mimiciv30/mimic-code-main/mimic-iv/buildmimic/postgres/create.sql

\i /var/www/mimic/mimiciv30/mimic-code-main/mimic-iv/buildmimic/postgres/load.sql

\i /var/www/mimic/mimiciv30/mimic-code-main/mimic-iv/buildmimic/postgres/constraint.sql

\i /var/www/mimic/mimiciv30/mimic-code-main/mimic-iv/buildmimic/postgres/index.sql

SET search_path TO mimiciv_derived, mimiciv_hosp, mimiciv_icu;
\d

https://blog.csdn.net/idata01/article/details/141034352

1.MIMIC IV 3.0数据库变化情况

2024年7月19日，知名医疗数据库MIMIC-IV发布了最新的3.0版本，此次更新为数据库带来了诸多重要改进和新增数据。此次更新最显著的变化是新增了2020年至2022年期间的住院数据。新增数据的具体情况如下：

患者数：从v2.2的299,712增加至364,627。

住院次数：从v2.2的431,231增加至546,028。

ICU停留次数：从v2.2的73,181增加至94,458。

此外，数据库中还包含了住院或急诊出院后最长1年的院外死亡率数据。这一改进将极大地提升研究人员对于患者长期预后的研究能力。（MIMIC-IV v3.0 重磅发布：新增2020-2022年住院数据及多项改进）

这里需要说明一点，经常有人说MIMIC 3、MIMIC 4等等名词，本身没有错，但是如果把MIMIC IV 3.0说成MIMIC 3是错误的表达，因为MIMIC 3实际指的是MIMIC iii。

2.MIMIC IV 3.0安装准备

首先需要到MIMIC的官方网站（https://physionet.org/content/mimiciv/3.0/%EF%BC%89%E4%B8%8B%E8%BD%BD%E5%8E%9F%E5%A7%8B%E6%95%B0%E6%8D%AE%E5%8C%85%EF%BC%8C%E5%8E%9F%E5%A7%8B%E6%95%B0%E6%8D%AE%E5%8C%85%E6%98%AFcsv.gz%E5%8E%8B%E7%BC%A9%E5%8C%85%EF%BC%8C%E5%A4%A7%E6%A6%829.8GB%E3%80%82%E5%A6%82%E6%9E%9C%E4%B9%8B%E5%89%8D%E5%B7%B2%E7%BB%8F%E6%9C%89MIMIC IV 2.2版本的权限，那么无需申请，可以直接下载。如果没有权限访问是无法下载的，需要进行申请。不过申请MIMIC数据库可不是件容易的事情，可以找专业人士帮忙协助，省时省力。

如果您的账号有权限那么可以直接通过浏览器下载，但由于国内网络条件情况以及9.8GB的数据包，下载过程很容易中断。这里需要说明的是任何有权限的人下载得到的数据库都是完全一样的，就是A医生下载的MIMIC IV 3.0和B医生下载的并没有区别，只要版本一样文件大小一样，那么就是一样的。

安装MIMIC IV 3.0数据库其实是不需要physionet网站访问权限，很多以为现申请后才能安装，其实不然。申请citiprogram和physionet权限，本质上是为了在发表论文时符合学术要求，因为MIMIC、eICU等数据库是受限访问和使用的，所以您发文章必须要证明您有资格使用这些数据进行研究，否则您的研究成功违反学术要求，会有很大的风险。所以才发论文之前必须要申请到citiprogram和physionet权限，需要特别说明的是仅仅有citiprogram权限是不符合要求的，因为citiprogram权限只是申请physionet权限的一个前置条件。目前国内很多人在这方面投机取巧，虽然文章也发表了，但是后患无穷。

3.MIMIC IV 3.0软件环境准备

MIMIC数据库的安装环境主要是Postgresql数据库软件和7z解压软件。官方建议把MIMIC IV数据库安装到Postgresql数据库，虽然国内目前也有人安装到SQL Server数据库，但是实在是非常非常小众，不建议这样做。否则到时拿到其他人代码来执行提取，都不能保证通用。毕竟全世界国内外大都是用Postgresql来安装的。对于广大医学生和医务工作者来说，安装MIMIC也是一件痛苦的事情，平时看书、做实验、上班、做手术已经够累了，对计算机技术方面还要深入学习的话就难上加累，因此建议可以找专人人士来安装，一般Windows电脑安装10多分钟安装好，自己折腾要几个小时甚至几天都搞不定。

4.MIMIC IV 3.0导入数据方法

目前MIMIC的code还没有更新，在安装MIMIC IV 3.0的时候会直接报错，也不知道官方何时能够更新。这些报错对于懂数据库的人来说很简单，但是对于没搞过这方面的人简直是噩梦，一头雾水，因此建议可以找专人人士（idata01）来安装。

另外就是构建concept（即视图、衍生表、派生表的概念）也是十分费事，官方其实没有说的很明确，导致有些人把concept生成到Public表，有些人生成到mimiciv_derived的表。其实concept是用来生成派生或者衍生数据的代码，它是从hosp和ICU模块通过官方提供的代码提取出来的数据，可以直接理解为官方给大家提前提取的数据，方便研究人员进行参考和开展研究。国外会把concept数据生成到实体化视图（物化视图）中，而不是表，而国内很多MIMIC培训班讲师大都说这样做不对，认为安装到表才对，我认为这里其实是很大的误区。从技术上讲太深可能很难理解，但是实体化视图（物化视图）其实是一直更优的做法，视图可以通过简单的代码就能够自动或手动更新数据，而表不行，假设对Hosp和ICU数据进行了清洗处理，那么对应的视图可以快速进行自动或者手动更新。

5.MIMIC IV 3.0提取数据

提取数据是大家安装MIMIC IV 3.0数据库的终极需求，这里我给大家一点建议。我看很多人还是使用pgadmin来提取数据，我知道造成情况的原因是视频教程里用了pgadmin来做演示数据提取，但是实际上这个pgadmin使用体验上比较槽糕，界面也不太友好。我建议大家使用Navicat来提取，Navicat是一款商业数据库可视化工具，目前个人版已经免费了，旗舰版也有很多方法可以使用。Navicat在界面友好，代码运行性能，操作功能等等方面都值得大家去用。当然无论是用pgadmin还是Navicat，SQL代码是通用的，不会因为使用的SQL工具不一样，代码就会不同。

关于提取代码的备份问题：如果用SQL提取数据，我建议大家写SQL的时候要注意备份好代码。有些人会把SQL保存在查询的对话里，虽然这是一种便利的操作，但是容易丢失无法恢复，千五别把自己辛苦研究的代码交给一个软件去给你保管。无论是SQL代码、R代码、python代码，我们建议都进行备份，例如备份到有道云笔记、OneNote或者邮箱等云产品中，这样的话即使电脑坏掉了或者被偷了，自己也能够找回来代码。

6.MIMIC IV 3.0安装总结

MIMIC IV 3.0数据库安装方法或者思路如上，其实和MIMIC IV 2.2没有区别。常规的安装方法，会安装且电脑也比较快的话一般需要2-4小时，慢的也有七八小时的情况。idata01全网首创了一种极速安装技术，安装好的数据和官网是完全一样的，但是安装时间只需要10-20分钟，极大的节省了科研人员的时间。

https://baijiahao.baidu.com/s?id=1782794027321717654&wfr=spider&for=pc

三、HOSP

admissions.csv：患者入院记录数据，包含有关患者入院的信息，如入院时间、出院时间、诊断等。

    subject_id：患者的唯一标识符。

    hadm_id：每次住院的唯一标识符。

    admittime：入院时间，表示患者被接收为住院患者的日期和时间。

    dischtime：出院时间，表示患者从医院出院的日期和时间。

    deathtime：死亡时间，如果患者在医院内死亡，则记录死亡日期和时间。

    admission_type：入院类型，示患者被接收到医院的方式，如急诊、计划手术等。

    admit_provider_id：接收患者的医生或提供护理的医疗专业人员的唯一标识符。

    admission_location：入院地点，表示患者被接收到医院的具体位置，如急诊室。

    discharge_location：出院地点，表示患者离开医院后的具体位置，如家庭、养老院等。

    insurance：患者的医疗保险类型，如医保、商业保险等。

    language：患者的语言。

    marital_status：患者的婚姻状况。

    race：患者的种族或民族。

    edregtime：急诊室接收时间，表示患者进入急诊室的日期和时间。

    edouttime：急诊室出院时间，表示患者离开急诊室的日期和时间。

    hospital_expire_flag：住院期间是否死亡的标志，1表示患者在住院期间死亡，0表示未死亡。

drgcodes.csv：诊断相关组（Diagnosis Related Group）代码数据，用于医疗费用计算和统计分析。

    subject_id：患者的唯一标识符。

    hadm_id：每次住院的唯一标识符。

    drg_type：诊断相关组（Diagnosis Related Group，简称DRG）的类型。DRG是根据患者入院诊断、手术情况、年龄、性别等因素进行分类的一种方法，用于决定医院住院费用的支付。

    drg_code：诊断相关组代码，用于标识具体的DRG类别。

    description：诊断相关组的描述，提供对DRG类别的文字说明。

    drg_severity：诊断相关组的严重程度。通常使用数字表示，较高的数字表示更严重的疾病或手术。

    drg_mortality：诊断相关组的死亡率指数。通常使用数字表示，较高的数字表示更高的死亡风险。

emar_detail.csv：电子药物管理记录详细数据，包含关于患者药物治疗的详细信息。

    subject_id：患者的唯一标识符。

    emar_id：电子药物管理记录的唯一标识符。

    emar_seq：电子药物管理记录的顺序号。

    parent_field_ordinal：父字段顺序号，用于标识具有父-子关系的字段之间的层次结构。

    administration_type：给药类型，指示药物给予的方式，如口服、静脉注射等。

    pharmacy_id：药房的唯一标识符。

    barcode_type：条形码类型，用于扫描和识别药物。

    reason_for_no_barcode：未使用条形码的原因。

    complete_dose_not_given：完整剂量是否已给予的标志。

    dose_due：应给剂量的数量。

    dose_due_unit：应给剂量的单位。

    dose_given：实际给予剂量的数量。

    dose_given_unit：实际给予剂量的单位。

    will_remainder_of_dose_be_given：剩余剂量是否会继续给予的标志。

    product_amount_given：实际给予的产品（药物）数量。

    product_unit：产品（药物）数量的单位。

    product_code：产品（药物）的代码。

    product_description：产品（药物）的描述。

    product_description_other：产品（药物）的其他描述。

    prior_infusion_rate：之前的输液速率。

    infusion_rate：当前的输液速率。

    infusion_rate_adjustment：输液速率调整方式。

    infusion_rate_adjustment_amount：输液速率调整量。

    infusion_rate_unit：输液速率的单位。

    route：给药途径/路径。

    infusion_complete：输液是否完成的标志。

    completion_interval：完成间隔时间。

    new_iv_bag_hung：是否换了新的输液袋。

    continued_infusion_in_other_location：输液是否在其他位置继续进行的标志。

    restart_interval：重新开始输液的间隔时间。

    side：给药侧面。

    site：给药部位。

    non_formulary_visual_verification：非法定目视核对的标志。

microbiologyevents.csv：微生物学检测事件数据，记

    microevent_id：微生物学事件的唯一标识符。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    micro_specimen_id：微生物标本的唯一标识符。

    order_provider_id：开单医生的唯一标识符。

    chartdate：记录日期。

    charttime：记录时间。

    spec_itemid：标本项目的唯一标识符。

    spec_type_desc：标本类型的描述。

    test_seq：测试顺序号。

    storedate：存储日期，指标本的收集或储存日期。

    storetime：存储时间，指标本的收集或储存时间。

    test_itemid：测试项目的唯一标识符。

    test_name：测试项目的名称。

    org_itemid：微生物组织的唯一标识符。

    org_name：微生物组织的名称。

    isolate_num：分离编号，指不同微生物分离的编号。

    quantity：数量，表示微生物的数量。

    ab_itemid：抗生素项目的唯一标识符。

    ab_name：抗生素的名称。

    dilution_text：稀释文本，用于描述抗生素的稀释程度。

    dilution_comparison：稀释比较，用于比较抗生素的稀释程度。

    dilution_value：稀释值，表示抗生素的稀释倍数。

    interpretation：解释，表示对测试结果的解释或诊断。

    comments：备注，用于记录其他相关信息。

poe.csv：医嘱输入数据，记录了医生对患者的医嘱，如药物、检查等。

    poe_seq: 医嘱序列号，指医嘱在医嘱组中的序列号。

    poe_id: 医嘱唯一标识符，表示医嘱的唯一ID。

    subject_id: 患者的唯一标识符。

    hadm_id: 入院号，表示患者的住院标识符。

    ordertime: 医嘱时间，指医嘱被下达的时间。

    order_type: 医嘱类型，表示医嘱的类型。

    order_subtype: 医嘱子类型，表示医嘱的子类型。

    transaction_type: 交易类型，指与医嘱相关的交易类型。

    discontinue_of_poe_id: 终止医嘱的医嘱ID，表示终止医嘱所属的原始医嘱ID。

    discontinued_by_poe_id: 终止医嘱的医嘱ID，表示执行终止操作的医嘱ID。

    order_provider_id: 医嘱提供者标识符，表示下达医嘱的提供者。

    order_status: 医嘱状态，表示医嘱的当前状态。

prescriptions.csv：处方数据，记录了对患者开具的处方药物信息。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    pharmacy_id：药房的唯一标识符。

    poe_id：医嘱输入/录入（Prescription Order Entry）的唯一标识符。

    poe_seq：医嘱输入/录入的顺序号。

    order_provider_id：开单医生的唯一标识符。

    starttime：药物使用的开始时间。

    stoptime：药物使用的停止时间。

    drug_type：药物类型，如处方药、非处方药等。

    drug：药物的名称。

    formulary_drug_cd：药物在药物目录中的代码。

    gsn：全球服务网络码（Global Service Network Code），用于标识药物。

    ndc：国家药物编码（National Drug Code），用于唯一标识药物。

    prod_strength：药物的剂量强度。

    form_rx：处方剂型，表示药物的制剂形式。

    dose_val_rx：处方剂量的数值。

    dose_unit_rx：处方剂量的单位。

    form_val_disp：实际发放的剂量的数值。

    form_unit_disp：实际发放的剂量的单位。

    doses_per_24_hrs：每24小时给药的次数。

    route：给药途径/路径。

services.csv：医疗服务数据，记录了患者接受的医疗服务，如手术、检查等。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    transfertime：转诊时间，指患者从一个服务部门转到另一个服务部门的时间。

    prev_service：之前的服务部门，指患者转诊前所在的服务部门。

    curr_service：当前的服务部门，指患者转诊后所在的服务部门。

diagnoses_icd.csv：ICD诊断码数据，记录了与患者诊断相关的国际疾病分类（ICD）编码和描述。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    seq_num：诊断顺序号，表示该诊断在所有诊断中的顺序。

    icd_code：诊断编码，指诊断的疾病或症状在国际疾病分类（ICD）中的编码。

    icd_version：ICD版本，指使用的ICD编码标准版本号。

emar.csv：电子药物管理记录数据，与emar_detail.csv相似，可能包含更高层次的概要信息。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    emar_id：电子药物管理记录的唯一标识符。

    emar_seq：电子药物管理记录的顺序号。

    poe_id：医嘱输入/录入（Prescription Order Entry）的唯一标识符。

    pharmacy_id：药房的唯一标识符。

    enter_provider_id：录入提供者的唯一标识符。

    charttime：记录时间，指药物管理记录的时间。

    medication：药物名称。

    event_txt：事件描述，指药物管理的具体情况。

    scheduletime：计划时间，指计划给药的时间。

    storetime：存储时间，指药物管理记录被存储的时间。

labevents.csv：实验室检测事件数据，记录了与患者实验室检测结果相关的信息，如检测时间、检验指标、结果值等。

    labevent_id：实验室检查记录的唯一标识符。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    specimen_id：样本的唯一标识符。

    itemid：检查项目的唯一标识符。

    order_provider_id：检查申请提供者的唯一标识符。

    charttime：记录时间，指实验室检查记录的时间。

    storetime：存储时间，指实验室检查记录被存储的时间。

    value：检查结果值。

    valuenum：检查结果数值。

    valueuom：检查结果单位。

    ref_range_lower：参考范围下限。

    ref_range_upper：参考范围上限。

    flag：检查结果标记，指示该结果是否异常。

    priority：检查优先级。

    comments：注释，包含有关实验室检查结果的其他信息

pharmacy.csv：药房数据，可能包含有关药品配送、管理和库存方面的信息。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    pharmacy_id：药房的唯一标识符。

    poe_id：医嘱输入/录入（Prescription Order Entry）的唯一标识符。

    starttime：开药时间，指医生开始发药的时间。

    stoptime：停药时间，指医生停止发药的时间。

    medication：药物名称。

    proc_type：处理类型，指医生的处理方式。

    status：状态，指药物发放/管理员授权的状态。

    entertime：进入时间，指药物进入药房的时间。

    verifiedtime：验证时间，指验证药物信息的时间。

    route：给药途径，指药物的给药方式。

    frequency：给药频率，指药物的给药频率。

    disp_sched：分配计划，指药物的分配计划。

    infusion_type：静脉注射类型，指静脉注射药物的类型。

    sliding_scale：滑动比例，指血糖和胰岛素之间的滑动比例。

    lockout_interval：锁定间隔，指注射药物的锁定时间间隔。

    basal_rate：基础速率，指注射药物的基础速率。

    one_hr_max：一小时最大值，指药物的一小时最大剂量。

    doses_per_24_hrs：每24小时次数，指药物的每24小时的使用次数。

    duration：持续时间，指药物的持续使用时间。

    duration_interval：持续时间间隔，指药物的持续使用时间间隔。

    expiration_value：过期时间值，指药物过期时间的值。

    expiration_unit：过期时间单位，指药物过期时间的单位。

    expirationdate：过期日期，指药物的过期日期。

    dispensation：配药，指药房完成配药的记录。

    fill_quantity：填充数量，指药房填充药物的数量。

poe_detail.csv：医嘱输入详细数据，可能包含更详细的医嘱信息，如剂量、频率等：其中包含字段

    poe_id：医嘱事件的唯一标识符。

    poe_seq：医嘱事件在患者住院期间的顺序号，按时间排序。

    subject_id：患者的唯一标识符。

    field_name：医嘱属性的名称，如药品名称、剂量、给药路径等。

    field_value：医嘱属性的值，如药品的具体名称、剂量数值、给药路径描述等。

procedures_icd.csv：ICD手术/过程码数据，记录了与患者手术或医疗过程相关的ICD编码和描述。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    seq_num：诊断序号，指该诊断在该患者所有诊断中的序号。

    chartdate：记录时间，指诊断记录的时间。

    icd_code：ICD编码，指诊断类别编码。

    icd_version：ICD版本，指使用的ICD版本。

transfers.csv：患者转院记录数据，包含有关患者转院的信息，如转出科室、转入科室等。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，指患者的住院标识符。

    transfer_id：转归ID，指该转归记录在该患者所有转归中的序号。

    eventtype：事件类型，指该转归是入住、转科、出院还是其他事件。

    careunit：病房名称，指患者所在病房的名称。

    intime：入住时间，指患者入住病房的时间。

    outtime：出院时间，指患者出院的时间。

四、ICU

ICU 模块包含来自 BIDMC 临床信息系统的数据: MetaVision (iMDSoft)。MetaVision 表被反规范化，以创建一个星型模式，其中 icustays 和 d _ item 表链接到一组数据表，所有表的后缀都是“ events”。ICU 模块中记录的数据包括静脉和液体输入(输入事件) ，上述输入的成分(成分事件) ，患者输出(输出事件) ，程序(程序事件) ，记录为日期或时间的信息(日期时间事件)和其他图表信息(图表事件)。所有事件表都包含 stay _ id 列，允许标识 ICUU 中的相关患者，以及一个 itemid 列，允许标识 d _ item 中记录的概念。此外，护理人员表包含 caregiver _ id，这是一个未标识的整数，表示将数据记录到系统中的护理提供者。所有事件表(chartevents、 (chartevents, datetimeevents, ingredientevents, inputevents,outputevents, procedureevents都有一个 caregiver _ id 列，该列链接到 caregiver 表。

datetimeevents.csv：该文件记录了与日期和时间相关的事件，例如护理措施、检查和药物管理等。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，表示患者的住院标识符。

    stay_id：留观号，指患者在医院中的留观期间的唯一标识符。

    caregiver_id：护理人员标识符，表示执行该记录的护理人员。

    charttime：记录时间，指事件发生的时间。

    storetime：存储时间，表示记录被存储的时间。

    itemid：项目ID，指记录的特定项目或测量。

    value：数值，表示与该项目相关的测量值。

    valueuom：数值单位，表示测量值的单位。

    warning：警告标志，表示是否存在与该记录相关的警告。

icustays.csv：该文件记录了患者在重症监护室（ICU）的留观信息。

    subject_id：患者的唯一标识符。

    hadm_id：入院号，表示患者的住院标识符。

    stay_id：留观号，指患者在医院中的留观期间的唯一标识符。

    first_careunit：首次护理单元，表示患者在住院期间所在的第一个护理单元。

    last_careunit：最后护理单元，表示患者在住院期间所在的最后一个护理单元。

    intime：入院时间，指患者入院的时间。

    outtime：出院时间，表示患者出院的时间。

    los：住院天数，表示患者在医院中的住院天数。

ingredientevents.csv：包含有关药物成分的数据，可能包括使用的药物成分、剂量、途径和给药时间等相关信息。

    subject_id: 患者的唯一标识符。

    hadm_id: 入院号，表示患者的住院标识符。

    stay_id: 留观号，指患者在医院中的留观期间的唯一标识符。

    caregiver_id: 护理人员标识符，表示执行该记录的护理人员。

    starttime: 开始时间，指记录事件或处理开始的时间。

    endtime: 结束时间，表示记录事件或处理结束的时间。

    storetime: 存储时间，表示记录被存储的时间。

    itemid: 项目ID，指记录的特定项目或测量。

    amount: 数量，表示与该项目相关的数值量。

    amountuom: 数量单位，表示数值的单位。

    rate: 速率，指与该项目相关的速率值。

    rateuom: 速率单位，表示速率的单位。

    orderid: 医嘱ID，表示与记录相关联的医嘱标识符。

    linkorderid: 链接医嘱ID，指连接到当前记录的其他医嘱的标识符。

    statusdescription: 状态描述，表示记录的状态描述。

    originalamount: 原始数量，表示原始数值量。

    originalrate: 原始速率，指原始速率值。

inputevents.csv：包含有关液体或药物输入的数据，如给药途径、剂量、速率、开始时间和结束时间等相关信息。

    subject_id: 患者的唯一标识符。

    hadm_id: 入院号，表示患者的住院标识符。

    stay_id: 留观号，指患者在医院中的留观期间的唯一标识符。

    caregiver_id: 护理人员标识符，表示执行该记录的护理人员。

    starttime: 开始时间，指记录事件或处理开始的时间。

    endtime: 结束时间，表示记录事件或处理结束的时间。

    storetime: 存储时间，表示记录被存储的时间。

    itemid: 项目ID，指记录的特定项目或测量。

    amount: 数量，表示与该项目相关的数值量。

    amountuom: 数量单位，表示数值的单位。

    rate: 速率，指与该项目相关的速率值。

    rateuom: 速率单位，表示速率的单位。

    orderid: 医嘱ID，表示与记录相关联的医嘱标识符。

    linkorderid: 链接医嘱ID，指连接到当前记录的其他医嘱的标识符。

    ordercategoryname: 医嘱类别名称，表示医嘱的类别名称。

    secondaryordercategoryname: 辅助医嘱类别名称，指医嘱的辅助类别名称。

    ordercomponenttypedescription: 医嘱组件类型描述，表示医嘱组件的类型描述。

    ordercategorydescription: 医嘱类别描述，表示医嘱的类别描述。

    patientweight: 患者体重，表示患者的体重值。

    totalamount: 总数量，表示与该项目相关的总数量。

    totalamountuom: 总数量单位，表示总数量的单位。

    isopenbag: 是否为开袋状态，指示医嘱是否处于开袋状态。

    continueinnextdept: 是否延续至下一科室，指示医嘱是否需要延续至下一个科室。

    statusdescription: 状态描述，表示记录的状态描述。

    originalamount: 原始数量，表示原始数值量。

    originalrate: 原始速率，指原始速率值。

outputevents.csv：包含有关液体或药物输出的数据，如排尿量、引流量等相关信息。

    subject_id: 患者的唯一标识符。

    hadm_id: 入院号，表示患者的住院标识符。

    stay_id: 留观号，指患者在医院中的留观期间的唯一标识符。

    caregiver_id: 护理人员标识符，表示执行该记录的护理人员。

    charttime: 图表时间，指记录事件或测量的时间。

    storetime: 存储时间，表示记录被存储的时间。

    itemid: 项目ID，指记录的特定项目或测量。

    value: 值，表示与该项目相关的数值。

    valueuom: 值的单位，表示数值的单位。

procedureevents.csv：包含有关医疗过程或手术的数据，如手术类型、开始时间和结束时间等相关信息。

    subject_id: 患者的唯一标识符。

    hadm_id: 入院号，表示患者的住院标识符。

    stay_id: 留观号，指患者在医院中的留观期间的唯一标识符。

    caregiver_id: 护理人员标识符，表示执行该记录的护理人员。

    starttime: 开始时间，指记录事件或处理开始的时间。

    endtime: 结束时间，表示记录事件或处理结束的时间。

    storetime: 存储时间，表示记录被存储的时间。

    itemid: 项目ID，指记录的特定项目或测量。

    value: 值，表示与该项目相关的数值。

    valueuom: 值的单位，表示数值的单位。

    location: 位置，指记录事件或处理发生的位置。

    locationcategory: 位置类别，表示位置的类别。

    orderid: 医嘱ID，表示与记录相关联的医嘱标识符。

    linkorderid: 链接医嘱ID，指连接到当前记录的其他医嘱的标识符。

    ordercategoryname: 医嘱类别名称，表示医嘱的类别名称。

    ordercategorydescription: 医嘱类别描述，表示医嘱的类别描述。

    patientweight: 患者体重，表示患者的体重值。

    isopenbag: 是否为开袋状态，指示医嘱是否处于开袋状态。

    continueinnextdept: 是否延续至下一科室，指示医嘱是否需要延续至下一个科室。

    statusdescription: 状态描述，表示记录的状态描述。

    originalamount: 原始数量，表示原始数值量。

    originalrate: 原始速率，指原始速率值。

https://www.sohu.com/a/440575509_664421

https://www.sohu.com/a/449026575_664421

MIMIC III v1.4 数据简介

2024-09-14 08:59:00

https://blog.csdn.net/weixin_59734569/article/details/131074344

MIMIC-III 临床数据集V1.4简介

数据库介绍

MIMIC-III(重症监护医学信息市场)是一个大型的单中心数据库，其中包含与大型三级护理医院重症监护病房收治的患者有关的信息

数据包括生命体征，药物，实验室测量值，医嘱，手术代码，诊断代码，影像报告，住院时间，生存数据等

MIMIC-III包含与2001年至2012年之间进入重症监护病房的成年患者(16岁或以上）的53,423例不同的医院入院相关的数据以及2001年至2008年之间收治的7870名新生儿的数据

数据集中一共包括26个数据表，除了字典表（D_开头）以外，表之间通过患者编号（SUBJECT_ID）、病案号（HADM_ID）、和ICU编号（ICUSTAY_ID）连接

按照数据格式，患者数据可以被划分为结构化数据（实验室测量、生命体征等）和非结构化数据（医嘱信息等）

一个患者对应一个subject_id,但是可能多次入院,有多个hadm_id,一次入院可能有多次进入ICU,即一个hadm_id可能对应多个icustay_id

通常采用一个hadm_id对应的第一个icustay_id开展相关的研究

字典表用于某个项的查询,举例如下:

比如查询某个患者的白细胞的数据(在LABEVENTS表中),首先需要找到患者对应的三个ID,然后在实验室检查编码(d_labitems)中找到白细胞的item_id,然后再去LABEVENTS表中查找

官方数据说明

MIMIC-III 是一个包含 26 个表的关系数据库。表由通常带有后缀'ID'的标识符链接。例如，SUBJECT_ID 指的是唯一的患者，HADM_ID 指的是唯一的医院入院，ICUSTAY_ID 指的是唯一的重症监护病房入院。

记录、实验室测试和体液平衡等图表事件存储在一系列'events'表中。例如，OUTPUTEVENTS 表包含与给定患者的输出相关的所有测量值，而 LABEVENTS 表包含患者的实验室测试结果。

以D_为前缀的表是字典表，并提供标识符的定义。例如，CHARTEVENTS 的每一行都与一个 ITEMID 相关联，它表示测量的概念，但它不包含测量的实际名称。通过在 ITEMID 上连接 CHARTEVENTS 和 D_ITEMS，可以识别给定 ITEMID 所代表的概念。

开发 MIMIC 数据模型涉及平衡解释的简单性和与基本事实的接近程度。因此，该模型反映了基础数据源，根据用户反馈对 MIMIC 数据库的迭代进行了修改。在进行转换时已注意避免对基础数据做出假设，因此 MIMIC-III 密切代表原始医院数据。

从广义上讲，有五个表格用于定义和跟踪患者住院时间：

ADMISSIONS；（入院）

PATIENTS; （患者）

ICUSTAYS；（ICU）

SERVICES; （服务）

TRANSFERS. （转移）

另外五个表是对照各自定义交叉引用代码的字典：

D_CPT；

D_ICD_DIAGNOSES；

D_ICD_PROCEDURES；

D_ITEMS；

D_LABITEMS.

其余表包含与患者护理相关的数据，例如生理测量、护理人员观察和账单信息。

在某些情况下，可以合并表——例如，D_ICD_PROCEDURES 和 CPTEVENTS 表都包含与程序相关的详细信息并且可以合并——但我们的方法是为了清楚起见保持表独立，因为数据源明显不同。我们建议研究人员开发适当的数据库视图和转换，而不是在 MIMIC 数据模型中组合表格。

全部26张表的详细信息

患者人口学信息以及院内周转信息（6张）

表名	简介	特征/属性	行列数	文件大小
ADMISSIONS	患者入院情况	行号、患者编号、病案号、入院时间、出院时间、死亡时间、入院类型、入院地点、出院目的地、保险类型、语种、宗教信仰、婚姻状况、种族、急诊留观登记时间、急诊留观出观时间、初步诊断、院内死亡标记、是否有charievents记录	58,976*19	12.5MB
CALLOUT	患者ICU出科时的即时信息	行号、患者编号、病案号、提交出科申请的科室代码、目标科室代码、出科申请结果、患者需接受的治疗服务、出科且期、出科时是否感染了MRSA等	34,499*24	6.34MB
ICUSTAYS	ICU入住信息	行号、患者编号、病案号、ICU病案号、数据源、患者入住监护室24小时内的首个和最终监护室类别、入住首个和末次监护室代码、入科出科时间、住院时长	61,532*12	6.36MB
PATIENTS	患者信息	行号、患者编号、性别、出生日期、死亡日期、院内登记死亡日期、社保局登记死亡日期、死亡标记种类	46,520*8	2.63MB
SERVICES	患者需要接受的医疗服务	行号、患者编号、病案号、服务种类更改时间、前次服务种类、当前服务	73,343*6	3.48MB
TRANSFERS	患者周转信息	行号、患者编号、病案号、ICU病案号、数据源、周转项目、前次和当前所在监护室类型、前次和当前所在科室代码、入科出科时间、住院时长	261,897*13	25.1MB

患者在监护室住院期间采集的各类信息（8张）

表名	简介	特征/属性	行列数	文件大小
CAREGIVERS	护理人员信息	行号、护理人员标志符、头衔缩穿、类别	7,567*4	203KB
CHARTEVENTS	患者观察记录数据	行号、患者编号、病案号、ICU病案号、项目标志符、记录时间、存储时间、护理人员标志符、项目值等	330,712,483*15	35.5GB
DATETIMEEVENTS	患者操作时间信息	行号、患者编号、病案号、ICU病案号、项目标志符、记录时间、存储时间、护理人员标志符、项目对应时间	4,485,937*14	526MB
INPUTEVENTS_CV	使用CareVue监护系统记录的入量信息	行号、患者编号、病案号、ICU病案号、记录时间、项目标志符、前次纪录至今总入量、护理人员标志符、给药速率、给药途径、给药部位药品组合标志符、药品组合总量	17,527,935*22	2.46GB
INPUTEVENTS_MV	iMDSoftMetavision系统入量数据	行号、患者编号、病案号、ICU病案号、出入量活动开始结束时间、项目标志符、总入量、入量单位、药品组合标志符、药品一级分类名、药品类型、液体总量、出科后是否续药、输液状态等	3,618,991*31	975MB
NOTEEVENTS	治疗记录	行号、患者编号、病案号、记录时间、记录类别、护理人员标志符、医嘱具体内容	2,083,180*11	4.01GB
OUTPUTEVENTS	患者出量信息	行号、患者编号、病案号、ICU病案号、记录时间,项目标志符、液体出量、护理人员标志符、输液是否中断、新液体准备状态	4,349,218*13	396MB
PROCEDUREEVENTS_MV	Metavision系统的操作信息	行号、患者编号、病案号、ICU病案号、操作或手术开始结束时间、项目标志符、项目值、数据上传时间、护理人员标志符、药品组合标志符、药品一级分类名、药品类型、医嘱状态	258,066*25	48.8MB

医院记录系统采集的各类信息（7张）

表名	简介	特征/属性	行列数	文件大小
CPTEVENTS	患者操作记录	行号、患者编码、病案号、记录时间、操作编码、部门	573,146*12	58.2MB
DIAGNOSES_ICD	患者诊断ICD-9编码	行号、患者编号、病案号、ICD9编码	651,047*5	19.1MB
DRGCODES	患者诊断类别组	行号、患者编号、病案号、诊断类别、诊断编码	125,557*8	10.5MB
LABEVENTS	患者化验项目	行号、患者编号、病案号、项目标志符、记录时间、项目值	27,854,055*9	1.85GB
MICROBIOLOGYEVENTS	病人标本微生物病原体检测结界	行号、患者编号、病案号、记录时间、化验项目标志符、化验类型、化验微生物、是否隔离	631,726*16	72.5MB
PRESCRIPTIONS	病人用药记录	行号、患者编号、病案号、ICU病案号、用药开始结束时间、药物类型、药物名称、剂量，用药途径、处方药代码、药物gsn	4,156,450*19	770MB
PROCEDURES_ICD	病人手术记录ICD-9编码	行号、患者编号、病案号、ICD9编码	240,095*5	6.8MB

字典信息（5张）

表名	简介	特征/属性	行列数	文件大小
D_CPT	操作记录代码索引	细分成多个category，包括每个子部分的代号及范围	134*9	13.8KB
D_ICD_DIAGNOSES	诊断代码索引	行号、ICD9编码、缩写、全称	14,567*4	1.39MB
D_ICD_PROCEDURES	手术操作代码索引	行号、ICD9编码、缩写、全称	3,882*4	311KB
D_ITEMS	记录项目代码索引	行号、项目标志符、项目标签、数据来源	12,487*10	954KB
D_LABITEMS	化验项目代码索引	行号、项目标志符、项目标签、化验类型	753*6	43.1KB

全部26张表总结

1、ADMISSIONS患者入院情况，包括每个患者的入院代码、患者标识码、人口统计学资料等

2、CALLOUT患者准备从ICU出科时的即时信息,包括具体ICU科室、病床号、出科日期等

3、CAREGIVERS监护提供人员，是医生、护士还是社工等

4、CHARTEVENTS患者的呼吸机设定、神志状态，患者入院期间的大多数信息都在这个大表里

5、CPTEVENTS患者操作记录

6、D_CPTCPT操作记录代码索引

7、D_ICD_DIAGNOSESICD-9诊断代码索引

8、D_ICD_PROCEDURESICD-9手术操作代码索引

9、D_ITEMS记录项目代码索引，如代码211就是用来表示心率的

10、D_LABITEMS化验项目代码索引，如50820表示血气化验里的pH

11、DATETIMEEVENTS各项操作日期信息

12、DIAGNOSES_ICD患者诊断ICD-9码

13、DRGCODES患者诊断类别组

14、ICUSTAYSICU出入科时间

15、INPUTEVENTS_CV使用CareVue监护系统记录的入量信息

16、INPUTEVENTS_MV使用Metavision监护系统记录的入量信息

17、OUTPUTEVENTS患者出量信息

18、LABEVENTS患者化验项目结果

19、MICROBIOLOGYEVENTS患者标本微生物病原体检测结果

20、NOTEEVENTS病程及出院录记录信息

21、PATIENTS患者出生及死亡信息

22、PRESCRIPTIONS患者用药记录

23、PROCEDUREEVENTS_MV患者手术记录

24、PROCEDURES ICD患者手术记录ICD-9码

25、SERVICES患者在院期间接受专科服务信息

26、TRANSFERS患者在院期间所有床位信息

https://cloud.tencent.com/developer/article/1913701

文章目录

1. 概述
2. 字典信息辅助表
    D_CPT（目前使用医疗服务术语表）
    D_ICD_DIAGNOSES （ICD病情确诊词典表）
    D_ICD_PROCEDURES （ICD医疗过程词典表）
    D_ITEMS（ＩＣＵ化验词典表）
    D_LABITEMS（门诊化验词典表）
3. 病人基本信息及转移信息表
    PATIENTS（病人登记表）
    ADMISSIONS（住院表）
    CALLOUT（出院表）
    ICUSTAYS（ICU记录表）
    TRANSFERS（病房转移表）
    SERVICES（服务表）
4. 病人医院门诊治疗的相关信息表
    CPTEVENTS（当前使用医疗服务记录表）
    DIAGNOSES_ICD（诊断信息表）
    DRGCODES（诊断相关组编码表）
    LABEVENTS（门诊检查记录表）
    MICROBIOLOGYEVENTS（微生物检测记录表）
    PRESCRIPTIONS（处方信息表）
5. 病人在ICU里的治疗相关信息表
    CAREGIVERS（医务人员信息表）
    CHARTEVRNTS（化验记录表）
    DATETIMEEVENTS （日期型事件表）
    INPUTEVENTS（注射事件表（ＣＶ））
    INPUTEVENTS_MV （注射事件表（ＭＶ））
    NOTEEVENTS （文本记录事件表）
    OUTPUTEVENTS （排泄记录表）
    PROCEDUREEVENTS_MV （医疗过程事件表）
    PROCEDURES_ICD（ＩＣＤ手术记录表）

参考文章

1. 概述

多参数智能监测数据库（ＭＩＭＩＣ－ＩＩＩ）是一个免费开放的、公共资源的重症监护室研究数据库。该数据库于２００６年由美国麻省理工学院计算生理学实验室以及贝斯以色列迪康医学中心（ＢＩＤＭＣ）和飞利浦医疗共同发布，吸引了越来越多的学术界和工业界的研究人员采用该医疗数据库从事医疗研究。

ＭＩＭＩＣ数据集包括ＭＩＭＩＣ－ＩＩ数据集和ＭＩＭＩＣ－ＩＩＩ数据集，ＭＩＭＩＣ－ＩＩ数据集的数据是２００１—２００８年间贝斯以色列迪康医学中心（ＢＩＤＭＣ）重症监护室中病人的医疗数据，ＭＩＭ－ＩＣ－ＩＩＩ数据集的数据是２００１年６月—２０１２年１０月重症监护室病人数据。数据集ＭＩＭＩＣ数据库从发布到现在，随着更多数据变得可用，数据导入和提取方法的改进，以及数据库维护人员一直根据社区提供的数据库内容的反馈定期更新数据集，因此ＭＩＭＩＣ数据集有多个版本，目前最新的版本是２０１６年９月发布的ＭＩＭＩＣ－ＩＩＩＶ１．４。

ＭＩＭＩＣ数据库中包含了多种类型ＩＣＵ（外科监护室、内科监护室、创伤外科监护室、新生儿监护室、心脏病监护室、心外恢复监护室）。ＭＩＭＩＣ－Ⅲ数据集主要包括波形数据集（病人的生命体征趋势图）和临床数据集，按照记录内容的不同，共包含以下２１个数据表：住院表、出院表、当前使用医疗服务记录表（ＣＰＴ）、日期型事件表、医务人员表、监测情况表、ＩＣＤ病情确诊表、诊断相关组编码表（ＤＲＧ）、ＩＣＵ记录表、注射记录表（ＣＶ）、注射记录表（ＭＶ）、排泄记录表、化验记录表、微生物检测记录表、文本报告记录表、病人登记表、处方信息表、过程事件表（ＭＶ）、ＩＣＤ手术记录表、服务表、病房转移表。同时，数据集中还包含了５个辅助表用来辅助查找：目前使用医疗服务术语表、ＩＣＤ病情确诊词典表、ＩＣＤ医疗过程词典表、ＩＣＵ化验词典表、门诊化验词典表。在对２６个数据表的内容充分了解后，按照各个表的内容相关程度可分为四类，分别是病人基本信息及转移信息表、病人医院门诊的治疗相关信息表、病人在ＩＣＵ里的治疗相关信息表和辅助信息表。下面分别介绍数据表的主要内容和利用该数据表进行的相关研究。

2. 字典信息辅助表

字典信息数据，共包含5个数据表。抽取患者的数据比如说生命体征,心率等,实验室指标(如白细胞红细胞等)等, 需要在相应的字典中找到相应的item,即项目标识符,再对应查找某一个患者对应指标下的数据。

D_CPT（目前使用医疗服务术语表）

Name	Postgres data type	说明
ROW_ID	INT	行号
CATEGORY	SMALLINT	CPT code 类别号
SECTIONRANGE	VARCHAR(100)	给定的代码范围
SECTIONHEADER	VARCHAR(50)	给定的代码说明
SUBSECTIONRANGE	VARCHAR(100)	对给定子部分的代码范围
SUBSECTIONHEADER	VARCHAR(300)	对给定子部分的描述
CODESUFFIX	VARCHAR(5)	当CPT_CD包含非数字字符时，CPT_SUFFIX列包含文本后缀
MINCODEINSUBSECTION	INT	SUBSECTIONRANGE 的最小值
MAXCODEINSUBSECTION	INT	SUBSECTIONRANGE 的最大值

D_ICD_DIAGNOSES （ICD病情确诊词典表）

Name	Postgres data type	说明
ROW_ID	INT	-
ICD9_CODE	VARCHAR(10)	ICD-9 编码
SHORT_TITLE	VARCHAR(50)	缩写（对给定代码的简单描述）
LONG_TITLE	VARCHAR(300)	全称

D_ICD_PROCEDURES （ICD医疗过程词典表）

Name	Postgres data type	说明
ROW_ID	INT	-
ICD9_CODE	VARCHAR(10)	ICD-9 编码
SHORT_TITLE	VARCHAR(50)	缩写
LONG_TITLE	VARCHAR(300)	全称

D_ITEMS（ＩＣＵ化验词典表）

Name	Postgres data type	说明
ROW_ID	INT	-
ITEMID	INT	项目标识符
LABEL	VARCHAR(200)	项目标签
ABBREVIATION	VARCHAR(100)	标签缩写
DBSOURCE	VARCHAR(20)	数据来源
LINKSTO	VARCHAR(50)	对应的数据表
CATEGORY	VARCHAR(100)	项目种类
UNITNAME	VARCHAR(100)	项目测量单位
PARAM_TYPE	VARCHAR(30)	记录数据的类型 a date, a number, a text field
CONCEPTID	INT	未知，数据表中该列全为空

D_LABITEMS（门诊化验词典表）

Name	Postgres data type	说明
ROW_ID	INT	-
ITEMID	INT	实验室检测项目的ITEMID
LABEL	VARCHAR(100)	项目标签
FLUID	VARCHAR(100)	测量的物质 ‘blood’ ‘urine’
CATEGORY	VARCHAR(100)	测量的种类
LOINC_CODE	VARCHAR(100)	LOINC_CODE包含与给定ITEMID关联的LOINC代码。 LOINC是一种本体，最初指定了实验室测量，但后来扩展到涵盖了广泛的临床相关概念。 LOINC公开提供一个表，其中包含有关每个LOINC代码的大量详细信息。该表可在线免费获取，也可由数据库的监护人提供

3. 病人基本信息及转移信息表

PATIENTS（病人登记表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	患者编号
GENDER	VARCHAR(5)	性别
DOB	TIMESTAMP(0)	出生日期
DOD	TIMESTAMP(0)	死亡日期
DOD_HOSP	TIMESTAMP(0)	院内登记死亡日期
DOD_SSN	TIMESTAMP(0)	社保局登记死亡日期
EXPIRE_FLAG	VARCHAR(5)	死亡标记

ADMISSIONS（住院表）

Name Postgres data type	说明
ROW_ID INT	行号
SUBJECT_ID INT	患者编号
HADM_ID INT	病案号
ADMITTIME TIMESTAMP(0)	入院时间
DISCHTIME TIMESTAMP(0)	出院时间
DEATHTIME TIMESTAMP(0)	死亡时间
ADMISSION_TYPE VARCHAR(50)	入院类型
ADMISSION_LOCATION VARCHAR(50)	入院地点
DISCHARGE_LOCATION VARCHAR(50)	出院地点
INSURANCE VARCHAR(255)	保险类型
LANGUAGE VARCHAR(10)	语种
RELIGION VARCHAR(50)	宗教信仰
MARITAL_STATUS VARCHAR(50)	婚姻状况
ETHNICITY VARCHAR(200)	种族
EDREGTIME TIMESTAMP(0)	急诊留观登记时间
EDOUTTIME TIMESTAMP(0)	急诊留观出观时间
DIAGNOSIS VARCHAR(300)	初步诊断
HOSPITAL_EXPIRE_FLAG TINYINT	院内死亡标记
HAS_CHARTEVENTS_DATA TINYINT	是否有chartevents记录

CALLOUT（出院表）

Name Postgres data type	说明
ROW_ID INT	行号
SUBJECT_ID INT	患者编号
HADM_ID INT	病案号
SUBMIT_WARDID INT	提交申请的科室代码
SUBMIT_CAREUNIT VARCHAR(15)	提交申请的科室所属的ICU cost类型
CURR_WARDID INT	患者所属科室
CURR_CAREUNIT VARCHAR(15)	患者所属的ICU cost类型
CALLOUT_WARDID INT	申请转移的地方 0 代表 Home / 1 代表转移到可用的的病房
CALLOUT_SERVICE VARCHAR(10)	患者需接受的治疗服务
REQUEST_TELE SMALLINT	预防患者已经感染的疾病
REQUEST_RESP SMALLINT	预防患者已经感染的疾病
REQUEST_CDIFF SMALLINT	预防患者已经感染的疾病
REQUEST_MRSA SMALLINT	预防患者已经感染的疾病
REQUEST_VRE SMALLINT	预防患者已经感染的疾病
CALLOUT_STATUS VARCHAR(20)	申请的状态
CALLOUT_OUTCOME VARCHAR(20)	‘Discharged’ or ‘Cancelled’
DISCHARGE_WARDID INT	实际转移的地方 0 代表 Home / 1 代表转移到可用的的病房
ACKNOWLEDGE_STATUS VARCHAR(20)	申请的反馈结果状态 ‘Acknowledged’, ‘Revised’, ‘Unacknowledged’ or ‘Reactivated’
CREATETIME TIMESTAMP(0)	申请创建时间
UPDATETIME TIMESTAMP(0)	更新时间
ACKNOWLEDGETIME TIMESTAMP(0)	反馈时间
OUTCOMETIME TIMESTAMP(0)	callout完成时间
FIRSTRESERVATIONTIME TIMESTAMP(0)	首次病房保留时间
CURRENTRESERVATIONTIME TIMESTAMP(0)	当前病房保留时间

ICUSTAYS（ICU记录表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	指定患者的标识符
HADM_ID	INT	对于患者而言HADM_ID是唯一的
ICUSTAY_ID	INT	ICU病案号（对于患者住院而言ICUSTAY_ID是唯一的）
DBSOURCE	VARCHAR(20)	来源数据库 ‘carevue’ ‘metavision’ 在某些地方处理上有所不同
FIRST_CAREUNIT	VARCHAR(20)	患者入住监护室24小时内的首个ICU监护室种类
LAST_CAREUNIT	VARCHAR(20)	患者入住监护室24小时内的最终ICU监护室种类
FIRST_WARDID	SMALLINT	监护室编号
LAST_WARDID	SMALLINT	监护室编号
INTIME	TIMESTAMP(0)	入科时间
OUTTIME	TIMESTAMP(0)	出科时间
LOS	DOUBLE	入住时长可能包括单个或多个ICU单位

TRANSFERS（病房转移表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
ICUSTAY_ID	INT	-
DBSOURCE	VARCHAR(20)	数据来源 ‘carevue’ ‘metavision’
EVENTTYPE	VARCHAR(20)	转移的类型 ‘admit’ ‘transfer’ ‘discharge’
PREV_CAREUNIT	VARCHAR(20)	前次所在监护室
CURR_CAREUNIT	VARCHAR(20)	当前所在监护室
PREV_WARDID	SMALLINT	前次所在科室代码
CURR_WARDID	SMALLINT	当前所在科室代码
INTIME	TIMESTAMP(0)	入科时间
OUTTIME	TIMESTAMP(0)	出科时间
LOS	INT	住院时长

SERVICES（服务表）

ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
TRANSFERTIME	TIMESTAMP(0)	服务种类更改时间
PREV_SERVICE	VARCHAR(20)	前次服务种类
CURR_SERVICE	VARCHAR(20)	当前服务种类

服务的名称缩写及其详细说明：

Service	Description
CMED	Cardiac Medical - for non-surgical cardiac related admissions
CSURG	Cardiac Surgery - for surgical cardiac admissions
DENT	Dental - for dental/jaw related admissions
ENT	Ear, nose, and throat - conditions primarily affecting these areas
GU	Genitourinary - reproductive organs/urinary system
GYN	Gynecological - female reproductive systems and breasts
MED	Medical - general service for internal medicine
NB	Newborn - infants born at the hospital
NBB	Newborn baby - infants born at the hospital
NMED	Neurologic Medical - non-surgical, relating to the brain
NSURG	Neurologic Surgical - surgical, relating to the brain
OBS	Obstetrics - conerned with childbirth and the care of women giving birth
ORTHO	Orthopaedic - surgical, relating to the musculoskeletal system
OMED	Orthopaedic medicine - non-surgical, relating to musculoskeletal system
PSURG	Plastic - restortation/reconstruction of the human body (including cosmetic or aesthetic)
PSYCH	Psychiatric - mental disorders relating to mood, behaviour, cognition, or perceptions
SURG	Surgical - general surgical service not classified elsewhere
TRAUM	Trauma - injury or damage caused by physical harm from an external source
TSURG	Thoracic Surgical - surgery on the thorax, located between the neck and the abdomen
VSURG	Vascular Surgical - surgery relating to the circulatory system

4. 病人医院门诊治疗的相关信息表

CPTEVENTS（当前使用医疗服务记录表）

Name	Postgres data type	说明
ROW_ID	INT	行号
SUBJECT_ID	INT	患者编号
HADM_ID	INT	病案号
COSTCENTER	VARCHAR(10)	操作部门
CHARTDATE	TIMESTAMP(0)	操作时间
CPT_CD	VARCHAR(10)	操作的原始编码code
CPT_NUMBER	INT	CPT_CD 的数字信息
CPT_SUFFIX	VARCHAR(5)	CPT_CD 的文本后缀
TICKET_ID_SEQ	INT	CPT_CD 的顺序
SECTIONHEADER	VARCHAR(50)	CPT_CD 的种类
SUBSECTIONHEADER	VARCHAR(300)	CPT_CD 的种类
DESCRIPTION	VARCHAR(200)	CPT_CD 的详细信息

DIAGNOSES_ICD（诊断信息表）

Name	PostgreSQL data type	Modifiers	说明
ROW_ID	INT	not null	-
SUBJECT_ID	INT	not null	-
HADM_ID	INT	not null	-
SEQ_NUM	INT		ICD诊断顺序
ICD9_CODE	VARCHAR(10)		实际编码IDC-9

DRGCODES（诊断相关组编码表）

Name	PostgreSQL data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
DRG_TYPE	VARCHAR(20)	诊断类别
DRG_CODE	VARCHAR(20)	诊断编码
DESCRIPTION	VARCHAR(300)	详细描述
DRG_SEVERITY	SMALLINT	严重程度
DRG_MORTALITY	SMALLINT	死亡率

LABEVENTS（门诊检查记录表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
ITEMID	INT	项目标识符
CHARTTIME	TIMESTAMP(0)	测量时间
VALUE	VARCHAR(200)	测量项目
VALUENUM	DOUBLE PRECISION	测量数值数据
VALUEUOM	VARCHAR(20)	测量单位
FLAG	VARCHAR(20)	测量值是否异常

MICROBIOLOGYEVENTS（微生物检测记录表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
CHARTDATE	TIMESTAMP(0)	记录日期
CHARTTIME	TIMESTAMP(0)	记录时间
SPEC_ITEMID	INT	化验项目标识符
SPEC_TYPE_DESC	VARCHAR(100)	化验类型血液尿液痰
ORG_ITEMID	INT	生成的有机物标识符
ORG_NAME	VARCHAR(100)	有机物名称
ISOLATE_NUM	SMALLINT	分离菌落数目
AB_ITEMID	INT	抗生素敏感性测试标识符
AB_NAME	VARCHAR(30)	抗生素名称
DILUTION_TEXT	VARCHAR(10)	测试抗生素敏感性
DILUTION_COMPARISON	VARCHAR(20)	-
DILUTION_VALUE	DOUBLE PRECISION	测试抗生素敏感性时的稀释值
INTERPRETATION	VARCHAR(5)	解释抗生素的敏感性和试验结果 “S”是敏感的，“R”是抗性的，“I”是中间的，“P”是待定的

PRESCRIPTIONS（处方信息表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
ICUSTAY_ID	INT	-
STARTDATE	TIMESTAMP(0)	用药开始时间
ENDDATE	TIMESTAMP(0)	用药结束时间
DRUG_TYPE	VARCHAR(100)	药物类型
DRUG	VARCHAR(100)	药物名称
DRUG_NAME_POE	VARCHAR(100)	药物说明
DRUG_NAME_GENERIC	VARCHAR(100)	药物说明
FORMULARY_DRUG_CD	VARCHAR(120)	处方药代码
GSN	VARCHAR(200)	通用序列号
NDC	VARCHAR(120)	国家药品编码
PROD_STRENGTH	VARCHAR(120)	-
DOSE_VAL_RX	VARCHAR(120)	-
DOSE_UNIT_RX	VARCHAR(120)	-
FORM_VAL_DISP	VARCHAR(120)	-
FORM_UNIT_DISP	VARCHAR(120)	-
ROUTE	VARCHAR(120)	-

PROD_STRENGTH

DOSE_VAL_RX, DOSE_UNIT_RX

FORM_VAL_DISP, FORM_UNIT_DISP

ROUTE

The route prescribed for the drug.

为该药开出的途径

5. 病人在ICU里的治疗相关信息表

CAREGIVERS（医务人员信息表）

Name Postgres data type	说明
ROW_ID INT	行号
CGID INT	护理人员标志符
LABEL VARCHAR(15)	护理人员的头衔 RN, MD, PharmD
DESCRIPTION VARCHAR(30)	护理人员的结构化数据信息 17 unique values

CHARTEVRNTS（化验记录表）

Name	Postgres data type	In CareVue	In Metavision	说明
ROW_ID	INT	Y	Y	行号
SUBJECT_ID	NUMBER(7,0)	Y	Y	患者编号
HADM_ID	NUMBER(7,0)	Y	Y	病案号
ICUSTAY_ID	NUMBER(7,0)	Y	Y	ICU病案号
ITEMID	NUMBER(7,0)	Y	Y	项目标识符
CHARTTIME	DATE	Y	Y	记录时间
STORETIME	DATE	Y	Y	存储时间
CGID	NUMBER(7,0)	Y	Y	护理人员标识符
VALUE	VARCHAR2(200 BYTE)	Y	Y	项目测量的值
VALUENUM	NUMBER	Y	Y	项目测量的数字信息
VALUEUOM	VARCHAR2(20 BYTE)	Y	Y	项目测量的值对应的单位
WARNING	NUMBER(1,0)		Y	测量过程发生的警告 / Metavision specific columns
ERROR	NUMBER(1,0)		Y	测量过程发生的错误 / Metavision specific columns
RESULTSTATUS	VARCHAR2(20 BYTE)	Y		测量类型 ‘Manual’ or ‘Automatic’ / CareVue specific columns
STOPPED	VARCHAR2(20 BYTE)	Y		测量是否停止

DATETIMEEVENTS （日期型事件表）

Name	Postgres data type	说明
ROW_ID	INT	行号
SUBJECT_ID	INT	患者编号
HADM_ID	INT	病案号
ICUSTAY_ID	INT	ICU病案号
ITEMID	INT	项目标识符
CHARTTIME	TIMESTAMP(0)	记录时间
STORETIME	TIMESTAMP(0)	存储时间
CGID	INT	护理人员标识符
VALUE	TIMESTAMP(0)	项目测量的值
VALUEUOM	VARCHAR(50)	项目测量的值对应的单位
WARNING	SMALLINT	测量过程发生的警告 / Metavision specific columns
ERROR	SMALLINT	测量过程发生的错误 / Metavision specific columns
RESULTSTATUS	VARCHAR(50)	测量类型 ‘Manual’ or ‘Automatic’ / CareVue specific columns
STOPPED	VARCHAR(50)	测量是否停止

INPUTEVENTS（注射事件表（ＣＶ））

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
ICUSTAY_ID	INT	-
CHARTTIME	TIMESTAMP(0)	记录时间
ITEMID	INT	项目标识符
AMOUNT	DOUBLE PRECISION	总入量
AMOUNTUOM	VARCHAR(30)	入量单位
RATE	DOUBLE PRECISION	给药速率
RATEUOM	VARCHAR(30)	速率单位
STORETIME	TIMESTAMP(0)	存储时间
CGID	BIGINT	护理人员编码
ORDERID	BIGINT	同一次输入的多个药物进行链接
LINKORDERID	BIGINT	同一次的单个药物不同改变进行链接
STOPPED	VARCHAR(30)	输入是否暂停
NEWBOTTLE	INT	新配制的溶液
ORIGINALAMOUNT	DOUBLE PRECISION	-
ORIGINALAMOUNTUOM	VARCHAR(30)	-
ORIGINALROUTE	VARCHAR(30)	-
ORIGINALRATE	DOUBLE PRECISION	-
ORIGINALRATEUOM	VARCHAR(30)	-
ORIGINALSITE	VARCHAR(30)	-

ORIGINALAMOUNT, ORIGINALAMOUNTUOM, ORIGINALROUTE, ORIGINALRATE, ORIGINALRATEUOM , ORIGINALSITE

这些列提供有关药物首次输入信息系统时所使用的解决方案的信息

INPUTEVENTS_MV （注射事件表（ＭＶ））

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
ICUSTAY_ID	INT	-
STARTTIME	TIMESTAMP(0)	入量开始时间
ENDTIME	TIMESTAMP(0)	入量结束时间
ITEMID	INT	项目标识符
AMOUNT	DOUBLE PRECISION	总入量
AMOUNTUOM	VARCHAR(30)	入量单位
RATE	DOUBLE PRECISION	给药速率
RATEUOM	VARCHAR(30)	速率单位
STORETIME	TIMESTAMP(0)	存储时间
CGID	BIGINT	护理人员编号
ORDERID	BIGINT	同上
LINKORDERID	BIGINT	同上
ORDERCATEGORYNAME	VARCHAR(100)	-
SECONDARYORDERCATEGORYNAME	VARCHAR(100)	-
ORDERCOMPONENTTYPEDESCRIPTION	VARCHAR(200)	-
ORDERCATEGORYDESCRIPTION	VARCHAR(50)	-
PATIENTWEIGHT	DOUBLE PRECISION	患者体重 (kg)
TOTALAMOUNT	DOUBLE PRECISION	溶液液体总量
TOTALAMOUNTUOM	VARCHAR(50)	溶液液体总量单位
ISOPENBAG	SMALLINT	-
CONTINUEINNEXTDEPT	SMALLINT	转移是否继续入量
CANCELREASON	SMALLINT	取消原因
STATUSDESCRIPTION	VARCHAR(30)	项目最终状态 changed paused finishedrunning stopped rewritten flushed
COMMENTS_STATUS	VARCHAR(30)	-
COMMENTS_TITLE	VARCHAR(100)	-
COMMENTS_DATE	TIMESTAMP(0)	-
ORIGINALAMOUNT	DOUBLE PRECISION	-
ORIGINALRATE	DOUBLE PRECISION	-

COMMENTS_STATUS, COMMENTS_TITLE, COMMENTS_DATE

指定是编辑还是取消订单，如果是，则指定取消或编辑该订单的护理员的日期和职位。

ORIGINALAMOUNT

通常将药物混合在溶液中，并从同一袋子连续输送。此栏代表处袋子中所含药物的数量STARTTIME。对于第一次注入一个新袋子，ORIGINALAMOUNT= TOTALAMOUNT。以后，如果速率改变了，那么袋子中的药物量就会减少（因为有些药物已经施予患者了）。结果，ORIGINALAMOUNT<TOTALAMOUNT和ORIGINALAMOUNT将是该处袋子中剩余药物的数量STARTTIME。

ORIGINALRATE

这是护理人员输入的费率。请注意，这可能RATE由于各种原因而有所不同：ORIGINALRATE是原始计划费率，而RATE列将是实际交付的费率。例如，如果一个袋子快要用完了，而护理人员决定将剩余的液体推入，则RATE> ORIGINALRATE。但是，这两列通常是相同的，但由于四舍五入误差，在临床上的差别很小。

NOTEEVENTS （文本记录事件表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
CHARTDATE	TIMESTAMP(0)	记录note的日期
CHARTTIME	TIMESTAMP(0)	记录note的日期和时间
STORETIME	TIMESTAMP(0)	记录note保存到系统的日期和时间
CATEGORY	VARCHAR(50)	记录类型 ‘Discharge’ ：出院
DESCRIPTION	VARCHAR(300)	记录类别 ‘Summary’ ：总结
CGID	INT	护理人员标识符
ISERROR	CHAR(1)	‘1’ 代表该记录被标记为错误
TEXT	TEXT	医嘱内容

OUTPUTEVENTS （排泄记录表）

Name	Postgres data type	说明
ROW_ID	INT	-
SUBJECT_ID	INT	-
HADM_ID	INT	-
ICUSTAY_ID	INT	-
CHARTTIME	TIMESTAMP(0)	时间
ITEMID	INT	项目标识符
VALUE	DOUBLE PRECISION	出量值
VALUEUOM	VARCHAR(30)	出量值的单位
STORETIME	TIMESTAMP(0)	存储时间
CGID	BIGINT	护理人员标识符
STOPPED	VARCHAR(30)	是否中断
NEWBOTTLE	INT	是否有准备新溶液
ISERROR	SMALLINT	是否被标记为错误

PROCEDUREEVENTS_MV （医疗过程事件表）


Name	Postgres data type	说明
ROW_ID	INT NOT NULL	-
SUBJECT_ID	INT NOT NULL	-
HADM_ID	INT NOT NULL	-
ICUSTAY_ID	INT	-
STARTTIME	TIMESTAMP(0)	-
ENDTIME	TIMESTAMP(0)	-
ITEMID	INT	-
VALUE	DOUBLE PRECISION	-
VALUEUOM	VARCHAR(30)	-
LOCATION	VARCHAR(30)	-
LOCATIONCATEGORY	VARCHAR(30)	-
STORETIME	TIMESTAMP(0)	-
CGID	INT	-
ORDERID	INT	-
LINKORDERID	INT	-
ORDERCATEGORYNAME	VARCHAR(100)	药物一级分类名称
SECONDARYORDERCATEGORYNAME	VARCHAR(100)	药物二级分类名称
ORDERCATEGORYDESCRIPTION	VARCHAR(50)	药物分类描述
ISOPENBAG	SMALLINT	-
CONTINUEINNEXTDEPT	SMALLINT	-
CANCELREASON	SMALLINT	取消原因
STATUSDESCRIPTION	VARCHAR(30)	状态描述
COMMENTS_EDITEDBY	VARCHAR(30)
COMMENTS_CANCELEDBY	VARCHAR(30)
COMMENTS_DATE	TIMESTAMP(0)

PROCEDURES_ICD（ＩＣＤ手术记录表）

Name	PostgreSQL data type	Modifiers	说明
ROW_ID	INT	not null	-
SUBJECT_ID	INT	not null	-
HADM_ID	INT	not null	-
SEQ_NUM	INT		操作顺序
ICD9_CODE	VARCHAR(10)		ICD-9 编码

MIMIC III v1.4 数据入库

2024-09-14 08:50:00

MIMIC III v1.4

https://blog.csdn.net/mysssqqqlll/article/details/126123093

文件解压后大小为43.3GB

drop数据库mimic

DROP DATABASE IF EXISTS mimic;

创建数据库mimic

CREATE DATABASE mimic OWNER postgres;

连接上数据库mimic

\c mimic;

输入一个新模式mimiciii到当前数据库中

CREATE SCHEMA mimiciii;

添加新模式mimiciii到search_path

set search_path to mimiciii;

执行mimiciii建表语句，创建所有数据表

\i /var/www/mimic/mimic/mimic/postgres_create_tables.sql

# 无效？？
# set mimic_data_dir /var/www/mimic/mimic/mimic/mimicd/data/;

\cd /var/www/mimic/mimic/mimic/mimicd/data/;

\i /var/www/mimic/mimic/mimic/postgres_load_data.sql

\i /var/www/mimic/mimic/mimic/postgres_add_indexes.sql

\i /var/www/mimic/mimic/mimic/postgres_checks.sql

## 查询为26行行记录，并且row_count_check全部为PASSED，代表安装成功

← Older Blog Archives Newer →