数据标注工具 Label Studio 的使用
Label Studio 是一款开源数据标注工具,在一个平台上支持多个项目、用户和数据类型,同时,支持多种数据格式执行不同类型的标记。
本文旨在介绍如何在智算平台上利用容器实例使用该工具。
前提条件
-
已经获取控制台账户和密码。
-
已完成实名认证且账户余额大于 0 元。
-
平台已创建有可用的用户目录。
操作步骤
-
登录控制台,进入 AI 计算平台。
-
在左侧导航栏,选择容器实例,进入实例列表页面。
-
点击创建容器实例,在创建容器实例页面,按如下要求配置各项参数。
-
资源类型
:选择可用的 GPU 资源即可。 -
存储与数据
:选择平台上已存在的用户目录即可。 -
环境变量
:点击添加,分别新增如下变量。-
键
输入LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED
,值
输入true
。该环境变量表示允许 Label Studio 访问相应文件目录以导入存储空间。
-
键
输入LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT
,值
输入存储与数据所对应的挂载路径
,本次示例以/root/epfs
作为根目录。该环境变量用于指定 Label Studio 在访问文件目录时使用的根目录。
-
-
镜像
:选择任意基础镜像即可。 -
其他参数:保持默认或根据实际情况自定义即可。
-
-
等待容器实例创建完成,且状态为
运行中
,点击该容器实例快捷开发列中的 jupyter,打开 JupyterLab 页面。 -
在 JupyterLab 页面,选择 Other > Terminal,打开一个新终端。
-
执行如下命令,安装 Label Studio。
pip install -U label-studio
-
执行如下命令,指定 9001 端口并启动 Label Studio 服务。
label-studio -p 9001 --data-dir /root/epfs/label
回显示例:
参数说明:
-
-p
用于指定端口号,此处建议指定 9001。 -
--data-dir
用于指定存储目录,为创建容器实例时存储与数据参数中的挂载路径。
说明 后台运行命令:
nohup label-studio -p 9001 --data-dir /root/epfs/label &
-
-
-
返回容器实例列表页面,点击更多访问。
-
在弹出的更多访问信息窗口中,点击 9001 端口所对应的地址。
-
进入 Label Studio 平台登录界面,输入相应的邮箱和密码登录即可。
说明 若无账号可点击 Sign up 进行注册。
-
进入 Label Studio 平台,创建新项目,点击右上角 Settings。
-
选择 Labeling Interface > Browse Templates,即可选择并定义相应标签模板,点击 Save 定义标签。
-
选择 Cloud Storage,配置项目目标存储路径。支持本地存储、s3 接口等,可配置导入地址,会自动同步相关文件,导出地址为标记文件的默认保存地址,可配置到平台的文件存储上。
-
返回项目界面,点击 Import 上传待标记的图片,勾选目标图片,点击 Label Task,进入数据标注页面。
-
在标注页面,对选定的目标进行标注,点击 Submit。
-
若配置了平台文件存储(即用户目录)为导出的目标路径,则可在相应的用户目录内直接查看和下载标注文件。少量文件也可在 Label Studio 平台上直接导出至本地电脑。具体操作如下:
-
返回项目界面,点击 Export。
-
选择可用的导出格式,点击 Export 导出即可。
-
-
为避免资源浪费,用户可自行关闭容器实例,待下次开机使用时,直接再次执行如下命令运行相应服务即可。
nohup label-studio -p 9001 --data-dir /root/epfs/label &
相关文档
更多关于 Label Studio 数据标注平台的使用方法可参考其官方操作文档。