数据集
目前支持的数据集管理操作有:
使用前需要引用入Data类
from qianfan.resources import Data
创建数据集
可以创建数据集,需要提供数据集名称 name 、数据集类型 data_set_type 、数据集模板 DataTemplateType 等信息。详细方法和返回参数字段参见 API 文档。
resp = Data.create_bare_dataset(
"test_dataset_name",
DataSetType.TextOnly,
DataProjectType.Conversation,
DataTemplateType.NonSortedConversation,
DataStorageType.PrivateBos,
"bos_bucket_name",
"bos_path",
)
print(resp['result'])
发起数据集发布任务
能够直接发布数据集,需要提供数据集 ID dataset_id。详细方法和返回参数字段参见 API 文档。
resp = Data.release_dataset(12)
print(resp['result'])
发起数据集导入任务
允许用户导入数据集,需要提供数据集 ID dataset_id 、数据源类型 import_source 、文件在远端的路径 file_url 等。详细方法和返回参数字段参见 API 文档。
resp = Data.create_data_import_task(
dataset_id=1,
is_annotated=True,
import_source=DataSourceType.SharedZipUrl,
file_url="1",
)
print(resp['result'])
获取数据集详情
可以获取到数据集的状态,需要提供数据集 ID dataset_id 。详细方法和返回参数字段参见 API 文档。
resp = Data.get_dataset_info(12)
print(resp['result'])
获取数据集状态详情
允许用户批量获取数据集的状态信息,需要提供数据集 ID 的列表 dataset_id_list 。详细方法和返回参数字段参见 API 文档。
resp = Data.get_dataset_status_in_batch([12, 48])
print(resp['result'])
发起数据集导出任务
允许用户用 SDK 发起数据集导出任务,需要提供数据集 ID dataset_id ,导出目的地类型 export_destination_type 等。详细方法和返回参数字段参见 API 文档。
resp = Data.create_dataset_export_task(
dataset_id=12,
export_destination_type=DataExportDestinationType.PrivateBos,
storage_id="bucket_name",
)
print(resp['result'])
删除数据集
能够直接删除数据集,需要提供数据集 ID dataset_id 。详细方法和返回参数字段参见 API 文档。
resp = Data.delete_dataset(12)
print(resp['result'])
获取数据集导出记录
可以获取到成功导出的数据集下载地址,需要提供数据集 ID dataset_id 。详细方法和返回参数字段参见 API 文档。
resp = Data.get_dataset_export_records(12)
print(resp['result'])
获取数据集导入错误详情
能够让用户清楚的知道导入任务失败的原因,需要提供数据集 ID dataset_id 和错误码 error_code 。详细方法和返回参数字段参见 API 文档。
resp = Data.get_dataset_import_error_detail(12, 55)
print(resp['result'])