ChatGPT 提示获取机器学习数据集

随着机器学习的发展获取高质量数据集变得越来越重要数据集对于评估最终模型的准确性和有效性至关重要这是任何机器学习项目的先决条件在本文中我们将学习如何使用 ChatGPT[OpenAI] 模板提示为不同的机器学习应用程序收集各种数据集并在 Python 中收集这些数据集

使用 ChatGPT 生成数据集的步骤

步骤 1:在 Python 中安装 OpenAI 库

!pip 安装-q openai

2 在 Python 中导入 OpenAI 库

 

import openai

步骤 3:将您的 API 密钥分配给 OpenAI 环境变量

 

 

openai.api_key = "YOUR_API_KEY"

步骤 4:创建自定义函数来调用 ChatGPT API

 

def chat(message):
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[
{"role": "user", "content": f"{message}"},
]
)
return response['choices'][0]['message']['content']

步骤 5:调用该函数并传入提示

res = 聊天('按摩')
打印(res)

提示收集/生成机器学习数据集

提示 1:

创建可用于训练{主题}模型的数据集列表确保数据集以 CSV 格式提供目标是使用此数据集了解{主题}。此外如果可能请提供数据集的链接以表格形式创建列表其中包含以下列数据集名称数据集URL数据集描述

 

prompt ='''
Create a list of datasets that can be used to train logistic regression models.
Ensure that the datasets are available in CSV format.
The objective is to use this dataset to learn about logistic regression models
and related nuances such as training the models. Also provide links to the dataset if possible.
Create the list in tabular form with following columns:
Dataset name, dataset, URL, dataset description
'''
res = chat(prompt)
print(res)

输出

数据集名称 | 数据集 | URL | 数据集描述--- | --- | --- | ---泰坦尼克号 - 从灾难中学习机器学习 | titanic.csv | https://www.kaggle.com/c/titanic/data | 包含泰坦尼克号乘客的数据包括年龄性别和舱位等特征以及他们是否幸存红酒品质 | winequality-red.csv | https://archive.ics.uci.edu/ml/datasets/wine+quality | 包含红酒各种理化性质及其相关质量评级的数据银行营销 | bank-additional-full.csv | https://archive.ics.uci.edu/ml/datasets/bank+marketing | 包含银行电话营销活动的信息包括客户的联系方式以及他们是否订阅了定期存款威斯康星州乳腺癌(诊断) | wdbc.csv | https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(诊断) | 包含从乳腺癌活检数字化图像中提取的各种特征的数据以及活检是良性还是恶性成人 | adult.csv | https://archive.ics.uci.edu/ml/datasets/Adult | 包含个人的人口统计数据以及他们的收入是否超过某个阈值心脏病 | heart.csv | https://www.kaggle.com/ronitf/heart-disease-uci | 包含对个人进行的各种医学测量的数据以及他们是否患有心脏病皮马印第安人糖尿病 | pima-indians-diabetes.csv | https://www.kaggle.com/uciml/pima-indians-diabetes-database |包含对皮马印第安妇女进行的各种医疗测量的数据以及她们是否患有糖尿病鸢尾花 | iris.csv | https://archive.ics.uci.edu/ml/datasets/Iris | 包含对鸢尾花进行的各种测量的数据以及它们的种类贷款预测 | train.csv | https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/#ProblemStatement | 包含贷款申请人的各种人口统计数据以及他们的申请是否获得批准

提示2

生成虚拟数据集来训练和测试{机器学习模型名称}以用于教育目的

 

 

res = chat('generate a dummy dataset to train and test a logistic regression model\
for educational purposes. Ensure that the dataset is available in csv format')
print(res)

输出

以下是用于教育目的的 CSV 格式的虚拟数据集示例```
年龄性别收入教育就业状况婚姻状况贷款审批
23,男,25000,高中,待业,单身,未婚
32,女,45000,本科,在职,已婚,未批准
45,男,120000,硕士,在职,已婚,已批准
38,女,60000,本科,在职,已婚,已批准
26,男,32000,大专,在职,未婚,未批准
29,女,28000,高中,在职,单身,未批准
41,男,80000,博士,在职,离异,已获批准
54,男,95000,硕士,在职,已婚,已核准
```
该数据集包含 8 个人的人口统计和财务信息以及他们是否获得贷款批准目标是训练一个逻辑回归模型根据其他变量预测贷款批准情况

提示 3:

列出要练习{主题}的数据集如果可能的话还可以附上数据集链接和描述以表格形式创建列表

 

 

prompt ='''
List down datasets to practice object detection,
if possible also attach dataset links and description.
Create the list in tabular format
'''
res = chat(prompt)
print(res)

输出

| 数据集 | 链接 | 描述 |
| :-------------- | :---------------------------------------------------------------- -------- | :---------------------------------------------------------------- ------------------- |
| COCO | http://cocodataset.org/#home | 上下文中的常见对象数据集包含超过 330K 张图像 |
| Pascal VOC | http://host.robots.ox.ac.uk/pascal/VOC/ | Pascal Visual Object Classes 数据集包含 20 个对象类别 |
| 打开图像 | https://storage.googleapis.com/openimages/web/index.html | 包含超过 900 万张带有对象级注释的图像 |
| ImageNet | http://www.image-net.org/ | 拥有超过 1400 万张带注释图像和 21000 个类别的大规模数据集 |
| KITTI | http://www.cvlibs.net/datasets/kitti/ | 包含带有对象级注释的街景图像 |
| BDD100K | https://bdd-data.berkeley.edu/ | 用于自动驾驶的大规模多样化数据集 |
| DOTA | https://captain-whu.github.io/DOTA/index.html | 带有物体检测注释的大规模航空图像数据集 |
| WIDER FACE | http://shuoyang1213.me/WIDERFACE/ | 包含 32k 张带有边界框注释的人脸图像 |
| VisDrone | http://www.aiskyeye.com/ | 包含 10k 张带有各种物体注释的图像 |
| MS COCO 文本 | http://www.robots.ox.ac.uk/~vgg/data/scenetext/ | 包含 63k 张带有文字注释的图像 |654
这些数据集可与流行的对象检测框架(如 TensorFlowPyTorch 和 Keras)一起使用

提示 4:

创建用于练习{主题}的数据集列表确保它们以 CSV 格式提供此外提供数据集的链接

 

 

prompt ="""
Create a list of datasets for practicing on machine translation from english to hindi.
Make sure they are available in text format.
Also, provide links to the dataset.
"""
res = chat(prompt)
print(res)

输出

1. TED 演讲语料库该数据集包含英语和印地语的 TED 演讲的平行记录它以文本格式提供可从官方网站下载https://www.ted.com/participate/translate
2. 联合国平行语料库该语料库包含联合国代表发表的演讲的印地语和英语平行文本它以文本格式提供可从官方网站下载https://conferences.unite.un.org/UN/corpus
3. OPUS 语料库该语料库包含印地语和英语等多种语言的平行文本它包括新闻法律文件和字幕等广泛领域的数据它以文本格式提供可从官方网站下载http://opus.nlpl.eu/
4. 圣经语料库该数据集包含印地语和英语的圣经平行文本它以文本格式提供可从官方网站下载http://christos-c.com/bible_data/
5. 印度语言平行语料库该语料库包含印地语和其他印度语言的平行文本它包括来自新闻小说和维基百科文章等各个领域的数据它以文本格式提供可从官方存储库下载https://github.com/AI4Bharat/indic-corpus
6. Covid-19 印度平行语料库该语料库包含与印度 Covid-19 疫情相关的印地语和英语平行文本它包括来自新闻来源政府公告和社交媒体的数据它以文本格式提供可从官方网站下载https://github.com/AI4Bharat/covid19-news/blob/master/parallel-corpus.md
7. BookCorpus该数据集包含印地语和英语小说的平行文本它以文本格式提供可从官方网站下载https://github.com/soskek/bookcorpus/tree/master/data
注意其中一些数据集在用于机器翻译目的之前可能需要进行一些预处理和清理

 

※※免费获取 GPTGPT&Claude账号※※

本站提供免费ChatGPT共享账号号池链接

如果想使用低价稳定个人独立账号可进入本站小店进行购买全网最低价账号全程售后保障客服跟进

小店链接https://store.aiprois.com

客服微信youngchatgpt

本站官网https://aiprois.com/

gpt-4 chatgpt plus共享账号 10人拼车 gpt-4模型 plus账号 30天有效月租 x,gpt4o价格,更改chatgpt密码,,chatgpt 修改密码,chatgpt 改密码,chatgptplus怎么充值,学生购买gpt,gpt便宜账号

 

 

© 版权声明
THE END
喜欢就支持一下吧
点赞437 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容