唐诗三百首数据集 poets.csv authors.csv poets.csv 12.1 MB 文件内容 数据概览 文本编码:UTF-8 行数:43029 列数:6 11.1秦川雄帝宅,函谷壮皇居。绮殿千寻起,离宫百雉余。连薨遥接汉,飞观迥凌虚。云日隐层阙,风烟出绮疏。岩廊罢机务,崇文聊驻辇。玉匣启龙图,金绳披凤篆。韦编断仍续,缥帙舒还卷。对...
WordNet是一个大型的英语词汇数据库,其中名词、动词、形容词和副词被分组为不同的认知同义词(同义词集),每一组表示不同的概念。在该数据集中,同义词集的总数是117000,每个同义词集通过少量概念关系与其他同义词集关联起来。 相关链接:https://wordnet.princeton.edu/ 10. Yelp Reviews(Yelp评论) Yelp数据集是用...
基于大型存储和计算服务器,花了大约 10 个月的时间,处理了25.1 TB数据集,最终得到覆盖中国整个陆地表面SinoLC-1产品,使用视觉解释验证集进行验证,包括106,852个随机样本和官方土地调查报告中收集统计验证集。 验证结果表明,SinoLC-1的总体精度为73.61%,κ系数为0.6595。对每个省级地区的验证进一步表明了该数据集在整...
Chinese Fineweb Edu数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
面对国内大语言模型万箭齐发的局面,如何更好地提升大语言模型对中文的理解能力,更好地服务于全球的中文用户,甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding,简称MMCU)的大规模的多任务测试数据集,填补了中文大语言模型能力测试缺失的一大空白。5月20日...
Mind2Web 的提出令人振奋,它不仅是一个普通数据集,更是一场关于智能体进化的探索。它的出现将带来前所未有的机遇和挑战,我们或许能够训练出真正的通才——一位能够在 Web 的广袤世界中独当一面的全能智能体。期待有更多的研究能揭开 Mind2Web 的精彩细节,打破任务的边界,为未来的网络智能体之旅开启全新篇章...
其中,Bj是潜在养殖斑块Soj的边缘像素集,|Bj|像素集包含的像素数量。根据王君的研究,Rj为0.15-0.25时提取精度最高。因此本研究按照同样范围对Rj进行设置。3 结果分析 根据提取结果,2018年中国近海的筏式养殖面积为194,110 公顷。筏式养殖的整体分布呈现“北多南少”的特点,江苏省的筏式养殖面积最大(55,851...
现有自动驾驶数据集可大致分为两代,第一代数据集的传感模态复杂度相对较低、数据集规 模相对较小,且大多局限于感知级任务,第一代数据集以发布于 2012 年的 KITTI 为代表。相比于第一代数据集,第二代数据集的特征为传感模态复杂度较高、数据集规模与多样性较丰富、所设置任务从感知扩展到预测、规控上,第二代...
今天大家共同见证了上海人工智能实验室和东方财富共建的国内首个全场景金融开源评测数据集发布,期待有更多的机构企业加入到大模型开放创新的行列,共创上海人工智能产业发展的未来。 上海市徐汇区科学技术委员会副主任马硕表示,当前AI大模型呈爆发式的发展,高质量、大规模、安全可信的数据对于大模型的训练和性能的提升至...
12月17日,北京协和医院儿科主编的《儿童风湿免疫病标准数据集》(下称“数据集”)正式发布。作为协和儿科牵头的“十四五”国家重点研发计划重点专项成果之一,该数据集是国内首个为儿童风湿免疫专业提供可操作、标准化数据结构的数据集,将全面提升数据质量,推动资源共享,促进多中心协作。国家卫生健康委医药卫生科技...