• 首页>
  • 数据科学创新冬令营:开营热身赛

数据科学创新冬令营:开营热身赛

杨耀东 2021-01-15 12:51 人工智能,2021冬令营

TIPS:

  1. 热身赛共5个项目,至少选做一个项目,可选做多个项目

  2. 开营热身赛项目为个人独立完成,禁止抄袭

  3. 截止时间:2021年1月21日 18:00

  4. 成果提交格式要求:将需要提交的文件按项目打包,压缩包命名格式:姓名-手机号码-项目名称,若选做多个项目需提交多个压缩包

  5. 成果提交入口:https://ding.qingflow.com/f/53d449b4

  6. 热身赛进行过程中不提供答疑

  7. 本次热身赛积分将计入冬令营最终积分,积分换算方式:难度等级星级数 * 10 * 得分(总分100) / 100



一、机器学习类

1、MNIST手写数字识别

 

难度等级:

项目说明:MNIST数据库(Modified National Institute of Standards and Technology database)是一个大型手写数字数据库,它是通过“重新混合” NIST原始数据集中的样本而创建的。创作者认为,由于NIST的培训数据集来自美国人口普查局员工,而测试数据集则来自美国高中学生,这不是非常适合于机器学习实验。此外,将来自NIST的黑白图像归一化以适合28x28像素的边界框并进行抗锯齿处理,从而引入了灰度级。数据库包含60,000个训练图像和10,000个测试图像。训练集的一半和测试集的一半来自NIST的训练数据集,而训练集的另一半和测试集的另一半则来自NIST的测试数据集。数据库的原始创建者保留了一些经过测试的方法的列表。在他们的原始论文中,他们使用支持向量机获得0.8%的错误率。类似于MNIST的扩展数据集EMNIST已于2017年发布,其中包含240,000个训练图像和40,000个手写数字和字符的测试图像。MNIST手写数字识别模型的主要任务是:输入一张手写数字的图像,然后识别图像中手写的是哪个数字。该模型的目标明确、任务简单,数据集规范、统一,数据量大小适中,在普通的PC电脑上都能训练和识别,堪称是深度学习领域的“Hello World!”,学习AI的入门必备模型。

技术要求:python,sklearn机器学习库或者pytorch/tensorflow深度学习框架

详情链接:http://yann.lecun.com/exdb/mnist/

结果提交:建模的流程图,项目代码

 

2、Dogs vs. Cats

 

难度等级:

项目说明:本项目是机器学习竞赛平台Kaggle上的一个图片分类项目Dogs vs. Cats——猫狗大战,项目要解决的问题实际是一个计算机视觉领域的图像分类问题,计算机通过学习图像本身的特征将不同类别的图像区分开来。这个领域不仅非常有趣,而且具有非常大的应用价值和商业价值。猫狗大战项目图片数据来自于微软研究院的一个CAPTCHA(for Completely Automated Public Turing test to tell Computers and Humans Apart)项目Asirra 的子数据集。在提供大量有标签的猫狗图片的前提下,我们希望计算机可以从这些图片中学习到猫狗的特征,从而使得计算机可以正确的对不带标签、未曾见过的猫狗图片进行分类。项目提供了用于训练、测试的两部分数据,要求使用算法程序在训练集上对已分类的猫和狗的图片进行建模,然后利用建立的模型对测试集上多张打乱顺序的未标记猫和狗的图片进行推断,输出图片是狗的概率。我们期望训练后的模型在测试集上的得分表现score可以达到kaggle排行榜前 10%,也就是在 Public Leaderboard 上的 logloss 低于 0.06127。

技术要求:python,sklearn机器学习库或者pytorch/tensorflow深度学习框架

详情链接:https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/overview

结果提交:项目流程图,项目代码

 

3、Fake News

 

难度等级:

项目说明:当你看到一条新闻的时候,是否想过这条新闻的真伪?假新闻是那些虚假的新闻故事:故事本身是捏造的,没有可证实的事实、来源或引用。当有人(或机器人之类的东西)冒充某人或可靠来源虚假传播信息时,也可以被认为是假新闻。在大多数情况下,制造虚假信息的人都有一个目的,可以是政治上的、经济上的,或者是为了改变人们对某个话题的行为或想法。现在有无数的假新闻来源,大部分来自编程的机器人,他们不知道疲倦(他们是机器呵呵),继续24/7传播假信息。过去5年里更严肃的研究表明,虚假信息的传播与选举、公众对不同话题的看法或感受之间存在很大的相关性。这个问题是真实的,很难解决,因为机器人越来越好,在欺骗我们。我们需要更好的系统来帮助我们了解假新闻的模式,以改善我们的社交媒体、交流方式,甚至是防止世界的混乱。在项目中,我们将使用机器对抗机器——利用机器学习方法,让假新闻无处遁形。

技术要求:python,sklearn机器学习库或者pytorch/tensorflow深度学习框架

详情链接:https://www.kaggle.com/c/fake-news/data

结果提交:项目流程图,项目代码

 

4、真假脸识别

 

难度等级

项目说明:Deepfake技术可显示AI生成的真实视频,显示人们在做和说虚构的事情,这些视频可能会对人们如何确定在线呈现的信息的合法性产生重大影响。这些内容生成和修改技术可能会影响公共话语的质量和维护人权,尤其是考虑到伪造品可能被恶意用作错误信息,操纵,骚扰和说服的来源。说的简单一点,想想如果有坏人试图攻破你的人脸识别系统会发生什么?这样的用户可能会拿到另一个人的照片。甚至可能他们的手机上就有其他人的照片或视频,他们可以用这样的照片或视频来欺骗识别人脸的相机。在这种情况下,照相机完全有可能将其识别为正确的人脸,从而让未经授权的用户骗过人脸识别系统,这无疑是一个极大的隐患!在本项目中,我们需要搭建一个真假脸检测系统,向“假脸”说No!

技术要求python,sklearn机器学习库,pytorch/tensorflow深度学习框架,OpenCV等计算机视觉库

详情链接https://www.kaggle.com/c/deepfake-detection-challenge

结果提交项目流程图,项目代码

二、数据分析类

1、数据驱动的品牌分析(Data driven brand analysis)

 

难度等级:

项目说明:在大数据的今天,通过互联网超文本链接,无数的个人、团体、公司、政府等不同组织形态的主体均深深嵌入到互联网世界,在网络世界中留下了大量的数据。我们可以利用这些数据对某一特定品牌进行综合性的分析。你可以自由选取你的角度,利用各种外部资源,比如:社交媒体,公司财报等。你可以分析关于某一品牌的社媒言论,研究舆论的变化趋势,以及大众的情感变化等等;你还可以对品牌的用户进行分析,对产品进行分析;你甚至可以分析品牌的关系网络等等。这是一个开放性的课题,唯一限制你的就是你对商业的洞见和你分析思维的深度。完成分析项目后,你将需要以该品牌顾问的角度,汇报你对该品牌进行分析后的结果,尝试提出一些你自己的见解,辅助该品牌的决策。

技术要求:对技术的硬要求不高,你只需要了解并使用爬虫,能够进行数据库的选型完成增删改查等基本操作,熟练掌握pandas。你要能够使用可视化工具,比如:matplotlib、seaborn库,或者Tableau。最重要的是,你需要能够根据分析的目标快速检索并学习其他工具/模块,并运用在分析的过程中。

结果提交:分析流程图,分析过程中产生的代码,分析报告以及汇报时使用的PPT