站群服务器_美国_大数据分析零基础

时间:2021-04-09 06:11来源:简淘客云作者:简淘客云点击:

导读:
扫描关注公众号

站群服务器_美国_大数据分析零基础

每隔一段时间,电子邮件就会出现在careers@bayesimpact.org:"我有一份好工作。我表面上很成功。但我内心空虚。"这些电子邮件的收件人可以联系。刘力克、段保罗和埃弗雷特·韦奇勒在他们的高科技演唱会停止回答有意义的问题之后,成立了贝耶斯Impact。自2014年以来,这家非营利性组织已经招募了几名全职工程师和数据科学家来实现其目标:通过数据科学和软件的雄心勃勃的结合来解决世界上最棘手的问题。埃弗雷特开始说:"不要打击那些从营利性工作中获得很大满足感的人。"我在谷歌工作。我和优秀、善良、聪明的人一起研究迷人的科学问题。"虽然他听起来很诚恳,但听上去却是…跟着。他也有一份好工作。他表面上也很成功。他内心也有点空虚。"我做事,回家,把那堆钱存进银行账户,然后洗个澡,试着在别的地方感觉好一点。我已经厌倦了处理一般性的、营利性的抽象问题。"所以他离开了学校。他在周一会见了联合创始人保罗,周二拒绝了竞争对手的出价,并于周三以首席技术官的身份加入了这家非营利性组织,就在该公司进入Y Combinator之际。贝耶斯被安置在Zynga大楼的后方,这是一艘丑陋的宇宙飞船,在旧金山南部市场区的中部坠毁。出租的机身是高估的纪念碑。与之形成鲜明对比的是,贝耶斯的共同工作空间拥挤不堪,电线缠结,还有由其合租人多布莱特(Doblet)开发的手机充电盒。但是,虽然他们的办公室很紧,但他们的领域是崇高的。要想了解贝耶斯的雄心壮志,只需看看它的对手欺诈、医院重新接纳、警察暴行、刑事司法。这或多或少是博诺的"让我负责解决的坏事情"的候选名单。与博诺一样,导入一个解决方案而不是解决问题的方法确实存在风险。所以,我们问埃弗雷特:当你退出你的性感科技工作,把你的性感科技技能应用到世界上最棘手的问题上,我们怎么知道你是真的?埃弗雷特说:"其中有些是非常直接的。"还有一些领域我们已经调查了很多,决定不去碰。有很多棘手的道德问题,其中一些问题最终会出现。"就像任何一个制造产品的人一样,Bayes必须同情它的最终用户。然而,与大多数经前综合症不同的是,他们所做的选择可以挽救一个人的生命,追究政府的责任,或者剥夺一个人数年的自由。好的数据可能是不可能达到的平衡。情况好转了吗?自从统计100以来,已经过去了一段时间,但是拆开蜘蛛网,我可以告诉你一些关于贝叶斯定理的东西。基本上,这个定理允许我们把关于A的概率的假设复杂化,基于我们认为它与B的概率之间的关系。一组人患癌症的可能性有多大?为了简单起见,我们假设这个概率是1%,没有其他条件,因为1%的人口患有癌症。但是,如果我们还包括63岁的人,了解到年龄和癌症发病率之间的关系,我们就可以重新评估这种可能性更高。虽然这个定理可能是任何量子的公理,但它与Bayes碰撞有着特殊的关联。当他们处理一个问题时,他们想了解所有涉及到的现实世界条件。与博诺不同的是,他们不想提供天桥解决方案。"我们阅读维基百科,研究文章,白皮书,弄清楚谁在这个领域工作,研究人员实际上在发表什么,已经做了哪些技术工作,"埃弗雷特说在这一领域是否还有其他非营利组织正在进行这方面的工作?问题的范围是什么?它有多大?会影响到多少人?它给人类带来了多少痛苦?"从那以后,Bayes与一个在某个问题上做得很好的机构合作。以Zidisha为例,云信息,Zidisha是一家点对点小额信贷公司,它将美国的贷款机构与亚洲和非洲的借款人直接联系起来。他们的价值主张?切断中间人。点对点的权衡?认证借款人和防止欺诈。因此,Bayes的数据科学家收集并整理了Zidisha现有的数据:还款行为、借款人申请、借款人之间的网络等等。他们建立了预测模型,然后充实了一个情节,阐明了齐迪沙的主要权衡:为了防止X数量的欺诈,齐迪沙可能会阻止多少诚实的借款人?为了使他们的研究结果能够运行,物联网技术,工程师们随后编写了一个Python脚本,帮助Zidisha live为申请者打分。但是,有了这样的例子,人们很容易对数据的有效性产生误解。为了避免开源文化将我们引向简单的修复,Everett有一个警告:"发布表单不仅仅是为了收集数据,事情会变得更好。"数据点也是人根据医疗保险的数据,15.65%的患者在出院后30天内再次入院接受治疗。这个数字略好于全国平均水平(15.9%)。这并不是一个可以避免的风险的令人鼓舞的画面。作为该地区最大的非营利性医院系统,萨特健康对降低住院率的潜在影响最大。萨特已经在根据这种风险对患者进行分类,但机器学习也存在不足之处。Bayes正在构建一个预测模型,企业信息化应用,对患者进行评分,并确定谁在出院后有并发症的风险。按照他们项目的惯例,团队同时为临床应用开发原型软件。"比如说,如果医院有足够的资源对他们10%的病人进行额外的后续护理,也许我们可以给他们一个更好的方法来确定哪10%是好的。"但在标记了这些病人之后,又怎样?贝耶斯并没有承诺要有一个阴谋或一个算法。它承诺提供一个端到端的解决方案。光靠分析是不够的,编程也是不够的。"如果我根据每个人的风险程度来排序,你会怎么做?"埃弗雷特问道你经常给他们打电话吗?也许真正高危人群对这种治疗反应不好。"问题就变成了:应该有人干预吗?有人能干预吗?和哪些病人?这些数据如何推动一个可操作的产品?"我们必须一直思考‘人们在什么时候变得更好?’?"而不仅仅止于预测数字的准确性。"准确性仍然是重中之重。毕竟,这是数据驱动方法与直觉检查的区别所在。然而,贝耶斯越来越发现,准确性本身并不是目的。度量构建了一个案例;它们不会结束它。当面对根深蒂固的社会问题时,产品设计不仅仅是精确的。否则,好的数据可能会在不经意间变差。不仅仅是准确性加州总检察长办公室的人很兴奋。也许是绝望。也许,警察暴行的无休止的新闻循环已经把萨克拉门托逼到了穷途末路。或许,在贝耶斯州,政府已经找到了一个真正的解决办法。最近,加州重新提高了使用武力事件的报告标准。虽然过去只有在口角导致死亡的情况下才会被记录在案,但新的法规要求执法部门记录任何平民受重伤的事件。如果这还不足以引发内部的对话,其他人会从外部进行:这些数据将成为公开记录的问题。官僚们看到了他们的弗兰肯斯坦式的Excel电子表格、pdf、硬拷贝、非标准电子格式文档,他们知道他们需要更时尚的东西。因此,Bayes加入进来,旨在构建一个能够持续收集事件并将所有事件整合到数据库中的产品。在报告方面,该工具既方便用户又详细。任何部门都不应该有麻烦。在综合方面,希望分析师们能够以类似的清晰和细节获得洞察力。但贝耶斯知道必须有更多。即使是正确的数字和错误的旋转将导致更多的扭曲,而不是澄清。这里有巨大的风险。人们的事业和生命都岌岌可危。埃弗雷特说:"如果我证明两个大小相同的警察局各有100名警察,大数据是干嘛的,其中一个警察局使用武力的次数是前者的两倍,那么人们的默认反应是指着那个部门说他们不好。"现实情况是,他们可能有一个非常不同的人口,有更多的暴力犯罪,在那里,更大的武力是绝对必要的,以履行职责。"更细心的读者会发现这里面有某种讽刺意味。目标是透明,而方法是冷硬分析。但政府希望数据显示一件事,警察和活动人士有相似之处。与此同时,埃弗雷特和他的团队正试图在这场政治交火中作出裁决。他不喜欢把数字放在一边,他也不应该。"简单的指标可以诱使你毫不费力地得出错误的结论,"埃弗雷特说尽管我们普遍认为发布更多信息是好事,但我们也希望发布相关信息,以帮助人们解释显示的数字。"技术招聘人员花了一分钟时间来定义"数据科学",但他们开始同意:好的数据科学是统计、编程和产品的同等部分管理层。为什么这有什么启示吗?因为第三部分考虑了上下文。上下文是Bayes产品的一部分。即使以透明的名义盲目发布数字是正确的,那也将是糟糕的产品设计。或者,正如首席技术官所说:"除非人们生活得更好,大数据是什么,否则我们没有做好本职工作。"每一个项目都必须导致有意识的改革。如果他们做不到,也有相应的协议。万一

最新文章
推荐文章

热门标签

服务器 站群 基础

友情链接Early childhood

云计算产品_ucloud数据库云主机_国内数据文件储存云平台-简淘客云

Copyright © 2002-2019 简淘客云 版权所有 备案号:豫ICP备xxxxxxxx号

声明: 本站文章均来自互联网,不代表本站观点 如有异议 请与本站联系 本站为非赢利性网站 不接受任何赞助和广告