当达摩院专家利用视觉AI能力剪出照片时,一切都失控了……

网络上对于当达摩院专家利用视觉AI能力剪出照片时,一切都失控了……和汽车的抠图的题大家都有很高的关注度,小编为大家整理了知识。


达摩院宣布成立后,阿里这个“神秘机构”受到了外界的广泛关注。造福人类、世界第一、高端、神秘……这些标签也引起了达摩院科技专家的好奇。


在外人看来,达摩院人才辈出,其中大部分是外国人,从事神秘的高深研究。没想到,这群神秘专家和清洁僧一样,居然创造了宝箱——阿里云视觉智能开放,开放了他们研究的人脸识别、图像识别等各种视觉AI功能!打开宝箱,可以看到已经开发了50多项视觉AI功能,包括人脸识别、文字识别、产品理解、内容安全、图像识别、图像增强、图像分割、目标检测等。您可以通过API调用它!举个例子,我们可以看到专家们正在利用图像分割的视觉AI功能来掌握图像剪切,而这一切都在失控地发展。


你看,什么都能挖出来!


部分照片取自淘宝产品照片。


达摩院专家为何开始研究剪纸?


事情要从阿里巴巴智能设计实验室自主研发的设计产品鲁班说起。鲁班的初衷是改变传统的设计模式,让卖家在短时间内完成众多横幅图片、海报图片、场地图片的设计,从而提高工作效率。-并且通过鲁班映射,可以传递高质量的视觉效果,从而提高产品吸引力和买家的视觉体验,从而达到提高产品转化率的目标。在绘图过程中,产品抠图是一个不可避免的繁琐工作,设计师平均需要两个多小时才能抠出一张详细的人像,这种纯手工、没有创意的工作必须被人工智能取代,所以抠图算法诞生了.近年来,抠图算法逐渐进入人们的视野,比如腾讯、百度等。而其背后的产业泛、电商行业、在线餐饮、媒体、教育等行业等垂直行业,其商业价值不可小觑,可以满足各种战报、在线课程的需求。照片制作需求的类型正在扩大,包括教师剪纸和视频封面制作。市面上的一些matte算法对于人发细节的处理不是很好,对一些常见场景的支持也不是很好。针对这两个题,达摩院专家一方面设计了泛化能力更好的系统,另一方面又设计了深发丝、高度空心的相关算法,都取得了更好的效果。


遇到的题及解决方案


达摩院专家在首次推出鲁班的“批量抠图”需求时发现,用户上传的图片质量、来源、内容各不相同,很难通过单一模型一次性实现业务成果。每一个。经过对场景和数据的大量分析,定制的整体框架如下


主要涵盖过滤、分类、检测、分割四个模块。


过滤对差异图像进行过滤,主要利用分类模型和一些基本的图像算法。


品类瓶子、饮料、化妆品等品类连接性较好,3C、日用品、玩具等品类则相反。另外,由于场景需求不同,设计了不同的分割模型来提高效果。


检测鲁班场景中的用户数据大部分来自于产品照片,其中很多是经过精心设计的图像。一张照片可以包含多种产品、多个类别和一小部分主题。此外,不乏重复信息,例如新增针对文案、编辑、Logo等的一级检测,在剪切、分割后得到更准确的结果。


分割首先进行粗分割层得到粗掩模,然后进行细分割得到精确掩模。这加快了这一过程,同时使其精确度达到发际线水平。


如何让效果更准确?


虽然目前的分类和检测模型已经比较成熟,但评估模型需要根据不同的场景进行定制,缺乏分割精度,并且是所有模块中最薄弱的环节,因此成为专家们的主战场。达摩院的。以下是他们对自己的评价


分类模型分类任务在实施前往往需要多轮数据准备、模型优化和数据清理。基于此,我们设计并完成了一个自动分类工具,它集成了最新的优化技术,利用autoML的思想,在有限的GPU资源下进行参数和模型搜索,简化人类参与分类任务,并加速实现。分类任务


模型评估在训练结果不佳的情况下,直接使用回归进行分数拟合结果。在这种情况下,将其视为前序过滤任务和分类题更有意义。事实上,我们还使用一些传统算法来帮助确定诸如过暗或过度曝光之类的情况。


检测模型主要采用FPN检测架构。1.特征金字塔的特征图的每一层都融合了上下相邻层的特征,使得输出特征具有更强的潜在表示能力。2.分别预测特征金字塔不同层的特征,候选anchor可以增加对改变尺度的鲁棒性,提高小区域召回率。3.当产品尺寸比例极端时,向候选锚点设置添加可预测的比例可显着提高通用性。


分割融合模型参考论文/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paperhtml与传统的图像分割题只需要区分前景和背景不同,高精度抠图算法需要找到特定像素的特定透明度并将离散的0-1分类转换。题变成了[0,1]之间的回归题。


在我们的工作中,对于图像中的特定像素p,我们使用以下公式预测透明度


_p=_pF_p+1-_p〖1-B〗_p


其中,F_p和B_p分别表示该像素属于前景和背景的概率,_p是混合权重。我们的网络可以分为两部分整体分段网络和融合网络。


分割网络它采用图像分割任务中常用的编码器-解码器结构作为其基本结构,但与现有结构不同的是,该网络使用双解码器来预测前景和背景概率F_p〖和B〗_p。如果像素p处于图像的实心区域,则预测像素透明度的真实值,如果像素p处于图像的半透明区域,则预测真实值的上下界。像素透明度。在半透明区域,通过使用加权交叉熵损失函数相应地增加F_p〖和B〗_p值,可以将透明度的实际值“缠绕”为〖[1-B〗。_p〖,F〗_p]在本节中。


右图中红色部分是前景概率包围的像素。


融合网络由几个连续的卷积层组成,负责预测混合权重_p。作为参考,在图像的单色区域中,像素的前景和背景预测通常很容易满足条件F_p〖+B〗_p=1。此时,_p相对于_p的导数始终为0.这个很好的特性使得融合网络易于训练,并且可以自动“聚焦”在半透明区域。”


结论


可以看到,在达摩院专家们的努力下,诸如抠图等复杂题都轻松解决。除了抠图之外,阿里云视觉智能开放还存储了其他视觉AI特征,包括支付宝、天猫、淘宝等超级明星应用的优质视觉AI特征。技术和应用程序相互作用,最终在这个小宝箱中积累、变化、聚集在一起。


为了让这些视觉AI功能更广泛地普及,创造更多生活“小幸运”,阿里云视觉智能开放&阿里云异构计算&阿里云开放&NVIDIA联合举办了第二届AI挑战赛。您还可以免费试用该技术并根据需要进行开发。大赛获者将有机会参与阿里云和NVIDIA企业加速计划,并赢得DJI无人机等激动人心的品。企业加速计划获者将免费进入阿里云创新中心,享受相关企业资源,与投资者面对面交流,并参与NVIDIA创业支持计划。


查看更多


有关详细的云信息、云迁移故事、实践和产品介绍,请访


如何裁剪汽车牌照图像?要使用剪切创建车牌图像,请按照下列步骤操作


打开剪辑应用程序并创建一个新的编辑项目。


将您需要编辑的视频素材导入到您的编辑项目中。


在时间轴中,找到包含车牌的视频剪辑并将其拖至剪辑轨道。


单击视频剪辑,然后选择底部编辑栏中的“编辑”选项。


编辑栏显示一系列工具按钮。找到“Keyout”按钮并单击它。


在抠像工具中,使用手指或画笔工具将车牌轮廓的内部变黑。


完成后,单击右上角的复制按钮。


返回编辑栏,找到带有车牌的视频剪辑,然后选择右上角工具栏中的“特效”选项。


点击“特效”选项,然后找到并选择“马赛克”特效。


在马赛克选项中,选中“外观”选项,然后从下拉菜单中选择“自定义”。


在自定义形状中,点击右上角的“粘贴”按钮,将之前复制的剪切图粘贴到此处。


调整钥匙的大小和位置,直至其完全覆盖车牌。


完成后,单击右上角的“”按钮确认您的设置。


导出并共享您的编辑项目。


请注意,上述步骤可能会根据您的剪辑版本而有所不同。您可以根据您使用的剪切版本进行微调和调整。


如何在Photoshop中裁剪图像并将其传输到选区?1、直接选择法


选择各种形状+魔棒工具+选择菜单


—————选择》根据颜色选择


————-跨选择工具可用


使用Shift添加选择。


Alt减选择


Shift+AltCross


————-启用选择菜单支持


选择>选择类似


选择>扩大选择


2.快速选择工具


它是工具栏上倒数第二个工具。


画笔大小决定了选区的大小,黑白绘画决定了选区或取消选区。


您可以使用过滤器对其进行修改。


原理参考


3.将画笔路径转换为选区


笔的使用方法


用笔绘制锚点时,可以按住Shift键来绘制垂直或平行路径。


单击路线以添加点。


按Ctrl键移动点,


要将尖角转换为圆角,请按住Alt键并单击/拖动锚点。


有关提示,请参阅


4.计算通道并转换为选择


使用清晰的黑白通道并使用通道叠加来获得均匀的黑白图像。


要获得更清晰的黑白图像,请使用“图像”>“计算”。


按住Ctrl并单击通道将其选中。


————————摘要————————


1、以上方法没有好坏之分,只有适合与不适合。您可以尝试并积累经验,为您的图像找到正确的方法。


2、有时一个题并不能用一种方法完全解决。可以使用。选择“保存选择”。将选区转换为通道,然后使用“图像”>“计算”组合选区。


3.一般情况下,大家获取图片的方式都是从网上下载,我也是如此。结果,照片的质量很差,图像再现的难度明显增加,工作效果也很差。但这也是对我技能的严酷训练,既是福也是祸。


除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。