700字范文 > 伯克利博士『机器学习工程』大实话；AI副总裁『 ML就业市场』分析；半导体创业公

伯克利博士『机器学习工程』大实话；AI副总裁『 ML就业市场』分析；半导体创业公

时间：2023-04-30 02:19:30

ShowMeAI日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点击查看历史文章列表，在公众号内订阅话题#ShowMeAI资讯日报，可接收每日最新推送。点击专题合辑&电子月刊快速浏览各专题全集。点击这里回复关键字日报免费获取AI电子月刊与资料包。

工具&框架

🚧 『StereoKit』HoloLens混合现实开发库

/StereoKit/StereoKit

StereoKit 是一个易于使用的开源混合现实库，兼顾了趣味性、易用性和专业性。StereoKit 受 XNA 和 Processing 等库的启发，基于 C# 和 OpenXR 构建，可用于实现 HoloLens 和 VR 应用程序。从下方的演示图可以看出，StereoKit 的混合现实输入、简单强大的互动界面、灵活的着色器/材质系统等特点都很突出。教程文档非常完备，适合入手！

🚧 『doccano』基于网页的开源协同多语言文本标注工具

/doccano/doccano

doccano 是一个开源人工文本标注工具，可以为 Named Entity Recognition 命名实体识别、Sentiment Analysis 情感分析、Tanslation 文本翻译、Intent Detection and Slot Filling、Text to SQL、Image Classification 图像分类、Image captioning 图像说明、Object Detection 目标检测、Polygon Segmentation 多边形分割、Speech to Text 语音到文本等任务提供标注功能。只要创建一个项目，上传数据并开始标注，就可以在几个小时内建立一个数据集。

🚧 『Fast Poisson Image Editing』基于雅可比方法的快速泊松图像编辑算法

/Trinkle23897/Fast-Poisson-Image-Editing

泊松图像编辑（Fast Poisson Image Editing），利用多核CPU或GPU来处理高分辨率的图像输入，可以将两幅图像融合在一起而不产生人工痕迹。该项目基于雅可比方法，给定源图像及其相应掩码、目标图像上的对应位置，算法总是能产生惊人的结果。

🚧 『ExplainableAI.jl』使用 Julia 和 Flux.jl 的可解释人工智能

/adrhill/ExplainableAI.jl

ExplainableAI.jl 实现了神经网络的可解释性方法和可视化，类似于 PyTorch 的 Captum、Zennit 以及Keras 模型的 iNNvestigate。Repo 提供了一个示例，用 LRP 解释为什么使用一个预先训练好的小型 LeNet5 模型将 MNIST 数字归类为9。

🚧 『yolov7-opencv-onnxrun-cpp-py』YOLOv7目标检测部署

/hpc203/yolov7-opencv-onnxrun-cpp-py

Repo 分别使用 OpenCV、ONNXRuntime 部署 YOLOv7 目标检测，一共包含14个 onnx模型。依然是包含 C++ 和 Python 两个版本的程序。

博文&分享

👍 一位博士生对『机器学习工程』的思考

https://www.shreya-/phd-year-one/

作者 Shreya Shankar 毕业于斯坦福大学，曾供职于 Google Brain 和 Facebook，目前在加州大学伯克利分校攻读数据库博士学位。这篇文章是她读博一年后，从『数据工程 Data Engineering』的角度对『机器学习工程 Machine Learning Engineering』的一些思考。

文章将 MLE（机器学习工程）划分为两种类型：Task MLE（任务向机器学习工程）和 Platform MLE（平台向机器学习工程）。Task MLE 负责在生产中维持特定的机器学习流水线，Platform MLE 负责帮助 Task MLE 自动化其繁琐的工作部分。文中包含大量作者的实践总结与反思，包括模型的局限、当前工作的不合理之处和改进方案等。

👍 『机器学习就业』市场：条条大路通罗马

//04/25/rome.html

作者 Eric Jang 布朗大学毕业后任职于 Google 机器人技术团队，跳槽至 Halodi Robotics 任AI副总裁。本文是作者本次求职的总结，梳理『FAANG+similar』『自己创业』『OpenAI』『Large Language Model 初创公司』『Tesla』『Robotics 初创公司』『ML + Healthcare 初创公司』『Crypto + DeFi』各方向的利弊，阐述了自己对创业的思考、对行业发展的判断。Eric Jang 的观察视野很宏观！ML从业者可以一看~

数据&资源

🔥 『CelebV-HQ』大规模视频人脸属性数据集

/CelebV-HQ/CelebV-HQ

CelebV-HQ（高质量名人视频数据集）是一个具有丰富面部属性注释的大规模、高质量和多样化的视频数据集，包含分辨率不低于 512x512 的 35,666 个视频片段，来自 15,653 个人，并且所有片段都是用 83 个面部属性手动标注的，涵盖了外观、动作和情绪。

🔥 『Awesome Semiconductor Startups』半导体创业公司大列表

/aolofsson/awesome-semiconductor-startups

研究&论文

可以点击这里回复关键字日报，免费获取整理好的论文合辑。

科研进展
.07.14 『自然语言处理』 Scene Text Recognition with Permuted Autoregressive Sequence Models.07.12 『计算机视觉』 Collaborative Neural Rendering using Anime Character Sheets.07.14 『计算机视觉』 Relighting4D: Neural Relightable Human from Videos.07.13 『计算机视觉』 Learnability Enhancement for Low-light Raw Denoising: Where Paired Real Data Meets Noise Modeling

⚡ 论文：Scene Text Recognition with Permuted Autoregressive Sequence Models

论文时间：14 Jul

所属领域：自然语言处理

对应任务：Language Modelling，Scene Text Recognition，语言模型，场景文字识别

论文地址：/abs/2207.06966

代码实现：/baudm/parseq

论文作者：Darwin Bautista, Rowel Atienza

论文简介：Context-aware STR methods typically use internal autoregressive (AR) language models (LM)./语境感知的STR方法通常使用内部自回归（AR）语言模型（LM）。

论文摘要：上下文感知的STR方法通常使用内部自回归（AR）语言模型（LM）。AR模型的固有限制促使两阶段方法采用外部LM。外部LM对输入图像的条件独立性可能会导致它错误地纠正正确的预测，从而导致显著的低效率。我们的方法，PARSeq，使用互换语言模型学习具有共享权重的内部AR LM的集合。它将无语境的非AR和语境感知的AR推理统一起来，并使用双向语境进行迭代完善。使用合成训练数据，PARSeq在STR基准（91.9%的准确性）和更具挑战性的数据集中取得了最先进的（SOTA）结果。当在真实数据上进行训练时，它建立了新的SOTA结果（96.0%的准确性）。PARSeq在准确率与参数数、FLOPS和延迟方面是最佳的，因为其简单、统一的结构和并行标记处理。由于其对注意力的广泛使用，它对现实世界图像中常见的任意方向的文本是稳健的。代码、预训练权重和数据见：/baudm/parseq。

⚡ 论文：Collaborative Neural Rendering using Anime Character Sheets

论文时间：12 Jul

所属领域：计算机视觉

对应任务：Neural Rendering，神经渲染

论文地址：/abs/2207.05378

代码实现：/megvii-research/conr

论文作者：Zuzeng Lin, Ailin Huang, Zhewei Huang, Chen Hu, Shuchang Zhou

论文简介：Drawing images of characters at desired poses is an essential but laborious task in anime production./在动漫制作中，为人物绘制所需姿势的图像是一项必不可少但却很费力的工作。

论文摘要：在动漫制作中，以理想的姿势绘制人物图像是一项重要而又费力的任务。在本文中，我们提出了协作神经渲染(CoNR)方法，从角色表中的一些任意姿势的参考图像中创建新的图像。一般来说，动漫人物身体形状的高度多样性使得现实世界人类的通用身体模型（如SMPL）无法被采用。为了克服这一困难，CoNR使用了一个紧凑的、容易获得的地标编码，以避免在管道中创建一个统一的UV映射。此外，通过在专门设计的神经网络结构中使用特征空间跨视点密集对应和翘曲，在拥有多个参考图像时，CoNR的性能可以得到显著提高。此外，我们收集了一个包含70多万张不同姿势的手绘和合成图像的字符表数据集，以促进该领域的研究。

⚡ 论文：Relighting4D: Neural Relightable Human from Videos

论文时间：14 Jul

所属领域：计算机视觉

论文地址：/abs/2207.07104

代码实现：/frozenburning/relighting4d

论文作者：Zhaoxi Chen, Ziwei Liu

论文简介：Our key insight is that the space-time varying geometry and reflectance of the human body can be decomposed as a set of neural fields of normal, occlusion, diffuse, and specular maps./我们的主要想法是，人体的时空变化的几何学和反射率可以被分解为一组法线、闭塞、漫反射和镜面地图的神经场。

论文摘要：人体AI打光是一项非常理想但具有挑战性的任务。现有的工作要么需要昂贵的使用灯光舞台的一次光照（OLAT）捕获的数据，要么不能自由地改变渲染身体的视角。在这项工作中，我们提出了一个原则性的框架，即Relighting4D，它可以在未知的光照下从人类视频中自由地重新打光。我们的主要想法是，人体的时空变化的几何形状和反射率可以被分解为一组法线、闭塞、漫反射和镜面地图的神经场。这些神经场被进一步整合到基于反射率的物理渲染中，神经场中的每个顶点都会吸收和反射环境中的光线。整个框架可以以自监督的方式从视频中学习，并为正则化设计了物理上的先验因素。在真实和合成数据集上进行的大量实验表明，我们的框架能够为具有自由视角的动态人类演员重新打光。

⚡ 论文：Learnability Enhancement for Low-light Raw Denoising: Where Paired Real Data Meets Noise Modeling

论文时间：13 Jul

所属领域：计算机视觉

对应任务：Denoising，降噪

论文地址：/abs/2207.06103

代码实现：/megvii-research/pmn

论文作者：Hansen Feng, Lizhi Wang, Yuzhi Wang, Hua Huang

论文简介：Low-light raw denoising is an important and valuable task in computational photography where learning-based methods trained with paired real data are mainstream./低光原始去噪是计算摄影中一项重要而有价值的任务，在那里，以配对的真实数据训练的基于学习的方法成为主流。

论文摘要：弱光原始去噪是计算摄影中的一项重要而有价值的任务，其中以配对真实数据训练的基于学习的方法是主流。然而，有限的数据量和复杂的噪声分布构成了配对真实数据的可学习性瓶颈，这限制了基于学习的方法的去噪性能。为了解决这个问题，我们提出了一个可学习性增强策略，根据噪声建模对成对的真实数据进行改造。我们的策略由两种有效的技术组成：射击噪声增强（SNA）和暗影校正（DSC）。通过噪声模型的解耦，SNA通过增加数据量来提高数据映射的精度，DSC通过降低噪声的复杂性来降低数据映射的复杂性。在公共数据集和真实成像场景中的大量结果共同证明了我们方法的先进效果性能。

我们是ShowMeAI，致力于传播AI优质内容，分享行业解决方案，用知识加速每一次技术成长！点击查看历史文章列表，在公众号内订阅话题#ShowMeAI资讯日报，可接收每日最新推送。点击专题合辑&电子月刊快速浏览各专题全集。点击这里回复关键字日报免费获取AI电子月刊与资料包。

伯克利博士『机器学习工程』大实话；AI副总裁『 ML就业市场』分析；半导体创业公司大列表；大规模视频人脸属性数据集；前沿论文 | ShowMeAI资讯日报

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。