全国免费电话:
Q1015831000

公司新闻

恒达注册首页_2019 NLP大全:论文、博客、教程、

选自Medium

者:Elvis

机械之心编译

在整个2019年,NLP领域都沉淀了哪些器械?有没有什么是你错过的?若是以为自己梳理太费时,不妨看一下本文作者整理的效果。

2019 年对自然语言处置(NLP)来说是令人印象深刻的一年。本文将着重讲述一些 2019 年我在机械学习和自然语言处置领域有所见闻的主要事宜。我会把重点主要放在自然语言处置上,但也会涉及若干人工智能领域的趣闻。主要内容包罗研究论文、博客、工具和数据集、社区讨论、教程资源等。

长文预警,建议先点珍藏。

目录

研究论文

机械学习/自然语言处置的缔造力和社群

工具和数据集

博文文章

教程资源

人工智能伦理学

研究论文

2019 年,谷歌人工智能团队带来了 ALBERT,它是用于情境化语言表征的自监视学习模子 BERT 的精简版。主要的改善在于削减了冗余,加倍有用地分配了模子的性能。此方式在 12 个自然语言处置义务上到达了当前最佳性能(SOTA)。

2018 年底,英伟达的研究者们揭晓了一份热门论文 (A Style-Based Generator Architecture for Generative Adversarial Networks)(取名为 StyleGAN),提出了匹敌天生网络的另一种天生器架构,灵感来自于气概迁徙问题。2019 年,这份事情有了更新 (Analyzing and Improving the Image Quality of StyleGAN),着重研究了诸如重新设计天生器正则化的历程等方面。

上面一行为目的图像,下面一行为合成图像。图源:https://arxiv.org/abs/1912.04958

2019 年,我最喜欢的论文之一是 code2seq (https://code2seq.org/),这是一种从结构化表征的代码中天生自然语言序列的方式。这样的研究可以对自动代码摘要和文档化的应用起到助益。

你可曾想过,有没有可能为生物医学文本挖掘训练一个生物医学的语言模子?谜底就是 BioBERT (BioBERT: a pre-trained biomedical language representation model for biomedical text mining),这是一个可以从生物医学文献中提取主要信息的语境化模子。

在 BERT 揭晓后,Facebook 的研究者们公布了 RoBERTa (RoBERTa: A Robustly Optimized BERT Pretraining Approach),引入新的优化方式来改善 BERT,也在多项自然语言处置的基准测试中到达了当前最优效果。

最近,Facebook 人工智能部门的研究者们还揭晓了一种基于全注意力层来改善 Transformer 语言模子效率的方式 (https://ai.facebook.com/blog/making-transformer-networks-simpler-and-more-efficient/)。这个研究组的其它事情 (https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/) 还包罗了若何教人工智能系统通过制订设计来使用自然语言。

全注意力层。图来:https://arxiv.org/pdf/1907.01470.pdf

可注释性仍然是机械学习和自然语言处置领域的主要议题。这篇论文 (Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI) 对于可注释性、分类法以及未来研究的时机提供了一份周全的综述。

Sebastian Ruder 的博士论文也值得一看,题为:Neural Transfer Learning for Natural Language Processing。

新加坡国立大学等机构的研究者开发了一种方式 (Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling),能够在对话的情境下实现情绪识别,这将为情浸染的对话天生铺平道路。

另一项相关事情则是用一种叫做 DialogueGCN (DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation) 的图神经网络方式,来探测对话中的情绪。作者还提供了代码实现:https://github.com/SenticNet/conv-emotion/tree/master/DialogueGCN。

谷歌量子人工智能团队在 Nature 揭晓了一篇论文,声称开发了一台量子盘算机,速率比天下上最大的超级盘算机更快。

之前提到过,可注释性是神经网络架构里需要大幅改善的一个领域。这篇论文 (Attention is not not Explanation) 讨论了在语言模子的情境下,注意力机制作为可注释性的一种可靠方式所具有的局限性。

神经逻辑机 (Neural Logic Machines) 是一种神经符号网络架构,在归纳学习和逻辑推理上效果都不错。这个模子尤为善于数组排序和寻找最短路径之类的义务。

神经逻辑机架构。图源:https://arxiv.org/pdf/1904.11694.pdf

这里另有一篇论文 (On Extractive and Abstractive Neural Document Summarization with Transformer Language Models),把 Transformer 语言模子应用到了抽取式和摘要式 Neural document summarization。

研究者们开发出了一种方式,着重于行使对照来打造和训练机械学习模子。这种方式 (https://blog.ml.cmu.edu/2019/03/29/building-machine-learning-models-via-comparisons/) 不需要大量的特征-标签对,它将图像与之前见过的图像相对照,以判断这张图像是否应该属于某个标签。

Nelson Liu 等揭晓的论文 (Linguistic Knowledge and Transferability of Contextual Representations) 讨论了 BERT 和 ELMo 等预训练的语境模子所捕捉到的语言学知识类型。

XLNet

是一种自然语言处置的预训练方式,在 20 个义务上比 BERT 更胜一筹。我在这里(https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b) 写过一篇关于这项主要研究的总结。

这份 DeepMind 的研究 (Learning and Evaluating General Linguistic Intelligence) 展示了一项涉及面普遍的实证调查效果,其目的为评估用于种种义务的语言明白模子。这项剖析对于更好地明白语言模子捕捉的内容、提高模子效率尤为主要。

VisualBERT (VisualBERT: A Simple and Performant Baseline for Vision and Language) 是一个小而壮大的框架,用于为图像-语言类义务建模,相关义务包罗 VQA 、Flickr30K 等。这个方式运用了堆叠的 Transformer 层和自注意力机制,来对齐一段文本和一块图像区域之中的元素。

这份研究 (To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks) 提供了一份对照自然语言处置迁徙学习方式的详尽剖析,以及为自然语言处置事情者们准备的指南。

Alex Wang 和 Kyunghyun 提出了 BERT 的一种实现方式 (BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model),可以天生高质量且流通的效果。你可以使用这份 Colab 条记原本试试:https://colab.research.google.com/drive/1MxKZGtQ9SSBjTK5ArsZ5LKhkztzg52RV

Facebook 的研究者们公布了 XLM 的 PyTorch 版代码 (https://github.com/facebookresearch/XLM),这是一个跨语言的预训练模子。

这份研究 (https://www.cl.uni-heidelberg.de/statnlpgroup/blog/rl4nmt/) 对神经机械翻译领域强化学习算法的应用做了综合剖析。

这篇在 JAIR 上揭晓的论文 (A Survey of Cross-lingual Word Embedding Models) 对跨语言词嵌入模子的训练、评估和使用做了周全综述。

The Gradient 上揭晓了一篇极佳的文章 (https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/),详述了当前强化学习的局限性,并提供了行使分层强化学习的潜在生长方向。很快就有人公布了一系列优异的教程 (https://github.com/araffin/rl-tutorial-jnrr19/blob/master/1_getting_started.ipynb),你可以通过这组教程来最先接触强化学习。

这篇论文 (Contextual Word Representations: A Contextual Introduction) 是情境化词表征的精简版入门读物。

机械学习/自然语言处置的缔造力和社群

机械学习被用于解决真实天下的种种问题,同时它也被用在了一些有趣且有缔造力的地方。机械学习的缔造力和人工智能的任何其他研究领域同样主要,由于最终,我们希望造出能够辅助我们塑造文化和社会的人工智能系统。

到了年终之际,Gary Marcus 和 Yoshua Bengio 在深度学习、符号人工智能和混合型人工智能系统的想法等议题上举行了争执。

2019 斯坦福年度AI讲述

于年底面世,讲述中对于人工智能现状周全的剖析可以辅助我们更好地明白人工智能的整体历程。

常识推理仍旧是一个主要的研究领域,由于我们想要制作的人工智能系统,不仅应该能基于数据做展望,还应该明白这些决议并对它们举行推理。这类手艺可以用于对话式人工智能,其目的是使得智能署理能够自然地和人们举行对话。看看 Nasrin Mostafazadeh 的这份采访 (https://www.forbes.com/sites/ayurellahornmuller/2018/12/31/the-art-of-ai-storytelling-how-one-30-under-30-scientist-is-teaching-devices-to-make-assumptions/#12824a1e2a4f)。

他在采访中讨论了常识推理以及讲故事、语言明白等应用。你也可以看看这篇关于若何在常识推理中运用语言模子的新论文 (Explain Yourself! Leveraging Language Models for Commonsense Reasoning)。

激活图谱

是谷歌和 Open AI 的研究者们开发的一项手艺,用于更好地明白和可视化神经网络中神经元之间发生的交互。

InceptionV1 的图像分类网络的激活图谱展示了许多完全实现的特征,如电子产品、建筑物、食物、动物的耳朵、植物和多水的靠山。图来:博文 https://openai.com/blog/introducing-activation-atlases/

看一下 Geoffrey Hinton 和 Yann LeCun 出品的这份图灵课程 (https://fcrc.acm.org/turing-lecture-at-fcrc-2019),今年他俩和 Yoshua Bengio 一起获得了图灵奖。

这篇论文 (Tackling Climate Change with Machine Learning) 讨论了若何用机械学习应对气候变化。

OpenAI 揭晓了一篇涉及面很广的讲述 (Release Strategies and the

Social Impacts of Language Models),讨论了语言模子的社会影响力,包罗合理使用以及潜在的手艺滥用等主题。

情绪剖析仍然被用于林林总总的应用。The Mojifier (https://themojifier.com/) 是一个很酷的项目,它可以查看图像并检测其中的情绪,然后把脸替换成检测到的情绪所对应的表情符号。

今年将人工智能手艺应用于放射学的研究也十分热门。这里有篇不错的文章 (Radiological images and machine learning: trends, perspectives, and prospects) 总结了这个研究领域的趋势和展望。纽约大学的研究者们公布了一个基于 Pytorch 的深度神经网络 (https://medium.com/@jasonphang/deep-neural-networks-improve-radiologists-performance-in-breast-cancer-screening-565eb2bd3c9f),能够改善放射科医生对乳腺癌的筛查。这里还公布了一个主要的数据集,叫作 MIMIC-CXR (https://physionet.org/content/mimic-cxr/2.0.0/),其中包罗了 X 光胸片和放射学文本讲述的数据库。

纽约时报写了一篇报道 (https://www.nytimes.com/2019/01/02/obituaries/karen-sparck-jones-overlooked.html),记叙了 Karen Spark Jones 在自然语言处置和信息检索领域做出的具有开创性的孝敬。

OpenAI Five (https://openai.com/blog/openai-five-defeats-dota-2-world-champions/) 成为首个在电竞游戏上打败天下冠军的人工智能系统。

全球人工智能人才讲述

对于天下局限内的人工智能人才贮备,以及全球对人工智能人才的需求做了一份详细的汇总。

DeepMind 团队的播客 (https://deepmind.com/blog?filters={"category":["Podcasts"]})值得一看。这个节目的嘉宾们会讨论人工智能当下最为紧迫的话题。关于人工智能的潜力,Demis Hassbis 在经济学人做了一个访谈 (https://worldin.economist.com/article/17385/edition2020demis-hassabis-predicts-ai-will-supercharge-science?utm_medium=pr&utm_source=inf-a&utm_campaign=worldin),谈论了一些未来学的想法,好比把人工智能作为人类大脑的延伸,或许能以此解决一些主要的科学问题。

2019 同样见证了机械学习在康健领域的卓越生长。好比,麻省总医院(波士顿综合性医院)的研究者们开发了一个可以识别脑出血的人工智能系统 (https://venturebeat.com/2019/01/04/massachusetts-generals-ai-can-spot-brain-hemorrhages-as-accurately-as-humans/),精度可以到达人类水平。

人工智能系统剖析的脑部扫描

Janelle Shane 总结了一组「新鲜」的实验 (https://aiweirdness.com/post/181621835642/10-things-artificial-intelligence-did-in-2018),展示了机械学习若何地被应用于种种有趣的实验。有时候,这种实验能辅助我们真正明白人工智能系统到底在干什么,以及没有在干什么。有些实验涉及把神经网络用于天生假蛇,或者讲笑话。

蛇的种类。图源:https://aiweirdness.com/post/181621835642/10-things-artificial-intelligence-did-in-2018

学习若何使用基于 TensorFlow 的机械学习模子来寻找行星:https://www.blog.google/topics/machine-learning/hunting-planets-machine-learning/

OpenAI 讨论了关于公布大规模无监视语言模子的忧郁(包罗潜在的恶意使用案例):https://openai.com/blog/better-language-models/#sample1

这个 Colab 条记本有一份异常棒的入门课本:https://colab.research.google.com/github/google/nucleus/blob/master/nucleus/examples/dna_sequencing_error_correction.ipynb,辅助你学习若何把 Nucleus 和 TensorFlow 用于 DNA 序列纠错。

这里另有一篇优异的博文 (https://blog.floydhub.com/exploring-dna-with-deep-learning/),讲了若何把深度学习架构用于探索 DNA。

图片泉源:https://raw.githubusercontent.com/google/nucleus/master/nucleus/examples/images/consensus-approach-overview.jpg

Alexander Rush 是一位哈佛的自然语言处置研究者,他写了一篇关于张量问题的主要文章,以及它们在当前的库上是若何露出出来的。他也谈论了关于把命名索引用于张量的提议。

工具和数据集

这里我主要纪录一些和软件以及数据集有关的故事,这些软件和数据集对自然语言处置和机械学习的研究和工程化起到了协助作用。

Hugging Face 公布了一个热门的 Transformer 库 (https://github.com/huggingface/transformers),基于 Pytorch,名为 pytorch-transformers。它使得自然语言处置从业者和研究者能够简朴地使用最先进的通用架构,诸如 BERT、GPT-2 和 XLM 等。

若是你对若何使用 pytorch-transformers 感兴趣,你可以从许多地方最先着手。不外这篇 Roberto Silveira 的教程 (https://rsilveira79.github.io/fermenting_gradients/machine_learning/nlp/pytorch/pytorch-transformer-squad/) 异常详尽,告诉你若何把这个库用于机械阅读明白,我稀奇喜欢。

TensorFlow 2.0 公布了,有许多新的功效。在这里可以读到最佳使用方式 (https://medium.com/tensorflow/effective-tensorflow-2-0-best-practices-and-whats-changed-a0ca48767aff)。Fran ois Chollet 还在这个 Colab 条记本 (https://colab.research.google.com/drive/1UCJt8EYjlzCs1H1d1X0iDGYJsHKwu-NO) 中写了一篇关于新功效的周全综述。

PyTorch 1.3

公布了,多了一大堆的新功效,其中包罗命名张量和其它前端的改善。

艾伦人工智能研究所公布了 Iconary (https://iconary.allenai.org/),这是一个可以和人类玩猜图游戏的人工智能系统。这项事情连系了图像/语言学习系统和常识推理。他们还揭晓了一个新的常识推理基准 (Abductive Commonsense Reasoning),名为 Abductive-NLI。

spaCy 公布了新的库 (https://explosion.ai/blog/spacy-transformers),支持把 Tranformer 语言模子连系到他们自己的库中,从而能够在 spaCy 自然语言处置系统中提取特征并加以运用。这项事情基于 Hugging Face 开发的著名 Transformer 库。Maximilien Roberti 还写了一篇不错的文章 (https://towardsdatascience.com/fastai-with-transformers-bert-roberta-xlnet-xlm-distilbert-4f41ee18ecb2),讲述若何把 fast.ai 的代码和 pytorch-transformers 连系起来。

Facebook 人工智能团队公布了 PHYRE (https://phyre.ai/),这是一个物理推理的基准,目的是通过解决种种物理问题,测试人工智能系统物理推理的能力。

图片泉源:https://phyre.ai/

斯坦福的自然语言处置组公布了 StanfordNLP 0.2.0 (https://stanfordnlp.github.io/stanfordnlp/) 版本,这是一个用于自然语言剖析的 Python 库。你可以在 70 多种差别的语言上举行差别的语言剖析,好比词形还原和词性标注。

GQA (https://cs.stanford.edu/people/dorarad/gqa/) 是一个视觉问答数据集,协助在视觉推理方面的研究。

exBERT(exBERT: A Visual Analysis Tool to Explore Learned Representations in Transformers Models)是一个可视化交互工具,探索 Transformer 语言模子的嵌入向量和注意力。你可以在这里 (http://exbert.net/) 实验 demo。

exBERT。图源:http://exbert.net/

Distill 揭晓了一篇关于若何可视化循环神经网络 (RNN) 的影象历程的文章 (https://distill.pub/2019/memorization-in-rnns/)。

Mathpix

这个工具可以凭据你提供的一张公式图片输出 latex 版本的公式。

图片泉源:https://mathpix.com/

Parl.ai (https://parl.ai/) 这个平台拥有许多着名数据集,涉及各项研究,包罗对话和对话式人工智能。

Uber 的研究者们公布了 Ludwig (https://uber.github.io/ludwig/),这个开源的工具使得用户们能够简朴地训练和测试深度学习的模子,只要写几行代码即可。主要是为了制止训练和测试模子时的代码量。

谷歌人工智能团队公布了「自然问题」数据集,这是一个用于训练和评测开放域上的问答系统的大规模语料库。

博客文章

今年是 NLP 数据科学作家和爱好者数目激增的一年。这对我们的领域异常有益,我们也激励更多的相互讨论和学习。这里我列出一些有趣且必看的博客文章:

Christian Perone 对最大似然估量(MLE)和最大后验概率(MAP)举行了详细先容,它们是辅助我们明白若何估量模子参数的主要原理。文章链接:http://blog.christianperone.com/2019/01/mle/

Reiichiro Nakano 在博客中讨论了基于匹敌性鲁棒分类器的神经气概迁徙。文章链接:https://reiinakano.com/2019/06/21/robust-neural-style-transfer.html;

Colab 条记本链接:https://colab.research.google.com/github/reiinakano/adversarially-robust-neural-style-transfer/blob/master/Robust_Neural_Style_Transfer.ipynb

Saif M. Mohammad 撰写了一系列文章讨论了 ACL 的历时剖析。文章链接:https://medium.com/@nlpscholar/state-of-nlp-cbf768492f90

「三张图划分示意从事 NLP 的平均学术岁数、中位数学术岁数以及作者在学术岁数发第一篇论文的百分比。」――图片泉源 https://medium.com/@nlpscholar/state-of-nlp-cbf768492f90

语言模子可以学习语法吗?这篇文章通过使用结构探测证实使用上下文示意法和查找树结构的方式是可行的。文章链接:https://nlp.stanford.edu/~johnhew/structural-probe.html

Andrej Karpathy 写了一篇博客

总结了若何有用训练神经网络的方式并举行了实践。

Google AI 研究职员和其他研究职员协作加强了对使用 BERT 模子的搜索明白。像 BERT 这样的语境化模子足以明白搜索行为背后的意图。文章链接:https://www.blog.google/products/search/search-language-understanding-bert

Rectified Adam(RAdam)是基于 Adam 优化器的新优化手艺,有助于改善 AI 架构。在寻找更好、更稳固的优化器上我们已经支出许多起劲,但该文章称要将重点放在优化的其他方面,这些方面对于提高收敛性同样主要。文章链接:https://medium.com/@lessw/new-state-of-the-art-ai-optimizer-rectified-adam-radam-5d854730807b

随着最近机械学习工具的大量开发,关于若何实现机械学习系统以解决实际问题的讨论也越来越多。Chip Huyen 写了一篇有趣的文章讨论了机械学习系统设计,强调了超参数调优和数据管道。

NVIDIA 缔造了最大语言模子的纪录

,训练了数十亿参数的模子。

Abigail See 撰写了一篇不错的博客,注释若何在为执行自然语言天生义务而开发的系统环境中举行优越的对话。文章链接:http://www.abigailsee.com/2019/08/13/what-makes-a-good-conversation.html

Google AI 公布了两个自然语言对话数据集,旨在使用更庞大和自然的对话数据集来改善对话式应用程序,例如数字助理。文章链接:https://ai.googleblog.com/2019/09/announcing-two-new-natural-language.html

深度强化学习仍然是 AI 领域中讨论最普遍的话题之一,它甚至引起了心理学和神经科学领域职员的兴趣。

Samira Abner 撰写了一篇博客,总结了 Transfoemer 和胶囊网络及其毗邻背后的主要组织要素。文章链接:https://staff.fnwi.uva.nl/s.abnar/?p=108

Adam Kosiorek 在基于堆叠的胶囊自动编码器(一种胶囊网络的无监视版本)上写了这篇文章,可以应用于目的检测。文章链接:http://akosiorek.github.io/ml/2019/06/23/stacked_capsule_autoencoders.html

图片泉源:https://staff.fnwi.uva.nl/s.abnar/?p=108

研究职员在 Distill 上揭晓了一篇互动文章,旨在展示对高斯历程可视化的探索。文章链接:https://distill.pub/2019/visual-exploration-gaussian-processes/

通过 Distill,Augustus Odena 呼吁研究职员解决有关 GAN 的几个主要的开放性问题。

图卷积网络(GCN)的 PyTorch 实现如下,可用于对垃圾邮件发送者和非垃圾邮件发送者举行分类。PyTorch 实现:https://github.com/zaidalyafeai/Notebooks/blob/master/Deep_GCN_Spam.ipynb

年头,VentureBeat 公布了由 Rumman Chowdury、Hilary Mason、Andrew Ng 和 Yan LeCun 等专家介入的 2019 展望列表。可以看看他们的展望是否准确。

这篇文章注释了若何优化 BERT 以执行多标签文本分类:https://medium.com/huggingface/multi-label-text-classification-using-bert-the-mighty-transformer-69714fa3fb3d

由于 BERT 的盛行,在已往的几个月中,许多研究职员开发了一些方式来「压缩」BERT,在原来版本的基础上构建更快、更小且内存效率更高的版本。Mitchell A.Gordon 撰写了一篇先容压缩类型与使用方式的综述。文章链接:http://mitchgordon.me/machine/learning/2019/11/18/all-the-ways-to-compress-BERT.html

超级智能仍然是专家们争论的话题。这是一个需要准确明白框架、政策以及仔细观察的主要主题。我发现了一系列的有趣综合文章,对于明白有关超级智能的问题和注意事项很有用。文章链接:https://www.fhi.ox.ac.uk/wp-content/uploads/Reframing_Superintelligence_FHI-TR-2019-1.1-1.pdf

Eric Jang 写了一篇博客先容了元学习的观点,旨在确立和训练机械学习模子,这种模子不仅可以展望,而且可以学习。文章链接:https://blog.evjang.com/2019/02/maml-jax.html

Sebastian Ruder 总结了 AAAI 2019 的集会重点:https://ruder.io/aaai-2019-highlights/

图神经网络今年受到了普遍的讨论。David Mack 撰写了一篇不错的可视化文章,先容了他们若何使用此手艺并执行最短路径盘算。文章链接:https://medium.com/octavian-ai/finding-shortest-paths-with-graph-networks-807c5bbfc9c8

贝叶斯方式仍然是一个有趣的话题,尤其是若何将它们应用于神经网络,以制止过拟合等常见问题。下面是 Kumar Shridhar 关于该话题建议的阅读清单。文章链接:https://medium.com/neuralspace/bayesian-neural-network-series-post-1-need-for-bayesian-networks-e209e66b70b2

「以点估量为权重的网络与以概率漫衍为权重的网络」。图片泉源:https://arxiv.org/pdf/1806.05978.pdf

教程资源

在这一章,我将列出一系列教程资源。

CMU 公布了「NLP 神经网络」课程质料和教学纲领。

Elvis Saravia 和 Soujanya Poria 公布了一个名为 NLP-Overview 的项目,旨在辅助学生和从业职员获得适用于 NLP 的深度学习手艺的简要综述,包罗理论、算法、应用程序和最新手艺功效,相关链接:https://github.com/omarsar/nlp_overview

NLP 概述。

微软研究实验室在数据科学的基础上出书了免费的电子书,局限从马尔可夫链蒙特卡罗到随机图。电子书链接:https://www.datasciencecentral.com/profiles/blogs/new-book-foundations-of-data-science-from-microsoft-research-lab

《机械学习数学》是一本免费的电子书,先容了机械学习中使用的最主要的数学观点。它还包罗一些形貌机械学习部门的 Jupyter 条记本教程。电子书链接:https://mml-book.github.io/

Jean Gallier 和 Jocelyn Quaintance 撰写了一本免费电子书,涵盖了机械学习中使用的数学观点。电子书链接:https://www.cis.upenn.edu/~jean/math-deep.pdf

斯坦福大学公布了有关「自然语言明白」课程的视频播放列表。

关于学习,OpenAI 整理了一份很棒的清单,提供了有关若何继续学习和提高机械学习技术的建议。他们的员工天天都使用这些方式来不断学习和扩展知识。清单链接:https://openai.com/blog/learning-day/

Adrian Rosebrock 公布了一本长达 81 页的指南,先容若何使用 Python 和 OpenCV 实现盘算机视觉。指南链接:https://www.pyimagesearch.com/start-here/

Emily M. Bender 和 Alex Lascarides 出书了一本名为《NLP 的语言基础》的书。这本书的主要讨论了 NLP 的意义,注释了 NLP 在语义学和语用学方面的基础。电子书链接:http://www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?products_id=1451

Elad Hazan 在「机械学习的优化」上揭晓了他的课堂条记,旨在通过简明的数学和符号将机械学习训练问题先容为一个优化问题。条记链接:https://drive.google.com/file/d/1GIDnw7T-NT4Do3eC0B5kYJlzwOs6nzIO/view

Deeplearning.ai 还揭晓了一篇很棒的文章,讨论了使用直观、可互动的方式举行神经网络参数优化。文章链接:https://www.deeplearning.ai/ai-notes/optimization/?utm_source=social&utm_medium=twitter&utm_campaign=BlogAINotesOptimizationAugust272019

Andreas Mueller 公布了一个视频列表,对应一个名为「应用机械学习」的新课程。视频链接:https://www.youtube.com/playlist?list=PL_pVmAaAnxIQGzQS2oI3OWEPT-dpmwTfA

Fast.ai 公布了新 MOOC 课程,名为「从基础中举行深度学习」。课程毗邻:https://www.fast.ai/2019/06/28/course-p2v3/

麻省理工学院公布了有关「深度学习入门」课程的所有视频和教学纲领。课程链接:https://www.youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI

Chip Huyen 在推特上公布了一条极好的入门机械学习的免费在线课程清单。

Andrew Trask 出书的书名为《Grokking-Deep-Learning》。这本书是明白神经网络系统结构基本组成的一个好起点。电子书链接:https://github.com/iamtrask/Grokking-Deep-Learning

Sebastian Raschka 在 github 中上传了 80 份条记本,其中先容了若何实现差别的深度学习模子,如 RNN 和 CNN。主要的是,所有模子都已在 PyTorch 和 TensorFlow 中实现。

教程(https://medium.com/@d3lm/understand-tensorflow-by-mimicking-its-api-from-scratch-faa55787170d)能够帮你深入领会 TensorFlow 的事情原理。

Christian Perone 为 PyTorch 设计了一个项目

Fast.ai 还公布了一个名为「NLP 入门」的课程,并附带一个播放列表。主题局限从情绪剖析到主题建模再到 Transformer。视频链接:https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9

Xavier Bresson 的演讲可以辅助明白用于分子天生的图卷积神经网络。演讲链接:https://ipam.wistia.com/medias/excbyr8gvv;PPT :http://helper.ipam.ucla.edu/publications/glws4/glws4_16076.pdf。

讨论若何预训练 GNN 的论文:https://arxiv.org/abs/1905.12265

在图网络的主题中,一些工程师使用图网络来展望分子和晶体的特征:https://www.eurekalert.org/pub_releases/2019-06/uoc--eug060719.php。

Google AI 团队还公布了一篇精彩的博客注释了他们若何使用 GNN 举行气息展望。博客链接:https://ai.googleblog.com/2019/10/learning-to-smell-using-deep-learning.html

若是你对使用 Graph Neural Networks 感兴趣,这里是种种 GNN 及其应用的周全概述:https://arxiv.org/pdf/1812.08434.pdf

这是约翰霍普金斯大学的 Rene Vidal 等无监视学习方式的视频的播放列表:https://www.youtube.com/playlist?list=PLFInMJnvb3owAddRh4qk2gCX25kGLDay-

若是你有兴趣将预训练的 TensorFlow 模子转换为 PyTorch,可以看 Thomas Wolf 的这篇博客:https://medium.com/huggingface/from-tensorflow-to-pytorch-265f40ef2a28

想领会天生型深度学习吗?David Foster 写了一本很棒的书,教数据科学家若何应用 GAN 和编码器-解码器模子来完成绘画、写作和作曲。电子书链接:https://www.oreilly.com/library/view/generative-deep-learning/9781492041931/;这是本书随附的官方代码:https://github.com/davidADSP/GDL_code,其中包罗 TensorFlow 代码。行使(https://github.com/MLSlayer/Generative-Deep-Learning-Code-in-Pytorch)也可以将代码转换为 PyTorch。

该 Colab 条记本包罗一些代码块,用于实践和领会因果推理观点,例如干预(intervention)、反事实等。链接:https://colab.research.google.com/drive/1rjjjA7teiZVHJCMTVD8KlZNu3EjS7Dmu#scrollTo=T9xtzFTJ1Uwf

这是 Sebastian Ruder,Matthew Peters,Swabha Swayamdipta 和 Thomas Wolf 提供的 NAACL 2019 的「自然语言处置中的转移学习」教程的质料。质料链接:https://github.com/huggingface/naacl_transfer_learning_tutorial。他们还提供了配套的 Google Colab 条记本:https://colab.research.google.com/drive/1iDHCYIrWswIKp-n-pOg69xLoZO09MEgf

Jay Alammar 的另一篇很棒的博客关于数据示意的主题。他还写了许多其他有趣的插图指南,包罗 GPT-2 和 BERT。Peter Bloem 还揭晓了异常详细的博客,注释了组成 Transformer 的所有要素。博客链接:http://peterbloem.nl/blog/transformers

尺度自我注意力机制的可视化图,图片泉源:http://peterbloem.nl/blog/transformers

这是 Mihail Eric 撰写的关于 ACL 2019 NLP 趋势的精彩概述。包罗将知识注入 NLP 系统结构、可注释性和削减私见等。文章链接:https://www.mihaileric.com/posts/nlp-trends-acl-2019/。若是你感兴趣,这里另有另外几个概述。链接 2:https://medium.com/@mgalkin/knowledge-graphs-in-natural-language-processing-acl-2019-7a14eb20fce8和链接 3:http:/ /noecasas.com/post/acl2019/ 。

斯坦福(CStan)公布了 CS231n 2019 版的完整课程纲领。课程链接:http://cs231n.stanford.edu/syllabus.html

David Abel 公布了 ICLR 2019 的概述。文章链接:https://david-abel.github.io/notes/iclr_2019.pdf。他也提供了 NeurlPS2019 的综述。

李沐的《着手学深度学习》是一本很棒的书,它向读者先容了有关深度学习的相关内容。

关于 BERT、ELMo等用于迁徙学习 NLP 的插图指南链接如下:http://jalammar.github.io/illustrated-bert/

图片泉源:http://jalammar.github.io/illustrated-bert/

Fast.ai 公布了 2019 年版「面向程序员的适用深度学习」课程。课程链接:https://www.fast.ai/2019/01/24/course-v3/

由 Pieter Abbeel 和其他教授设计的这门课程,可以辅助你领会关于深度无监视学习的知识。课程链接:https://sites.google.com/view/berkeley-cs294-158-sp19/home

Gilbert Strang 出书了一本与线性代数和神经网络有关的新书。电子书链接:http://math.mit.edu/~gs/learningfromdata/

「Scipy 课本」是一系列课程,教你若何掌握 matplotlib,NumPy 和 SciPy 等工具。课程链接:https://scipy-lectures.org/

这里另有一份关于明白高斯历程的优异课程。课程链接:https://peterroelants.github.io/posts/gaussian-process-tutorial/

这是一篇必读的文章,其中 Lilian Weng 深入探讨了通用语言模子,例如 ULMFit、OpenAI GPT-2 和 BERT。文章链接:https://lilianweng.github.io/lil-log/2019/01/31/generalized-language-models.html

Papers with Code 是一个网站,显示了精选的带有代码和最新功效的机械学习论文列表:https://paperswithcode.com/

Christoph Molnar 公布了第一版的《可注释性机械学习》,该书涉及用于更好地注释机械学习算法的主要手艺。链接:https://christophm.github.io/interpretable-ml-book/

David Bamman 公布了完整的课程提要以及加州大学伯克利分校自然语言处置课程的 PPT。课程链接:http://people.ischool.berkeley.edu/~dbamman/nlp18.html

伯克利公布了「应用 NLP」类的所有质料。链接:https://github.com/dbamman/anlp19

Aerin Kim 是 Microsoft 的高级研究工程师,她撰写了与应用数学和深度学习有关的文章,主题包罗条件独立性、伽玛漫衍等。文章链接:https://towardsdatascience.com/@aerinykim

Tai-Danae Bradley 撰写了博客,讨论了若何明白矩阵和张量。本文以可视化效果编写,有助于更好地明白在矩阵上执行的某些转换和操作。

人工智能中的道德

伦理学可能是今年人工智能系统中讨论最多的方面之一,其中包罗围绕私见、公平和透明度等方面的讨论。本节提供了有关该主题的有趣故事和论文清单:

「Does mitigating ML's impact disparity require treatment disparity?」一文讨论了通过对真实数据集举行实验且应用差别学习历程的效果。文章链接:http://papers.nips.cc/paper/8035-does-mitigating-mls-impact-disparity-require-treatment-disparity

HuggingFace 揭晓了一篇文章在人工智能对话中开源 NLP 手艺靠山下的伦理问题。文章链接:https://medium.com/huggingface/ethical-analysis-of-the-open-sourcing-a-state-of-the-art-the-art-conversational-ai-852113c324b2

随着我们继续将 AI 的手艺引入社会,探讨伦理在 AI 研究中的作用是一项主要的事情。下面的论文提供了「伦理相关的研究在领先的人工智能、机械学习和机械人领域的应用」的剖析。文章链接:https://arxiv.org/abs/1809.08328

在 NAACL 2019 上揭晓的论文讨论了除偏方式若何掩饰词嵌入中的性别私见。文章链接:https://arxiv.org/abs/1903.03862

可以听听 Zachary Lipton 在他的论文《Troubling Trends in ML Scholarship》中做的演讲:https://www.youtube.com/watch?v=A2Jtqi_oa2Y]。附摘要:https://medium.com/dair-ai/an-overview-of-troubling-trends-in-machine-learning-scholarship-582df3caa518

Gary Marcus 和 Ernest Davis 揭晓了他们的书《重启人工智能:构建我们可信赖的人工智能》。本书的主题是讨论实现壮大的人工智能必须接纳的步骤。链接:https://www.amazon.com/Rebooting-AI-Building-Artificial-Intelligence/dp/1524748250

关于 AI 提高的话题,Fran ois Chollet 也写了一篇令人印象深刻的论文,提出更好的方式来丈量智力。文章链接:https://arxiv.org/abs/1911.01547

由 Andrew Trask 提出的有关差异化隐私、团结学习和加密 AI 等主题的 Udacity 课程链接如下:https://www.udacity.com/course/secure-and-private-ai--ud185

关于隐私主题,Emma Bluemke 撰写了一篇很棒的文章,讨论了若何在珍爱患者隐私的同时训练机械学习模子。文章链接:https://blog.openmined.org/federated-learning-differential-privacy-and-encrypted-computation-for-medical-imaging/

在今年年头,Mariya Yao 公布了一份关于 AI 伦理的综合研究论文摘要。只管论文参考清单来自 2018 年,但它们今天仍然适用。文章链接:https://www.topbots.com/most-important-ai-ethics-research/

原文链接:https://medium.com/dair-ai/nlp-year-in-review-2019-fb8d523bcb19

原文 PDF:https://github.com/omarsar/nlp_highlights

本文为机械之心编译,转载请联系本民众号获得授权。

------------------------------------------------

加入机械之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或追求报道:content@jiqizhixin.com

广告 & 商务互助:bd@jiqizhixin.com

Copyright © 2014-2019 恒达总代理招商-恒达登录平台 版权所有   

地址: 电话:Q1015831000 传真:

手机:Q1015831000 联系人:恒达平台招商主管