机械之心报道
介入:张倩、泽南、蛋酱
维基百科上的词条内容,可能会被人修改并谋取私利,而且这一情形就发生在 AI 学术圈。
「遇事不决先谷歌」已经是现在许多人查找信息的尺度起手了。若是搜索一个词条,百科网站的效果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息,虽然可能不够严谨,但也被许多人作为主要的信息、知识泉源。
不外,最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条,好比 Reddit 网友发现的「SGD(随机梯度下降)」一词。
这位发帖者示意,ta 原本计划读一些关于梯度下降的资料,但却发现维基百科有关这一主题的词条就像一条广告。
为什么这么说呢?我们先来看一下这个词条的结构。除了通例的靠山、示例、应用等先容外,词条还包罗 SGD 的「扩展和变体」,这部排列出了 RMSProp、Adam 等着名算法和一些「二阶方式」。
「SGD」词条的结构。上图为历史版本,新版本不包罗图中的 5.7。历史版本链接:https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087
问题就出在这部门「扩展和变体」。要按说,能和 RMSProp、Adam 并列,这里列出的方式一定都不差。但发帖者却发现,这部门包罗了一篇对照冷门的论文(上图中的 5.7),文中提到了一种基于 Kalman 的随机梯度方式。
词条历史版本中对上述方式的先容。
上文中提到的论文。数据泉源:Google Scholar。
这是一篇 2016 年的论文,被引用量只有 22 次。要知道,与其并列的 Adam 在 Google Scholar 上的引用量高达 3 万 9 千多次。
这事儿就异常可疑了,于是他决议进一步挖掘信息。这是一篇 2017 年 2 月添加的文章,被添加进词条的时刻,该论文的引用量似乎是 0,添加者是一位用户名为「Vp314」的用户。凑巧的是,论文作者的 gmail 用户名也是「Vp314」。
而且,这位用户对「SGD」词条的唯一孝敬就是添加他的这项手艺:第一次是将「Kalman-based Stochastic Gradient Descent」添加到「扩展和变体」;第二次是稍加改动;第三次是被删除之后重新添加,被删的理由是「最近几乎没有被学术界引用。」「这个词条出现在维基百科上使其看起来像是一种成熟的手艺,但实在并不是。」
「梯度下降」这种概念在机械学习领域一定是必须要懂的知识,修改这个词条颇有点修改教科书的意味。更令人忧郁的是,这很可能仅仅是被个体研究员/学者恶意修改内容的一小部门。
机械学习领域自我宣传的竞争已经到了这样的水平,不禁令人叹息。
实在在维基百科上,另有许多类似的奇葩操作,或许只是我们都没发现。
好比有一位留言者回忆起自己读大学的时刻,他的室友乐成编辑了维基百科词条,说自己是网球的发明者。在这之后,有一些文章和书籍在援引质料时,就真的将此人视为网球发明者……
固然,这种开玩笑并未给窜改者本人带来直接利益,更多的人或者机构会行使词条来获取商业利益。
「若是你对维基百科足够领会,就会发现这内里充满了政治、小我私家私见、SEO 内容、学术广告等等。相比其他,IT 领域的词条内容质量还算可以的,由于这个领域的人都醒目计算机(emmm 这么说似乎上世纪 90 年月的说法),他们一样平常都市检查泉源或者屏障垃圾内容。然则其他科学领域的词条会更糟糕,充斥着大量的无用内容。」
这位留言者以为,在事实正确性和清晰度方面,维基百科甚至还不如高中教科书,更不能和正规的百科书籍相提并论。
早在 2005 年,《Nature》就曾对维基百科和代表传统百科全书的《大英百科全书》各自全书间的 41 篇科学内容做过观察,最后得出结论,在科学文章这一领域,维基百科与《大英百科全书》有着相似的精确度,但两者在内容上都有一定水平上的「严重缺失」。但至少,《大英百科全书》无法让随便一小我私家「自由编辑」。
有一位留言者提到,他最近听说了一种针对维基百科词条优化的「收费服务」,用度大概是 600 美元或者更多,可能让你拥有、撰写维基百科的词条,同时实时修改其他任何人所做的编辑。你甚至可以行使这项服务撰写支持或否决某小我私家/看法/机构的文章,然后公布相关报道和文章作为参考泉源。
这类事情在其他领域也经常发生,一位留言者是信号处置领域的研究者,他指出,许多页面上的参考文献和方式都不是最新手艺,而且内容也时常失足。若是运气好,你可能还会尴尬偶遇自己的同事在维基百科上「自吹自擂」。
他还提到了一个不算 ML 领域但也很有意思的事,2007 年的 Asilomar 大会上,他遇见了 James D. Johnston,James 曾经担任微软音频工程师,此前在 AT&T 贝尔实验室声学研究部工作过。
那时 James 在会上揭晓了一篇标题为《感知音频编码的发展史实时间线》的正式论文。James 说他写这篇论文的原由,实在是由于维基百科页面的错误。每次 James 试图更正维基百科页面的时刻,都市被问「您对此领会若干?」,然后每次都市被拒。
现在,在维基百科上共有跨越 110 万个词条。除学者之外,许多公司和组织都有投入资金和精神在维基百科上编辑对自己有利信息的情形。虽然从长远来看,人们总是会倾向于阅读真正有价值的内容,但代表特定利益的内容总是令人难以接受的,而且有时刻它们还会停留在网页上很长一段时间。
看来在查找主要内容的时刻,我们还需要加倍严谨,至少要使用差别的信息泉源举行一些对比。在这方面,你有更好的方式吗?
参考链接:
https://www.reddit.com/r/MachineLearning/comments/fhveru/d_researcherprofessor_possibly_using_wikipedia/
本文为机械之心报道,转载请联系本民众号获得授权。
------------------------------------------------