微博“反爬虫”这招,我追女孩也用过

(图片来源于霍炬公众号“歪理邪说”的文章:左图为被告“差评”文章,右图为原告霍炬文章)

因为该词组的表达颇具独创性,在他本人发表原文之前,历史上没有任何一篇文章使用过这两个词组当中的任何一个,更何况是同时使用。

三、高阶:微博一招让“秘密窃取”行为无所遁形

前面讲的“暗桩”玩法,均是运用于反抄袭(著作权纠纷)的实践,而微博则将其应用于反不正当竞争(数据权益纠纷)中。

一、初阶:文科生的藏头诗与程序员的暗桩

读书那会遇上考试答卷子,如果一题都不会,恰好同桌是全班第一,我们还可以抄同桌的卷子。顶风作案的压力之下、匆忙之中,我们自己的卷子上,除了抄到同桌的标准答案,竟把同桌的名字也一并抄过来了。

灵感来源于生活。有了这样的抄袭体验,自然知道如何反抄袭。

我大约在5年前发表过一篇有关“洗稿与反洗稿”的文章,为了说明这一“反洗稿技巧”,我在文中展示了一个自己亲历的案例:早年间为了讨好对象,我写了一篇“校园爱情文学”公众号文章,后来被不少公众号、网站擅自转发了。其实他们都不知道,在某些段落,每段段首的单字相连、段末的单字相连,分别都是特定的古诗词——我当时就是化用了像《西洲曲》当中“南风知我意,吹梦到西洲”那样的诗句。剽窃者断然不会想到,他们在抄袭文章的同时,也会把我“追女孩”的藏头诗心思全抄过去。

这样的方法,首创者当然不是我,程序员要运用得更早,他们能把代码写得跟诗一样优雅,自然也能想到代码被抄袭侵权的证明方法。例如说,一位叫“唐有鲤”的程序员,在自己写的代码中,悄悄嵌入一串具有特殊含义的信息“daimachaoyouli,qiyoucili”(代码抄有鲤,岂有此理)。这样哪怕被同事抄走,拿去跟老板邀功,这位聪明的程序员,也能凭当初埋下的“暗桩”来打脸同事。

二、进阶:“文字暗桩”首用于打官司

事实上,也确实有聪明的程序员,在打官司中用过这一招。

在霍炬诉“差评”公众号文章抄袭案[1]中,工程师霍炬先生作为原告,论述了自己使用独有词组作为“文字信标”的巧妙设计。他“埋”了两个独有词组:“兼具数学和工程之美”、“最底层的简单API实现”作为“暗桩”(见下图)

(图片来源于霍炬公众号“歪理邪说”的文章:左图为被告“差评”文章,右图为原告霍炬文章)

因为该词组的表达颇具独创性,在他本人发表原文之前,历史上没有任何一篇文章使用过这两个词组当中的任何一个,更何况是同时使用。正因为这一巧妙创新,无论原文被转载到网络上的哪一个角落,只要以这俩词组作为关键词进行检索,都能搜到原文,以及涉嫌抄袭的文章。相同的是,两篇文章都用了一样的“独创”词组,不同的是,原文发表在前、创作更早。这也是原告霍炬先生在案件当中,论述被告“差评”存在抄袭的逻辑。

“程序员们使用这个技巧已经有几十年的历史了……但应用到文字创作上,我觉得这应该是第一个公开的案例。”霍炬先生自己评价说。但遗憾的是,如此令程序员们拍案叫绝的抄袭证明方式,最后没有得到法官的“拍案支持”——法官判决认为,原告标记的两个独创短句“仅17个汉字、3个字母,所占比例极小,也并非核心内容,不能限制他人也使用这样的短句。”

法官用短短一句话,仿佛也表达了这样的两层意思:

1. 中华文化博大精深,不能说你创造了这俩句子,就垄断这俩句子的版权使用;

2. 这两句是一模一样,但字数少且非核心内容,难以证实整部作品构成抄袭。

三、高阶:微博一招让“秘密窃取”行为无所遁形

前面讲的“暗桩”玩法,均是运用于反抄袭(著作权纠纷)的实践,而微博则将其应用于反不正当竞争(数据权益纠纷)中。

在这起全国首例非法调用API获取数据交易转卖案中,作为原告的微博指控对方使用技术手段绕开了微博平台设置的保护措施,“秘密窃取”了微博的数据转售获利。在微博被疯狂非法抓取数据狂卖21亿次、胜诉获赔2000万元的背后,离不开微博的取证绝招:插入特殊字段——广东省高级人民法院在判决书中详细记录了这“制胜一招”(如下截图)。当然,不想看的读者可以跳过截图,直接看我的“小白解说版”。

(抓取微博数据首案终审2022 粤民终4541号判决书截图,“微梦公司”即为微博一方)

微博采取了什么保护措施呢?我们正常用户浏览微博,后台会识别我们的id,所以此时微博以“我家大门常打开”的状态,开放怀抱等你正常登录使用。但倘若哪个坏家伙频繁向微博索要数据,超出用户正常使用微博的范围,后台就会识别出这个id事出反常必有妖,为防别有用心的竞争对手来爬数据,微博会拒绝继续向该id提供数据。这,就是微博所采取的“反爬”措施手段。

那对方是如何成功绕过上述保护措施,“秘密窃取”微博数据的呢?若要人不知,除非换id。没错,打一枪换一个马甲,让微博后台每次都误以为是不同id的正常用户登录,如此一来,爬数据简直不要太愉快,零元购瞬间掏空别人数据库不是梦。(注:此处仅为评论和说明某一技术手段,并非教授某种技术方式)

微博又是如何锁定对方“秘密窃取”的罪证呢?天网恢恢,有了“暗桩”,哪怕你烧成灰。学过中学《生物》的,都应该记得“荧光标注法”

举个例子,年级长韦博阳(后台)宣布,期末考试1至6班,1班成绩最好,奖励1班全班同学,集体到大教室享用点心。但这个韦博阳是新来的年级长,6个班的学生他全都不认识,为了防止1班以外的其他学生来“浑水摸鱼”、抢占资源,韦博阳年级长会在大教室门口,检查每个学生的校牌(id),确认是1班学生(正常用户)才放行。

结果那天1至5班均有部分捣蛋学生(异常用户)篡改校牌,以1班学生的身份掩人耳目,成功混吃,当然也成功“等死”——因为韦博阳年级长还有后手,他要求每位学生吃点心之前,必须使用洗手液洗手,而这些洗手液被提前掺了荧光剂(插入加密字符),只要学生们回到自己的班上,韦博阳年级长到逐个班去关灯,在黑暗状态下,偷吃过点心的“黑手”必将一一遁形(解密)。这,就是微博的取证小妙招。

四、余论:同一“暗桩”打法,两案结果为何不同?

想到前面霍炬诉差评案的败诉,有细心的读者可能会有疑问:底层逻辑都是玩“藏头诗”这一招,追女孩可以用,数据之争可以用,凭啥到版权之诉这里就不能用?

究其原因,是指控的侵权方式不一样,所以“暗桩”的使命也大有不同。在非法调用API抓取微博数据首案中,微博只要证明“暗桩来源”即可——即指出“既然暗桩源于我,你就必然爬过我”。然而在著作权纠纷案中,这些“暗桩”除了要证明来源,往往还被要求担起证明“实质性相似”的重任。这个拦路虎可太难了,什么意思呢?就是我们在前面分析霍炬vs.差评案中的法官意思:

(1)暗桩虽是你独创,但别人也能照用;

(2)暗桩信息这么短,咋能证明文章整体抄袭?

放在《著作权法》当中,自然是这么个道理。但我个人认为,在司法实践中,倘若我们是遭遇被侵权的一方,维权的思路可以不那么局限,比方说:

1. 用“暗桩”争取法官心证:“暗桩”是用来证明你“偷”过我的东西,而不是去论证我能不能禁止你使用这玩意,只要我证明了“暗桩”的独创性、在先且唯一,那天底下哪有那么巧的事,刚好你的文章里也用了一模一样的“暗桩”——以此作为重要突破口,来打动法官内心确信,然后再结合其他方面(如比对情节、编排、叙述方式等是否存在雷同),打一套“有面子有里子”的组合拳,以实现“实质性相似”的侵权论证;

2. 优先适用数据权益保护:数字经济时代,许多的文字作品同时也是以数据形态存在,在数据越来越重要的今天,维权方如果能在起诉时挖掘到案件价值,实现从“版权保护”向“数据权益保护”的跨越,实际上不仅仅是请求权基础的简单变化,更加是在举证便捷程度、获赔金额、案件影响意义等方面实现跨越式的提升。毕竟,里程碑式的非法调用API抓取微博数据全国首案,以及其判赔金额2000万元,足以说明一切。

这是数据的价值,也是律师的价值,更是“懂技术的律师”的价值。

参考资料:

[1]霍炬诉被告杭州麻瓜网络科技有限公司著作权侵权纠纷一案【(2016)浙 0110 民初 315 号】

[2]环球网:《应对疫情,日本专家做的这个实验,结果让人震惊!》(https://mp.weixin.qq.com/s/CrK-ecn3mJ8gGHF_gnqDdg)

本文来自微信公众号:AI合规圈(ID:gh_344b08562741),作者:叶俊希(北京市隆安(广州)律师事务所合伙人,广州市律师协会文化传媒与体育娱乐法律专业委员会委员)

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年1月30日
下一篇 2024年1月30日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日