微博首案赢了2000万，还在用API抓数据的你慌了吗？

2024年1月23日 08:22 • 未来科技

但二审法院并未让简亦迅公司的策略发挥作用，而是四两拨千斤地用“用户使用数据”“平台服务数据”以及“微指数”大数据产品的划分方式，避开了对数据是否公开问题的直接讨论（数据公开问题的讨论，将在不正当竞争的环节进行），在根本上否定了简亦迅公司通过分类来降低责任的划分方式。简亦迅公司访问了微博有偿提供的、未主动公开的API数据接口，通过不断变换IP地址、微博用户UID和伪装UA信息的方式，骗取了微博服务器提供的数据，在未对数据提供任何贡献的情况下倒卖微博数据，可能导致微梦公司、用户数据有关权益受损，扰乱市场秩序，造成原简亦迅公司双方利益失衡，构成不正当竞争。

新年伊始，微博就在广东省高院，狠狠地赢了两千万。

两千万对微博来说可能不算什么。但在“国内数据竞争类纠纷案件”中，这已经是最高的判赔数额（之一）。

“数据抓取”构成不正当竞争的案子并不鲜见。但区别于通常的爬虫手段抓取数据，本案的特点在于：这是首例非法调用服务器API接口获取数据交易转卖，构成不正当竞争的案件。

更重要的是，本案法官在判决中对“数据要素”有关法益的考量，尤其是有关数据分类、案件取证、不正当竞争等有关争议的论述，可以为当下数字经济发展、数据合规实务和有关争议解决的司法实践提供宝贵的经验。

因此，我们专门整理了本案127页判决书中精彩的案件看点，结合我们的经验，为数商、有关企业和律师的数据实务提供参考。

一、简亦迅公司干了什么？

原告微梦公司是微博平台的经营主体，被告简亦迅公司及其深圳分公司经营iDataAPI平台，主要为公众提供调用API采集数据等功能，其中提供的API接口就包括微梦公司经营的新浪微博。简亦迅公司的行为包括：

1. 提供11项微博API数据接口

微梦公司主张，简亦迅公司在其经营的iDataAPI网站提供了11项与新浪微博相关的付费API接口，包括用户的关注、点赞、主页等微博账号数据、微博头条文章等。

2. 存储和出售微博的付费阅读文章

微博上有些内容是需要V+付费会员才能阅读的内容，而现在这些付费内容，却可以直接通过iDataAPI平台的接口直接获取。

3. 通过变换IP地址和微博账号，恶意绕开微博的反爬措施抓取数据

微博为阻止恶意数据爬取，会根据数据的请求频率、频次来判断是真人用户还是网络爬虫。微梦公司巧妙地通过置入“加密字符串”的取证方式（我们会在下文详细介绍），证明简亦迅公司为了规避微博的反抓取措施，每次都采取变换不同的IP地址和用户信息的方式来抓取微博数据。

除了简亦迅公司的前述行为，微梦公司还主张简亦迅公司根据特定客户需求定制抓取新浪微博数据、使用“微博API”作为百度竞价排名搜索关键词。

二、本案的独特之处：API接口抓取数据

在本案之前，微博曾与脉脉就API接口有关的问题对簿公堂。但与本案不同的是，在微博诉脉脉案中，微博与脉脉曾存在合作关系，并基于合作关系向脉脉开放了API功能，但仅支持脉脉调用微博头像、名称、标签等信息。但由于微博当时存在技术漏洞，脉脉通过同样的接口获取了权限之外的用户职业和教育信息。在双方终止合作后，微博虽然终止了脉脉的API端口权限，但脉脉仍在使用之前获取的微博用户数据，超过了双方的授权范围。法院最终认定该案脉脉构成不正当竞争。

本案与新浪微博诉脉脉案的区别在于，简亦迅公司未经微梦公司许可，调用微博的API接口，不断通过变换IP地址和用户名来绕过微博的反爬措施；而脉脉是通过原先双方合作的开放API接口，获取了权限之外的其他用户数据，并在与微博的合作终止后仍继续使用，将非脉脉用户的微博信息展示在脉脉用户的脉脉软件联系人中。

本案双方在庭审过程中，对微博的API接口是否已经公开、是否因为被公开而可以正当合法地使用展开了讨论。简亦迅公司认为，微博的API接口已经在GitHub网站上被公开，简亦迅公司通过该方式获得了微博的API接口，具有合法来源。但该观点并未被法院采信。

三、微梦公司取证的妙手：放置“加密字符串”

为了证明简亦迅公司通过变换不同的IP地址和不同的微博用户账号来规避微博的反抓取措施，微梦公司进行了公证取证，取证过程堪称教科书级范例，归纳如下：

1. 微梦公司将微博服务器收到的、在简亦迅公司每次抓取时所提供的IP地址、微博用户uid（微博为每位用户设置的身份识别号）等信息进行加密，形成一段加密字符串，放置在微博“V+会员付费阅读文章”的数据中。

2. 从简亦迅公司抓取的微博数据中，能找到该加密字符串，解密后可以得到简亦迅公司抓取微博数据时所使用的IP地址、微博用户uid等信息。

3. 将上述过程操作10次，每次解密后，均获得不同的IP地址和微博用户uid信息，证明简亦迅公司在每次抓取新浪微博数据时，均变换IP地址和微博用户账号，以规避、绕过微博服务器的反抓取措施。

4. 在对前述内容进行公证取证时，微梦公司于同一份公证书中，在放置加密字符串前、中、后的三个阶段依次进行取证，完整地还原了简亦迅公司未经合法授权，通过微博的API接口抓取数据的全过程。

通过放置“加密字符串”，微梦公司的取证效果得到了充分的保障。但这样的取证方式，有一定的必要前提：被告的侵权行为需要具有实时性。在本案中，简亦迅公司获取数据的方式，是通过API接口，实时向微博的服务器请求数据。而当被告请求的数据是一次性的、不具备实时性的时候，又应当如何举证呢？

这就需要原告珍惜自己的数据和版权，具备“提前埋伏”的思维。

我们在代理另一起案件时，也曾采用了类似的策略，同样取得良好的效果。在该案中，我们对该案原被告的数据进行一致性比对时，重点对原告预先已经在作品（或数据集）中放置的“加密字符串”，与被告的作品（或数据集）进行比对。经比对，被告在整个作品的多处表达，与原告的表达完全一致，有些错别字、病句或者前言不搭后语的表达，被被告完全复制。

这种提前埋伏的信息或标记，可以是一些故意而为的错误，也可以是一些通过某种方式隐藏的字段，需要在发布作品（或数据集）之前提前放置。当被告使用的侵权作品（或数据集）数量巨大时，一般难以在海量数据里对这些信息或标记进行清洗；而一旦在取证的过程中成功固定这些信息或标记，则往往可以在庭审中获得一锤定音的效果。

四、应当如何对涉案微博数据进行分类？

一审法院将涉案微博数据分为三类：

1. 微博用户使用行为生成的数据。包括用户使用微博平台服务时的注册信息、发布的内容等数据；

2. 微博提供服务生成的数据，包括转发、点赞、关注、粉丝数量、uid、id等信息；

3. 微博利用算法形成的“微指数”大数据产品。

对此，简亦迅公司认为前两类属于公共领域的公开数据，天然不具有排他的财产性权益；而后一类中，简亦迅公司虽然认可微博对数据进行了实质性投入，但由于“主动向公众开放”，所以只要简亦迅公司的访问不妨碍微博的正常运行，就不构成不正当竞争，不能享有排他的财产性权益。

二审法院基本认同了一审法院分为三类数据的做法，将前两类数据分别简称为“用户使用数据”和“平台服务数据”。但二审法院对“微指数”单独归类，认为其“具有深度知识产品的特性，不是简单由数据的系统化、规模化集聚和整合而成，而是利用算法技术对平台数据集合进行计算加工而成的独立的大数据产品，其价值体现在该数据本身的知识性、启示性，与前述的平台数据集合不宜在同一层级并列。”

至于“公开数据或不公开数据”、“企业数据或个人数据”、“原始数据或衍生数据”等分类方式，法院则认为应当尽可能简化，避免在数据类型上构成交叉；且由于简亦迅公司的API数据提供方式确实存在类型上的交叉，因此更应当简化分类方式，以便进一步探讨。

这对于企业的数据管理有何借鉴意义呢？

TC260-PG-20212A《网络安全标准实践指南-网络数据分类分级指引》（以下称“分类指南”）将数据分类为“用户数据”“业务数据”“经营管理数据”和“系统运行和安全数据”四类。其中，“经营管理数据”在微博案件中没有涉及，但其余三类数据的分类方式，与一审法院的分类大致相同。

不过，如果按照二审法院对“微指数”的评价标准来看，“微指数”确实难以直接归类到分类指南中列举的四项数据类别中去。评价数据分类的合理性后，二审法院并未进一步在分类的基础上进行论述，但综合本案的情况来看，简亦迅公司讨论数据分类，最少有以下价值或意义：

1. 从简亦迅公司的业务本身来看，“数据分类”是其宣传营销的卖点；

2. 从诉讼策略上看，如果简亦迅公司的分类方式得证，则可以大幅降低其侵权责任，尤其是“属于公共领域的公开数据”的分类方式，本质上是在对数据公开与否进行界定，是对微梦公司数据“财产权利”进行否定的积极尝试。

但二审法院并未让简亦迅公司的策略发挥作用，而是四两拨千斤地用“用户使用数据”“平台服务数据”以及“微指数”大数据产品的划分方式，避开了对数据是否公开问题的直接讨论（数据公开问题的讨论，将在不正当竞争的环节进行），在根本上否定了简亦迅公司通过分类来降低责任的划分方式。

因此，结合本案的说理，企业可以对数据分类做如下考量：

1. 在日常的数据管理中：应当结合企业数据的实际情况，充分考虑业务的实际场景，参考TC260-PG-20212A《网络安全标准实践指南-网络数据分类分级指引》或GB/T 38667-2020 《信息技术大数据数据分类指南》等指南，对数据进行多维度的分类，满足监管和日常经营管理的需要。

2. 在数据相关的争议解决中：应当考虑案件的实际情况，在做好日常数据分类管理的基础上，选用最适宜的分类标准，为法庭论述提供事实依据，提高抗辩或诉请的证明力。

五、从“生产要素”的角度看数据抓取是否涉不正当竞争

二审法院将“数据”视为“生产要素”，进一步讨论简亦迅公司的“数据抓取”行为，是本案的一大看点。

首先，法院认为数据在流通中产生价值。从有利于数据要素市场化发展的角度来看，既不能固步自封、过度管控而造成“数据孤岛”，也不能一味追求数据开放共享、互联互通，而是要确保数据依法有序流通和利用。对于简亦迅公司认为的“公开”就等于进入共有领域的观点，法院认为，如认定“公开”就“共有”，会导致数据持有方，通过各种技术手段对持有的所有数据进行更严格封闭的控制，不利于数据市场的整体创新和健康发展。

其次，法院认为数据抓取是大数据时代发展的必然产物，有助于发挥数据价值。数据抓取实质上是以机器和程序来模拟用户访问行为的一种技术形态，能够高效率、低成本地促进数据流通。数据抓取可能会抢夺基于数据竞争优势的部分交易机会，但也可能在某种程度上促进数据的流通和利用。所以，不能仅因为数据抓取行为具有争夺利益的属性，就直接认定这样的行为构成不正当竞争，而需要根据实际情况对双方的利益衡平、社会福祉等角度进行综合评价。

再次，微梦公司对涉案微博数据享有竞争性权益。微博在经营过程中产生的用户数据，可以被作为生产要素被合法加工，形成数据集合和大数据产品。微梦公司对涉案微博数据享有“自主控制、合法利用获取经济利益”的权益，可排除他人尤其是竞争对手针对数据资源的不正当竞争行为。简亦迅公司的iDataAPI网站的相关数据业务，与微梦公司具有竞争关系。如果二者之间合法竞争，即便一方利益受损，也是法律所允许的。确定简亦迅公司是否构成不正当竞争，重点在于认定简亦迅公司的前述行为是否扰乱市场竞争秩序、是否违背商业道德。

最后，简亦迅公司抓取、提供涉案数据的行为构成不正当竞争。简亦迅公司访问了微博有偿提供的、未主动公开的API数据接口，通过不断变换IP地址、微博用户UID和伪装UA信息的方式，骗取了微博服务器提供的数据，在未对数据提供任何贡献的情况下倒卖微博数据，可能导致微梦公司、用户数据有关权益受损，扰乱市场秩序，造成原简亦迅公司双方利益失衡，构成不正当竞争。

本案法院的判决对于数据治理有关问题具有重要的指导意义。在数字经济快速发展的时代背景下，法院以“数据要素”为视角，在判决书中积极地对数据抓取、数据分类、数据权益与不正当竞争有关的问题进行探讨和说理，为企业的经营管理提供了宝贵的指引。

随着数据要素市场化发展的深入，与数据有关的争议，必然会越来越多地进入司法领域，企业除了应对监管部门而做出“数据合规”的制度建设或尽职调查外，也需要关注因为数据而产生的一系列竞争法问题，既要维护“数据三权”，也要避免陷入与数据有关的不正当竞争漩涡，积极探索数据分类和管理策略，为数据资源的合理利用提供有力支持。

作为参与数字经济发展的律师，我们期待在司法实践中看到更多与“数据要素”有关的说理和实践。正如本案法官所说：要在法律法规和商业道德基础上合理界定和维护市场竞争秩序，充分激励数据生产积累、持续供给，促进数据合法、安全、高效、便捷地流通和利用，从而实现数据要素赋能数字经济公平、稳定、可持续发展的目标。

本文来自微信公众号：AI合规圈（ID：gh_344b08562741），作者：陈焕、李琪瑶

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

Ten Ways Accounting Companies Can Deliver Better Customer Service

Previous 2024年1月23日

北京快餐“诸神之战”背后，暗藏2024快餐市场的5大趋势

Next 2024年1月23日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

微博首案赢了2000万，还在用API抓数据的你慌了吗？

相关推荐