序文
競馬 ネット人工知能のデータ, 以下&ldquoと呼びます;ガイ”) テクノロジーは非常に重要な役割を果たします。この記事は中国の現在の有効な法規制に基づいています,関連する GAI テクノロジーに関する他の国または組織の規制と意見を参照,GAI テクノロジーのトレーニング データ リンクにおけるいくつかのコンプライアンス ポイントの分析,企業の実装に向けてコンプライアンスに関する提案を提出します,関連する企業や担当者に参考情報を提供することを目的。
1. GAI テクノロジーにおける競馬 ネットの役割
GAI とは、アルゴリズム トレーニング データを使用して新しいもの (テキストなど) を自律的に競馬 ネットすることを指します。、写真、オーディオ、ビデオなどの機能を備えたスマート テクノロジー。2022 年 11 月に OPEN AI が開発したチャット ツール ロボット ChatGPT の発売以来,GAI テクノロジーのビジネス評価は急上昇中。それに応じて,世界の規制当局と市民社会は GAI テクノロジーの安全性の問題を懸念していますか、倫理、知的財産保護およびその他の側面がリスクをもたらすかどうか。全体,現在、各国の規制当局の姿勢は当初の禁止から限定的な開放へと徐々に変化しつつある、開発と探索のサポートに移行中。あり“専門知識のデジタル化”最先端の従来の識別 AI テクノロジー (視覚認識など)、目標の知覚、意思決定、材料選別)の比較,GAI は &ldquo で始まります;ビッグデータ ビッグ モデル”コンテンツ出力主導の AI テクノロジー。それぞれのテクノロジー実装プロセスに注目,GAI には、従来の AI テクノロジーと比較して次の 3 つの違いがあります。
(1)アルゴリズム レベル。GAI は通常、機械学習と深層学習テクノロジーを使用します,従来の AI アルゴリズムでは、さまざまな目的を達成するためにより複雑な設計が必要になることがよくあります。注目に値します,これは、GAI の計算時間と計算能力要件が従来の AI よりも低いという意味ではありません。反対側,ビッグ競馬 ネットモデルの存在のため,GAI のコンピューティング能力要件は爆発的に増加しています。
(2)競馬 ネットレベルについて。GAI は従来の AI よりもはるかに多くのトレーニング 競馬 ネットを必要とします。ChatGPT のみ,トレーニングに参加する競馬 ネットの数が 3,000 億に達する,インターネット上のすべての英単語の合計に相当。
(3)パラメータレベルで。パラメータは、トレーニング プロセス中に AI によって学習および調整される変数です。GAI は従来の AI よりもはるかに多くのパラメータを必要とします。GPT-3 には 1,750 億のパラメータがあります,世界最大の中国語コーパスとして、Wu Dao 2.0 が驚異的な 1 に到達.75兆。
定量的に言えば,GAI システムによって出力されるコンテンツのパフォーマンスと計算能力、競馬 ネット量、パラメータ量には対数線形関係があります[1]。競馬 ネット量が多いほど,出力効果が高まるほど。これを見ればわかります,従来の AI 企業との比較,GAI テクノロジーを提供および使用する人々は、より緊急の競馬 ネットのニーズを抱えているはずです,競馬 ネット アプリケーションのシナリオはさらに多様化するはずです。したがって,GAI テクノロジーに関連する企業が GAI テクノロジーを使用しています、競馬 ネット処理プロセスにおけるコンプライアンス問題は、必然的に従来の AI システムよりも複雑になります。
2. GAI テクノロジーにおける競馬 ネット コンプライアンスの主な規定
2023 年 8 月 15 日に施行される「競馬 ネット型人工知能サービスの管理に関する暫定措置」(以下、「暫定措置」という)は、我が国が策定した特別部門規則であり、健全な発展と競馬 ネット人工知能のアプリケーションの標準化,競馬 ネット型人工知能技術の開発を促進するための具体的な方策が明らかにされる,競馬 ネット人工知能サービスの基本仕様の提供。「暫定措置」の次の 2 つの条項には、データ コンプライアンスの要件が具体化されています。
1.「暫定措置」第 4 条の要件,GAI サービスを提供および使用する者,データをトレーニングする際には民族グループの競馬 ネットを防ぐための効果的な措置を講じる必要があります、信仰、国、地域、性別、年齢、キャリア、健康およびその他の差別;
知的財産権を尊重する、ビジネス倫理,企業秘密を守ります,アルゴリズムは使用できません、競馬 ネット、プラットフォームとその他の利点,独占と不正競争の慣行;
2.「暫定措置」第 7 条の要件,AI サービス プロバイダーは、法律に従って、競馬 ネット人工知能製品の事前トレーニング データを使用する必要があります、トレーニング データ ソースの合法性の最適化を担当,また、次の特定の規制を遵守してください:
(1) 法的情報源からの競馬 ネットと基本モデルを使用する;
(2) 知的財産権の関与,法律に従って他人が享受している知的財産権を侵害しないでください;
(3)個人情報を伴うもの,個人的な同意を得るか、法律を遵守する必要があります、行政法規で定められたその他の状況;
(4) 学習競馬 ネットの品質を向上させるための効果的な対策を講じる,トレーニング 競馬 ネットの信頼性を高める、精度、客観性、多様性;
(5)「中華人民共和国サイバーセキュリティ法」、「中華人民共和国競馬 ネットセキュリティ法」、「中華人民共和国個人情報保護法」その他の法律、行政規制のその他の関連規定および関連管轄当局の関連規制要件。
また,「情報セキュリティ技術機械学習アルゴリズムのセキュリティ評価仕様」では、データは透明である必要があると規定されています (ユーザーは必要に応じてモデル関連情報を取得できます)、解釈可能性 (計算に使用されるデータ)、アルゴリズム、出力結果に対するパラメーターとロジックの影響は人間が理解できます)、公平性 (偏見や差別要因を導入しない) とプライバシー (プライバシー強化ソリューションを採用する),データ処理の範囲を最小限に抑えるなど、個人情報の匿名化、データ暗号化とアクセス制御など)。国家標準「情報セキュリティ技術競馬 ネット型人工知能の事前トレーニングおよび最適化トレーニング データ セキュリティ仕様」の草案は 2024 年 4 月にリリースされる予定,この規格の指示に従ってください,事前トレーニングや最適化トレーニングなどのトレーニング データ処理活動の基準に関する上記の「暫定措置」第 7 条の実施を支援することを目的としています,事前トレーニングや最適化トレーニングなどのトレーニング データ処理アクティビティにおけるデータ ソースの観点から、競馬 ネット型人工知能サービスの開発者に対する管理要件を明確にしようとしています,競馬 ネット型人工知能サービスが他者の知的財産権の侵害を誘導する可能性を解決する、個人情報の内容などの問題,競馬 ネット型人工知能サービスのセキュリティの向上。
3. コンプライアンスの重要なポイントの分析
この記事では、上記の規定に基づき、次の 3 点の分析に焦点を当てます。
1. “法的情報源”リクエスト
ビッグデータの文脈において,データに法的出典があるかどうかを判断する方法,全体的な側面と具体的な側面の両方から解釈できます。全体的な側面,「競馬 ネット型人工知能サービスのセキュリティに関する基本要件」(以下、「基本要件」といいます) には次のように記載されています,企業が収集とトレーニングという 2 つのアクションを実行する前に,全員がソース データのセキュリティ評価を実施する必要がある,単一ソースからのデータに 5% を超える違法および有害な情報が含まれる場合,このソース データは使用しないでください,ソース データは違法であると判断される。「基本要件」は、セキュリティ評価をどのように実施するかという問題にも明確に答えています,GAI サービス プロバイダにキーワードの使用を要求、分類モデル、手動サンプリングとその他の方法,トレーニング データ内の違法な情報や悪質な情報を完全に除外。
その間,ソース 競馬 ネットのさまざまなカテゴリについて、より具体的なコンプライアンス要件を考慮する必要があります。競馬 ネット ソースはオープンソース 競馬 ネットに分割できる、自己収集競馬 ネット、ビジネス 競馬 ネット、4 種類の合成競馬 ネット,それぞれの使用状況とコンプライアンス事項に違いがあります。以下は 1 つずつ確認されます。
オープンソース 競馬 ネットの場合。オープンソース 競馬 ネットを使用する企業にはライセンス契約または関連文書が必要。“20 個の競馬 ネット”および「暫定措置」は、公共トレーニング 競馬 ネット リソース プラットフォームの構築の促進を奨励します。我が国では,政府の公開競馬 ネットは、合法的なオープンソース 競馬 ネットの重要な情報源です。企業は全国のすべての州で事業を展開できる、都市、地域の公共競馬 ネットのオープン プラットフォーム検索。一般に公開競馬 ネットは非公開として分類されます、条件付きでオープン、無条件で 3 レベルを開放。使用中,開始カテゴリが異なることに注意してください,法的手段による公開競馬 ネットの取得。無条件に開かれるクラスの公開競馬 ネット,企業は直接収集して入手できる,条件付きで公開されている競馬 ネットは、通常の手順に従って公開競馬 ネット当局に報告する必要があります。同時に、企業は合理的な使用に注意を払う必要があります,競馬 ネット主体の正当な権利と利益を侵害しないでください,情報の客観的な正確性を維持する、適時性。
自己収集競馬 ネットの場合。自己収集競馬 ネットには、商業活動でユーザーが提供した情報競馬 ネットが含まれます,会社自身が作成した競馬 ネットとインターネットから収集した競馬 ネット。企業は自己収集競馬 ネットを使用する場合、収集記録を持つ必要があります;他人が収集を禁止していると宣言した競馬 ネットは収集しないでください;競馬 ネットの収集は、収集される者の通常の業務を妨げてはなりません。特にユーザーから競馬 ネットを収集する場合,「基本要件」では、GAI サービス プロバイダーが次のことを行う必要があると規定しています。a. ユーザー入力情報をトレーニングに使用できるかどうかをユーザーと事前に取り決めます;b. トレーニング用のユーザー入力情報をオフにするオプションを設定します;c. ユーザー競馬 ネットが収集されるステータス,終了方法をユーザーに目立つように通知。競馬 ネット収集プロセスには、クローラ テクノロジーのコンプライアンス アプリケーションも含まれます,クローラーはコンピュータ情報システムへの違法侵入という犯罪に関与している可能性があります、コンピュータ情報システムに損害を与える犯罪などの刑事法的リスク,個人情報保護の侵害につながる可能性もあります、著作権侵害、営業秘密侵害などの民事法的リスク,不正競争のリスクもあります,企業は特別な注意を払う必要があります。
ビジネス 競馬 ネット用。商用競馬 ネットとは、競馬 ネット取引機関、企業、個人間の商取引に使用できる競馬 ネットを指します。使用中,法的な取引契約が必要,そして競馬 ネットを確認してください,相手方は競馬 ネットの合法性を証明する文書を提供できません,使用すべきではありません。そのような競馬 ネット製品/サービスが競馬 ネット交換プラットフォームを通じて提供される場合,通常、取引所には公共のコンプライアンス要件があります,コンプライアンスの事前レビューを実施するには、専門組織が発行する競馬 ネット プロダクト コンプライアンス レポートも必要です。現在の企業または個人が独立している場合、直接商取引が競馬 ネット取引規模全体の 95% を占める,このビジネス行為について取引当事者に注意する価値があります,競馬 ネットから承認するには、コレクション、プロセス、セキュリティ、アプリケーションと他のチェーン全体が準拠している必要があります。
合成競馬 ネットの場合。合成データとは、アルゴリズムに基づいて競馬 ネットされた仮想データを指します,安くて簡単に手に入るから,「実際のデータになりました」;交換品”,実際に広く使用されています。最も重要なコンプライアンス リスクは、合成データによって引き起こされるバイアスとエラーです。したがって,企業は合成データを使用する場合、一定の割合の実データ サンプルを保持することに注意することをお勧めします,合成データのトレーニング ラウンドを制限する,同時に、事前トレーニング段階では合成データを使用しないようにしてください,モデルの基礎となる論理逸脱を回避,合成データは使用時にデータを識別する必要があります。
2.“法律に従って他人が享受している知的財産権を侵害してはなりません”リクエスト
知的財産システムとトレーニング データの使用で最も関連する部分は、著作権法に関連する部分です,現在、中国で GAI テクノロジー (特にヴィンセントの写真に関連したもの) に関する著作権侵害の実際の事件が発生しています。原告上海文化発展有限公司(以下「&ldquo」という);原告”) ウルトラマンシリーズの国内著作権許諾を受けています。被告は AI テクノロジー企業です,GAIペイント機能を備えたTab(仮名)ウェブサイトの運営。2023 年 12 月下旬,原告は、Tab ウェブサイトが違法な利益を得るためにウルトラマンの画像と同じまたは類似した画像を競馬 ネットできることを発見しました,原告は、被告がウルトラマンの作品を複製する権利を侵害したと信じている、翻案権と情報ネットワーク普及権。この事件は 2024 年 2 月 8 日に判決されました,被告に著作権侵害を停止するよう命令する命令,報酬 10,000 (妥当な経費を含む)。この訴訟 (以下、タブ事件と呼ぶ) は、AIGC プラットフォームが他者の著作権を侵害しているという、我が国、さらには世界で最初の有効な判決である。
この件が GAI プラットフォーム運営者に与える影響は次のとおりです: 1. コンテンツの監督を強化する,侵害作品の制作を避ける,キーワード フィルタリングを採用する必要があります、コンテンツ比較などのコンテンツ管理の技術的対策;2. 法的情報源からの競馬 ネットと資料を使用するようにしてください;3. GAI テクノロジー運用プラットフォームは苦情および報告メカニズムを確立する必要があります,期限内に承諾してください、公的苦情や報告に対処し、結果についてフィードバックを提供する。
検討する価値はあります,トレーニング 競馬 ネットの使用を著作権法で規定されている「ldquo」として解釈します;フェアユース”状況,紛争に直面した場合、GAI テクノロジー企業にとってコンプライアンスへの最善の選択肢となる可能性があります,しかし、私の国の著作権法の現在の規定とその施行規則から判断すると,この結論はまだ直接導き出すことはできません。司法実務を通じて蓄積,米国の裁判所はフェアユースについてより明確な分析を行っています: 1. 使用の性質と目的;2. 著作権で保護された作品の性質;3. 使用部分の質と量と著作物全体との関係;4. 著作物の潜在的な市場または価値への影響。この規格には一定の普遍性があります。我が国の最高裁判所は、「社会主義文化の発展と繁栄を促進し、独立を促進するための知的財産審判機能の機能を十分に発揮することに関するいくつかの問題に関する意見書」の中で、フェアユースに関する判断基準にも言及している。 「経済の協調的発展」:上記4つの判断基準に加えて米国裁判所で提案},追加の要件“技術革新と商業開発を促進することが本当に必要な特別な状況下”,“その使用が作品の通常の使用と矛盾しない場合,著者の正当な利益を不当に害するものではありません,フェアユースとみなされる可能性があります”。
立法レベルから,EU と日本は GAI の競馬 ネット トレーニング コンプライアンス行為に対して法的対応をとりました。2019 年 3 月 26 日,EU単一デジタル市場著作権指令で公布された,競馬 ネットの法的出典が満たされていることを前提とします,科学研究機関や文化遺産機関は科学研究を目的としていると信じている人“テキストと競馬 ネット マイニング”[2]その行為は許容されます;競馬 ネット トレーニングにおける営利 GAI 企業の行為が侵害にあたるかどうかの判断,デフォルトの権限と不許可の声明を組み合わせて使用する,つまり、競馬 ネットは合法的に取得されたものであり、著作権所有者はテキストおよび競馬 ネット マイニングの権利を留保すると主張していません,デフォルトの権限,著作権所有者が異議を申し立てた場合、開発者は不快なコンテンツを削除しなければなりません。この点は、国の「情報ネットワーク通信権の保護に関する規則」と一致しています。;削除のお知らせ”ルールは同じロジックを持っています。それ以外,単一デジタル市場著作権指令では、競馬 ネットの取得および処理段階でのフェアユースに競馬 ネット トレーニングが適用されるとも規定されています,その後ビジネスプロセスに入った場合でも同様。
日本2018年新たに改正された著作権法では、GAI技術の学習競馬 ネットを利用する際の著作物の利用が免除される。著作権法第 30 条第 4 項に記載されています,“情報を分析する行為 (つまり、大量の著作物やその他の情報から抽出する)、比較、分類とその他の分析と言語、声、情報を構成する画像およびその他の要素に関する情報)”,“作品の中で表現された考えや感情を自分自身や他の人が理解できない場合”使用できます;これも指摘されました,“情報処理に電子コンピューターを使用する過程中,誰も作品の表現に気づいていない場合に使用”使用できます。日本の文化庁は、上記の許可について述べました“非表現的な使用”規約の目的は人工知能を奨励することです、ビッグ競馬 ネット技術の急成長。
3.“トレーニング 競馬 ネットの信頼性を高める、精度、客観性、多様性”リクエスト
これは競馬 ネット品質リスクの問題です,競馬 ネット品質によって出力コンテンツの品質が決まります。
信頼性の観点から。低品質のデータを使用しています,出力が常識に違反します、人間の倫理またはジェンダー、宗教的および人種差別的な低品質コンテンツ,詐欺を引き起こす可能性が高い、誤解を招く、虚偽およびその他の悪い情報,最終的には、GAI システム全体の「ldquo」さえ引き起こしました;反発の学習”。「基本要件」の第 8 条には次のように規定されています“競馬 ネット人工知能技術の研究開発プロセスにおけるデータの注釈,プロバイダーは、これらの措置の要件に準拠する明確なポリシーを策定する必要があります、特定の、オペレーションのラベル付けルール;データ注釈の品質評価を実行する,マークされたコンテンツの正確性を検証するためのサンプリング;注釈担当者に必要なトレーニングを提供する,法律を尊重し遵守する意識を高める,標準化された方法で注釈作業を実行できるように注釈担当者を監督および指導する”。
精度の観点から。注目に値します,法的“精度”技術的な問題に対処するため “精度”違い。法律上,英国競馬 ネット保護局の説明によると[3],トレーニング 競馬 ネットの法的側面;精度”次のように理解する必要があります: トレーニングに使用される競馬 ネットは適時に更新される必要があります,事実が誤解を招かないようにしてください,必要に応じて修正または削除します。表示可能,ここでの正確性は適時性と修正要因に左右されます。
客観性の観点から。最初に収集された競馬 ネットは客観的ではない可能性があります。主観的な思考の好みや会社の利益を考慮する企業の意思決定者を除く,特定の収集方法も企業競馬 ネットの主観的な傾向につながります。競馬 ネットの価値は、実際には人間がそれをどのように使用するかにかかっています,収集方法、処理と解釈,このプロセスには必然的に主観的な考慮事項が含まれます。主観が溢れ出したら,意思決定者による誤った判断につながる,市場で誇張を引き起こす、誤った情報,虚偽の宣伝や商業的中傷など、不正競争の法的リスクにつながる可能性もあります。
多様性という観点から。多様な競馬 ネットセットは、モデルがさまざまな概念をよりよく理解し、認識するのに役立ちます、意味論と構文,したがって、モデルの出力効果が向上します,さまざまなシナリオのタスクに適応するために非常に重要。
IV. 企業の実装に関するコンプライアンスの提案
システムの構築に関して,AI テクノロジーの急速な発展の中で,技術革新者に対する法的遵守の重要性を強調する必要があります,法律は進歩を妨げる足かせではないことを理解してもらいましょう,しかし、方向を導く灯台。新技術の開発に必要な大規模、高品質の競馬 ネットセット内の知的財産で保護されたコンテンツ,AI 技術の開発促進の観点から始められる,使用のために適度なスペースを残すことを検討してください。現在の著作権法はフェアユース条項を完全に廃止するものではありません,著作権法施行規則の洗練された規定が将来検討される可能性があります,新しいテクノロジーを特定するため、新しいシナリオにおけるフェアユースの条件。
企業の実装に関して,コンプライアンスへの道には、実際の継続的な探索と調整が必要です,走りながら考える,さまざまな段階でさまざまな暫定的な解決策があります。著者が遭遇したコンサルティング事例と組み合わせる,企業向けに以下の提案を参考にしてください:
1. 競馬 ネット調達側のコンプライアンスに注意してください:大規模モデル サービスを購入する場合,一方では、サービスプロバイダーまたはその背後にある基本モデルサプライヤーが講じる技術的保護対策に注意を払う必要があります;一方、それは企業秘密に基づいています、ビジネス情報、個人情報の保護等,モデル サプライヤーは、合意された目的以外の二次処理やモデル トレーニングに自社の競馬 ネットを使用することを契約条件によって明示的に禁止できます。
2. 機密化および洗練された競馬 ネット管理モード:システムに関して,一方では、明確なデータ収集システムがあります,さまざまなカテゴリのデータによる,データを取得するさまざまな方法,データ ソースとコンテンツの合法性に関するレビュー メカニズムを確立する;これらのメカニズムを会社のワークフローに埋め込みます,レビューメカニズムの実装を確実にする;一方で、サプライヤーを巻き込んだ管理体制を確立する,技術的に,実データと仮想データを区別できる、最新データと過去のデータ、元のデータと競馬 ネットされたデータ,カテゴリの管理と使用,同時に、システムに従って定期的にデータの更新と削除作業を完了します。
3. 記録管理競馬 ネットのトレーニング プロセス:まず、競馬 ネットされたコンテンツに対するトレーニング データの精度の影響を記録します,企業の垂直アプリケーション シナリオで蓄積された例;2 つ目は、法人顧客/パートナーなどのサードパーティからのデータ用です,会社がモデルのトレーニングに使用する場合,どのデータ フィールドを企業が管理するかについては、協力契約または製品契約に事前に記載する必要があります,どのような収集が行われたのか、処理と適用,同時に、対応する結果の法的所有権または管理について明確な合意を形成します。この点を説明する例: 産業分野の人工知能サービス プロバイダー,このサービスは、顧客が産業機器の障害をタイムリーかつ正確に検出できるように支援します,従来の手動検証方法との比較,AI テクノロジーの助けにより、効率が向上、低コスト。サービス プロバイダーがセンサーを通過しました、インターフェースのドッキングとその他の多次元の方法,顧客のデバイス データを収集する,顧客に即時サービスを提供しながら,これらは実際のアプリケーション シナリオからのものです、適時性が高い、高品質のデータは、この人工知能サービス プロバイダーにとって優れた AIGC モデル トレーニング データです。このビジネス シナリオでは,サービス プロバイダーは、トレーニング データの使用に関連する特定の問題に注意を払う必要があります,たとえば、このような産業機器メーカーが機器を販売する場合,デバイス データの使用権が顧客と合意されているかどうか?デバイス データは会社のサーバーに保存されていますか、それとも顧客のサーバーに保存されていますか?会社と顧客の間のデータ使用権に関する契約は何ですか?会社の AIGC モデルはどのように導入されているか?これらの規則はトレーニング データの合法的な使用に必要です。
4. 社内外の円滑なコミュニケーション メカニズムを確立します。一方的に通行してください、透明、精度に関する AI 製品の限界をユーザーに示す簡潔な方法;一方でメール経由、エンタープライズ WeChat、システムおよびその他の方法は、第三者が法的権利を主張するための便利なチャネルを提供します,他者の権利を保護するという企業の主観的な善意を反映するだけではありません,問題が発見された場合は早めに連絡することもできます、交渉による解決。
5. 社内従業員のトレーニングと評価を強化する:トレーニング 競馬 ネットの準拠した使用は企業競馬 ネット コンプライアンスの一部です,新しいツールに直面している、新しいシーン,会社は、関連部門の従業員を対象としたトレーニングを実施しています。多様なトレーニング方法と必要な評価メカニズム,従業員がトレーニング 競馬 ネットの使用に関するコンプライアンス ポイントを尊重し、理解するのに役立ちます,従業員が特定の業務で会社の要件を実装できるように支援。
参考資料
[1] Sun Ninghui「人工知能とインテリジェント コンピューティングの発展」2024 年 5 月
[2] 単一デジタル市場著作権指令において,テキストとデータ マイニングとは、デジタル形式のテキストとデータを分析することを目的としたテクノロジーを指します,以下を含むがこれに限定されないモデルを競馬 ネットするため、トレンド、相関関係を含む情報。
[3] 英国競馬 ネット保護局 (情報コミッショナー);のオフィス, ICO)https://ico.組織.uk/for-organisations/uk-gdpr-guidance-and-resources/data-protection-principles/競馬 ネット保護原則へのガイド/原則/正確性