クラウドソーシングで記事作成の仕事をしていると、納品した記事にコピペの疑いありとして非承認に判定されることがあります。自分ではコピーなどした覚えがなくても、専用のコピペチェックツールを使えば一致率と呼ばれる数字が高く出る例が珍しくないのです。そうしたツールは仕事を発注するクライアントの側で納品記事の承認作業で使われていますが、ライターの側でも無料ツールを使えば自分で一致率を調べることができます。
コピーしていないはずなのに高い数字が出る一致率とはいったい何を意味するのか、悩めるWebライターに向けてその原因と4つの対策をまとめてみました。この記事を読めばライティングの仕事で非承認に判定されるのを防げるとともに、自分でブログを運営する上でも役に立つ知識が身につきます。
コピペチェックの一致率で高い数字が出る原因
コピペチェックツールには有料版と無料で使えるツールがあって、有料ツールではコピペリンや影武者あたりが有名です。Copy Content Detectorは無料版でも高い精度を誇り、1回で測定する文字数が4,000文字以内なら十分に使えます。
筆者も日頃からCopy Content Detectorの無料版を愛用させてもらっている1人です。この記事では基本的にCopy Content Detectorを使用する前提で話を進めていきます。
調査対象テキストを貼り付けてチェックを開始すると、「類似度判定」「一致率判定」「テキスト判定」という3種類の判定結果が表示されます。文章を単純に書き換えただけのリライトまで見破る類似度判定も見逃せない数字ですが、中でも重視したいのが一致率判定です。
まったくコピーした覚えがないオリジナル文章をチェックした場合、類似度判定は数%以内に収まっていながら、一致率では40%以上の高い数字が出る例も珍しくありません。デフォルトの状態だと50%以上で「要注意」と表示され、記事を募集するクライアントからもNGと判定されるのが普通です。40%台ならぎりぎりセーフですが、厳しいクライアントに当たった場合は30%以上でも非承認と判定されかねません。
このように類似度が低く抑えられていても一致率で高い数字が出やすいのは、語句の単位で機械的にコピーの可能性を診断されているのが原因です。類似度判定と違って文脈などは一切考慮されず、他のサイトの記事と比較して単純に同じ語句が使われていれば一致率にカウントされてしまいます。この数字が高いということは文章にそれだけオリジナルの要素が少ないことを意味し、「インターネット上ですでに似たような記事がありますよ」と判定されたも同然の結果なのです。
記事にオリジナルの要素が少ない
国語辞典としては最大級の規模を誇る岩波書店の『広辞苑』は、収録語数がおよそ25万語にも達します。インターネット上の記事に使われている平均的な語数はそれよりはるかに少なく、1つ1つの記事では『広辞苑』に収録されている単語のごく一部が使用されているに過ぎません。それだけ少ない語数で十分に意味が通じるからこそ、ライターも比較的短時間で記事を書けるのだと言えます。
クラウドソーシングで募集されているような記事は案件ごとにテーマが与えられ、使用すべきキーワードが指定されている例も少なくありません。クライアントの指示どおりに記事を書こうとすれば、同じキーワードについて解説した他のサイトの記事と似たような文章が出来上がってしまいます。
1つのサイトだけを参考にして記事を書くとコピペ率が高くなるため、複数の記事を参考にした上で自分の言葉に置き換えて記事を書くのがWebライティングの基本です。そうすることで使用される単語も微妙にずれてくるため、1つのサイトを参考にした場合よりは一致率が下がります。
それでもキーワードが共通していると複数サイトの間でも同じような言葉が使われやすく、たとえ偶然の一致でもコピペチェックにかければ一致率が高くなりがちです。自分自身の体験や感想といったオリジナルの要素を封印し、客観的な内容を心がけるほど一致率が上がるというジレンマに悩まされることになります。主観を排して記事を書くように指定してくるクライアントも少なくないだけに、客観的な態度に徹しながらもいかにしてオリジナリティを出すかが、ライターの腕の見せどころとなってくるのです。
一致率が高く出やすいジャンル
筆者もこれまでコピペチェックの問題には頭を悩ませてきましたが、それほど意識しなくても一致率が低く抑えられる記事のジャンルというのも存在します。世の中にこういう記事の需要もあるのかと思うほどマニアックな内容の記事では、参考サイトの記事を丸写しにでもしない限り一致率が50%以上に出ることはほとんどありません。
専門分野について解説した記事やノウハウ系の記事は、よほど工夫して書かないと一致率が高く出てしまいます。当ブログの記事を投稿する際にもいちいちCopy Content Detectorでコピペチェックを実施していますが、物販系の記事や買取に関する記事などは一致率が出やすいジャンルでした。
それらのジャンルで使用したキーワードの検索結果を見ると、ドメインパワーの強いサイトが上位に揃っている点に気づきます。キーワードの検索需要が高く企業の運営する情報サイトがしのぎを削っているジャンルでは、内容が充実した文字数の多い記事がインターネット上で豊富に存在します。一般に広く知られていない業界の裏事情にでも通じているような専門家でもない限り、そういったジャンルで既存記事と差別化する記事を書くのも容易ではありません。
専門分野に関して内容の充実した記事を書こうとすると、キーワードと同時に用いられやすい複数の語句も文中で使用する必要があります。共起語と呼ばれるそれらの関連語は既存記事にも多く使われているだけに、記事の正確性を心がければ心がけるほど一致率が高くなりがちです。
一致率を下げようとして自分の主観を付け加えてしまっては、記事の信憑性が低くなってしまいかねません。ライバルが多くひしめいている激戦区のジャンルは関連語の種類も多くオリジナリティが出しにくいため、コピーしたつもりがなくても一致率が自然と高く出てしまうのです。
コピペチェックの一致率を下げる4つの方法
普通に記事を書いて一致率が高い数字に出てしまうようなジャンルは、すでに情報が飽和状態にあるとも言えます。激戦区の分野では自分が新たに記事を付け加えなくても、既存記事だけで検索需要は十分に満たされている状況です。
そういう「おいしい」ジャンルほど情報を知りたがる人も多く、検索結果の上位に表示されれば高い収益性が期待できます。クラウドソーシングでもそういったジャンルのテーマで記事を外注しようとするクライアントが少なくないだけに、仕事を受注するライターの側でも一致率を下げるスキルが求められているのです。
一致率を下げると言っても簡単なことではありませんが、苦労して書いた記事を非承認と判定されないためにも、数字を低く抑えるコツを知っておく必要があります。一致率を低くするノウハウを身につけておけば、自分でブログを開設する際にも役に立つのは間違いありません。筆者も当ブログでいろいろと試行錯誤を重ねた結果、一致率下げる工夫として以下に挙げる4つの方法が効果的だという事実が実証されました。
- キーワードを削る
- 同じ意味の言葉に置き換える
- 一致率の高い段落を丸ごと削る
- 感想や体験談などオリジナル要素を加える
それぞれ詳しく解説していきます。
キーワードを削る
Copy Content Detectorでコピペチェックを行うと、一致率の高い順に対象サイトのURLが表示されます。チェックを行った記事の文章で赤く表示されている語句は、各サイトの記事で一致していると判定された個所です。
その判定結果を見ると、記事で使用したキーワードは必ずと言っていいほど赤く表示されている点に気がつきます。記事のテーマとも関連する主要なキーワードは、同じテーマで書かれた既存記事でも高い確率で使用されているからです。
クラウドソーシングで募集されている記事作成の仕事で言えば、「~に関する記事募集」の「~」にキーワードを当てはめる例が多くなっています。そうしたキーワードは文中でどうしても使用頻度が多くなり、使用回数が増えれば増えるほど全体の文字数に占める割合も大きくなりがちです。
コピペチェックで一致率が高く出た場合は、無意識のうちにキーワードを使いすぎている可能性もあります。キーワードを削れば一致率も如実に下がりますので、文脈に支障が出ない程度に削ってみるのも1つの改善策です。キーワードを主語に使用している文があれば、主語を省略しても意味が通じるように文を書き換えてみるといいでしょう。
同じ意味の言葉に置き換える
一致率の数字が高く出やすい専門的なジャンルの既存記事には、主要なキーワードだけでなく関連する共起語も数多く使用されています。内容の正確性を確保するために同じような共起語を記事に使用したのでは、一致率が高く出るのも当然です。
そういう場合は共起語を削って減らすのではなく、同じ意味を持つ別の言葉と置き換えることで文脈を維持できます。例えば一致率が高く出やすい買取ジャンルの記事では、「買取をしてもらう」を「買い取ってもらう」に変えただけでも数字が下がりました。
一致率の判定結果を見るとキーワードや関連語だけでなく、間を埋める普通名詞や代名詞・動詞が赤く表示されている場合も少なくありません。それだけコピペチェックツールは高精度でコピペの可能性を検出できる証拠ですが、コピペをした覚えのないライターにとっては厄介な機能だと言えます。
これに対抗するには語彙力を駆使し、赤く表示された語句を同義語に置き換えるのが効果的です。すぐに同義語が思いつかない場合でも、Weblio類語辞典のような無料の類語検索サイトを利用すれば置き換え候補の単語が見つかります。
一致率の高い段落を丸ごと削る
Copy Content Detectorの無料版は、1回でチェックできる文字数に4,000字までという制限があります。有料版に移行することで8,000字まで拡大できますが、4,000字以上の記事でも複数回に分割すれば無料版でも全文をチェック可能です。最低文字数は25字からとなっており、よほど短い文章でもなければ1文からコピペチェックにかけられます。
高い精度を誇るCopy Content Detectorにもちょっとした癖があって、チェックする文字数の多い少ないによって数字が変動しがちな点には注意が必要です。文字数が少ないと類似度が高く出やすくなり、「コピーの疑いが濃厚」と判定されて赤く表示される個所が増えます。一致率は逆に文字数が上限に近いほど数字が高く出やすい傾向も見られ、同じ文章でも2つ以上に分割して文字数を少なくすれば数字が下がります。
全体の一致率が高い場合は段落単位でコピペチェックにかけてみて、各段落の数字を比較してみるのも1つの手です。そうすると一致率が大きく下がる段落が出てくる一方で、突出して高い数字に判定される段落が見つかります。
そんな場合には一致率の高い段落を思い切って丸ごと削除してみれば、全体の数字も大きく下がる可能性があります。段落ごと削ることで前後の文脈が通じにくくなる場合は、キーワードや共起語などを同義語と置き換えるなりしてその段落を重点的に書き換えてみるといいでしょう。
感想や体験談などオリジナル要素を加える
以上の対策はいずれも記事に使われている語句を削除したり、別の語句と書き換えたりすることで一致率を下げる方法でした。元凶となっていた語句をなくせば一致率も如実に下がりますが、必要以上に文章をいじりすぎると意味が通じにくい記事になりかねません。
数字を下げる方法にはもう1つ、既存記事との一致が検出されにくい文章を新たに書き加えるという手もあります。文章全体の分量を増やすことで一致した語句の割合を相対的に低くし、結果的にコピペ率を下げるという手法です。
一致率が高いと判定された対象サイトを分析し、該当記事に書かれていない情報を自分の記事に盛り込めばオリジナリティが増します。特に自分自身の体験や感想は既存記事にはないオリジナルの要素ですので、ある程度の主観が許される案件なら試してみる価値があります。
客観的な内容に徹するようクライアントから指示されているような案件では難しいですが、工夫しだいでは体験や感想でなくてもオリジナルの要素にすることも可能です。既存記事にない最新情報をいかに見つけ出して記事に盛り込むかが、Webライターにとっては腕の見せどころとなってきます。
コピペチェックの一致率まとめ
Webライターを悩ませている一致率は以上のような対策で下げることは可能ですが、正直に言ってどれも手間がかかる方法ばかりです。一致率を数%下げるのに1時間も費やしているようでは、今度は生産効率の方が大きく下がりかねません。当ブログの例でも50%以上で「要注意」と判定された一致率を30%以下にまで下げるため、何時間も悪戦苦闘させられたた記事がありました。
一致率が高く出やすいジャンルはインターネット上で情報が飽和状態にあるとも言えるだけに、記事を書かなければならないライターにとっては手強い仕事です。そんなジャンルでも手間ひまをかけて文章を改善すれば、一致率の低いオリジナルの文章に変えることができます。既存の情報だけでも十分だと見られがちなインターネット空間に敢えて新たな情報を追加しようと思えば、文章力や情報収集力を駆使したプロの仕事が求められてくるのです。
コメント
[…] コピペチェックで一致率が高く出る原因とは?4つの改善方法を解説Webライ… […]