크로스플랫폼 DSA 뷰 구축: 데이터가 말하지 않는 것

이틀 전 발행한 VLOP 대시보드는 30개 서비스를 단일 뷰로 결합합니다. 이는 진정으로 유용합니다. 이 데이터가 인터랙티브 형식으로 플랫폼 간 집계 가능해진 것은 처음이며, H2 2025 보고서는 유럽 위원회의 통합 템플릿을 완전히 따른 최초의 보고서입니다. 그러나 한계가 데이터만큼 중요하며, 일부는 이 특정 대시보드의 특성이 아닌 DSA 투명성 보고 방식의 구조적 문제입니다.

카테고리 정의는 표준화되어 있지 않습니다

가장 중요한 한계는 다음과 같습니다. TikTok이 "혐오 발언"이라 부르는 것과 Meta가 "혐오 발언"이라 부르는 것은 DSA가 아닌 각 플랫폼 자체의 콘텐츠 정책에 의해 정의됩니다. 이 규정은 플랫폼에 콘텐츠 카테고리별 보고를 요구하며 카테고리 목록을 명시합니다. 그러나 각 카테고리에 어떤 콘텐츠가 해당하는지는 정의하지 않습니다. 그것은 플랫폼 정책에 맡겨져 있습니다.

이는 혐오 발언 정책 정의가 좁은 플랫폼이 정의가 넓은 플랫폼보다 낮은 수치를 보인다는 것을 의미합니다. 동등한 양의 콘텐츠를 모더레이션하고 있어도 그렇습니다. 대시보드에서의 플랫폼 간 건수 비교는 플랫폼 정의 카테고리와 다른 플랫폼 정의 카테고리의 비교이지, 일관된 기저 개념의 비교가 아닙니다.

DSA 관측소는 1월에 이전 보고가 정확도 요건을 사실상 의미 없게 만들었다고 주장했습니다. H2 2025 보고서가 처음으로 따르는 유럽 위원회의 통합 템플릿은 자동화 탐지 도구의 정밀도 및 재현율 지표를 추가합니다. 이것은 해당 특정 공백을 채웁니다. 정밀도와 재현율은 단순 삭제 수보다 실질적으로 더 유익한 정보를 제공합니다. 그러나 각 플랫폼 자체의 카테고리 정의 내에서의 정밀도와 재현율은 여전히 플랫폼 간 비교 가능성 문제를 해결하지 못합니다. 카테고리 자체가 일관되게 정의되어 있지 않기 때문입니다.

데이터는 제3자 감사 없이 자체 보고됩니다

대시보드의 모든 수치는 플랫폼이 자체 보고한 것입니다. DSA는 현재 투명성 보고서 데이터의 제3자 검증을 요구하지 않습니다. 외부 감사인이 수치의 정확성, 카테고리화 방법론이 보고 기간에 걸쳐 일관성을 갖는지, 또는 데이터 추출 프로세스가 신뢰할 수 있는지 확인하지 않습니다.

이것이 수치가 틀렸다는 의미는 아닙니다. 플랫폼에는 법적 컴플라이언스 의무가 있으며, 보고서는 발행 전에 내부 법무 및 정책 팀의 검토를 받습니다. 그러나 데이터는 자체 보고된 운영 데이터로 취급해야 함을 의미합니다. 플랫폼 내 트렌드와 패턴을 이해하는 데 유용하고, 절대적 양의 정밀한 측정으로서는 덜 신뢰할 수 있으며, 외부 참조 기준에 대해 검증할 수 없습니다.

집계 방법이 다릅니다

Google은 지정된 6개 서비스를 별도로 보고합니다. 검색, Maps, Play, 쇼핑, YouTube, 그리고 여섯 번째 서비스 항목. Meta는 Facebook과 Instagram을 합산한 집계 수치를 보고합니다. 다른 플랫폼들은 플랫폼 수준에서 보고합니다.

이것은 수치를 어떻게 읽어야 하는지에 영향을 미칩니다. 단일 서비스에 대한 Google의 항목은 집계로 보고하는 플랫폼의 유사한 수치보다 작아 보입니다. 대시보드에서 Google의 6개 항목 전체 합계가 Meta의 단일 합산 항목과 비교 가능한 수치입니다. 그러나 대시보드는 Google 검색 단독과 TikTok의 플랫폼 전체 합계를 우연히 비교할 수도 있게 합니다. 이는 의미 있는 비교가 아닙니다. 필터를 신중하게 적용하는 것이 중요합니다.

대시보드를 신뢰할 수 있게 활용하는 방법

대시보드는 단일 플랫폼 내에서 시간에 따른 건수 트렌드를 추적하는 데 가장 유용합니다. 이것은 일관된 방법론과 카테고리 정의 내의 동류 비교입니다. 수치는 다른 플랫폼의 동일 카테고리 수치와 의미가 같지 않더라도, 특정 플랫폼에 대해 기간 간에는 같은 의미를 가집니다.

생태계의 대략적인 형태를 이해하는 데도 유용합니다. 어떤 카테고리가 플랫폼 전반에서 가장 많은 통지를 발생시키는지, 어떤 플랫폼이 다른 플랫폼보다 상당히 더 많은 이의 신청을 처리하는지, 정부 명령의 지리적 분포가 어떤지. 이러한 패턴은 카테고리 정의 차이가 덜 중요한 자릿수 차이 수준에서 볼 수 있습니다.

절대 건수의 정밀한 플랫폼 간 비교와 어떤 플랫폼이 더 많이 또는 더 잘 모더레이션하는지에 관한 규범적 결론을 도출하는 데는 덜 유용합니다. 이러한 결론은 DSA 보고에 아직 존재하지 않는 카테고리 정의와 감사 기준을 요구합니다. 여전히 남아있는 구조적 문제, 즉 자체 보고 데이터와 일관성 없는 카테고리 정의는 데이터가 지원할 수 있는 것에 대한 실제 제약이며, 수치가 실제보다 더 비교 가능한 것처럼 취급하면 오해를 낳는 결론이 생깁니다.