Google, COVID-19 vaka seyri takibi için bir kaynak olabilir mi?
COVID-19 Vakaları ile Google Trend Verileri Arasındaki İlişkiler
Türkiye’deki COVID-19 Vakaları ile Google Trend Verileri Arasındaki İlişkiler Üzerine Pilot Çalışma
GTech Büyük Veri ve İleri Analitik uzman ekibinin hazırladığı bu çalışmada, Koronavirüs vakaları ile Google’da aranan belirli anahtar kelimeler arasındaki korelasyonlar araştırıldı. Araştırma neticesinde “corona belirtileri” için yapılan Google aramaları ile yeni vakalar arasında pozitif yönlü çok yüksek ilişki bulunduğu görüldü.
Araştırmada, 11.12.2020 ile 24.12.2020 tarihleri arasındaki toplam/yeni vaka, toplam/yeni ölüm ve toplam/yeni koronavirüs test verileri kullanılmıştır.
COVID-19 Vaka Verileri:
Şekil 1 – Covid-19 Vaka Verileri
Çalışma içerisindeki Koronavirüs günlük verileri ana veri kaynağı Johns Hopkins Üniversitesi (JHU) Sistem Bilimi ve Mühendisliği Merkezi’nin (CSSE) COVID-19 Veri Deposu olan ourwordindata.org’dan temin edilmiştir. İlgili veri seti, Türkiye Cumhuriyeti Sağlık Bakanlığı tarafından doğrulanmış vaka ve ölüm verilerini içermektedir.
Şekil 2 – Normalleştirilmiş Sağlık Bakanlığı Verilerin İlgili Periyot İçerisinde Trend Karşılaştırması
Google Trend Verileri:
Hazırladığımız analiz kapsamında Koronavirüs verileri ile korelasyonu incelenecek internet arama terimleri Google Trends tarafından temin edilmiştir.
Google Trends, ilgili kelimenin Google’ın arama motorlarında belirli bir zaman aralığı içerisinde hangi sıklıkla arandığını gösteren bir hizmettir. Trends, konuları belirlerken toplam arama hacminin ilgili arama hacmine oranını belirleyip bu sayede arama yoğunluğunu hesaplarken, aynı zamanda karşılaştırmalı arama istatistikleri hizmeti de sunmaktadır. Bu sayede kendi algoritmaları yardımıyla gündemi ve popüler haberleri listeleyip, ilgili bölgede en çok konuşulan başlıkları çıkarmayı başarabilen bir araçtır. Google Trends bunu yaparken aramalar arası bir ölçeklendirme uygular. Bu ölçeğe de Relative Search Volume (RSV) adı verilir. RSV hesaplanırken:
- Her arama, yapıldığı bölgedeki ve zaman aralığındaki toplam aramalara bölünür.
- Ortaya çıkan sonuçlar daha sonra bir konunun, tüm aramalara ait oranına bağlı olarak 0 ila 100 aralığında ölçeklenir.
- 0, arama olmadığını ve 100, belirli bir anahtar kelime veya dizge için en yüksek arama etkinliğini temsil eder.
- Bir terim için aynı arama ilgisini gösteren farklı bölgeler her zaman aynı toplam arama hacimlerine sahip değildir.
- Verinin çekildiği günden 36 saat öncesine kadar geçmiş verilerin teminine olanak sağlanmaktadır.
Arama terimlerinin belirlenmesi
İlgili olabilecek anahtar kelimelerin bulunması için 11.12.2020 ve 24.12.2020 tarihleri arasındaki her gün için, Türkiye’de, sağlık kategorisi altında “Corona”, “Korona” ve “Covid-10 semptomları” başlığı altında Google’da aranmış olan ilişkili sorgular (top ve rising) toplanmıştır.
Şekil 3 – Arama Terimlerinin Belirlenmesinde Kullanılan Metodoloji
Şekil 4 – Google Trends Aranan Terimler
Günlük toplanan arama terimlerinin tekilleştirilmesi sonucu aşağıdaki tablodaki anahtar kelimeler seçilmiştir. Günlük bazda, her bir arama terimi için RSV değerleri ve toplam/yeni vaka sayısı, toplam/yeni test sayısı, toplam/yeni ölüm adetleri birleştirilerek, ileri analitik teknikleri ile hazırlanacak analize girecek tablo hazır hale getirilmiştir.
Şekil 5 – Analize Giren Raw Data
İstatistiksel Analizler:
GTech Büyük Veri ve İleri Analitik uzmanları tarafından hazırlanan çalışma kapsamında değişkenler arasındaki doğrusal bir ilişki olup olmadığı, varsa bu ilişkinin yönü ve şiddetinin ne olduğunu belirlemek için Pearson korelasyon analizi gerçekleştirilmiştir. Değişkenler arasındaki ilişki, korelasyon katsayısı ile hesaplanmaktadır. Korelasyon katsayısı “r” ile gösterilir ve -1 ile +1 arasında değerler alır.
- r= -1 ise tam negatif doğrusal bir ilişki vardır.
- r= +1 ise tam pozitif doğrusal bir ilişki vardır.
- r= 0 ise iki değişken arasında ilişki yoktur.
Korelasyon katsayısı (r) nın yorumu;
- r <0.2 ise çok zayıf ilişki ya da korelasyon yok
- 2-0.4 arasında ise zayıf korelasyon
- 4-0.6 arasında ise orta şiddette korelasyon
- 6-0.8 arasında ise yüksek korelasyon
- 8> ise çok yüksek korelasyon olduğu yorumu yapılır.
Yapılan çalışma kapsamında;
- Her ikili değişken çiftinin korelasyon katsayıları hesaplanmış ve ısı haritaları oluşturulmuştur
- Sonrasında her bir ikili çiftin korelasyon katsayısının istatistiksel olarak anlamlılığı test edilmiştir.
Korelasyon katsayısının anlamlılığı t testi kullanılarak, n-2 serbestlik derecesine göre aşağıdaki işlemler dahilinde verilen anlamlılık düzeyine göre test edilir. Test istatistiği;
tH=r/√(1-r2/n-2) ile hesaplanır.
Hipotez;
Ho : P değeri ≤ α: Korelasyon istatistiksel olarak anlamlıdır.
H1 : P-değeri> α: Korelasyon istatistiksel olarak anlamlı değildir.
Verilen anlamlılık düzeyi (α) için; tH>tα:n-2 olduğunda H0 reddedilecek ve H1 ise kabul edilecektir. Yani; r korelasyon katsayısının istatiksel olarak anlamlı ve değişkenler arasında bir ilişki olup olmadığı görülecektir. Pilot çalışma kapsamında korelasyon katsayıları 0.01, 0.05, 0.1 anlamlılık düzeylerinde test edilmiştir.
Sonuçlar:
Aşağıda, tüm sütunların ikili korelasyonları ve ısı haritası sonuçları yer almaktadır.
Şekil 6 – Tüm Sütunların İkili Korelasyon Katsayıları
Şekil 7 – Tüm Sütunların İkili Korelasyon Katsayıları Isı Haritası
P <= 0.05 olan korelasyon katsayıları ısı haritası olarak gösterilmektedir.
Şekil 8 – Tüm Sütunların Korelasyon Katsayılarının P <= 0.05 Olanlarının Isı Haritası
Grafiklerin detaylı incelenmesi:
Grafikler içerisinde yer alan *** işareti 0.01, ** işareti 0.05, * işareti 0.1 anlamlılık düzeyini temsil etmektedir.
Şekil 9 – Çok Yüksek Korelasyona Sahip Olanların Tablosu
- Çok yüksek korelasyona sahip değişkenler incelendiğinde, beklentiye paralel olarak toplam vaka sayısı ve toplam test arasında çok yüksek korelasyon olduğunu görmekteyiz. (virgülden sonra iki basamağa yuvarlandığı için r=1’dir) Aynı şekilde toplam vakanın, toplam ölüm ve yeni ölüm ile pozitif yönlü çok yüksek korelasyonu mevcuttur.
- Aşağıdaki tabloda görüldüğü gibi “corona belirtileri” için yapılan Google aramaları ile yeni vakalar arasında pozitif yönlü çok yüksek ilişki bulunmaktadır.
- GTech ileri analitik yetkinliğimiz ve uzmanlığımız ile tamamladığımız araştırmaya konu olan, Google aramalarının vaka sayılarına alternatif bir kaynak olabilirliği konusunda gecikme (lag) alarak korelasyon incelemeleri gerçekleştirilmiştir:
Yukarıda yer alan lag çalışmasının vakalar üzerine uygulanması sonucu aşağıdaki sonuçlar elde edilmiştir. Tablo; gecikmeli günlerde ilgili aratma kelimeleri ile yeni vakalar arasındaki korelasyonları göstermektedir. 7 gün önceki “corona belirtileri” aramaları ile yeni vakaların çok yüksek ve pozitif yönlü ilişkisi olduğu görünmektedir. 1 gün, 2 gün ve dört gün önceki “korona belirtileri” ile yeni vakalar arasında da yüksek pozitif ilişki bulunmaktadır.
Bu tablo; gecikmeli günlerdeki yeni vakalar ile ilgili Google aramaları arasındaki korelasyonları vermektedir. “corona belirtileri” için yapılan aramaların 7 güne kadar gecikmeli yeni vakalar ile oldukça yüksek pozitif ilişki olduğu görülmektedir.
Şekil 10 – Normalleştirilmiş Corona Belirtileri Aramaları ile Vaka Değerlerinin Trendlerinin Karşılaştırılması
Şekil 11 – Yüksek Korelasyona Sahip Olanların Tablosu
Covid-19 semptomlarını incelediğimizde:
“ateş” için yapılan aramaların “ishal” ile
“baş ağrısı” için yapılan aramaların “sırt ağrısı” ile
“boğaz ağrısı” için yapılan aramaların “mide ağrısı” ve “korona ilacı” ile pozitif yönlü yüksek korelasyonu olduğunu görmekteyiz. Bunun yanında “burun tıkanıklığı” için yapılan aramaların Sağlık Bakanlığının sağladığı toplam veriler ile negatif yüksek korelasyonu olduğunu görmekteyiz. Toplam Corona verileri artıkça, Google’da burun tıkanıklığı aramaları azalan bir trend göstermiştir. Fakat Google’da “corona” aramaları ile “burun tıkanıklığı” arasında pozitif ilişki vardır.
- Çok yüksek ilişkide görmüş olduğumuz “corona belirtileri” ile “yeni vaka” arasındaki ilişkinin benzerini, “korona belirtileri” aramalarında yüksek ve pozitif yönlü olarak görmekteyiz.
- Yeni ölümler artarken, yeni vakaların azalmasına paralel olarak aralarında negatif yönlü yüksek ilişki bulunmaktadır.
Şekil 12 – Orta Şiddette Korelasyona Sahip Olanların Tablosu
Covid-19 semptomlarını incelediğimizde:“ateş” için yapılan aramaların “mide ağrısı” ve “baş ağrısı” ile“burun tıkanıklığı” için yapılan aramaların “tat alamama” – “koku alamama” ve “mide ağrısı” ile“eklem ağrısı” için yapılan aramaların “sırt ağrısı” – “tat alamama” ile“nefes darlığı” için yapılan aramaların “kuru öksürük” – “tat alamama” ile pozitif yönlü ortak düzey pozitif korelasyonu olduğunu görmekteyiz.
Hazırlayan: GTech Büyük Veri ve İleri Analitik Ekibi
Kaynaklar:
https://trends.google.com/trends/?geo=TR
https://www.mayoclinicproceedings.org/article/S0025-6196(20)30934-4/fulltext
https://pubmed.ncbi.nlm.nih.gov/32673122/
https://likegeeks.com/python-correlation-matrix/
https://ourworldindata.org/coronavirus/