文字雲分析應用範例,從文字雲分析東京奧運聲量、趨勢!

Posted on Posted in Facebook數據分析, 時事議題

(文/趙維孝)

我們過去嘗試用很多元的社群數據去對不同的議題或目的做分析,不論是拆解一個議題在社群上的聲量來源,或是做不同社群平台的聲量分析,然而這些分析都相對複雜且耗時,在社群議題快速轉變的時代,當我們面對一個需要梳理的社群議題時,該如何透過聲量分析工具,快速的製作一份概略的社群聲量分析報告呢?

近期東京奧運是否延賽可說是最受關注的疫情影響相關議題。然而從去年底,同樣是東京奧運這個議題,在社群上歷經了數個討論重點,這種在不同期間的議題轉快,就非常適合使用文字雲來做視覺化的呈現與快速分析。

若將文字雲再搭配熱門貼文、不同時段的累積聲量數據等,其實就能有效的快速針對一個議題做出有價值的趨勢分析。

文字雲是什麼?

文字雲(Word Cloud),顧名思義是多個字詞組合,進而繪製出像是雲朵狀的圖片,而文字雲圖片當中的細節會依照其繪製的標準而有所不同,通常文字雲會用大小、顏色來區分字詞,依重要性來進行分類,較為重要的字詞就會以更大的字型、或是更鮮艷的顏色出現,用以讓使用者能夠在眾多相關字詞中,快速的判別出不同字詞的重要程度。

QSearch 的社群文字雲,則是運用社群討論的聲量高低、字詞相關性,來對文字進行權重的評比,在文字雲當中把最為相關的字詞顯示出來,用以了解整體社群針對不同議題的關注重點。

文字雲分析應用,如何快速掌握社群議題

當我們想了解一個議題在社群上的關注度時,最先可能會想到將一段時間的累積數據,繪製成趨勢圖,如下圖是東京奧運約近四個月的FB社群聲量趨勢:
QSH-Trend-Reaction-Over-Time
資料期間:20191101~20200325

但若當我們想快速了解這些聲量趨勢內的焦點內容時,則就可以借助文字雲,文字雲是一種分析大量文字,並將其內的各關鍵詞,根據目的性的不同,用視覺化的方式的呈現,幫助閱讀者快速精煉大量文字中的重要資訊。

在QSearch的社群聲量分析平台 QSearch Trend上的文字雲,則是以欲研究的目標關鍵字,分析其所有相關貼文中的其他關鍵字,並以「越靠近」目標關鍵字與「越大」,代表越常與目標關鍵字一起被提及,且整體FB社群影響力越高做呈現。

關鍵字文字雲分析應用 – 各時段東京奧運議題討論

2019/11/1 – 2019/12/15 東奧文字雲分析

以去年11月1號至12月15號,台灣FB社群上,帶有「東京奧運」的相關貼文的文字雲來說,
2019/11/1 - 2019/12/15 東奧文字雲分析
20191101~20191215 FB社群東京奧運相關貼文文字雲

可以發現去年底該議題的討論重點,在於奧運棒球資格賽之一的世界12強棒球賽,中華隊的相關表現,文字雲的重點是棒球、韓國等,再搭配熱門貼文,則可以更清楚了解內容焦點:
1post
20191101~20191215 FB社群東京奧運相關熱門貼文

2019/12/16 – 2020/2/15 東奧文字雲分析

而等棒球賽落幕,進入一段較平靜的討論期,從去年12月16號至今年2月15號,此時武漢肺炎疫情雖已爆發,但東京奧運相關的討論上,仍以各類資格賽,賽事準備為主,武漢僅出現在外圍第三圈。
2019/12/16 - 2020/2/15 東奧文字雲分析
20191216~20200215 FB社群東京奧運相關貼文文字雲

這段時間,仍以周邊訊息,賽事準備等為最熱門的貼文,疫情是偶而附帶的討論資訊,但已有社群內容將兩者做連結,
2post
20191216~20200215 FB社群東京奧運相關熱門貼文

2020/2/16 – 2020/3/15 東奧文字雲分析

到了今年2月16號至3月15號這段期間,可發現疫情或防疫措施成為東京奧運的討論重點,從熱門貼文則可以觀察,這段期間更像是在提出「是否要辦」,或「該怎麼辦」等疑慮,「延期」僅在第四圈的外圍,是被提及的眾多情況之一。
2020/2/16 - 2020/3/15 東奧文字雲分析
20200216~20200315 FB社群東京奧運相關貼文文字雲
3post
20200216~20200315 FB社群東京奧運相關熱門貼文

2020/3/16 – 2020/3/25 東奧文字雲分析

到了3月16號至今的10天,隨著全球疫情急遽升溫,此外加拿大與澳洲等大國相繼宣布退出今年奧運,從文字雲可以觀察到關鍵字重點則明確轉為「延期」。
0316~0325
20200316~20200325 FB社群東京奧運相關貼文文字雲
4post
20200316~20200325 FB社群東京奧運相關熱門貼文

由關鍵字文字雲分析議題討論變化

若我們將四段時期的文字雲一次排開,則可更清楚的觀察到議題討論的變化:
由關鍵字文字雲分析議題討論變化

當然,文字雲是一個計算相對數值並呈現的視覺化工具,比較適合在使用數據解析議題聲量時,做最初步快速,且令人印象深刻的判讀,若我們要更仔細的分析聲量數據的變化,則還是需要絕對數據的幫助,而從四段時期,東京奧運的聲量數據上,又能觀測出什麼差異呢?

註:影響力分數 = (互動+留言)*0.1+分享
首先,由於這四段時期,日期的間隔並不一致,所以單純從總聲量觀測將有失偏頗,所以我們加上了「單篇平均影響力」與「日均影響力」來更完整的分析東京奧運議題在社群上的關注熱度變化。

若以四時期「日均影響力」來說,相對棒球12強,各類資格賽、賽事準備等資訊,是東奧討論較沉寂的一段時間,而隨著疫情的討論,到近十天衝至高峰,然而若再看「單篇平均影響力」卻發現,12強時期是平均單篇貼文影響力顯著高上許多,推測是因為12強賽事訊息較集中在體育相關社群渠道,所以關注度相對較集中,而疫情與東奧的資訊討論則較廣泛,所以貼文平均而言較多且較發散所導致。

趨勢圖僅能反應單純整體聲量的走勢,但若搭配文字雲,有時候不需要太細緻的內容分析,就能了解議題的變化,若再加上熱門貼文的參考與數據解讀,其實很快就能勾勒出一個議題在社群上受到關注的輪廓。

關鍵字分析適合掌握大方向,其中包含雜訊不宜過度超譯

不過在一些相關業界的使用者的反饋討論中,我們仍要提醒,由於社群資訊駁雜,且中文語境多變,類似使用文字雲做基本判讀的方式不宜太過鑽牛角尖,或過度超譯,有較意外的詞彙時,建議還是要再做進一步的確認,像是20200216~20200315,賽事準備這段期間的文字雲,右上角出現了一個「默默」的關鍵詞,根據此詞彙爬搜後,發現是藝人瑞莎在3月5號時,發了一篇對新北市將她帶領體操隊出外比賽納入政績感到意外的貼文,由於此貼文單篇影響力極高,又加上一些社群雜訊,故將此關鍵字衝高了不少。


藝人瑞莎的社群貼文

快速的使用量化數據掌握社群動態,是做為策略參考與提供挖掘方向,但絕不是萬靈丹,在分寸拿捏上仍要很謹慎,否則定會適得其反。

QSearch 文字雲常見 Q&A

Q: 文字雲如何生成?

A: 當使用者搜尋特定關鍵字時,QSearch 提取各渠道(例如:FB 粉絲專頁)中出現該關鍵字且互動表現數值、影響力較高的文本,從這些文本中萃取並計算各詞彙出現的次數(即詞頻);並透過計算反向詞頻(詞彙在其他不相關文本中出現的次數)、設定排除字等方式濾除不具代表性的詞彙(例如:你、我、的 … 等);同時,QSearch 也會將詞彙在渠道來源中分佈的隨機性納入考量,綜合計算詞彙的權重分數,最後將詞彙權重分數以對應大小的字體繪製成文字雲。

文字雲中越大的詞彙,代表其出現在影響力較高的文本、詞彙和關鍵字同時出現的次數(文章數)最多、具備較高的獨特性和代表性。

Q: 為何文字雲中仍出現不具代表性的詞彙?

A: 當轉換成文字雲的詞彙越多時,即使 QSearch 在計算文字雲時會盡可能排除不具代表性的詞彙,在不同的議題中,仍有可能出現代表性較低的詞彙,此時使用者可以在 Trend 介面上隱藏不需要的詞彙。

Q: 為何文字雲中未出現特定詞彙?或出現斷詞不正確的詞彙?

A: 當各渠道出現新興的詞彙時,有時會出現斷詞不正確的情形,使用者可以在 Trend 介面上隱藏或修改;並和 QSearch 的支援團隊聯繫、提交新增詞彙的請求。

Q: 跨渠道的文字雲是如何生成的?

A: QSearch 彙整各渠道的文字雲計算結果,將同時出現在多個渠道、權重較高的詞彙繪製成文字雲;同時出現在愈多渠道、在各渠道中權重越高的詞彙,在跨渠道文字雲的字體就會越大。



若對 QSearch 分析工具若分析內容有興趣,歡迎填寫免費試用表單,將由專人為您服務。

相關服務:QSearch 社群監測、社群數據分析

Leave a Reply

Your email address will not be published. Required fields are marked *