情緒多樣性分析
在多樣性的評估方法,按照類別的數目,至少可以分為兩種,一種是同一類別內的多樣性,而另一種是不同類別間的多樣性。同一類別內的多樣性評估方法,就是常見的方差和標準差。他反應此類型的數值偏離平均值的程度。而本論文所探討的多樣性屬於不同類型之間的多樣性,而這主要是探討在類型的數量和分佈的均勻性,而夏農熵(Shannon entropy)就是使用最廣泛的多樣性指數衡量方法,他既能評估類別的數量又兼顧了分佈的均勻性。
Shannon entropy,原為檢測生物多樣性之術,後被多種學科廣泛使用的多樣性指數。其中情感多樣性可使用情感生態系統中的豐富度(情感總數量)和均勻度(特定情感程度)來描述,如以下公式:
其中S是情感總數,是第x個情感佔所有情感的比例,我們先用第一種情緒的次數除以所有情緒的總次數得到p(x)。然後我們將此比例乘以對數,得,並對評估的每種情緒重複此方法,最後,加總所有 並將總數乘以-1。在公式中,值越高代表更多樣化的情緒,當只有一種情緒時,情緒多樣性等於零,如果所有情緒都均勻分布,則情緒多樣性得分最大。
有別於情緒正負向僅需將詞彙分為正負兩種,情緒分類之資料庫需要標記有多個類別,故,本論文將使用『大連理工情緒語彙資料庫』進行情緒分類分析,即分成前述提過的七大類(樂、好、怒、哀、懼、惡、驚)情緒如下表:
編號 | 情感大類 | 情感類 | 範例詞 |
1 | 樂 | 快樂(PA) | 喜悅、歡喜、笑咪咪 |
2 | 安心(PE) | 踏實、寬心、問心無愧 | |
3 | 好 | 尊敬(PD) | 恭敬、敬愛、肅然起敬 |
4 | 讚揚(PH) | 英俊、通情達理、優秀 | |
5 | 相信(PG) | 信任、可靠、毋庸置疑 | |
6 | 喜愛(PB) | 傾慕、寶貝、一見鐘情 | |
7 | 祝願(PK) | 渴望、保佑、福壽綿長 | |
8 | 怒 | 憤怒(NA) | 氣憤、惱火、大發雷霆 |
9 | 哀 | 悲傷(NB) | 憂傷、心如刀割、悲苦 |
10 | 失望(NJ) | 憾事、絕望、心灰意冷 | |
11 | 疚(NH) | 懺悔、問心有愧、內疚 | |
12 | 思(PF) | 思念、相思、牽腸掛肚 | |
13 | 懼 | 慌(NI) | 慌張、心慌、手忙腳亂 |
14 | 恐懼(NC) | 膽怯、害怕、膽顫心驚 | |
15 | 羞(NG) | 害羞、害臊、無地自容 | |
16 | 惡 | 煩悶(NE) | 憋悶、煩躁、自尋煩惱 |
17 | 憎惡(ND) | 反感、可恥、深惡痛絕 | |
18 | 貶責(NN) | 呆板、虛榮、雜亂無章 | |
19 | 妒忌(NK) | 眼紅、吃醋、嫉賢妒能 | |
20 | 懷疑(NL) | 多心、生疑、將信將疑 | |
21 | 驚 | 驚奇(PC) | 奇怪、奇蹟、瞠目結舌 |
由於一則評論可能會含有多個不同分類的情緒用詞,這邊使用重複計數的方法,若一則評論同時有三個不同情緒分類之用詞,則會同時計入三個分類之計數。將所有評論進行分類後計數與以百分比計算四捨五入到小數點後第二位以便觀察數據,結果如下
樂 | 好 | 驚 | 怒 | 哀 | 懼 | 惡 | |
東區 | 34916 | 137882 | 2141 | 608 | 10438 | 4963 | 32493 |
15.63% | 61.71% | 0.96% | 0.27% | 4.67% | 2.22% | 14.54% | |
北區 | 12195 | 45143 | 637 | 232 | 3629 | 2141 | 10501 |
16.37% | 60.61% | 0.86% | 0.31% | 4.87% | 2.87% | 14.10% | |
香山區 | 5851 | 19243 | 259 | 67 | 1450 | 704 | 4163 |
18.44% | 60.63% | 0.82% | 0.21% | 4.57% | 2.22% | 13.12% | |
竹北市 | 13814 | 67732 | 943 | 246 | 4262 | 2364 | 14203 |
13.34% | 65.40% | 0.91% | 0.24% | 4.12% | 2.28% | 13.71% | |
竹東鎮 | 5029 | 24831 | 305 | 86 | 1642 | 754 | 5102 |
13.32% | 65.78% | 0.81% | 0.23% | 4.35% | 2.00% | 13.52% | |
新埔鎮 | 4436 | 17093 | 291 | 69 | 1418 | 509 | 4087 |
15.90% | 61.26% | 1.04% | 0.25% | 5.08% | 1.82% | 14.65% | |
關西鎮 | 17568 | 41752 | 566 | 111 | 3348 | 1062 | 9767 |
23.68% | 56.29% | 0.76% | 0.15% | 4.51% | 1.43% | 13.17% | |
湖口鄉 | 7005 | 28798 | 356 | 108 | 2464 | 904 | 6512 |
15.18% | 62.40% | 0.77% | 0.23% | 5.34% | 1.96% | 14.11% | |
新豐鄉 | 5065 | 17264 | 260 | 87 | 1496 | 612 | 4424 |
17.34% | 59.11% | 0.89% | 0.30% | 5.12% | 2.10% | 15.15% | |
峨眉鄉 | 3055 | 8463 | 122 | 17 | 658 | 230 | 1585 |
21.62% | 59.89% | 0.86% | 0.12% | 4.66% | 1.63% | 11.22% | |
寶山鄉 | 1443 | 4942 | 83 | 17 | 328 | 170 | 946 |
18.20% | 62.33% | 1.05% | 0.21% | 4.14% | 2.14% | 11.93% | |
北埔鄉 | 7959 | 22492 | 291 | 97 | 2131 | 782 | 5305 |
20.38% | 57.59% | 0.75% | 0.25% | 5.46% | 2.00% | 13.58% | |
芎林鄉 | 1996 | 11388 | 115 | 90 | 669 | 294 | 1888 |
12.14% | 69.27% | 0.70% | 0.55% | 4.07% | 1.79% | 11.48% | |
橫山鄉 | 6201 | 14926 | 282 | 90 | 1893 | 460 | 3691 |
22.51% | 54.19% | 1.02% | 0.33% | 6.87% | 1.67% | 13.40% | |
尖石鄉 | 9594 | 25092 | 555 | 149 | 3258 | 1414 | 6143 |
20.76% | 54.31% | 1.20% | 0.32% | 7.05% | 3.06% | 13.30% | |
五峰鄉 | 4313 | 11814 | 336 | 72 | 1289 | 705 | 3099 |
19.94% | 54.62% | 1.55% | 0.33% | 5.96% | 3.26% | 14.33% |
從結果來說,可以看到樂與好的比例相當高,從各星評論數之數量上即可略知一二。據此結果,我們與POI混合度處同樣使用Entropy方式計算情緒的多樣性程度,結果如下:
行政區 | 情緒多樣性(Entropy) |
五峰鄉 | 1.29359858 |
尖石鄉 | 1.29153424 |
橫山鄉 | 1.25501457 |
北埔鄉 | 1.20151411 |
新豐鄉 | 1.19305613 |
北區 | 1.18392314 |
關西鎮 | 1.1791506 |
新埔鎮 | 1.1608154 |
香山區 | 1.1592527 |
東區 | 1.15663696 |
峨眉鄉 | 1.14250443 |
湖口鄉 | 1.14194766 |
寶山鄉 | 1.1334437 |
竹北市 | 1.09360289 |
竹東鎮 | 1.08188382 |
芎林鄉 | 1.02434555 |