都是根據用戶或系統功能需求, 事先決定這個大數據分析提供哪些的資料分群(標籤)
所有的分析結果只能透過這些標籤進行統計, 以提供客戶結果
因此每個大數據分析都有其先天的限制
不是你想做什麼就能做什麼的
而每個不同的案子提供的功能也不盡相同
如新北耶誕城為何他無法提供年齡輪廓?
因為當初在談這個案子的時候, 可能就沒有年齡這個標籤, 當然就沒辦法提供年齡分析結果
台中的例子, 他提供年齡, 性別, 重遊率 的分析結果
因此在大數據資料庫中, 就必須具備 年齡、性別、重遊等標籤
當系統準備資料輸入大數據資料庫前,
就必須由原始資料去串出這個門號的年齡、與性別, 以及他是否在統計區間內曾經來過
以填充年齡、性別、重遊 這些標籤欄位
這些通常都是在去識別化之前進行的資料處理
最後再將具備識別化的欄位進行去識別化後, 送入大數據資料庫中, 以方便後續統計
去識別化的方法主要分假名化與匿名化, 蝴蝶大上面提到的就是假名化,
這個作法如果沒有其他配套處理的話, 還是有被識別的可能性
所以對於去識別比較高要求的案例, 會採用匿名化的作法
https://hsu.legal/article/58
從後續王先生與民進黨的發言來看,
很明顯他們並不是透過上述的做法來取得識別不同活動的某群人
(我相信三大通信業者也不敢提供這樣的服務)
個人判斷王先生應該是自己腦補一個天馬行空的所謂輪廓比對方式
然後就自以為專業的斬釘截鐵地說出他的結果
等到發現翻車了之後, 才又東拉西扯找新北耶誕城與台中 來模糊焦點
目前此案件唯一尚未釐清的是
這幾個活動是否都有人申請以年齡分群的大數據服務
如果有的話, 那應該就是王先生的資料來源
如果沒有的話, 那後面就精彩了...
過客4112 wrote:這裡我補充一下,新北耶誕城,除了人流的數據是靠電信商提供,其他都是靠問卷來的,利用問卷上各個題目統計出百分比,反推出各個指標的人數,但這會有跟做政治人物民調一樣的問題,就是正負百分之多少的誤差範圍。
而每個不同的案子提供的功能也不盡相同
如新北耶誕城為何他無法提供年齡輪廓?
因為當初在談這個案子的時候, 可能就沒有年齡這個標籤, 當然就沒辦法提供年齡分析結果
「2022 新北歡樂耶誕城」問卷調查分析
君顏甚厚,汝母知否?
                            還有一個可能,三大電信有沒有用華為的基地台。
手機監控「青鳥」疑雲 NCC書面報告:三大電信從未給出人流資訊
外界關注手機訊號是否可分析立法院青鳥行動群眾的年齡資訊,NCC今天表示,經確認3大電信不曾提供參與青鳥行動群眾任何資訊給其他單位,業者也說並無任何私人企業、政府機關或特定黨籍人士接洽或請求青鳥行動相關人流資訊。
民進黨政策會執行長王義川日前指出,透過手機訊號可以分析不同場次活動參與者不同,引發外界關注。立法院交通委員會6月3日將邀數發部、國家通訊傳播委員會(NCC)、法務部、個人資料保護委員會籌備處及中華電信就「國家機器以手機定位、分析個資特性等方式侵犯人民權益」進行專題報告,並備質詢。
報導稱「可透過基地台訊號來分析參與青鳥行動群眾的年齡」 一事,NCC書面報告指出,5月30日請3大電信到會了解,3大電信都說並無任何私人企業、政府機關或特定黨籍人士向公司接洽或請求有關青鳥行動相關人流資訊,也不曾提供任何資訊給其他單位或人士,3大電信也已在5月30日對外發布聲明。
NCC指出,行動通信業者受理民眾申辦門號,都應確實按個人資料保護法規定,在特定目的內蒐集、處理及利用用戶相關個人資料,依規定在用戶申辦時,在行動寬頻服務契約明確告知個資蒐集事項,並徵得用戶同意處理及利用個資,且在公司官網揭露「隱私權保護政策」 ,以確保用戶了解。
NCC作為電信事業目的事業主管機關,依個資法第27條及通傳會指定非公務機關個人資料檔案安全維護辦法規定,指定3大行動通信業者訂定個人資料檔案安全維護計畫,定期辦理內外部稽核。
NCC表示,行動通信業者提供去識別化的資訊給政府機關,無涉足以識別個人身分的個人資料。電信事業所提供的電信信令大數據應用服務,是就特定時間、特定地點基地台連線的信令資訊,以去識別化處理,在確保無法直接或間接識別特定個人資料前提下,進行大數據分析。目前電信業者針對此類電信信令大數據應用服務的提供對象主要為政府機關,以促進地方發展。
大數據分析已成為推動數位經濟發展的關鍵引擎之一,在國際間已被廣泛應用在智慧城市及智慧交通等領域,目前多運用於觀光旅遊及交通疏導等。NCC對於通訊傳播事項的管理,持續督促電信事業恪遵個資法相關規定,在兼顧保護個人資料的前提下,合理運用去識別化的數據資料分析。
根據數發部書面報告,行動通訊核心網路握有各基地台服務的用戶號碼,連結電信業者後端帳務、客戶資料庫,才能對應用戶號碼申裝者的個人資訊,像是年齡等。
數發部指出,「基地台服務的用戶號碼」及「帳務、客戶資料庫」通常會存在電信業者不同系統,甚至不同機房內,且未對外開放。一般民眾、公司可同時取得基地台服務的用戶號碼及電信事業客戶資料庫,以分析特定區域用戶年齡層的可能性極低。
君顏甚厚,汝母知否?
                            絕代蝴蝶 wrote:
根據數發部書面報告,行動通訊核心網路握有各基地台服務的用戶號碼,連結電信業者後端帳務、客戶資料庫,才能對應用戶號碼申裝者的個人資訊,像是年齡等。
數發部指出,「基地台服務的用戶號碼」及「帳務、客戶資料庫」通常會存在電信業者不同系統,甚至不同機房內,且未對外開放。一般民眾、公司可同時取得基地台服務的用戶號碼及電信事業客戶資料庫,以分析特定區域用戶年齡層的可能性極低。
我就說蝴蝶大老是迷失在自己的專業裏,
從很久以前就是這樣,
大數據人潮分析是應用CVP的技術,
就類似GPS多顆衛星來定位,
CVP是利用多個基地台來定位,
基地台夠多根本不用出動行動基地台.


立法院在哪裡?
民進黨中央黨部在哪裡?
基地台夠多吧?
基地台密度應該是超高的吧?
再來立法院與民進黨中央黨部在哪裡?
很近不是嗎?

大數據人潮分析限主辦單位?
CVP資料都可以販賣了,
還限什麼主辦單位?
拿人家商品說明在那邊亂解釋.

你只要能把立法院與民進黨中央黨部涵蓋的範圍劃定,
就可以跟電信業者買這個範圍內0517~0524期間的CVP資料自己分析,
或是請中華電信分析.
而年齡資料都是可以加購的,
最有爭議的是如何判別重複的問題,
這不是很簡單嗎?
大數據分析前不是得先建立去識別化的資料庫?
去識別化的資料庫還是得根據手機訊號像sim卡的識別碼去拜訪個資的資料庫才能知道年齡不是嗎?
就像你說的,
重新建立個ID身分號碼,再對應上性別,年齡,位置,
這樣的資料庫就已經去識別化了,
沒人知道這是誰.
這樓就一堆人說要有個資才知道是否重複,
這不是超簡單的?
中華電信建立資料庫前,
只要比對sim卡的識別碼,
若有重複的,
建立ID身分號碼時就用相同的號碼,
這樣分析時不就可以判斷不同時間,不同地點,是否有重複出現了.
而且資料庫是去識別化的.
舉例啦!
美麗島電子報要做0517與0524兩場活動,
人潮的年齡分布與是否有重疊的調查,
要向中華電信購買CVP資料,
這樣不能買?
請中華電信做大數據人潮分析不可以?
這不是商業行為難道是政治行為?
中華電信若給這種資料你會知道誰是誰?
年齡分布不能分析?
有無重疊不能分析?
 
                up2u wrote:
我在68F有貼實際數據,請不要自行瞎掰資料格式好嗎
連分析用的資料庫與分析結果都搞不清楚?
還好意思在這邊誤導社會大眾?
蝴蝶大至少關於賦予每筆資料新的ID號碼部分沒有亂掰.
看得出在資料分析上是專業的.
你秀出來的是分析結果了不是嗎?
根本不是單筆資料的資料庫,
都已經統計完公母(男女)的數量,
你是老花沒配眼鏡嗎?
你才是瞎掰好嘛!

還有你秀的資料有統計男女,
這沒有去拜訪客戶個人資料哪知道對應的是男是女?
無論是第幾次的去識別化資料,
最初一定有去拜訪個人資料庫才知道男女.
來看這篇好嘛?
正統中華電信的報告,
分析用的資料庫根據sim卡建立分析用的資料庫,
會用一個虛擬ID號碼重新編排過,
別人無法得知對應的手機號碼與姓名.


一名旅客各時段的軌跡單筆資料:
 
                tgdlyg wrote:
你秀出來的是分析結果了不是嗎?
根本不是單筆資料的資料庫,
正統中華電信的報告,
分析用的資料庫根據sim卡建立分析用的資料庫,
會用一個虛擬ID號碼重新編排過,
別人無法得知對應的手機號碼與姓名.
把範例假設當真,還有資料分析師未必是資料庫架構師


這是研究報告的範例,不是實例,圖表下方還加了作者自製,若是中華電信資料會加上「資料來源:中華電信(n.d.)」

所以請不要瞎猜中華電信的資料庫架構是怎樣,有碰過關連式資料庫的是可以猜出個大概,但實際的資料表是長怎樣,只有看到時才能確定
你也可以去比對我貼的實例和100F中華電信給的案例是不是一個樣,整理後的數據就是這樣,中華電信能給的數據就是長這樣,已經去識別化,不會給一筆筆的raw data讓你自己去統計分析
被我碼掉的X和Y是座標值,時間前面是年份,我不想公佈這是在台北市哪個時間哪個地點統計的
但如果王拿到資料是隔壁樓所寫的監控資料數據,很抱歉,這種統計數據我沒拿過,我應該也拿不到

王義川違法監聽數據哪來的,中華電信李誠偉?
 
                                             
                                 
                                             
                                            


























































































 
             
             
             
             
            