Big Data

หนึ่งในเทรนด์ของโลกไอทีในยุคนี้เทรนด์หนึ่งที่เป็นที่กล่าวขวัญกันมาพักหนึ่งแล้ว คือเรื่อง Big Data

โดย Big Data เป็นความหมายแบบหลวมๆ ที่ใช้อธิบายถึงกลุ่มข้อมูล (data set) ที่มีขนาดใหญ่มากและซับซ้อนจนทำให้เป็นเรื่องยากที่จะนำไปใช้งานโดยใช้เครื่องมือบริหารจัดการฐานข้อมูลที่มีอยู่ในทุกวันนี้

ความยากในการใช้งานได้แก่ การจับข้อมูล (capture), การเก็บข้อมูล, การค้นหาข้อมูล, การแบ่งปันข้อมูล, การวิเคราะห์ ข้อมูล และ visualization ซึ่งแนวโน้มที่ทำให้เกิดกลุ่มข้อมูลขนาด ใหญ่นี้เกิดขึ้นจากข้อมูลที่เพิ่มขึ้นที่ได้มาจากการวิเคราะห์ข้อมูลที่เกี่ยวข้องขนาดมโหฬารจำนวนเดียวนั่นเอง เมื่อเทียบกับการวิเคราะห์ข้อมูลขนาดเล็กกว่าหลายๆ กลุ่มข้อมูล ซึ่งรวมกันเป็นจำนวนข้อมูลมหาศาลขนาดเท่าๆ กัน โดยการวิเคราะห์ข้อมูลจำนวนมโหฬารนี้เพื่อค้นหาความสัมพันธ์ (Correlations) ของแนวโน้มของธุรกิจ, การป้องกันโรค และการป้องกันอาชญากรรม

แนวโน้มนี้เกิดขึ้นจากข้อจำกัดหลายๆ อย่างโดยเฉพาะข้อจำกัดเรื่องการจัดการข้อมูลขนาดใหญ่ๆ โดยในปัจจุบัน (ถึงเดือนเมษายน 2012) ยังไม่มีระบบการเก็บข้อมูลใดที่สามารถจัดการ ข้อมูลขนาด zettabyte ได้

1 zettabyte นี่ขนาดเท่าไร นึกออกไหมครับ

จริงๆ แล้ว 1 zettabyte คือ 1,000 ล้านเทราไบต์ ซึ่งเทราไบต์เป็นขนาดที่เราพอจะได้ยินคุ้นหูมากขึ้น โดยเฉพาะในท้องตลาดที่มีขาย External Hard Disk ขนาดที่มีหน่วยเป็นเทราไบต์มากขึ้นเรื่อยๆ

ซึ่งการเพิ่มขึ้นของข้อมูลนี้เป็นไปอย่างรวดเร็วมาก โดยมีการประมาณการขนาดของฮาร์ดดิสก์ของคอมพิวเตอร์ทั่วโลกในปี 2006 คิดเป็น 160 exabytes แต่ปี 2011 ซีเกตซึ่งเป็นผู้ผลิต ฮาร์ดดิสก์ชั้นนำของโลกได้รายงานการขายฮาร์ดดิสก์ตลอดปี 2011 คิดเป็นจำนวนฮาร์ดดิสก์ขนาด 330 exabytes ในขณะที่ปี 2009 เว็บไซต์ทั่วโลกมีข้อมูลรวมกันประมาณ 500 exabytes

ซึ่ง 500 exabytes เท่ากับ ครึ่ง zettabyte เท่านั้น

ดังนั้น 1 zettabyte จึงเท่ากับ 1,000,000,000,000,000,000,000 bytes = 10007 bytes = 1021 bytes

อย่างไรก็ดี ในปี 2008 เรายังพูดถึงข้อมูลในระดับ peta-bytes หรือ zettabytes เท่านั้น แต่ทุกวันนี้ เราไปไกลกว่าเดิมมากมาย

นักวิทยาศาสตร์เป็นคนกลุ่มหลักๆ ที่ต้องเผชิญกับปัญหาข้อจำกัดของขนาดข้อมูลในหลายๆ งาน ไม่ว่าจะเป็นข้อมูลด้านอุตุนิยมวิทยา ด้านรหัสพันธุกรรม การจำลองภาพด้านฟิสิกส์แบบ ซับซ้อน รวมถึงการวิจัยด้านชีววิทยาและสิ่งแวดล้อมอีกมากมาย

ข้อจำกัดนี้ยังปรากฏในการค้นหาข้อมูลในอินเทอร์เน็ต, ข้อมูลด้านการเงินและข้อมูลด้านธุรกิจด้วยเช่นกัน การที่ข้อมูลจำนวนมหาศาลเติบโตขึ้นอย่างรวดเร็วและฉุดไม่อยู่เนื่องจากการเพิ่มขึ้นของการใช้เทคโนโลยีด้าน remote sensing ซึ่งปรากฏในอุปกรณ์ต่างๆ ที่กระจายแพร่หลายไปทั่วโลก อุปกรณ์สื่อสารแบบเคลื่อนที่ ล็อก (log) ของซอฟต์แวร์ต่างๆ กล้องถ่ายภาพ ไมโครโฟน เครื่องอ่าน RFID รวมถึงเครือข่ายข้อมูลแบบไร้สายต่างๆ

เช่นเดียวกับห้างวอลมาร์ทที่เป็นยักษ์ใหญ่ในวงการค้าปลีก ที่ต้องจัดการกับรายการการซื้อขายของลูกค้าหนึ่งล้านรายการต่อชั่วโมง ซึ่งคิดเป็นขนาดฐานข้อมูลมากกว่า 2.5 petabytes หรือคิดเป็น 167 เท่าของจำนวนหนังสือในห้องสมุดรัฐสภาของสหรัฐ อเมริกา ขณะที่เฟซบุ๊กมีรูปภาพให้จัดการมากถึง 40,000 ล้านรูป ส่วนการถอดรหัสพันธุกรรมมนุษย์จะต้องอาศัยการวิเคราะห์คู่โคร โมโซมมากถึง 3,000 ล้านคู่ ซึ่งในช่วงแรกใช้เวลามากถึงสิบปีในการถอดรหัสในปี 2003 ปัจจุบันสามารถทำได้ในเวลาเพียงหนึ่งสัปดาห์เท่านั้น

แม้ความสามารถในการจัดการข้อมูลจำนวนมหาศาลจะเพิ่มขึ้นมาก แต่ก็สร้างปัญหาใหม่ๆ มาอีกมากมาย ไม่ว่าจะเป็น การขาดแคลนเครื่องมือที่จะใช้ในการกักเก็บข้อมูล การ process ข้อมูล และการแบ่งปันข้อมูลเหล่านี้ออกไป โดยเฉพาะการที่มีขนาดใหญ่เกินขนาดพื้นที่ที่จะเก็บข้อมูลไว้ได้

นอกจากนี้การทำให้ข้อมูลมีความปลอดภัยและสามารถรักษาไว้ซึ่งความเป็นส่วนตัวก็ยิ่งยากขึ้นๆ ในขณะที่ข้อมูลเพิ่ม ปริมาณขึ้นและแบ่งปันไปทั่วโลกมากขึ้นๆ เช่นกัน

Big data จึงเป็นข้อมูลที่ยากที่จะจัดการด้วยการใช้ฐาน ข้อมูลแบบ relational ที่ใช้แพร่หลายไปทั่วโลกรวมถึงซอฟต์แวร์แพ็กเกจที่ใช้จัดการกับข้อมูลสถิติและ visualization สำหรับคอมพิวเตอร์ตั้งโต๊ะทั่วไป แต่ Big data ต้องการซอฟต์แวร์ที่รันแบบขนานพร้อมๆ กันบนเครื่องเซิร์ฟเวอร์จำนวนสิบ ร้อย หรือพันเครื่องในเวลาเดียวกัน

ดังนั้นการพิจารณาว่าเป็น Big data หรือไม่จึงเกี่ยวกับศักยภาพขององค์กรว่าจะสามารถจัดการกับข้อมูลระดับใดได้ด้วย บางองค์กรอาจจะสามารถดูแลได้แค่ข้อมูลเพียงหลักร้อยกิ๊กกะไบต์ แต่บางองค์กรอาจจะเริ่มมองเห็นขนาดของข้อมูลเมื่อมีจำนวน มากถึงระดับสิบหรือร้อยเทราไบต์แล้ว ซึ่งเป็น สิ่งที่องค์กรต่างกำลังเผชิญหรือจะต้องเผชิญในอนาคตอันใกล้นี้

ด้วยแนวโน้มที่เปลี่ยนไปนี้ทำให้ตลาด ซอฟต์แวร์ที่จะมาจัดการกับข้อมูลกลุ่ม Big data จึงมีขนาดเพิ่มขึ้นเรื่อยๆ โดยปัจจุบันมีความต้องการผู้เชี่ยวชาญด้านการจัดการข้อมูลขนาดใหญ่มากขึ้นๆ ทำให้ออราเคิล, ไอบีเอ็ม, ไมโครซอฟท์ รวมถึง SAP เองได้ทุ่มเงินกว่า 15,000 ล้านเหรียญสหรัฐสำหรับการไล่ซื้อบริษัทซอฟต์แวร์ที่สามารถช่วยจัด การและวิเคราะห์ข้อมูลจำนวนมหาศาลนี้ได้ โดยปัจจุบันตลาดของ Big data มีมูลค่ามาก ถึงหนึ่งแสนล้านเหรียญสหรัฐ และมีอัตราการเติบโตเฉลี่ย 10 เปอร์เซ็นต์ต่อปี ซึ่งคิดเป็นอัตราการเติบโตเป็นสองเท่าของการเติบโตของตลาดธุรกิจซอฟต์แวร์โดยรวม

เช่นเดียวกับ Chief infor-mation officers หรือ CIOs กลายมาเป็นตำแหน่งด้านการบริหารที่โดดเด่นมากขึ้นๆ เช่นเดียวกับอาชีพ data scientist จะกลายมาเป็นอาชีพ ใหม่ซึ่งจะทำหน้าที่ในการรวมศาสตร์ทางด้านการเขียนโปรแกรม สถิติ และศิลปะการเล่าเรื่อง เพื่อดึงเอาแก่นของข้อมูล ที่ซ่อนอยู่ภายใต้ภูเขาข้อมูลขนาดมหึมา นั่นคือท่ามกลางข้อมูลมหาศาล ใครจะสามารถดึงเอาหัวใจของมันออกมาใช้งานได้มากกว่ากัน

สำหรับสาเหตุสำคัญที่ทำให้ข้อมูลมีขนาดเพิ่มขึ้นอย่างมหาศาลสาเหตุหนึ่งก็คือเรื่องของเทคโนโลยี โดยความสามารถของอุปกรณ์ดิจิตอลที่เพิ่มขึ้นขณะที่ราคาต่อหน่วยลดลงอย่างมาก ประกอบกับของเล่น (Gad-get) ต่างๆ ที่ใช้เทคโนโลยีเป็นพื้นฐาน กลายเป็นสิ่งจำเป็นในชีวิตประจำวันก็ส่งผลโดยตรงต่อความจำเป็น ในการใช้ข้อมูล นอกจากนี้คนจำนวนมหาศาลทั่วโลกได้เข้าถึงการ ใช้เครื่องมือที่ทรงประสิทธิภาพนี้ก็ทำให้การไหลเวียนของข้อมูลยิ่งมีจำนวนมากมายนับไม่หวาดไม่ไหว โดยการพัฒนาทางเศรษฐกิจ ในช่วงที่ผ่านมาทำให้มีความต้องการใช้เทคโนโลยีที่อาศัยการใช้งานข้อมูลอย่างเข้มข้น (data-intensive) ซึ่งปัจจุบันมีคนใช้งานโทรศัพท์มือถือ 4,600 ล้านคนทั่วโลก ซึ่งในกลุ่มนั้นมีคนใช้งานอินเทอร์เน็ตจำนวน 1,000-2,000 ล้านคน ขณะที่ระหว่างปี 1990-2005 นั้น มีคนจำนวนมากถึงหนึ่งพันล้านคนทั่วโลกได้ขยับฐานะ เข้าสู่กลุ่มคนชั้นกลาง ซึ่งหมายถึงว่ามีคนจำนวนมหาศาลเพิ่มขึ้น ที่มีเงินมากขึ้น มีความรู้มากขึ้น ซึ่งนำไปสู่การใช้ข้อมูลจำนวนมหาศาลนั่นเอง

ปริมาณของข้อมูลดิจิตอลมีอัตราการเพิ่มเป็นสิบเท่าในทุกๆ 5 ปี ส่วนกฎของมัวร์ (Moore’s law) ที่วงการคอมพิวเตอร์ ใช้อ้างอิงเสมอคือ ประสิทธิภาพการทำงานของซีพียูและความสามารถในการเก็บข้อมูลของคอมพิวเตอร์จะเพิ่มขึ้นเป็นสองเท่าในขณะที่ราคาจะลดลงครึ่งหนึ่งทุกๆ 18 เดือนก็ยังคงเป็นจริงอยู่ ในทุกวันนี้ เช่นเดียวกับศักยภาพของซอฟต์แวร์ก็ดีขึ้นมากเช่นกัน โดยที่อัลกอริทึมของซอฟต์แวร์ได้มีการพัฒนาไปในระดับที่มีผลต่อการทำให้แอพพลิเคชั่นบนคอมพิวเตอร์มีบทบาทสำคัญในการผลักดันให้กฎของมัวร์ยังคงเป็นจริงมาหลายทศวรรษแล้ว

ในปี 1986 ระดับความจุที่มีประสิทธิภาพในระดับที่ช่วยให้การแลกเปลี่ยนข้อมูลผ่านเครือข่ายระดับโทรคมนาคมเกิดขึ้นได้อย่างมีประสิทธิภาพคือ ที่ระดับ 281 petabytes, เพิ่มขึ้นเป็น 471 petabytes ในปี 1993, 2.2 exabytes ในปี 2000, 65 exabytes ในปี 2007 และได้มีการทำนายไว้แล้วว่า ขนาดของแทรฟฟิกที่เคลื่อนที่อยู่ในอินเทอร์เน็ตจะเพิ่มขึ้นเป็น 667 exabytes ต่อปีภายในปี 2013

ล่าสุดเดือนพฤษภาคม 2012 ที่ผ่านมา มลรัฐแมสซาชูเสตต์ ประเทศสหรัฐอเมริกาได้โครงการ Big Data Initiative เพิ่งเริ่มต้น การจัดการกับข้อมูลมหาศาลรวมถึงการประกาศความร่วมมือทั้งด้านวิชาการและอุตสาหกรรม

อย่างไรก็ตามปรากฏการณ์ Big data ได้สร้างผลกระทบอย่างหนักหน่วงด้วยเช่นกัน อย่างเช่นในช่วงวิกฤตการณ์การเงินที่ผ่านมา ซึ่งเราเข้าใจมาตลอดว่าเหล่าธนาคารและบริษัทจัดอันดับ ทั้งหลายล้วนอาศัยข้อมูลในการดำเนินธุรกิจ แต่ข้อมูลเหล่านั้นก็ไม่ได้ทำให้พวกเขาเห็นความเสี่ยงที่จะเกิดขึ้นต่อธุรกิจของพวกเขาอย่างหนักหนาสาหัสในโลกของความเป็นจริง

ในช่วงศตวรรษที่ 20 ข้อมูลไหลผ่านช่องทางของโทรเลขและโทรศัพท์ซึ่งช่วยทำให้การผลิตแบบอุตสาหกรรมสามารถเติบโต และขยายไปทั่วโลก ทุกวันนี้ข้อมูลจำนวนมหาศาลทำให้บริษัทต่างๆ สามารถเจาะเข้าหาตลาดเล็กตลาดน้อยหรือ niche market ในทุกที่ทั่วโลก ในอดีตผู้จัดการโรงงานดูแลเครื่องจักรและกระบวน การทำงานอย่างละเอียดเพื่อทำให้การผลิตมีประสิทธิผล แต่ต่อไป นี้นักสถิติจะค้นเข้าไปในข้อมูลจำนวนมหาศาลเพื่อสร้างผลลัพธ์ทางธุรกิจที่ยอดเยี่ยม

เรากำลังเข้าสู่ยุคสมัยการใช้ข้อมูลอย่างเข้มข้นแล้วครับ

อ่านเพิ่มเติม
1. Graham M. 2012. Big data and the end of theory?. The Guardian http://www.guardian.co.uk/news/datablog/2012/mar/09/big-data-theory
2. Shah, Horne and Capella. 2012. Good Data Won’t Guarantee Good Decisions. Harvard Business Review http://hbr.org/2012/04/good-data-wont-guarantee-good-decisions/ar/1
3. IBM, “What is big data?,” http://www-01.ibm.com/software/data/bigdata/
4. “Data, data everywhere,” The Economist Feb 25th, 2010, http://www.economist.com/node/15557443?story_id=15557443
5. Big Data, http://en.wikipedia.org/wiki/Big_data
6. MIKE2.0, Big Data Definition http://mike2.openmethodology.org/wiki/Big_Data_Definition