Monday, July 30, 2012

Oracle Endeca Information Discovery

אורקל שיחררה לאחרונה white paper (איך אומרים את זה בעברית?) בנושא Oracle Endeca Information Discovery. ניתן למצוא אותו כאן. כדי לתת לכם מוטיבציה לקרוא אותו, רציתי לסקור את הפתרון בקצרה.

חברת Endeca הוקמה כבר ב1999 ועסקה בתחום המסחר האלקטרוני. אתרים מבוססי אנדקה מתאפיינים ביכולות חיפוש נרחבות לשם מיקוד בפריטים הרצויים.
כך למשל אם תכנסו לאתר כמו http://www.homedepot.com, בחרו משהו, למשל בחרתי בכתובת זו ומתקבל המסך הבא:

שחקו עם החיפוש בצד שמאל.

 העבודה נעשית במהירות רבה, גם על כמויות מידע גדולות. זה התאפשר בזכות מנוע תיחקור מבוסס עמודות (Columnar) ייחודי שפותח. מנוע זה עומד בלב המערכת הן לשם בניית אתרי מסחר אלקטרוני (Endeca InFront), והן בשביל פתרון גילוי מידע ותחקור נתונים (Endeca Latitude). עם רכישתה של Endeca על ידי אורקל בדצמבר 2011, הפך Latitude לפתרון אורקלי בשם Oracle Endeca Information Discovery, או בקיצור OEID.


מהו תהליך גילוי המידע ובמה הוא שונה מדוחות ודשבורדים רגילים?


 
אם נציץ בדוגמה שמעלינו,  למשתמש מגוון גדול של פרמטרים לפיהם ניתן לתחום את הנתונים. על כל פרמטר כבר יש מספר סיכומי המתאר אותו, למשל בcountry, רואים שיש 17 מועמדים מארצות הברית, 14 מהודו... ברגע שבחרתי משהו, כל הפרמטרים והנתונים על המסך מצטמצמים, בהתאם לבחירה וניתן להמשיך עוד בתהליך.
כל בחירה מעדכנת את כל התוצאות והפרמטרים האחרים בדשבורד בתהליך אינטרקטיבי ורציף. אם תשימו לב לחלק השמאלי העליון, קיים גם מנוע לקסיקוגרפי חכם, שבדוגמא זאת תיקן שגיאת הקלדה של פרמטר חיפוש  (French במקום Frunch). החיפוש נעשה גם על טקסט חופשי ולא רק על ערכים קבועים. זהו חיפוש חכם המחפש על בכל המופעים של הנתונים ולא ב"עמודות" מסויימות (Faceted Search). לדוגמא, אם כתבתי French, אקבל תוצאות גם בשפות דיבור, גם במזונות (French Fries) ובמקומות שונים במערכת בה כלולה המילה.
הכלי נועד לחיפוש קל ופשוט של מידע, להבדיל מכלי BI קלאסיים, שנועדו לספק דוחות ודשבורדים קבועים או לאפשר בניה קלה של דוחות חדשים. ייחודו גם במהירות התגובה של המערכת.

OEID תומך גם בחיפוש של מידע גאוגרפי ועוד מגוון של שיטות חיפוש ותצוגה מעניינות.




כמו כל דבר בצהל, OEID מורכב משלוש שכבות:

  1. כלי אינטגרצית מידע גמיש לטעינת מידע ממגוון מקורות  (Structured, Semi-Structured & Unstructured). הוא יכול למשוך מידע מבסיסי נתונים, קבצים, מערכות Big Data, טפסים ולוגים (Semi-Structured) ) ואפילו מקורות מילוליים מורכבים כמו Twitter (מקור Unstructured). לכלי גם יכולת להפעיל Content Acquisition System התומכת במגוון רחב של מסמכים, תקשורת באמצעות API ותמכיה במידע דרך SOAP. כמו גם יכולת העשרת מידע טקסטואלי.
  2. מנוע שנקרא בעבר MDEX ונקרא כיום Oracle Endeca Server. המנוע משלב התנהגות של in-memory DB, בלי שיהיה מוגבל בנפח הזכרון בלבד, בזכות מנגנון חכם של שילוב דיסק וזכרון.
  3. ממשק לבניית דוחות ודשבורדים המאפשר חיפוש מתקדם ונח, תצוגת מידע אנאליטי ועיבוד תוכן טקסטואלי שדוגמאות ממנו ראיתם.


 אז איך עובד מנוע הOracle Endeca Server?

זהו בסיס נתונים שנועד לחיפוש מהיר של מידע. הוא מחולק לRecords (המקבילים לקוביה רב ממדית או Fact של מחסן מידע). בסיס הנתונים מבוסס עמודות בו אנו מחזיקים צירופים של מפתח וערך של המפתח. כך למשל עבור record על חולצות, אחד האינדקסים יהיה צבע והערך שלו ירוק, אינדקס אחר יהיה מסמך פרטי חולצה והוא יכול להכיל מסמך. אינדקסים אלו יכולים להיות גם היררכיים (לשם תחקור נתונים) . כזכור, התוכן יכול להגיע ממקורות שונים: 
Structured, Semi-Structured & Unstructured. 
מנגנונים רבים משמשים כדי להבטיח ביצועים מעולים: אינדוקס לפי ערכים, אחזקת מרבית הנתונים בזכרון, ריצות מקביליות לניצול ריבוי מעבדים ומגוון רחב של מנגנוני קיווץ מידע.
המנוע הוא גמיש מאד, כל תוספת ושינוי במודל משתקף מידית ומוכן לעבודת מפתח / משתמש, ללא תלות במקור המידע. בזכות מנגנונים אלו, זמני הפיתוח בOEID, קצרים משמעותית מכלי BI קלאסיים. זהו כלי AGILE אמיתי.


למעשה OEID מתאים לדרישות הנוקשות ביותר ומכסה את מרבית הbuzzwords הפופולריים בתעשיה, בין תכונותיו:
  • Real Time
  • Agile BI
  • Stateless
  • Scalable ותומך היטב בהרחבות ושרתי גיבוי (בין היתר בזכות היותו stateless) תוך דגש כל ביצועים.
  • תומך במקביליות.
  • תומך בדרישות אבטחה מחמירות. 
לאפשר מידע אנאליטי משמעותי יותר בפתרון, במנוע קיימת גם שפת שאילתות - Endeca Query Language, המאפשרת חישובים ותצוגות מידע מורכבות וסיכומיות יותר ומדדים. היא גם מקלה בסוגי חיפוש מסויימים (כמו TOPX למשל).


המוצר הוא פתרון מוביל בתחום הData Discovert כיום ובזכות המבנה הייחודי שלו מאפשר פרויקטים מהירים וקצרים, אך גם גמישים ובעלי החזר גבוהה. הוא לא נועד להחליף את כלי הBI אלה להשלים אותם, בהתאם לצורך.
  

3 comments:

  1. האם יש תמיכה מלאה בעברית למוצר?

    ReplyDelete
  2. האם יש תמיכה בעברית? תלוי :(
    הנתונים יכולים בהחלט להיות בעברית. הממשק יקח עוד זמן מה, אבל למיטב ידיעתי זה בתוכנית העבודה. המנוע הלקסיקוגרפי שמאפשר לעשות עיבוד שפה חכם על מקורות מידע לא מובנים... לא יודע. כנראה יותר זמן.

    ReplyDelete
  3. בגרסה 3 של המוצר שיצאה במרץ 2013 יש תמיכה בתוכן מ-20 שפות. אחת מהן היא עברית (אבל לא ערבית, משום מה).

    ReplyDelete